From 54a41046ce4b7b1a14f14150f003ac38b73d4502 Mon Sep 17 00:00:00 2001
From: Amir Sabani <amirsabani303@gmail.com>
Date: Mon, 8 Jan 2024 00:28:20 +0100
Subject: [PATCH] Fixed response/JSON

---
 .../scrapingsingle.cpython-310.pyc            | Bin 4361 -> 4498 bytes
 pyth/__pycache__/vectData.cpython-310.pyc     | Bin 6449 -> 6449 bytes
 pyth/articles.py                              |   5 ++-
 pyth/scrapingsingle.py                        |  41 +++++++++---------
 4 files changed, 23 insertions(+), 23 deletions(-)
diff --git a/pyth/__pycache__/scrapingsingle.cpython-310.pyc b/pyth/__pycache__/scrapingsingle.cpython-310.pyc
index 2598ed55e69e99b6c90bdb13b4eeebcdb0e7a35c..b39ce5c530a438802d33a09755610775c64abdd0 100644
GIT binary patch
delta 2015
zcmZ8iO;8h89N)LuY&Kt;009!@BM>18C_=yhiXe&~lv<tE)^VLqCh-1*4Z8`xjUV-b
zQ@D80(Y{kh?VvY1ogQpYJ@(w`^kX`m+3Cq!4?TJ5$@c#?RGqT(e*f=}ef$51I|H9(
z^m;TJlJHL}JOsP#f!<Aic`$Nti%3+WvK24_Nd1;(2aTYoQ>~C4Ho|tqh}cmhYU_r+
z=NmI(=o_%&c8k%nr)xD@QKwmLcEU&y30k%#MBT%{ZaWP=Aw~zN+mg`<LBwQ5qM@h6
z*h<kbjhMvfqKByt`)CZh*AyD3EjxarhqltT9m(jW3EGadk9N>bq-mO@DWv@{fT=Pb
z?x$UJAL<4@X$Vq_(#N`yg+a)|(6(&kAjj@QW;YMHCxl2>Kc(HYXGhwC%%ZeSjA0mn
z=(gZSU>HV{l5qeIc-mpl+7C^7koIoK_Xz_S#sc3Oqag1df>G#tA{%2sV5~Y$`><RA
z3cC~dj_Ica-+Yqx?;fTDG_xbYq^O6wqVS+w`zu12@*D;|hp9b>X_z*qp@@!YC}I;u
z=!I#d(<tu~oX7Wgx*3?ELmLYF2l|@6x0a!^dZc=^I!mK8OLH{;NT$Pd1d0zOdH|*o
z4?gzO{MIA6BGb{kvT+QKRp+RblB)C7<HiCcU;zs(Ky3E}EMSW#;Uqnjl8i;9V@Ss#
zxqHg9oQ4Q2!Z_Z-X*x~|cm4N?vqUG1GZ6ky4`;UhM7ktheXdAw_CEQ963JL1(yc>L
zc!y5H(nIO7yp7-Gl5`oz(O9~&boF_Y-XJ$n^MQBrMgBt0^buD*zX`R4r95%tP41Mv
z0+gDyij!CPsIQOPzEm%o!&bdaOSImA+I1l^*esi@RCVgLZ@%<xl9Y}s;ri`51<Tc-
zwptfSo=L2OPx!CIl4x}lgb>jQOY+D5Zt{|U=f9APqSE{#AW6^sERH;D5zr=}6~R?0
zU@myZ3u=b6^N-YAxI-8{=;U|Q?w)RxUkYc1C?teWgs6BzD6xzvb%CYOn)kiOM72LD
z0_zeWBAc0-=}>gr9m`yWQp0RmP%_s_H2?}UD?IlL7((Flk#_E?Ka&prRiMB9O>l6w
z0yVg~$>t{ci@^KMR!2lwC!g1nEd^v96+t0M(cTze*J>oof7g}^Z@m^exWP5^X2~*Z
z8_tvn68EbT4WEd3WDK6+7lS{MIX)PAmrQaNI+2?dfqpNDi6}QD_|o;Vbq(HrPyR>f
zI623A!o`)>Rr4~-ix9<Zfc>_!PzGlmXsp)l%{c=_M@C3U?7T2(rIKAXYo!u9ield9
z%IgI@<9H@m4pn$rDgI-4dcsTZ_b&GT`9rgo=`;(N81hmSNJ`A$Gm-R>izu)U1zbYd
z>yz~e#p~`_rw~PRmSC<Rm{x$_i+oPL=DFxf(k^d6+PTIc-B>R-(q_X+<F%NS--~t?
z)=aQyx?H2_>}tJ+Gv3IiJ>4i)OJFWnv%zu76>!*Pk-x-$i%zwQY059Vz7=PZiH_Mk
z@6|I~u3UHAgjKFpR@d=nM&b2NF~67VI;=Jp%Z)M<lfZEHC8h}o3acV^3di1CH75Sm
zczfZ7g}&6>I~Eq6Y6ZkPvWO?FS|;}GhJb&sx8@gw&gV3k>oaQ&CiahI1c>ovV*+Lb
z6!_nIzj{uvr+Hs&IV;A79T#v$fOpGh1$Pp`RlTq0uu=XXHlX+#jSc=hc7&ApU$J3w
znJ42jTW>yz$BFOaYP0ymaLs}_f|BzHAtE&gSzyu|YQd?pN<y+gP1Z<4))Xy_k6#T5
zjT+ZvvD6_V-`3GjLtZQda<W(oT~3e){~;bNVl-N1wBeCEi2O=@r3Ww?wdjwT6%r@P
R?YOLCoOWA&rTnVM{{r;#);0hD

delta 1974
zcmY*a&2JM&6rWkIH|wvplQ<#H7fBqFn2=BMflEjUBv2EiQc9s6K$hcqF>7{hGiwNN
zXd(qw>H!3-Pz97KL29K|s)X8mrJj4?(#!q_m3r$P_02j^nrMGB@AuyC&70l#<j3i+
z2aIYg7AE-jUGy1z-~7nvroTKI9ow{<SQ90jaK+M@j%&~g*<lv;In9dLQ5LmhEM^<b
zu;VOlCs@L6X3cgBYuVGavR2eJSxLK%we4~3tR3362_?|%qrS6`>${Y7fVNFo3c`q;
zCBipDFDdKdVIDCl>*iBD20h$>-gTA7dE#D>?dQ$B<sM;uyp<<$?dNU09oGR!V~Rl^
z5Ac1w1GypJ8iuZAa@AlXFa#qoysfYdWW)m)+&KuDT}sJ~EuP|?_XrFwlg(|)Mj;J}
zZGyW)Fban{2pfYjpB?qR1JGE<dDnI2Ar+s&C?4<wn*e2J5+<N~S7B2?VX8dMyYaZg
zaCm11@7D8@;*Do{@6H_G&-?Je*=0Nhxp^7E`%83pld>azz<?icWG^5KS(b%)4D5$_
zEMgw|Ad71j?H;+4`@1<vl|LvSEidpWPxC>3;9G?c@nM*MPWT995i>7>k}WCx;C+Q1
zgJb1IPEw@&Vfi>)f+e=J39UOPU<qqF2`Bkzim+u|58*luojWVO=M=<X8K&{3r}!8j
zzaM-^oh+YVry=^5htu0ZN-mKbuT%mbJ*0OoP{MMQ+>OB*J_)(!<b|@0ul^GG0y~Z6
zF6VB%^4EB7gKi-8ssCiAT_uoSQ#|eC8dR2Yp1yQ0w<1JUWT=;Da4Ys2aBfygPNvC=
zm=y;^J<kjEf)_WPykpv?RS*p#QiA$h#%uPC8WhcSv*=z8>>u=6?J76d@4OB1MR-ue
zsup;jSL;x@_3N`hji#D$ZoD8ygXQT^DWa@W`jLo~n+{%%ccRx(5yI4<qRYJ>?52+U
zQ}EnK0!j0A6Cs(PXvMuqN@$nRhTv%&Fc)Op0WD2C+*8^}Bqg0bbh>x6?w($>ofZU@
zsx+*GX;jhh2~$-OX}7ECFPd_LdVgC(B9n#|N>G8@HL*D99@Wp!_?{7&Ru<~D3aD9y
zBIGyB`n9}M!>u!p4o5>!X$Kx7#@yfa3LSJOL#xy86(r@Mb@O)KGAq}e87VRlG^#5)
zjmm!otD19v4!x#F-7mvu>6H6N_{2z73WL5#NR=0s`~0nfbrTwQZB*~hMve#05aRyU
z)b2ir^yc54ol(S)6sl$&?Dr*-3@tcNFIMf^;uSO<1tCeqS?SXAdAnd%@_BIt%}l^k
zu1(`Jh0kGez>P#NWc|Fsx>>jWSBq4K7cA3hWVX=$M`rFI;*#{ynrlQ;bK(;;#CZu9
z5ccX6J(74=z5n8USyl3%6Zh}vQ~JdHDz>H;oW8<iqjRiK;eEr!Y6Y9FKHRr%g2kP2
zOt%jeo^FHV6iVQTi!#9#_pCABBAY9->IK%E86hhZ3+@vmy(xlHp;R3&X%#A^;x)Yg
zIJ_GgAwRRH--2R&8HYw-a}uFT2uYAX5h5ZXDj|m8sb!~H!Cv(TLdY-fH?ybVMB#{t
zxD3*YmWic%?rc1{x+s}|Qx{&qtkgx9l%yq$Ntlx`f#5~z)q25dw3BBPtCodj0nb-p
z!x7jBM4WV=##e`B(}-gdmL>RacSY`wBY2ws@f<PgMiK+=bRtWyxK`pIz36_E$Zr1k
z6&g(@75W0s@=XgCDO%2BgeZ|6oS+g1eblKI&~V~3oHyCuNmW<%gsy2(v;$hRE@zO2
zsj_7#Vf3r0LQc^YISGc6#A!%UHLIY*Clw4*aNkaqH`*JcN%ezuJR*rP394=-6a%ID
LmhwjZQ&s*2<~h|u

diff --git a/pyth/__pycache__/vectData.cpython-310.pyc b/pyth/__pycache__/vectData.cpython-310.pyc
index 9cb85afae0f2b46246f3778a2635f28163d634c4..e806a8a9cbd50fe04e1492d4897bbd05bc644fdc 100644
GIT binary patch
delta 19
ZcmdmJw9$wwpO=@50SMmkZRApy1OPD&1X%z8

delta 19
ZcmdmJw9$wwpO=@50SKOQZ{$*!1OPD91Wy0}

diff --git a/pyth/articles.py b/pyth/articles.py
index 56d5c5a..b5ae49f 100644
--- a/pyth/articles.py
+++ b/pyth/articles.py
@@ -7,6 +7,7 @@ from langchain.embeddings import OpenAIEmbeddings
 from vectData import get_specific_data, modify_similar_data, insert_data, preparing_articles, calculate_cosine_similarity,get_titles_links_embeddings
 from scrapingsingle import num_tokens_from_string, slice_text_at_2k_tokens
 import json
+from json_repair import repair_json
 
 load_dotenv()
 
@@ -16,7 +17,6 @@ embeddings = OpenAIEmbeddings()
 
 print(f"Checking for similar!")
 
-
 def find_and_group_similar_articles(eps=0.5, min_samples=2, threshold=0.95):
     try:
         titles, links, embeddings = get_titles_links_embeddings()
@@ -142,7 +142,6 @@ def processing_similar():
                         else:
                             user_message = rf"Here are 3 texts {text1} {text2} and {text3}, combine the following texts into a cohesive news remove any non-news related to both texts and provide the cleaned data as a JSON only with single 'content' field."
                     if l == 4:
-                        print("4")
                         a_one = articles[0][0]
                         a_two = articles[1][0]
                         a_three = articles[2][0]
@@ -220,6 +219,8 @@ def processing_similar():
                             ])
                         generated_text = completion.choices[0].message.content
 
+                        generated_text = repair_json(generated_text)
+
                         response_data = json.loads(generated_text)
                         title = a_one
                         text = response_data["content"]
diff --git a/pyth/scrapingsingle.py b/pyth/scrapingsingle.py
index e939adb..672ba87 100644
--- a/pyth/scrapingsingle.py
+++ b/pyth/scrapingsingle.py
@@ -8,7 +8,7 @@ from vectData import (insert_data ,is_similar_data ,get_all_links,cleansing )
 import json
 from dotenv import load_dotenv
 import tiktoken
-
+from json_repair import repair_json
 
 load_dotenv()
 cleansing()
@@ -21,50 +21,50 @@ embeddings = OpenAIEmbeddings()
 dlinks = ['https://klix.ba', 'https://srpskainfo.com', 'https://bljesak.info']
 headers = {'User-Agent': 'Mozilla/5.0 (Linux; Android 5.1.1; SM-G928X Build/LMY47X) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.83 Mobile Safari/537.36'}
 
-
-
 def num_tokens_from_string(string: str, model="gpt-3.5-turbo") -> int:
     encoding = tiktoken.encoding_for_model(model)
     return len(encoding.encode(string))
 
 def slice_text_at_2k_tokens(text):
     encoding_name = "gpt-3.5-turbo"
-    max_tokens = 2000
-
+    max_tokens = 1950
     encoding = tiktoken.encoding_for_model(encoding_name)
     tokens = encoding.encode(text)
-
     if len(tokens) <= max_tokens:
         return [text] 
-
     sliced_tokens = tokens[:max_tokens]
     sliced_text = encoding.decode(sliced_tokens)
-
     return sliced_text
 
+def slice_title_if_needed(text):
+    encoding_name = "gpt-3.5-turbo"
+    max_tokens = 100
+    encoding = tiktoken.encoding_for_model(encoding_name)
+    tokens = encoding.encode(text)
+    if len(tokens) <= max_tokens:
+        return [text] 
+    sliced_tokens = tokens[:max_tokens]
+    sliced_text = encoding.decode(sliced_tokens)
+    return sliced_text
 
 def replace_with_spaces(text):
     allowed_chars = "ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyzČčĆćDždžĐđŠšŽž0123456789 "
     cleaned_text = ''.join(char if char in allowed_chars else ' ' for char in text)
     return cleaned_text
 
-
 def fix_links(links_set):
     modified_links = set()
-
     for link in links_set:
         if "www" in link:
             modified_link = link.replace("www.", "")
             modified_links.add(modified_link)
         else:
             modified_links.add(link)
-
     return modified_links
 
 total_links = set()
 collected_news = set()
 
-
 def get_article_links(url, already_checked):
     response = requests.get(url,headers)
     if response.status_code == 200:
@@ -81,25 +81,22 @@ def get_article_links(url, already_checked):
                     already_checked.add(link_value)
         return link_store
 
-
 already_checked = set()
 
 for dlink in dlinks:
     temp_links = get_article_links(dlink, already_checked)
     if temp_links:
         total_links.update(temp_links)
-
 final_links = {item for item in total_links if item}
 
 db_links = set(get_all_links())
 new_links = final_links - db_links
 final_links = new_links
 final_links = set(final_links)
-
 final_links = fix_links(final_links)
 
 if __name__ == '__main__':
-
+ 
  for link in final_links:
     response = requests.get(link,headers)
     soup = BeautifulSoup(response.text, 'html.parser')
@@ -117,24 +114,26 @@ if __name__ == '__main__':
 
     text_text = slice_text_at_2k_tokens(text_text)
     text_text = replace_with_spaces(str(text_text))
-    
+
+    ttk = num_tokens_from_string(text_text)
+
+    if ttk > 1900:
+        title_text = slice_title_if_needed(title_text)
     try:
         completion = client.chat.completions.create(
             model="gpt-3.5-turbo",
             messages=[
                 {"role": "system", "content": "Data analytic, Journalist and News reporter"},
-                {"role": "user", "content": rf"Extract relevant information from the following input: Title: {title_text}, Text: {text_text}. Remove any non-news element related to the current text and title, and provide the cleaned data as a JSON object with 'title' and 'content' fields."}
+                {"role": "user", "content": rf"Extract relevant information from the following input: Title: {title_text}, Text: {text_text}. Remove any non-news element related to the current text and title, and provide the cleaned data make sure that its valid JSON object with 'title' field and 'content' field."}
             ]
         )
         generated_text = completion.choices[0].message.content
 
-        generated_text = generated_text
+        generated_text = repair_json(generated_text)
 
         response_data = json.loads(generated_text)
-        
         title = response_data["title"]
         text = response_data["content"]
-
         vector = embeddings.embed_query(generated_text)
         
         if not is_similar_data(title, text, link, vector, threshold=0.98):