From ae1c1902dae5dea7eddbbce8f61457cf68d29472 Mon Sep 17 00:00:00 2001
From: Amir Sabani <amirsabani303@gmail.com>
Date: Tue, 2 Jan 2024 15:00:07 +0100
Subject: [PATCH 1/5] Combine similar article

---
 pyth/.env                                     |   7 +
 pyth/.gitlab-ci.yml                           |  21 ++
 .../scrapingsingle.cpython-310.pyc            | Bin 0 -> 3031 bytes
 pyth/__pycache__/vectData.cpython-310.pyc     | Bin 0 -> 5433 bytes
 pyth/requirements.txt                         | 141 +++++++++++++
 pyth/scrapingsingle.py                        | 186 +++++++++++++++--
 pyth/templates/index.html                     |  23 +++
 pyth/templates/one.html                       |  12 ++
 pyth/templates/two.html                       |  12 ++
 .../test_scrapingsingle.cpython-310.pyc       | Bin 0 -> 2416 bytes
 .../__pycache__/test_vectData.cpython-310.pyc | Bin 0 -> 2808 bytes
 pyth/tests/test_scrapingsingle.py             |  60 ++++++
 pyth/tests/test_vectData.py                   |  89 ++++++++
 pyth/vectData.py                              | 190 +++++++++++++++---
 pyth/web-server.py                            |  24 +++
 15 files changed, 726 insertions(+), 39 deletions(-)
 create mode 100644 pyth/.env
 create mode 100644 pyth/.gitlab-ci.yml
 create mode 100644 pyth/__pycache__/scrapingsingle.cpython-310.pyc
 create mode 100644 pyth/__pycache__/vectData.cpython-310.pyc
 create mode 100644 pyth/requirements.txt
 create mode 100644 pyth/templates/index.html
 create mode 100644 pyth/templates/one.html
 create mode 100644 pyth/templates/two.html
 create mode 100644 pyth/tests/__pycache__/test_scrapingsingle.cpython-310.pyc
 create mode 100644 pyth/tests/__pycache__/test_vectData.cpython-310.pyc
 create mode 100644 pyth/tests/test_scrapingsingle.py
 create mode 100644 pyth/tests/test_vectData.py
 create mode 100644 pyth/web-server.py

diff --git a/pyth/.env b/pyth/.env
new file mode 100644
index 0000000..c213e8f
--- /dev/null
+++ b/pyth/.env
@@ -0,0 +1,7 @@
+OPENAI_API_KEY = "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" 
+
+DB_HOST =localhost
+DB_PORT =5432
+DB_USER =postgres
+DB_PASSWORD =salmonela pljusti 221 hamo
+DB_NAME =svevijestiweb
\ No newline at end of file
diff --git a/pyth/.gitlab-ci.yml b/pyth/.gitlab-ci.yml
new file mode 100644
index 0000000..8cd8989
--- /dev/null
+++ b/pyth/.gitlab-ci.yml
@@ -0,0 +1,21 @@
+stages:
+  - test
+
+variables:
+
+before_script:
+  - pip install -r requirements.txt 
+
+test_file1:
+  stage: test
+  script:
+    - python -m pytest tests/test_scrapingsingle.py
+  only:
+    - master
+
+test_file2:
+  stage: test
+  script:
+    - python -m pytest tests/test_vectData.py
+  only:
+    - master
diff --git a/pyth/__pycache__/scrapingsingle.cpython-310.pyc b/pyth/__pycache__/scrapingsingle.cpython-310.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..38af9dbd593bcd53feec35a1f82ca687699f9f61
GIT binary patch
literal 3031
zcmai0TW=f372aJgmn%x7BuBo;*O6^mqAiiOWLb`^xKV7ub$mtT#_<*|vEm$&OU+(1
zGn6fY0u0D6L1Dlt(5Ey2oj3oJKD0le^V+8XeQTeB!swYLWg97qEHSq;XU?2C^PO)P
z7Yca;zi&!^fUkxO;~#qP@i&Nr&#{QRmSIqXn#>4I&op)4VwPuNn_-#I_Uu$<vux;i
zPJce<<#0aB+;G4fNM#PohlAc=+Rw3}u;3NKqF3ze4|~I?@3N6_)EhMo7~M0l&UFva
zfj6f22{?O(HwFV(AFLZR|AXlrqJwlOFulWY1f}C?eUuhx@ulG%OGn4y&`slM(K`Xh
z-~=4sv%HgVl5fIz_Y|CbgD2T~N{8vlO9RGl8hfTkV1kZrTCYuh8VIg@>zxLxdj?L!
z;Ww6d7ECzXoTLZP&N(>OokBl8`N2f*rs-I>L=VzKXlYtoLfLt(K@Zn;|3W%{B%Qy|
zpPy;}9>$up&2qCs$LUdej2{29MNiO^aQ-`ko`M;y$@f_;ty^^BmE~Q8i_J^a7&n@8
z&3W%K40jjcGFra^SLo?+!&}7m47QVSm7d+h(_uRai{BaFTm8|wemez|A4z+<2fLr9
z)|Q|Mi!h02UZT^q^eX$>6b=;jWqWwnkBzOiZNRnH=FWs^c*~~IF5q70VR_%`W8(>8
z#9RK|@>aXoJ~N-8WGyYF3qNX{l}uIm0{oT?Hd<^gZYB3ol526+jDrZf&VvM^mD|`G
z>Gf8_b)Yne>H=l%!&_fLO~$-rslgx;z-5*C(pSTQsEQyAn9oxI>JGBlr&StDh_+Sn
z!Nb-2E4QmF4{ulRtUf7a+QSVg6R}jOY_i~adEIXx+7}3(h)q9;HsW$E4%=h<@^#h(
z;cu4pOgsNu+<bPW4v}nsb1!ZOjQN#?@<lRzH;7u#uaT9A@;IPmp?s-)=^9zPH+$>T
zxvO83FIoYkmAm(zTweUTL{^f7!DCpz6UfTK{9<|j3Yot1>qqzQ&JY%C0=WgX&A3Ev
zG<Y0B<?>?rVtH<1?n?RUJh>OI2MoxXzv1(szqp1;`~K63?qIorMZCmH8eOwvNb8NY
zYjvz<hMJoe|6JPG&r)m8+Rbz_U594gn7ek}*v)oqOoubOPRD6F)TUYLys~z4og7LJ
z@47PAF*+{IjT^Xfpfk`hw@tp>$#&fiCa-C9%q~jPgqz$t+Q}jej5VX=-v9A0=*v%o
z4H>d>;&Y6n%K2OdH3rJ`AK}&64GtT87}ZL7<#O0+fsjIF>L69F0X_vT)S!^QY>8?u
z#-Tp9vL!s1%H0SeTJ;&@87*}D1QA75#-|jmWe{p=*k>HA>{M$Fj4x2Vhe%??ld=V3
zQn`J9gvzrZ+N=tM9Pom+m(>EHY~A!{w|&-vw+5fU`Jb*=8v3ey;jjBqP`L?WQ^rX}
zY{Pbd_>sYE=nDzFlI+MvMbx;TXmDd;P)>H#C?2xf-@cmebrj7Cg4K|jH+8X1*D9K>
zsY@Pz)(h)DcGmtkKZ8m&6RZ7Chebyrg}@kg8b-%>>g<{wlUp70kJc7uXX<xaVOCk?
zi^>ipgde2*G%i#F%K{|kLvsBR4u!TnX7F=*%B@yI%$I7F<BMXHGRkVqVY!55UYX>7
zJj$Y$_UK<nu&Qg1T<uXaeQ#cw-=<!@wKNj4Lh>Mai<z&(qVKn4@w2#0Wn~~4{M^g@
zG7Ch{%_Y5qcJqkA=ky9Q`M;j<8C2l2x~gE+--GLj{cMNS)Mr{gk5#)+Pvq=;d0|$z
z_<F1yv4eLTwlCa7QX+ojvmM0s4EZu{aU7s)D5T^*JQIXN5_1Fs2HoZ{Vn0`lBP1)S
z>=x!k`}*p0$^Du{MF!h`B#9;-9{MtfBeH>nKx6~RM$B0J4B>;*NlPw~M>;M`r0vd-
zM;I^c{i#fT17W-kxcLr=;%GL~4xrf(x6}5036#h<HCStLuEjdoskdpMXVPxM<L!V#
zPmh5g;WEv?#23UTU#>m4PvZ3^GBkM>$Of58mrkWir~0RxA{zlPD$027Y>2tblpBH&
zejNnY(Bg|auoLHh>1*fqPdYLCOJ6&GqZeDUMCyP0tN#A^D}>j8M5Ymqn9=sZRnB9M
zK_nXF40M#2Na-_`Sr?a6e&HkNm>NO?VZnNzxpZ<VCq{<x18(bq6$>@S{HR`QU`~|b
z{qw~&?A56cQ`_lFmQsr-C-vTtYsOZt9%u~l91gjwWp-1<k#c$u8XwRi2a^I{H?Emp
zIW-n&^yEKmiP|ZH@B>;Qg9)q#Wh{NxBNkPxA$V{npjC~Clt1{m*3G61RUW~d^p%}f
zf>#Y{5c&1J1x)?O4*^sE6fWbVy3%~rOPyo7cMvP(q)0&8)XzMc)fi3F8S@x%Ch#V(
z=}Byi96I{p8U&sV`5O1me-L82G~%EJLgo7KNr9t^_#^|@fbQGZe*=Un>@$4&_aFtD
z$|gL(fDNVrtKuWWca+n+1~styyatH|figd48O`xMLUflAy)6dUHQ|ajRzrr1{5*uL
ztm~1qb*#MQSPn9_YdRU-IwP*7Ib8F05ocXXYZt9Ca|nxtdKPLOGOc&cyJAkyyC3s?
VW(>LCeldbI?)1WXXaC){{tKS$N(uk~

literal 0
HcmV?d00001

diff --git a/pyth/__pycache__/vectData.cpython-310.pyc b/pyth/__pycache__/vectData.cpython-310.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..4104298addadbf5270d81b2b0903869d4f76c93f
GIT binary patch
literal 5433
zcmbVQTW{OQ6()zIL|uJ}H?ebNHa81Z>?Vu0+a#N<6Um6Xv1~|6c30S~Kx@V}6G~Ku
zv=bZjlk*xB*w;k>`!Nsw2L%fB7xbBLMIYLrK>N`4rA2|BGnA-{<%LrUbK%VJ_MPuL
z=Zu_8CMm)3yT5$L{(44|{)8v}M;uOm0mYq^C5cK@wxt@j#Fm<JO_s5**rch{6wz00
zwW-xK(U<L5EiSInYdW-=ooFU&Nii3*Q_WN@)lApYvc!`664d%ZhQ<%&T2}OQ=#7b9
z0(#@3mxSJg=%t`H$)sneSeA{kaW=swY5I*;o1z(-eJ#~KqSxs-op>$RPSZ(x3P#S*
zDf$t#)ATew1MLi*rZdo<rDy3mXwT8}^a8Z!=|y@8+6&a6m!Z8#Kc-ipy+p6lYtS0Z
zU{m|}<#I*J-FS~^m2z^RxG!vI#yH!sT#xbkHfwkehoOmv<613Ncde#no80ntU@&Dn
zCaqJ)W3BBR33O_D%(I#-NMKEw?U_Nm@Sy%^rBW50)s=GCc~U8sgA`1yE>tRCu9OR6
zy0oxde5VEKrsH~n+IBe9TQ1{)-ZowLrNe0uqiZd*$r=P-xpQdHs!$$6aqmFoOP=&h
zJ|MnyD4&z|h%a}}WpS=}icdCVU)hlN36*C6g&Ap2^;N)vlsJ$?%BcZqwS$;#wM=^>
zP+Jafa(qTk3&{2@D7S;m_N_XOo3^#fD4gEzKTY<KdMEL7aOuB4o!@ktY~FOuHM3>S
z7nu9pbK3LnHruwIG1s$hHcdo*zP;mZ&Li{%(=+GVJHfezX*afPfVY0c4tQ%<hiY6N
zmroN_<`>}P&)@v|_y3yx=I@_35S{Lkg$}AgAoVxsATA#96i@XuFGl4z+MecX2k}E`
zFXqP%bV?3^CD2R2NZgMXq;FUEbYG_mAeQiw2Px>QGl26!8dfCXOoN$}m+_OnvQPHX
ze%e=`tK9O5pL(wFU-^l>jF<H#UxpFI&+LQFyfGT{rSByg_Y>bsZ&hR_jOk)5@m3K`
zP3~pjJ;o0~Wx(511y`hTW^nYyO!vySq<@xXz`EHI&%jsj-mVlM7avv)&+=@RXU#Q6
zsny!ZgSnp@i{+JNBP4#$G<O9p-Xk~OBlmXCR6->fKzh?yceYyej*&F3?5d(pFSUTU
z9^CW}j1eOlkkU$Z_k0D&Yq-u9Z!p7IH(We5VO_&!mltyrz;t(~;j}ky2l0l}Y5@m0
z8jX)(HICH;R+CT#vBnm69UjElE7sWZSfH;nud!*`Ha~^)n#sAj6U5hnI3Q8Miy&o*
z7pvoI2U?q3Eicd-w&Su~HqZnhf$FhWAU#AQNJQv>sy8`vHyxV>D!v@QicdMkUV*QG
z53NTl-C+9YVBOnl+bqaNGvTu)qx0zUAQO$@EAX@Um_$cUbt=RZR_AeM%yPSKNqp7E
zFzDWgN|j0Ui~UEBCy6fWP$p$vPD0UT6(lnSMTLG$%*AB#&ukWF_@{7-29)SP{dd*#
z4}8D~^?>gY>X9iyzjL7bp@L+gAO%K}$Y5UqHYy!9J{@3V^qr%LXngsoSS}j9RX{6a
zsbtLFD6QPc8#k6$3QLPi#lnr;yA($#_!X><BayHnzlKY$WA!7baw@-tePLeh#TMf`
zK{|RM@MhQosSW0JO|S@8x@fUs^wkJ+{uxXU_$72-2`IuZtwLu6vYHn^(1l;py58s@
zNx{c=Jc;VZ)?<eRu+<Jy0^>OPB#hL3Snnr|&aqU27=+MOSB|LNm<>IHfkMa|$ilo4
z@iX5;KMyXX$#T(6pDsLpQmh!W*WA1@Sd9ENH+NSo%w<kum>9qiC@tq@&qSbjr`fc;
z&`LVb!xDZIt2wOZvHBTSXg*k6$CnE)$0*U$49~&oQz$MfXxLJ^5+hkf{jaX2iCB58
z3i!|A@`%Sb2Y4)?`yq#lk-DF1{4NXxDmtcNg6T*woUmcZaqL2Mqi!F-nj`r^SGVpx
zm>t0`;uE1;1$3+W3g}ivW~~#!D1wX|V$!`QtA&MX@hEpH#cGcr#%I8Tj%Ed?!hu}!
zBosgahT8lbdXRb~TI^+g+q6NF!uF9&1$M)zooYJNTHom^Qvm40joi~vsbtVOs$`si
zxeGAWz$n)}Fnx%?Luf~UCxctVlz{+vkXiwFiZ89pJ?H>Z(s6v4WOW@MWPyEQctC8C
zyXn*24?4sixLgoR8--Aiaoen6ty_(H8*<EHz$Szr>#jh)y@3xthHqIBFMx08@s3r9
z`)D*|$HWP$Q1vzN4*6D)_GN&xKVoQ|h;g|C-0|`nupxnWz~EJZ;!Z)e36K9awg+~j
z(v0*Sc|pJ`vPf|RCXmdNxgUpKWzcg3iF+<28BVi({~g{9Z#^aL8i*Vu9(8;pckZ6;
zK*s9cpNkfUM(GPIq1tu27G5%Jip;<b-{PZ=3o4T!d@#c=Va>o-;}=KFMNa%b%pDT_
z%>pnML_ab|JR<WCRe2})o<Q1Tu(@Ke8|c#cHwciBb(HZC8FC(7m9r!*^Dht_DA6$h
zP8EhnfFp$w*Go`Bl{fOV1cZ@L#vpW62t5Ttmpek2!e|RZ&qThm!&iO@9sv7A@a;S9
zZvI3VLSB3iTxTwO5=V)#l4C~3(cry+$<c52=QOxS-KpD7Ya?8QA!nF+3CP9G7VLI6
zehaf9?FO9Xq^=W{p#A~b608|OR)K+tb|07}N@1MoYJMPdxn3x*tQysY2ak)!(xOrP
zYN=AK9Em=6b03)X^$=2eS>MQTlBC>e*FAI1W`96nrlA^29dwmIVvVq@AT0fH1RX^L
z%VRhhMYwMA3;=Yto?gNSHwZ}`jwoU?DkvyMM4Bf+Qag_E+QV`YgL3h!YOz#VS}7q^
zm?00qWqty07UgW6OCn^CEbr|CjoIib%pxsntXUhd&$CS1SS>FtFO<JFz9@d3A6OMe
zrl$+#hmRJ@LsO7m8Y5?fXCFBerJ)_$&))jUCqK;%-ZzS#qi>FBp;290E>@}w%d1AA
zxVZ4-an*SEq+BkRs`Y3l`iySknm&mbuYz&ItOcdeCqdFju;HlE;0*uWplg4GYeu?y
z*u4=bX&@Kw5FlJ##O8ANN=UC@qP-FB+vmEwXpXNCOuNrP(!4d-WFEH~?p)in_)7~6
zhi)*?T3gNbPPk_#jtl=WiGQ>>raoM_79?&EgOCJ&bREByx`OLPN{0Wyi2bA3>WCa#
zq@^Og5($F{SHdj|4<hs;zN^n035+m75A=JG%5B-~J}SyBK&4A*8Go4breOygQ<5OP
d@Hdp&>B+c$RUg++Lz#dwu8-+c`b7Ht{{ZQGt<nGh

literal 0
HcmV?d00001

diff --git a/pyth/requirements.txt b/pyth/requirements.txt
new file mode 100644
index 0000000..983c61e
--- /dev/null
+++ b/pyth/requirements.txt
@@ -0,0 +1,141 @@
+aiohttp==3.9.1
+aiosignal==1.3.1
+annotated-types==0.6.0
+anyio==4.2.0
+apturl==0.5.2
+async-timeout==4.0.3
+attrs==23.1.0
+beautifulsoup4==4.12.2
+blinker==1.7.0
+blis==0.7.11
+Brlapi==0.8.3
+catalogue==2.0.10
+certifi==2020.6.20
+chardet==4.0.0
+charset-normalizer==3.3.2
+click==8.1.7
+cloudpathlib==0.16.0
+colorama==0.4.4
+command-not-found==0.3
+confection==0.1.4
+cryptography==3.4.8
+cupshelpers==1.0
+cymem==2.0.8
+dataclasses-json==0.6.3
+DateTime==5.4
+dbus-python==1.2.18
+decorator==4.4.2
+defer==1.0.6
+distro==1.7.0
+distro-info==1.1+ubuntu0.1
+en-core-web-sm @ https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.7.1/en_core_web_sm-3.7.1-py3-none-any.whl
+exceptiongroup==1.2.0
+Flask==3.0.0
+Flask-Cors==4.0.0
+frozenlist==1.4.1
+greenlet==1.1.2
+gyp==0.1
+h11==0.14.0
+httpcore==1.0.2
+httplib2==0.20.2
+httpx==0.25.2
+idna==3.3
+importlib-metadata==4.6.4
+itsdangerous==2.1.2
+jeepney==0.7.1
+Jinja2==3.1.2
+joblib==1.3.2
+jsonpatch==1.33
+jsonpointer==2.4
+keyring==23.5.0
+langchain==0.0.352
+langchain-community==0.0.6
+langchain-core==0.1.3
+langcodes==3.3.0
+langsmith==0.0.74
+language-selector==0.1
+launchpadlib==1.10.16
+lazr.restfulclient==0.14.4
+lazr.uri==1.0.6
+louis==3.20.0
+macaroonbakery==1.3.1
+MarkupSafe==2.1.3
+marshmallow==3.20.1
+more-itertools==8.10.0
+multidict==6.0.4
+murmurhash==1.0.10
+mypy-extensions==1.0.0
+netifaces==0.11.0
+numpy==1.26.2
+oauthlib==3.2.0
+olefile==0.46
+openai==1.5.0
+packaging==23.2
+pbr==5.8.0
+pexpect==4.8.0
+pgvector==0.2.4
+Pillow==9.0.1
+preshed==3.0.9
+protobuf==3.12.4
+psycopg==3.1.15
+psycopg2-binary==2.9.9
+ptyprocess==0.7.0
+pycairo==1.20.1
+pycups==2.0.1
+pydantic==2.5.2
+pydantic_core==2.14.5
+PyGObject==3.42.1
+PyJWT==2.3.0
+pymacaroons==0.13.0
+PyNaCl==1.5.0
+pyparsing==2.4.7
+pyRFC3339==1.1
+python-apt==2.4.0+ubuntu2
+python-dateutil==2.8.1
+python-debian==0.1.43+ubuntu1.1
+python-dotenv==1.0.0
+pytz==2022.1
+pyxdg==0.27
+PyYAML==5.4.1
+regex==2023.10.3
+reportlab==3.6.8
+requests==2.31.0
+scikit-learn==1.3.2
+scipy==1.11.4
+SecretStorage==3.3.1
+six==1.16.0
+slugify==0.0.1
+smart-open==6.4.0
+sniffio==1.3.0
+soupsieve==2.5
+spacy==3.7.2
+spacy-legacy==3.0.12
+spacy-loggers==1.0.5
+SQLAlchemy==1.4.31
+sqlalchemy-migrate==0.13.0
+sqlparse==0.4.2
+srsly==2.4.8
+systemd-python==234
+Tempita==0.5.2
+tenacity==8.2.3
+thinc==8.2.2
+threadpoolctl==3.2.0
+tiktoken==0.5.2
+tqdm==4.66.1
+typer==0.9.0
+typing-inspect==0.9.0
+typing_extensions==4.9.0
+ubuntu-advantage-tools==8001
+ubuntu-drivers-common==0.0.0
+ufw==0.36.1
+unattended-upgrades==0.1
+urllib3==1.26.5
+wadllib==1.3.6
+wasabi==1.1.2
+weasel==0.3.4
+Werkzeug==3.0.1
+xdg==5
+xkit==0.0.0
+yarl==1.9.4
+zipp==1.0.0
+zope.interface==6.1
diff --git a/pyth/scrapingsingle.py b/pyth/scrapingsingle.py
index e03be09..8e65beb 100644
--- a/pyth/scrapingsingle.py
+++ b/pyth/scrapingsingle.py
@@ -1,15 +1,20 @@
 from bs4 import BeautifulSoup
 import requests
 from urllib.parse import urljoin
-from openai import OpenAI
+from openai import OpenAI , APIError 
 import os
 from langchain.embeddings import OpenAIEmbeddings
-from langchain.vectorstores.pgvector import PGVector
-from vectData import insert_data ,is_similar_data 
+from vectData import (insert_data ,is_similar_data ,get_similar, get_specific_data, delete_specific,get_all_links,cleansing ,modify_similar_data)
 import json
+from dotenv import load_dotenv
+import tiktoken
 
 
-os.environ["OPENAI_API_KEY"] = "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"
+load_dotenv()
+cleansing()
+
+OPENAI_API_KEY = os.getenv("OPENAI_API_KEY")
+
 client = OpenAI()
 embeddings = OpenAIEmbeddings()
 
@@ -17,9 +22,36 @@ dlinks = ['https://klix.ba', 'https://srpskainfo.com', 'https://bljesak.info']
 headers = {'User-Agent': 'Mozilla/5.0 (Linux; Android 5.1.1; SM-G928X Build/LMY47X) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.83 Mobile Safari/537.36'}
 
 
+
+def num_tokens_from_string(string: str, model="gpt-3.5-turbo") -> int:
+    encoding = tiktoken.encoding_for_model(model)
+    return len(encoding.encode(string))
+
+def slice_text_at_2k_tokens(text):
+    encoding_name = "gpt-3.5-turbo"
+    max_tokens = 2000
+
+    encoding = tiktoken.encoding_for_model(encoding_name)
+    tokens = encoding.encode(text)
+
+    if len(tokens) <= max_tokens:
+        return [text] 
+
+    sliced_tokens = tokens[:max_tokens]
+    sliced_text = encoding.decode(sliced_tokens)
+    
+    return sliced_text
+
+
+def replace_with_spaces(text):
+    allowed_chars = "ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyzČčĆćDždžĐđŠšŽž0123456789 "
+    cleaned_text = ''.join(char if char in allowed_chars else ' ' for char in text)
+    return cleaned_text
+
 total_links = set()
 collected_news = set()
 
+
 def get_article_links(url, already_checked):
     response = requests.get(url,headers)
     if response.status_code == 200:
@@ -36,6 +68,8 @@ def get_article_links(url, already_checked):
                     already_checked.add(link_value)
         return link_store
 
+
+
 already_checked = set()
 
 for dlink in dlinks:
@@ -44,8 +78,17 @@ for dlink in dlinks:
         total_links.update(temp_links)
 
 final_links = {item for item in total_links if item}
+i = 0 
 
-for link in final_links:
+db_links = set(get_all_links())
+new_links = final_links - db_links
+final_links = new_links
+
+
+
+if __name__ == '__main__':
+
+ for link in final_links:
     response = requests.get(link,headers)
     soup = BeautifulSoup(response.text, 'html.parser')
 
@@ -54,6 +97,16 @@ for link in final_links:
 
     texts = soup.find_all(['p'])
     text_text = ' '.join([text.get_text(strip=True) for text in texts])
+
+    text_text = text_text
+    title_text = title_text
+    
+    title_text = replace_with_spaces(title_text)
+
+    
+    print(f"Tokens usage: {num_tokens_from_string(text_text, 'gpt-3.5-turbo')}")
+    text_text = slice_text_at_2k_tokens(text_text)
+    text_text = replace_with_spaces(str(text_text))
     
     try:
         completion = client.chat.completions.create(
@@ -65,23 +118,130 @@ for link in final_links:
         )
         generated_text = completion.choices[0].message.content
 
+        generated_text = generated_text
+
         response_data = json.loads(generated_text)
         
         title = response_data["title"]
         text = response_data["content"]
 
-        print("*********************************")
-        print(f"Title: {title}")
-        print("---------------------------------")
-        print(f"Content : {text}")
-        print("*********************************")
+        #print("*********************************")
+        #print(f"Title: {title}")
+        #print("---------------------------------")
+        #print(f"Content : {text}")
+        #print("*********************************")
 
 
         vector = embeddings.embed_query(generated_text)
-
-        if not is_similar_data(title, text, link, vector, threshold=0.9):
-         insert_data(title, text, link, vector)
         
+        if not is_similar_data(title, text, link, vector, threshold=0.98):
+         similar_d = "NO"
+         insert_data(title, text, link, vector,similar_d)
+
     except Exception as e:
         print(f"Error in completion: {e}")
         continue
+
+def comb_similar():
+
+    print("Checking similar")
+    similar_article = get_similar()
+
+    grouped_data = {}
+
+
+    for sa in similar_article:
+        if similar_article:
+            first_t = get_specific_data(sa[0])
+            second_t = get_specific_data(sa[1])
+            link_f = first_t[0][2]
+            link_s = second_t[0][2]
+            f_text = first_t[0][1]
+            s_text = second_t[0][1]
+            f_title = first_t[0][0]
+            s_title = second_t[0][0]
+
+            if f_title in grouped_data:
+                grouped_data[f_title].append((f_text, link_f))
+            else:
+                grouped_data[f_title] = [(f_text, link_f)]
+
+            if s_title in grouped_data:
+                  grouped_data[s_title].append((s_text, link_s))
+            else:
+                 grouped_data[s_title] = [(s_text, link_s)]
+
+            for title, tuples in grouped_data.items():
+                if len(tuples) == 3:
+                    text1, link1 = tuples[0]
+                    text2, link2 = tuples[1]
+                    text3, link3 = tuples[2]
+
+                    t1check = num_tokens_from_string(text1)
+                    t2check = num_tokens_from_string(text2)
+                    t3check = num_tokens_from_string(text3)
+                    slice_if_more = t1check,t2check,t3check
+                    if slice_if_more < 2000:
+                        combined_text = f"{text1}{text2}{text3}"
+                        combined_text = slice_text_at_2k_tokens(combined_text)
+                        user_message = rf"Here is text {combined_text}, combined from 3 sources, filter text, and make news content, return as JSON only with 'content' field"
+                        link = f"{link1} {link2} {link3}"
+
+                    else:
+                        user_message = rf"Here are 3 texts {text1} {text2} and {text3}, combine the following texts into a cohesive news remove any non-news related to both texts and provide the cleaned data as a JSON only with 'content' field."
+                        link = f"{link1} {link2} {link3}"
+
+                else:
+                    ftcheck = num_tokens_from_string(f_text)
+                    stcheck = num_tokens_from_string(s_text)
+                    fscomb = ftcheck + stcheck
+                    if fscomb <2000:
+                        combined_text = f"{f_text}{s_text}"
+                        user_message = rf"Here is text {combined_text}, combined from 2 sources, filter text, and make news content, return as JSON only with 'content' field"
+                        link = f"{link_f} {link_s}"
+
+                    else:
+                        user_message = rf"Here are 2 texts {f_text} and {s_text}, combine the following texts into a cohesive news remove any non-news related to both texts and provide the cleaned data as a JSON only with 'content' field."
+                        link = f"{link_f} {link_s}"
+
+            try:
+                completion = client.chat.completions.create(
+                    model="gpt-3.5-turbo",
+                    messages=[
+                        {"role": "system", "content": "Data analytic, Journalist and News reporter"},
+                        {"role": "user", "content": user_message}
+                    ]
+                )
+                generated_text = completion.choices[0].message.content
+                generated_text = generated_text
+
+                if similar_article:
+                    if f_title == s_title:
+                        print(f_title)
+                        modify_similar_data(first_t,"SOURCE")
+                        similar_article.remove(sa)
+                        print("Modified")
+                    else:
+                        print(f"Second: {s_title}")
+                        modify_similar_data(first_t,"SOURCE")
+                        modify_similar_data(second_t,"SOURCE")
+                        similar_article.remove(sa)
+                        print("Modified")
+                else:
+                    print("Similar list is empty")
+
+                response_data = json.loads(generated_text)
+                title = f_title
+                text = response_data["content"]
+
+                vector = embeddings.embed_query(generated_text)
+
+                if not is_similar_data(title, text, link, vector, threshold=0.98):
+                    similar_d = "NO"
+                    insert_data(title, text, link, vector, similar_d)
+
+            except Exception as e:
+                print(f"Error in completion: {e}")
+                continue
+
+comb_similar()
\ No newline at end of file
diff --git a/pyth/templates/index.html b/pyth/templates/index.html
new file mode 100644
index 0000000..9b156d8
--- /dev/null
+++ b/pyth/templates/index.html
@@ -0,0 +1,23 @@
+<!DOCTYPE html>
+<html lang="en">
+<head>
+    <meta charset="UTF-8">
+    <meta name="viewport" content="width=device-width, initial-scale=1.0">
+    <title>Test Pyth</title>
+</head>
+<body>
+    <div>
+        <article>
+            <h2>Test Title 1</h2>
+            <p>Test Text 1</p>
+            <a href="/article/one"> First</a>
+        </article>
+        <article>
+            <h2>Test Title 2</h2>
+            <p>Test Text 2</p>
+            <a href="/article/two">Second</a>
+        </article>
+    </div>
+    
+</body>
+</html>
\ No newline at end of file
diff --git a/pyth/templates/one.html b/pyth/templates/one.html
new file mode 100644
index 0000000..bcba718
--- /dev/null
+++ b/pyth/templates/one.html
@@ -0,0 +1,12 @@
+<!DOCTYPE html>
+<html lang="en">
+<head>
+    <meta charset="UTF-8">
+    <meta name="viewport" content="width=device-width, initial-scale=1.0">
+    <title>Article</title>
+</head>
+<body>
+    <h2>Test Title</h2>
+    <p>Test Text</p>
+</body>
+</html>
\ No newline at end of file
diff --git a/pyth/templates/two.html b/pyth/templates/two.html
new file mode 100644
index 0000000..bcba718
--- /dev/null
+++ b/pyth/templates/two.html
@@ -0,0 +1,12 @@
+<!DOCTYPE html>
+<html lang="en">
+<head>
+    <meta charset="UTF-8">
+    <meta name="viewport" content="width=device-width, initial-scale=1.0">
+    <title>Article</title>
+</head>
+<body>
+    <h2>Test Title</h2>
+    <p>Test Text</p>
+</body>
+</html>
\ No newline at end of file
diff --git a/pyth/tests/__pycache__/test_scrapingsingle.cpython-310.pyc b/pyth/tests/__pycache__/test_scrapingsingle.cpython-310.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..ab3b6cea01b3884563720a5ef05001b86732ad46
GIT binary patch
literal 2416
zcmZ`4%Z?jGaC&Ty$K%I7vv~l?aDZS)>`e$DMNvdZR?&jAiP#8<k)l!Wbgw;5&m-OK
z4QqK%n;Xi311CV*aLX6)1AIka5eLrPa)_vEd&vVaqpq&5>aMPL7wvZ7!1vpG-}9Tk
z<NSe(SHCJOK8K-x2f!RggcITH3X-{zOJ=l6Q~_E=RI^%Cv$U%4vU*gvcun|OBWhUO
z6G7IDn)7q5s0HWhqMdc3j-~lxAzO?Vv!!S$TaK3J`&ObA-Z^xL!&i=0S>q{*PVnZT
z6Rq(&z?1wGz|$6<vG6SxL~q}ASd+CLJFLZ>(L0Bg=qw}KPPhFRSmJDTiK&%TCqqEm
zUvN6s>F!u;7vmBLi+4(%-`L#9b~s~cK2SjO@814~C%TY;dow;@O;J!5vqJNHuUj!o
z1FmB#b(#nsi!^_rOf$_DmpW!tQ?rn&SfyDisGJcxckXU%-Pnw8+}(`7+W2;|Hq^Sj
z+V5Yw{8?`u{!3RsSzll8C#dtQp9_o6VW?FA+=&QtB9{^7K6W4$6|l2v7VdGSH*?Jg
zlIpa`69RjWzYZW6`kOFR037XTqTNIHfJ~jEimn1q7<mdI*0o#CeRV*zcT}H}r{uuZ
z{?r{c81Al2D@VZqg8wUWs;qj{WHshJcBa)^&LPrjxP#RPh<ldrTfR5v*L7>u9(6_w
ztib{d+0QO(v(B{klfxFKb%2Y%)Q~!G+0qmDz@Pe~MYep}87+;L4;mU$VhSm75KIHM
za@sj)!n_J|OP@Gevz#_qbdsHzHqjc3uT5KX94)OKTl#Q;IpDgJTYsT{C(WVGM6aY0
z0tmr%hnHbog7NWl629h5++KsR4dd@q00wZ+eII;DMz%zrkRRNK?zZ#Hy$4xSQ(C6w
zGe|1T7tO!ZUDvq1byL%+7W|nbPlJr-oBd&t@jg{_hvsSj7FQ2+QTEjy-%Cdj+w@{a
zmFBWv?(1P+14UUFt3=Wg^A?8Sy>j0K*F>sxQe@@z_fSVv_>?ob@<xjEP)MA<%$eRb
zQ6yBT>wp{!Fr@rn<K;34mMaKO0O-2%Buu7?Hd>=*;0$hf3&016ybWN|9+djx$GuN3
z>apA@jHmX&v~2RxEvTE2=2YxMRb2?bEXEQRpbHRLxWyl-Q1Y^n;0JJGRThGqdQyN1
zxi-}?gl=+u11_hDhK+*n(OidVzFWx5Rz<igi!9Vb9_|)G6pz4Vz%Ix7YIqNWaW$Oy
z7s7j>KVU!h!moK&>~Xk!Kg^5#VvY)c*bJ^i`BZZj>cR?4#!?~~jkns`=w7gBDT}?7
z@!3AXX%5G*MTAs^H2iY=&Q@6LjG*C!k5WAh&)cKt?a}jd>&}O}DHlxj!0uXBFfNRr
zai!>hD~Yu(F%#vx=-mJVJu_(1nBkyQ_mqUD?--BGdes6Il2f)HCqte*;LJ3s!sfN{
za7=}%2%ej!E;JSM-sVgGaExhZDv-#sg4dlzf&OlqvzQ8Ds-q&!jhBej#v>V0ZJL;e
zf@4ooz=A6^#%x%m30I~*x4|k7=T(uL8n#(w0{(ADHcgAiaKGF){!Gu!yxTEV#l^0v
zqD2N2R3+TPfeNkNc-D;|$j-L%pyt36$~17AQG%EHna+Uc9Qr3`GhX{xqV3-^4_lMH
zJ^MPmk>qCa&5FWgSL*-*vPgV4AT82yS4j(o@47J7i2K5O(WwWnPka)%Ew@FMN%hYO
zB;jlQ{6EFI1x??N<D6zZj!h89kQ8Hhh+@-<!BJGqIC2BygdOG;U@Ni(G^8th_I;;S
zkx1#DGyXVFHCkfY$5<~bk_Qs|i2M+MsqCmLHUrG6p!om-o#wrl@scRgoO{Wdxl6%=
z%2lr%%)N(A)OZCvzciH|3cq40vlmv@anX6bz1b9&4cv<lnsEzADo96ok!2I9Jp`X3
ztD+!F-^XPamz@ME9-;=Z#WI%I8I6x#zDXhN(e_t7WF3ZXGXAxhW3OY8DQscjD~MHV
V{v!s_B%T|%9)Z7tuu9h4e*i+*sk{IH

literal 0
HcmV?d00001

diff --git a/pyth/tests/__pycache__/test_vectData.cpython-310.pyc b/pyth/tests/__pycache__/test_vectData.cpython-310.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..eb021b54da734ef672232f37f4363122de9a67fb
GIT binary patch
literal 2808
zcmb7GNpBlB6drOGjYhJ(#A$;pt-1zE8awHR0!@pgw%QbE<kWT$K$pRINZaGgqLP#o
z3vw^ct>}M{kG}WE6ukD7zt9}o_c-1cpq0VLkDTF~_ddSG#n@P2!S9dTzwtk-mh~4d
zj{h83Jb)orK`@Jv)asTq=~A<{ySAB~t^+eo-OTHHS*2Ua{H~u>yVWe{2E_WoVm5PL
zS<K<qMs3IL*7+E7pHp#<TcgIVML_qG87=QMe9P*zTzxH$(zu^SiidF_lbnY#$&xe@
ziQ3ZRi9A?_EK-rKCAs86l?#83@1trgIBH-kG3q`3vtjW7hWr%-x4MK`UCQl|!^ke_
zx&~1|o<TOCia`z_-yj!Il?TjYl~>jd>DB=ItZHzb1+4bU>W;BG8-uyQ8f+ZqaW=sw
zVV+=9>=MkAY<kIRUDo5vT&f>)#n(ink|NiY`R~F<3roueJXu&Q!PBMoqOQTCCl8mF
zo-HiSo5!7pkJ~W;Hx7P?D=_9@$PEz68WHqsXob{Z@C>kRF!%=8F&Ml9>>3RI0rpg7
z!yj536ow7Mf#JgNnD;x(VO0gNs_qcDMGJhXbc7FI6cACCzyK396m<}Lu6EW7skGB8
z1js&Inf7~;lrIXww8vKRDC4b~riIiVTq4gmMFUTdqnJQ3iDC)_9F$ve(OdgeSK=bi
zc?=p62oIj_5pBn*+_S`0Sp7XWyIy2`Hj>dwlqa+ETs~JtZ&q&d&13_ZPwr%qR9wvV
zw$%Epf*omOxCv_KA;4yOTRM<jJ?+h<U@saaQFEQvN%`kchaCL*ZyJ@s)l*kGb9DU7
zWl>ONE(;X{op4<yEr8HH(rHogHtcIRP79#y3Si?_DX!t8F~uV>U%beTdGErOM4b&f
zxN+Ky6K|fe<S=Z$g5zk(1`*SWp1gY4ufXsbF(FV|T-}8^tePO89We&yTR~~KXAEcJ
zGVF=BP+WMcUfdV55O9Bv<mu{ZKV3uO2cSY?5cr3bBlZ59iOS&eX@AX$GkzX2{t2il
z{ghRlM--U{WN#2TjdQt!e&G-|;6Td}@4+ORDBeMV7bM<Cfnjm%X8Z%bXJB7qLii*g
zK5Y=^pTU*W#vZ(U!d?t$9412M0Wh*n7~Q7K-Y!$vVeT&7b`%|wAsyO7XU8FyvUjX)
zNYRlqbj$r!dyVYUGEw)ujt&$=dZ-eWa$PMkf2sCin&i)4V<kxld>kq=&3oF5M3k>_
zfxSVvAao7V0V;3%mwuGCJb_oE-BP8aP@98_bd_f-oUtTd(+*bb(=^>MpWm<IQO-ia
zl}Pv|)NXkD3(#tkuFSAHX;6<|p@TbT`2&Y8(sG7Wbij}*0Q^@{k0?GMcNc1(vj5+{
z38jzWvn^NLhDl%?mbBV{bWqZ|Ec$$(Re=E{W>MTlaSvbf1eg6(oo2IHvU##e0xyUC
z<slrFn2AS(HfR8};%Jb;-SdgPSm6n7(E}WYTQu7w7L>GYG9)94ov37N<m^J{+=kvV
za);29_In8J3?47Fe`?PyH*Yn+UtD<HO!C!2WTrKSGG6CdG^3)Gl*{I`NA1OS(=0-4
zAI)!?H?e9L;;6dc1PV=pV$$jgf63#%;@Vj$id6fnT*d1}&c)~Ov}KzRHtDTvrCR<n
zk!L8rYA8PZ|Kd2gi=anh6AU2JAy&!Y*12?^d$`k@(tc=M2}2!(VOFqy$^qBI5R(j@
z3`21V^owZ}7uM2RjJ+!3YQ13MI=+gHL41hfBNU&Z_!7m}D2^(ZLD*OX_5&OetDJ8<
zLazcsAynuDR5IJI`4zujpEU2H?OBxMVb~hiem_qX@}%9opY^uNNH<*o&DZ`xdlguY
z1%}K~WifqR`^el}1SJNo5clzzgC980TJ7I2+4>giR@ot-+~VJLGDZEL>riz61-4nB
AbN~PV

literal 0
HcmV?d00001

diff --git a/pyth/tests/test_scrapingsingle.py b/pyth/tests/test_scrapingsingle.py
new file mode 100644
index 0000000..5afcfda
--- /dev/null
+++ b/pyth/tests/test_scrapingsingle.py
@@ -0,0 +1,60 @@
+import unittest
+from unittest.mock import patch
+import requests
+from bs4 import BeautifulSoup
+from langchain.embeddings import OpenAIEmbeddings
+from langchain.vectorstores.pgvector import PGVector
+from openai import OpenAI
+import json
+from dotenv import load_dotenv
+from scrapingsingle import get_article_links, insert_data, is_similar_data
+import os
+
+load_dotenv()
+
+OPENAI_API_KEY = os.getenv("OPENAI_API_KEY")
+client = OpenAI()
+embeddings = OpenAIEmbeddings()
+
+
+already_checked = set()
+total_links = set()
+collected_news = set()
+dlinks = 'http://127.0.0.1:5000/'
+
+class TestIntegration(unittest.TestCase):
+
+
+    def test_integration(self):
+        link = get_article_links(dlinks,already_checked)
+        self.assertEqual(len(already_checked), 2)
+
+        for link in total_links:
+            response = requests.get(link)
+            soup = BeautifulSoup(response.text, 'html.parser')
+
+            titles = soup.find_all(['h2', 'h1', 'h3'])
+            title_text = ' '.join([title.get_text(strip=True) for title in titles])
+
+            texts = soup.find_all(['p'])
+            text_text = ' '.join([text.get_text(strip=True) for text in texts])
+
+            completion = client.chat.completions.create(
+                model="gpt-3.5-turbo",
+                messages=[
+                    {"role": "system", "content": "Data analytic, Journalist and News reporter"},
+                    {"role": "user", "content": rf"Extract relevant information from the following input: Title: {title_text}, Text: {text_text}. Remove any non-news element related to the current text and title, and provide the cleaned data as a JSON object with 'title' and 'content' fields."}
+                ]
+            )
+            generated_text = completion.choices[0].message.content
+
+            response_data = json.loads(generated_text)
+            title = response_data["title"]
+            text = response_data["content"]
+
+            vector = embeddings.embed_query(generated_text)
+
+            self.assertIn("Test Title", title)
+            self.assertIn("Test Text", text)
+            self.assertEqual(len(total_links), 2)
+
diff --git a/pyth/tests/test_vectData.py b/pyth/tests/test_vectData.py
new file mode 100644
index 0000000..99d4dd6
--- /dev/null
+++ b/pyth/tests/test_vectData.py
@@ -0,0 +1,89 @@
+import unittest
+import numpy as np
+import psycopg2
+import os
+from vectData import calculate_cosine_similarity, is_similar_data, insert_data, get_data, create_db
+
+class TestIntegration(unittest.TestCase):
+    host = os.getenv("DB_HOST")
+    port = os.getenv("DB_PORT")
+    user = os.getenv("DB_USER")
+    password = os.getenv("DB_PASSWORD")
+    dbname = os.getenv("DB_NAME")
+
+    @classmethod
+    def setUpClass(cls):
+        cls.host = os.getenv("DB_HOST")
+        cls.port = os.getenv("DB_PORT")
+        cls.user = os.getenv("DB_USER")
+        cls.password = os.getenv("DB_PASSWORD")
+        cls.dbname = os.getenv("DB_NAME")
+
+        cls.conn = psycopg2.connect(
+            host=cls.host,
+            port=cls.port,
+            user=cls.user,
+            password=cls.password,
+            dbname=cls.dbname
+        )
+        create_db(cls.conn)
+
+    @classmethod
+    def tearDownClass(cls):
+        cls.conn.close()
+
+    def setUp(self):
+        if self.conn.closed:
+            self.conn = psycopg2.connect(
+                host=self.host,
+                port=self.port,
+                user=self.user,
+                password=self.password,
+                dbname=self.dbname
+            )
+        self.cursor = self.conn.cursor()
+
+    def tearDown(self):
+        if not self.cursor.closed:
+            self.cursor.close()
+
+        if not self.conn.closed:
+            self.conn.close()
+
+    def test_insert_and_retrieve_data(self):
+        title = 'test_title'
+        text = 'test_text'
+        link = 'test_link'
+        embedding = np.arange(1, 1537)
+
+        insert_data(title, text, link, embedding)
+
+        data = get_data()
+
+        self.assertEqual(data, [(title, text, link)])
+
+    def test_is_similar_data_integration(self):
+        title = 'test_title'
+        text = 'test_text'
+        link = 'test_link'
+        embedding = np.arange(1, 1537)
+
+        insert_data(title, text, link, embedding)
+
+        result = is_similar_data(title, text, link, embedding)
+        self.assertTrue(result)
+
+        result = is_similar_data(title, text, link, embedding)
+        self.assertTrue(result)
+
+        result = is_similar_data(title, text, link, embedding)
+        self.assertTrue(result)
+
+    def test_create_db_integration(self):
+        cursor = self.conn.cursor()
+        cursor.execute("SELECT * FROM information_schema.tables WHERE table_name = 'vectorsvevijesti'")
+        table_exist = bool(cursor.fetchone())
+        self.assertTrue(table_exist)
+
+if __name__ == '__main__':
+    unittest.main()
diff --git a/pyth/vectData.py b/pyth/vectData.py
index dd1e2d7..e99883a 100644
--- a/pyth/vectData.py
+++ b/pyth/vectData.py
@@ -3,12 +3,26 @@ from psycopg2 import sql
 from pgvector.psycopg2 import register_vector
 from sklearn.metrics.pairwise import cosine_similarity
 import numpy as np
+import os
+from dotenv import load_dotenv
+from datetime import datetime ,timedelta
 
-host = 'localhost'
-port = '5432'
-user = 'postgres'
-password = 'salmonela pljusti 221 hamo'
-dbname = 'vector_svw'
+
+load_dotenv()
+
+host = os.getenv("DB_HOST")
+port = os.getenv("DB_PORT")
+user = os.getenv("DB_USER")
+password = os.getenv("DB_PASSWORD")
+dbname = os.getenv("DB_NAME")
+
+conn = psycopg2.connect(
+        host=host,
+        port=port,
+        user=user,
+        password=password,
+        dbname=dbname
+    )
 
 def calculate_cosine_similarity(v1, v2):
     v1_normalized = v1 / np.linalg.norm(v1)
@@ -17,7 +31,7 @@ def calculate_cosine_similarity(v1, v2):
     similarity = cosine_similarity([v1_normalized], [v2_normalized])[0][0]
     return similarity
 
-def is_similar_data(title, text, link, embedding, threshold=0.9):
+def is_similar_data(title, text, link, embedding, threshold=0.98):
     conn = psycopg2.connect(
         host=host,
         port=port,
@@ -27,25 +41,33 @@ def is_similar_data(title, text, link, embedding, threshold=0.9):
     )
     cursor = conn.cursor()
 
-    cursor.execute('SELECT title ,embedding FROM vectorsvevijesti;')
+    cursor.execute('SELECT title,embedding,link FROM vectorsvevijesti;')
     existing_embeddings = cursor.fetchall()
 
     for existing_embedding_tuple in existing_embeddings:
         existing_title = existing_embedding_tuple[0]
         existing_embedding = np.array(existing_embedding_tuple[1]).flatten()
+        existing_link = existing_embedding_tuple[2]
         similarity = calculate_cosine_similarity(existing_embedding, embedding)
         if similarity > threshold:
-            print(f"Similar data found: \n #{title} \n #{existing_title}")
-            cursor.close()
-            conn.close()
-            return True
+            if link != existing_link:
+                similar_d = existing_title
+                insert_data(title,text,link,embedding,similar_d)
+                print(f"Similar data found: \n #{title} \n #{existing_title}")
+                print(f"Inserting: #{title} \n")
+                similar_d = "NO"
+                cursor.close()
+                return True
+            else:
+                print(f"Same source of same article!")
+                cursor.close()
+                return True
 
     print(f"Inserting: #{title}")
     cursor.close()
-    conn.close()
     return False
 
-def insert_data(title, text, link, embedding):
+def get_similar():
     conn = psycopg2.connect(
         host=host,
         port=port,
@@ -53,17 +75,35 @@ def insert_data(title, text, link, embedding):
         password=password,
         dbname=dbname
     )
+    cursor = conn.cursor()
+    query = '''SELECT title,similar_d FROM vectorsvevijesti WHERE similar_d NOT IN ('NO', 'SOURCE')'''
+    cursor.execute(query)
+    similar_data = cursor.fetchall()
+    cursor.close()
+    return similar_data
+
+
+def insert_data(title, text, link, embedding, similar_d):
+    conn = psycopg2.connect(
+        host=host,
+        port=port,
+        user=user,
+        password=password,
+        dbname=dbname
+    )
+    c_time = datetime.now()
+
+
     cursor = conn.cursor()
 
     cursor.execute('''
-        INSERT INTO vectorsvevijesti (title, text, link, embedding)
-        VALUES (%s, %s, %s, %s);
-    ''', (title, text, link, embedding))
+        INSERT INTO vectorsvevijesti (title, text, link, embedding, similar_d, time)
+        VALUES (%s, %s, %s, %s, %s ,%s);
+    ''', (title, text, link, embedding , similar_d, c_time))
 
     conn.commit()
 
     cursor.close()
-    conn.close()
 
 def get_data():
     conn = psycopg2.connect(
@@ -79,11 +119,110 @@ def get_data():
     cursor.execute(query)
     data = cursor.fetchall()
     cursor.close()
-    conn.close()
-
     return data
 
-def create_db():
+def modify_similar_data(new_value ,title):
+
+    conn = psycopg2.connect(
+        host=host,
+        port=port,
+        user=user,
+        password=password,
+        dbname=dbname
+    ) 
+    cursor = conn.cursor()
+
+    query = '''UPDATE vectorsvevijesti SET similar_d = %s WHERE title = %s '''
+
+    cursor.execute(query, (new_value, title))
+
+    conn.commit()
+
+def get_specific_data(title):
+    conn = psycopg2.connect(
+        host=host,
+        port=port,
+        user=user,
+        password=password,
+        dbname=dbname
+    )
+    cursor = conn.cursor()
+    query = '''SELECT title, text, link, similar_d, embedding FROM vectorsvevijesti WHERE title = %s'''
+    cursor.execute(query, (title,))
+    
+    specific_post = cursor.fetchall()
+    cursor.close()
+    return specific_post
+
+def get_all_links():
+    conn = psycopg2.connect(
+        host=host,
+        port=port,
+        user=user,
+        password=password,
+        dbname=dbname
+    )
+    cursor = conn.cursor()
+    query = '''SELECT link FROM vectorsvevijesti'''
+    cursor.execute(query)
+
+    db_links = {link[0] for link in cursor.fetchall()}
+    cursor.close()
+    return db_links
+
+def delete_specific(title):
+    conn = psycopg2.connect(
+        host=host,
+        port=port,
+        user=user,
+        password=password,
+        dbname=dbname
+    )
+
+    cursor = conn.cursor()
+    query = '''DELETE FROM vectorsvevijesti WHERE title = %s'''
+
+    cursor.execute(query,(title,))
+    cursor.close()
+
+def cleansing():
+
+    conn = psycopg2.connect(
+        host=host,
+        port=port,
+        user=user,
+        password=password,
+        dbname=dbname
+    )
+
+    day_long = datetime.now() - timedelta(days=1)
+
+    cursor = conn.cursor()
+
+    query = '''DELETE FROM vectorsvevijesti WHERE time < %s'''
+    cursor.execute(query,(day_long,))
+
+    conn.commit()
+    cursor.close()
+
+def drop_table():
+    conn = psycopg2.connect(
+        host=host,
+        port=port,
+        user=user,
+        password=password,
+        dbname=dbname
+    )
+
+    cursor = conn.cursor()
+
+    query = '''DROP TABLE IF EXISTS vectorsvevijesti;'''
+    cursor.execute(query)
+
+    conn.commit()
+    cursor.close()
+
+def create_db(conn):
     conn = psycopg2.connect(
         host=host,
         port=port,
@@ -97,19 +236,18 @@ def create_db():
 
     register_vector(conn)
 
-    cursor.execute("DROP TABLE IF EXISTS vectorsvevijesti;")
-
     cursor.execute('''
-        CREATE TABLE vectorsvevijesti (
+        CREATE TABLE IF NOT EXISTS vectorsvevijesti (
             id bigserial PRIMARY KEY,
             title VARCHAR,
             text VARCHAR,
             link VARCHAR,
-            embedding vector(1536)
+            embedding vector(1536),
+            similar_d VARCHAR,
+            time TIMESTAMP DEFAULT CURRENT_TIMESTAMP
         );
     ''')
 
     conn.commit()
     cursor.close()
-    conn.close()
-create_db()
\ No newline at end of file
+create_db(conn)
diff --git a/pyth/web-server.py b/pyth/web-server.py
new file mode 100644
index 0000000..ae78c2b
--- /dev/null
+++ b/pyth/web-server.py
@@ -0,0 +1,24 @@
+from flask import Flask , render_template , jsonify
+from vectData import get_data
+from flask_cors import CORS
+
+
+app = Flask(__name__)
+
+CORS(app)
+
+@app.route('/')
+def index() :
+    return render_template("index.html")
+
+
+@app.route('/article/one')
+def articleone():
+    return render_template("one.html")
+
+
+@app.route('/article/two')
+def articletwo():
+    return render_template("two.html")
+
+app.run(debug=True)
\ No newline at end of file

From d4e99c7c5f2227f9e4e6408f044f561e9ed51701 Mon Sep 17 00:00:00 2001
From: Amir Sabani <amirsabani303@gmail.com>
Date: Sat, 6 Jan 2024 08:17:05 +0100
Subject: [PATCH 2/5] added article.py

---
 pyth/__pycache__/articles.cpython-310.pyc     | Bin 0 -> 5925 bytes
 .../scrapingsingle.cpython-310.pyc            | Bin 3031 -> 6614 bytes
 pyth/__pycache__/vectData.cpython-310.pyc     | Bin 5433 -> 6045 bytes
 pyth/articles.py                              | 231 ++++++++++++++++++
 pyth/scrapingsingle.py                        |  46 +++-
 pyth/templates/index.html                     |   1 -
 pyth/vectData.py                              |  62 ++++-
 pyth/web-server.py                            |   7 +-
 8 files changed, 329 insertions(+), 18 deletions(-)
 create mode 100644 pyth/__pycache__/articles.cpython-310.pyc
 create mode 100644 pyth/articles.py

diff --git a/pyth/__pycache__/articles.cpython-310.pyc b/pyth/__pycache__/articles.cpython-310.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..40e56ebde6bae660b85d03f5e389ea869ab4e067
GIT binary patch
literal 5925
zcmb7I&5s<%b?@r0>6x9G{r=+eqh(v7Mp-S*W$f6LESnKm5*=$vaFx&=h?q2|YG-@5
zr+Zl4v#TBS2t-!7Brz<*mjJSWrGXrjzaXaoxdsT3bDaX@U=RUvF_44e$oakM*$;lK
zk<6g0U%h_ys_NByRliqBtyVGcE4}fz;$OaD82?U{(?185AK*zpWQM^F&LX2(yjjyk
z-HfcR-Lx6;tjOuQO;^(_Dm6>s*^$>RH_P2hv!eM<G}f&)tD1JBTDRV;cgLIK-HGNz
zcd|LzooY^Xr<>Cw9W%`t=qN?A-MQvmcfL74;x9B8gnM8xLzE5|x%Zeg&x!JZ(OeQ$
zl;<_K4DJO@RX|<T)EKBsnyP~GHB|%k60h^|PmJc*_ynKC`|Es)PviX!eu>ZXg-=-X
zWxmMIf%A%ZMfW?6elCm4^6$mvo5uZ1%~wT(FNs&Vv1oi|d~O~vjIF`XgERXS=K?qv
zPdE?%hO-S=b;D@*Psr};4W=gBNgBqYm4@9g3S^k=gE<x@0dMgn6Y*}tRPODbh;Q6d
z-i<rA)}%}%L?#N}TK9qAJd8VO!&Q?Vk+ssEXos6&yTyYnP}ALnhnxFH>I>#r7^gyJ
zMP;fdMGqavomL>TupNn1jcY|oU$#XdR40ZM0pHhkjA<_JcUxJqBjU8RDU)t1%}9ru
zPoog6GVxK?3bNMf&PYhrZ{Jy4zj3RDIkf&{?I)^q^N(Ba-QM^>6L)UkEr>teSi7sn
z@afKtjg5P^@7~m(*KfSP);7sxqaS&yjpuDV>2(yjkr~_U(9Dg;Y{?j!IUCiPu3MRv
zn;n*09d=-Hwun_&G=_F=V=c^e33oRdwld?Ma-%Q~qK>lTM0O?h*>IG(dlk>Bs_kBF
z5kH8+f#9gFo~~9-*6<5MUO>|?zjI|P>53~s8axQ%@XAe*?qo^tO1dj{!)=jf;p^QX
z&4j$t+t0SH9NB-Rx38AkLDcR?K_*(ydB`GEryhz4Ho@jho5@S4v}qPcKN|S4f!;$U
zBNJira)C2$eu5gexc!&rqH$<)=P|o!9IzqFtV278$u<gkYuiB!KQ~Z!xqHC=f;CF(
zFYIUoeWWueI#7Mzg(@Rw2khtOLvy1r2AtN}gkxv$9&_cJ%7O=JD;32>v{jWiqcF|d
zNw@db*HHfrO=HFwyaoqNMN1qx`^ec=-i#8MDSZpXQL`sxg(ttm?@P8kxN$4q#bR+k
z+wTc~Gm-vNI#&Gm`)TGs5WWbrEg^k4u@9lRw-WO}%3yz`QBsu<5t?Q}+!o4$gmThe
z6lQXkM(k)YRT{~w%AW;MUldVls@hZCL8^}_$n@E1&%JnlJ~~LNC@SnctFS7wnP<vx
zg3-ov{BuE-@aSOJ20^Z$nVFT@nS*s>KXry!l*7_vW5{xL=yCHgwk%L(a1bhomB-j#
z$sgbsruGDjJEv+kcTd%v+{*3T*|ZQmrS&fyWp5>ErtDrKQTDO5D6bc!>0Tnaa`}Te
z=!(I+8*4vWd;0@F3$sWp`-rlg<&(wm-?@AHeScT9vqYW*hkx(AwYzJ+-go@(`5(x>
zc;igx`^{<R%NcFXh4VF-j&E)AFHHFo45TcX>^-vx^6U8UM|dQTMq_Y=c04`Uv_*qW
zPrNUEk>8y;E=f8uhL=e-Z3^-`$CR#;<Lk~fpE`d|7j1Vsz!pI00P~6fqgfsWS%W>%
z+ZEFua%L~zg^H8}7mUUj7AoCuC%w+9Dz%e1#sbJye3RFx_(LkbMa8#KD7W30X(Clg
zd?ecaOek+tWbLgWij>oil2qUbvPp~l9*Nuf0CEc(Dn}bpRgMGVxgc2jJr;ir3R5za
z&CKJ!``=!v!aV%zW}Vep#gy+r<kxuc`?v2)Iv9Svsek|Z{kEmqMM0rUSV)J=$JjCk
zzj{H?Sh@AHzeb=~6gofa5ADo5Fg~<~&d?o}GGLIQ*D;3Wtdfo8PVVNV1M2`A>HXUu
zn!^g@#)j2lEg#FPn`Z9qGTG0)!)j620jR%p*s%VbhF76s92zEulf$XJl8^7eWAll8
za-=EAYI!Z6IxvUR`E+jX*!W7iwS?APKdhhB9=@BGQLodNhp*)2dxi-NXXAfhG2_|V
zhH=$M|7s7i^#2K-drwJo_#z}edsbot`e4QJ{eNV}aE2L!@oa*d`OFbU>OhYReH>pu
zo&gfl?>)9>G^}-b70dBuNpGCj{l=tx19kZ(6=yl5b~C-?*p@}6$^zS~kT^1xH3)mk
z3OLs%qjG~D5ENIAR<E2Mpi0)5RhH<bYOEW^tu*NN2>Fz=Eh*BiB;xW0^-Z2E$xGx-
zD%MaaAf}`((p2yh#I(?nNxuiq2m_paVWBEw;A#;AS5L(NSh}5J+asaXLTL4r(5gI7
zy)yC4hNUiThB1bKM=N=*YZ`m{0~96>j?-Z?;Z>On*l^LTQrO@<gVNJMWIn2x<|EVm
z@qbLr*8wlQN9I@Z&!MD^=lDmP=olUyKNA2NnSp4)A@ivzfx&JXpR)V^HDrhmGsBT{
zz&P8nKV|ZFIYWFb4lQsIE8N_1<dxi_+=8G8yxtx<bhvcPp_`k)bFTK;ImiQN4@-Fo
zZA|%3nZ?l_v1xJ}Xb#WN15L<|=yGP~9^@-{m+>CUD_V|FA0qIWu8sKUdsrXwi5}1E
zI_9#x{+Yp@d>lTExR1@eK6ElCuR`Yp-Zi`@DbD7N;S_gsPfM2}Z4ak27qRIbn9RsZ
zyfmVSS3c$yl!Zv9xlC~nk^B#N6<W%9P4_vIdHD=_nc)?RBtC|5%*JJ2J(1$I&z<2c
zEK}bxVdKwXoAKXg8`ueR)OMPC)=sF;p||-n?KOXFyM;4tSICeZ7YjRLRE>N*U)-@k
zy>wzzSauP!bYR)}6Rx)O__6%AM_)+t%r(GTEMVN{inYkkJ-Z(0X%6k(|HrD(O3fXw
zR6#wpQkcunPpv{ZU(j=T@rqUX#3|WHlEu1}hO>k3X65b5_Skln@=!j*XMbt(xqO!1
z9h1-h)EqA5OWQTF`*wYMe0V;aIGoJSKW4)VxrZF)0$+foFJ@DR)0%rJn?VF!#EEn%
zpFVKleHLHLZH!H4s`reC9`@<kPuc!g*r$E$(@T&zm-|N&s4bBv7xJi`&(9y#?iqUj
z_CNL?df315ru~~}qzD$jKz>Jb<KlXOc<2mPY*j<Bfw}AtthcZG?}Yyfz^a%(sJ$no
z@Wa%ngwY?w%Ra#W10=-Ur>xSy=BGLhO_%-6FhZuJ1($v7dVV+95q>Q8QnZPYDrd`p
zidkRAevtY<+_=5&Cvmjz?*ZETK=7SN_?JhLm!VBWd@!lI4={vPtvK}ue|J0tA1MKH
zhA2w*(0cS82S?%u=y6M=;qIt^DY^;hAl~=mBz|3wNeW8dka;Bjg9Ia>38s47I6ihm
zF0^{2+W}3Muo4YB_`eN&<%y;3dhOH<t{u(5(Y*|6onH3(wUuwZ4wF1cl$-7&)9eoZ
z;HK^hN$x(f{bm1$urDgepLDZzvL|i?faQfmrUqmY2@MX(!Wt5S>)={JM9S;p7z{ch
zl^qOcFmp@aE0D2{R`I$oZ{gFIr4I=AU-t*zjX2#C64bf%1k0jtJ^Z807v}EAe5Em`
zj~r!1B9`lDFYi!6Nsg>hLCLQq04M7xfJ~zhqXYWf3NkfD`C}xqFo{!qLizwiP-<@_
zxR^*)X*6a%WMyxsNsKcW_bq90x{qmu+IrX*a$lB7dwK1nw&;<%#!KqbSqD9?N78<j
z$tE@NjwYmPBdV44F(&0`IIL_!!>Tm;rWg=(&`M%_4_et?qDq8?sjdm)IOIRT3-nr*
zKc=bQr=FZmT*9PCN%hMuZe!`O2;%F)Kos6nde%2b<03&D-;1Q~<!M7%L7uO0L
zf>)*$S59oIa2XV9n8gc~HO#yRTaWIFY#O3+i)2o=Xrvd83!UX30Vp`i5omb;iS(aQ
zxIiWqV3WG(A>jr705UNj5y+={6(|L7;1*5eyKNH3V-sjqK?*=P1_=Q;bv6ZF(W+>7
z(vn(3n$78UTFa=1Intu_6uK&GM(bKIO}z0yqxqHlRo$gg(&#44DLj;b)M<Q=%-@>7
zu>YsJD}O<=-bOKSe}v^G=ikVJte+w%+F&;<`7Vjj7AfhDrtz9ay~+WO?d=!$3k&HE
zwg?%obOkQh+UZI!2<2XgMWh@K>9xKjlzKZb6Zm@qqze&XGDA|{sAi%d?jSJ2c;!^`
zMVAK3qeY_qpa?A;RpjzTXc54Zbp4>bEX2JP?)p?cZOfpCg)27HA{r?Mr6fTYZiG8a
zIZm923PQ|hBY3*ED$-TT+;q@uvnfX>{fY%e<exZ@rnDD%Z(<YbN8&A{Z$?V++%rZ#
r0>7v-AFD(DL;eJ>D%Mo5I@Yk{RVvfo%kI#nOBFVS{|vK#YqS3ak$(M)

literal 0
HcmV?d00001

diff --git a/pyth/__pycache__/scrapingsingle.cpython-310.pyc b/pyth/__pycache__/scrapingsingle.cpython-310.pyc
index 38af9dbd593bcd53feec35a1f82ca687699f9f61..34597ac35e738ff6dec6066b9f60a885ea55899e 100644
GIT binary patch
literal 6614
zcmcIoO>7%UcJ6LAn@x(O{{Q^j{u$d`%akoyqp`>98UM)tmM0_6ddwY%X|ak@OHDRa
z-I6V$nK+P>%>wbpyFijnW+##N<{W}K<(4@F_F@y{kmT6c90H#P$R-G21e1KPnw0-$
zfm}kOU%h%&_4?JTSMR62TrQ*F_g@!&%71Y{QT~-Wul~Bw`4Er)51OJdg{iJmQ%kB!
zxaMjl4Q;|r)bx@rX}X)N86~5ZDy7<U%#w*YNjF`~lroZLxLvhuDO<~xa<zOZU+XS)
z*Lq4lwcb*1t*_MAUe{mh$GVg|P#Y`_wrNA9AwIaFs0#0u(A*qm=3})q!i^23G|Dr8
z+ZGg-{<&J(&N8gaQA<16ahBsdS)T8z>a3gfJV=&yvtHKsKq*<QpADeh!v@(9+P!=q
zIP9139X8BHKsz9N2l@8%%AI`a5I?{V@q-&$slW^3M|}V0cX;73^s#cEjk0YI6u$qw
zvZ0m^^L@N$gRn7vn2(Jpr6c@^q#l-|dwJXz+4g1akt)jkF!=v<X`E}DNBKD4@mMPz
z<0?P4G{JV@ZIgU*^Eh_4^XDq|JH>WwzRPwq3-6nv_klJ|GuWO5!rznQd*%3h?eP=*
zMCk;d#=Jdz8Zu1tlWZT~%}=oGhW5Ggg|>lRaEqV7*a^(pNf_bH%Y1a{{iRb&-(^|0
zpS{Bl{7hp9*&#mtxxxzk1mJhRND_5HV}~DVrPKWM(g#c#RhB+nI#W8!&*JIdJjc&M
zvh(~r8yi(hGiZ;Xo#5LxFUXOLJjZAF1onQB71{X1<RjHT$BvdR@ob0AFKr}M<(9JY
zrLOSHkJR<wRF%>dRcYq1mt*`&XBW4W+px~kmG56!`7&<rs&^GO!6tE@SD7}a6sDe&
zl^4_~cb40$fm2;|=e*U%EGVf};VyYjy`V+LjRvouxg42iKDs<3geNfE6VqmD^PDlK
zzTg*9QI}Kqxd_V44(zDg@yotbb6i`*gsuf1bSP1;>@;}AsXCQ-JVzwkb<3_(U-qMP
z#pQP02kWT6<}s(b-dQZCLxe8ZvssyW0k5w``5Pb2%$~VihKS{>Gq($gX7^$cH2jm}
z<IApduQ+cvhdKmbH2h`TsaL&X#j7<3I`nyWiTn0)kw%)CPq3FGXBK!pX#ViJ*K}Oh
z9-k^6wGLf#>Z|wOx6ag=@Em4M6^|8<y>HE3KXUQJ#CxAwXICAUjbFQd`}p*y1?x<s
z;qqI2{;Cs<Pfbo2C*QRWUA=Vk`n563b(Xnxkyn<zf^}|Dcr`wLe7bnFI59QxZt=ZI
z>$*4ZxZIkvtG003i(ljx8o`mt;?$8~Rm^*l;Rk|LWC#vIy#n{N^-BQL@tnisj{pS9
zrW)d6w6s7AwarARJcen*4Aj|z9+`o&9C*vT9`*5h1sbm}l&hX7L;2i|5-tV|Ilv1E
z(F=A_G9EHJ)1N3}6!aIT#}{ccwr|hdb!YrM_rbU^?yvDR2O18XBQ@I(xEOD&2aDr=
zMc56pAUrNFHrAt|`f9B#Me)m3=%pNQavSY~Hk48Gs@M*sq5^b&DIm0Ex!p@ZnA%dA
zhRt@iod^?~8g06z2Z>PMP(y856~m#j040PvQ$p?cv{9v%#5_GrVxAEiP)}l3^nl;<
zf5IyYNzo5n3=kM1FbEJCj6-D{mp~8ry&%eUbW*O{H6CSZ_PzFw1f4`=#M_H<zUx#t
zYmY@;oi2DtUB-ZR9u3Q}GO;h)L3v`iy=WH({XPI))zyraQL~zXC!^|`*bnk+N+SD6
z;vq%(764O!2q&?r{6MLyEWz{#W~jujvISeg=99Clw=wU`*>mS-E?m5H`O4L6*Jp2h
z^cx?~-TdTxw?4gHvga#|R~HtYrDeBP_Zln04_4Ri-dk@z{lljZpZ@;SADn;o6?^v8
z(??H#{A}~t<7a>S?5m^4CMJ(hy*vHh2`hSAKoV{ej}-8Cl~B3UMZ)}nvZjbksMb}c
zd=JrYMPnqO7OB>()Duvxcr?;0i?(<Ip9W{*-Gy?g@4uqS^eNnGey<@;AEmdDNon_Y
zDa`|dH(a~I%Xgh%vFta1`o&YOSFv6Hba87DT#p`mMnSrdveHx0A#R;o0dyfxt^eD2
z(pwDxT^+%hi6YR~PKhL<Q<A298c3jQC{O`T=FV^n+YU9TVi<QA2F?<XwN@fjVcH29
zf|C;0Iyh9M&qj&6ckecJfTDN@3=4@U;qxF$wZ)4PHe+xCY3Y2+G?bTK*TKGGhpbZ*
z<zAz{X`|_?b1$BL953<n0ETL6rkbU{28)~q=`}A!i5KZY?)3o>d0mx2!>-_^mJ&=|
z*2IT_4m`=U4ccpB)4;BAjTh*$>d?wQx~fYC(^--k54Bb*Oi5jtK`K;2lch!#tW1aL
zP+e2SsW7=|hH26ebOox^)jKQO!sHxMI%v$Cef~?x@}g@osJX=k?1zgeWsAVUVMnTc
zlZ;?d@Txe4X@yK=3cj)m-{waN#IY!~$Zf`jj~gA>!Kz;-?;z;*#WrJBojRjvC&<_%
z!)_qNGBFV|OCa_}-L@;hWF6*<7{M96!f$v8v61d0NJnN{96!p?(ZEZ3f{T;HFDZ{q
zOc5RruG#J?fAhFx6mD~gkL^5G$ZMBX;Yjf4IKI4U!sD9gWmN6H_TPF^{||8$GhZ`W
z+8k|09wfQPMY_2L-CUuC>QA&4WE?LgC}`p!CPlgv@Y+jqd~4FDV1bCujnj89$0ybU
zinvbm&2qVh*j+A*6X?Q@wZ#cM$M8%F<nC_^)wxN(BG0=(LYXAgl1$_usy~*3J<;e$
zlN4zh@Es;4BXplTVkQG8aNkm3=9KIBv7j|D{}l;3qKHq?L~7$L^>ic=A7g@;Bk&18
z`yJ9U-q3_()u4&wgq!)B6rg=;)wdV;NekhB9f7p=;_!K-T$Ww8-E~;#n03WNGGLQz
zATn!~-}NorbWb4aKG7mwc(CGB#j7KC3L<?K*4;ckgP3Di0!(!Inq3bp%7aAB4jiv;
zQ5?2{MQ&9+@~Vi{7;dZvC#{>Ln3Go19J6jhVZi>lXno9U-Wtct*R8r&KT;<Fz_y0h
z5q~@2%nCfou(B!ykxAQ9TB+$Vi8h3{<}e=5qkIs{D7&<5-?FVMb2nx!Z+?kGXmZ)s
zLAmsxTzas*yMtEM;V$!wPc$(M9Y$u2`=mZ!+#<b}0sif?Kl;1>JoMSuAK>KE0j{;b
z=(#M?W^cS0lnF2PYLPj*oRo3Ws$kL9Z$B_95T)V&Rf0SiLtdpSfeNp!IBn1UNWJq5
zcr*oN&c9Ip#gJ-jsI7#=6B5_M1W}nTlMsCiH`;W}f@h2Agqv+TB`xVTo$!qGbBeeT
zs$qImL8g}qlT{fJ>hO$&FW?4*=~GIGfQnec(96h~W@v29l(?Lk!Ax~ie@qeRm!D~^
zu2wckhS?33CE=a_J<O7<pyyh7;E)Y?cdG|D_5!@O)fX6H4*Ts#+l_VrZ7<rvus<9K
z2djzJP&mYlWkvjBnEPA_yYcj*lu5LP;lqb9bC{t;nPq}D66V96<%IZqw0*MeX}5XI
zNQXTV_F;XpHM-)3d4eoMoG}XCtc$p_>=&smUSGF)eI3TU(3i8nl^3K>L8fhJO|;v?
zZQ=G|rL`m6L3_X%?+#Pgfl0;KmgG4pc``JX6PU3hOiKQS+$BjVWo3C<3Hh)V@+Bc(
zXT{XFuW0^GU@oPXGD}@l*i%uD(zHJup%%sH0OH}!aOaXdqov$ZzO_qQ;g4V?8CiC_
zffA;r#dgD@1~)XsMP;)mlokVP9-^`O0bs*nnsy}TDr_XoZ1uKQ2Hmj4U&liSk5Re0
zce5|tg&4j&Ot-qi-E14|)(ZMJ2PAb*Fc@})RyZ2&VcXdbSqA?N+u7P140Y(?-gX(>
zr7OWO%HV%imDWBggYk}C;l7S!vJA$^Z|_^_VzQ+&m~h1T-LuV}a};06p|#6ZK~=?b
z3CN#6$BkCR4uEFv5*OTZ{Mc7D7skjb%sb?jq<@^W5SRtB#xXb@7rs_bj9ppHMztsX
zVB0Z`!4Xo;M!qceWOaAF?Z;mCT{5gSd*#b*2rwzx`c^Y3JzeuJw&ZxjLz7GO;k)2z
zZHT(aeFsii3L(D5LBHad=RLU7csT`-|BD~~b<!8#*3-oQkDgvp(L`H#S-6Ss(+Pe?
zfYJ%^TLf%?$e6qF$;anrBJ(<ZVL-0iOkHqLzfd@vLq%6-zy{~y&lo7!5l?aYyw(WT
zW#AAMV#Nql2`m5<MxtZ`MR_37M56pwoCS!Il<D}gUX<0Vtj;2%;yN-2qe=;)u9s29
z#}E?0fCBZRhbqyJQti+czdJ`vQTS7&MMdI!b>w~cB!Ya9Z+(`Dx+Gpkaw^t^Ny4Ct
zRigCFy$WwoG%M_nx;r0gItgxeK_J6K>MuX#Xuch#s-%~45ShNz3ot`woz->=ajP<8
zLQ)d9DfB5fh*BWP?1=&{O5at)Q9nwOc^!*WRW#I_h<j+LHyQUPqf~HA=D<KEI>=;<
z#PxI8sp2z*;8Ct~A7cr!l-QIzN|V`esv5LeAaA3K53zk(6=hzkKFU*pC@4#b8Ra^u
zw^T@+!W(PIJ3JAkJIZ5``c{INCDxq}SAU7^`(FZ>sL*vSlR%yR#^2Ni)VvnM9<4J<
z6%?i4rrLuii>h%*HMEgL+;&E3b_O#HtuGO`8fN3cYV8~2n|#W^SAjT<$0rn|^_0-l
z-_$Z15`BC<7(m;j>i2svnpMsF+Be!4`u~WZLFj@iFH_-Kl$iIA$F<CN=|HonR$OPk
zT_usXj0_LujO_>=9YI-dq<MZc;M(;Cn7LCgzBEul#b0ESGAW6b)*0LB%j-kgmB<nx
zn-^=e!iYco392#WCz;4V&W=xkqMIllfqU`9xET6?Ite8BQGzZfeLs>nP?q1aE*11S
zAnFRd!0vp7%vX@^LNpixxlLL12r81IBqO#_26wvAu8@t@2JQ=wx=`G0aWL6@dpHda
zZ4^ZeeHTIzLq;j6#1}IJ=!1f|K;R4j?h4%-UyM;FBRjD{$_s*zq;yXtMNs`AWTmh|
zm>}>c1bhMk0ZMhnpAxuB;HLy+4!lm-pAq<T0!;#+6QFZ{r6L)nuKcWFp2By4RhOTp
zFzNpUAghpN#`d{iTB)fTu<(p#z}m?M2Xs?6drZT~qMtDOV09=jsie%q{!A)0r6rou
l?(?__Sv)#frZ$iu?iyJ#dP8k{#vQ_4f!(Ixw%cs-e*vy20T=)P

delta 1676
zcmah}&2JM&6rUN}>-G90331{$35lIA;v^0s38ZxmsA{09T8W}opl(Gi$MfW@S?@Zt
z8$PT`MhcgzLIUlPA{lO+`xo@yTw8VihN_nyka|FUvknFI!mQ@^=DqpNn|UAF-?o0w
zW!!YyAUJ*~{RlTwPcqZ=izln)9wnS`X2;Dq%9yRU6J{c`X|~Z$n#ph-w^Qx3nQmvy
z%n5(U974Ws54T6m5lUd>h#<!Mr+DHyHAg`^B4!p6h+|E{jTh7$=SiNjsF{NawB|#c
z<h?Y{JS65+s7}N9F1eL4Ps0?PhUp__&cKYg4f*~o%si)*9NgkVeE1=O{4P17W&w(P
z<TiUu#T*py<V$l7SbrYoAorY^3qWC^wa8DQpCwr8pTUQWzM%NLWuEPq_!u95NP4iW
zT%mDAQFyMY)~g|5LJ?r~WPh#u9b{YO)_UtK&+|z>#ixH_{4}3|m8XQy!Wv@XSxi}*
zj29m<a|1S7=Qzoe)@EzV+=ik4dDuqp7vKV)%M)`4Wp5rAi|_$oIKuc)F2c@J@{FBm
zODFOSEWTqMaL4)|hVCkmfgM=Hs4IM#mmb9)Q%{5R8{1KolAGk98zu13V|u?xiCLwj
zo5s6Vpt}6V?M?Cx_JLXbwtCPV$h-6|TD}TrX*KwV%_peTu64lq__JUmGM1)N|MJrt
z(C}SRV!_qOOz?B$Rp2I$=}>UdIIGF15BL1wz{tg9q|SNp$hcfgV++cdZ8^6+8C60W
z3Tt=j_946^q8NN0+Z`Qgf?ul(-)h)U3(1o~GFhVY!TIEcS`mE+1tlig`i6{JKD0x_
z0Or&kiK+*F!)<piokP`Q2w5VQ)RtbWwd<BstBDk<rHEwvn>f$m+>*2q94D`DEhu8l
zw|pD^@7bu@mN#%+LDt{O^#l={!Sz((+8QdNtl%s{i3#OMWEK4PY@r?~HW4nW#TG(0
z-R$_~t@ZO||4{6?QuFS67*sd-CACIN!C$FYJq$M1b~)HmZ-eL6o8So*n%Gh2i!1LN
z-T2okno6NtEWdAbjZa+12gff|3eDqR)!6>?a*4`>zc0YscWvGsyCQ@u3YJq)S+>Eq
zT&GefU6heMZ(FFOh~c1;n-BJKQ;RWF<*Z$InvH!-{ra7-Z9Hrp@YXxcff{_D%U_kz
zmghQB<1XHRM<moi4ckE}>IWvZhHc@?qyg<c;M{VW9<swG5vLR(f`t!K6EoU8Y9b$O
zOq6@Inp1BBR(w|3Mifjc2n#c%R$~ZK3k!~&*>WvM8lhHGU5u@O=wbXQ29_vB;>+aQ
z;PDv^0d*gw@zyBgjeXbZHNcbcld^>clbI$sAdt;ZF0kD?_hcFq(s3ORYP{~(!vf1#
zM_3qeG7PwOa0ueQ)CMV&i7WRS&{4UU^xaMkn@#nZ)T?c`#}93|L{as+2q~h|6n+C7
z4yDEnrZJ7`Os85zNo`nX28~jKvIiO5)tNezVOg5O$&km8HBQ-U?R6%u_I1=V=uJ%{
VlEroO!7ySfLG=ghb@Y!Y`xiO0xPAZt

diff --git a/pyth/__pycache__/vectData.cpython-310.pyc b/pyth/__pycache__/vectData.cpython-310.pyc
index 4104298addadbf5270d81b2b0903869d4f76c93f..ad5b7d5761068ede0ccc9fe7203405c2138f4c53 100644
GIT binary patch
delta 834
zcmYjP%}*0S6z|(^yR%EX?b2GL)LOn-sFD~CAZX;HLJ+CY8VI1IVON3yOQt0eg%Cdy
zPiXKZ#tTMna>Mjwj0gP-<VrM=qc;^36OF+)1rld6zqd2*?R&r9n|af?-mGW6Ud=&c
zzU{fa6j{?F(74vL1@W~{qjgrDRsYa2R%ta@CfO>h(P|=FZCBgD2LKKWQV#P}p$k@A
zkj4-00X3DpI^3P8H#gB|G-IE#qKV|)v~t6^t+dIO^M-;RR<6o}+)KxI9^+}2R^l;k
zXRJlM&l)_jcx}#X*J3o%_?kU}5o}W<n%^n^WiF4zO}yuc;9a#7Hu0U>40HHIsZb>b
z3}oQl!Yl1vplTspbq8uJ=Y|B1C3vZBIF_AcwG9XDokabR!|z^vTM~91FnFnkaKA(e
z7k9C9vD#d_2|IF{FWCGn5$2t^s|SMmw4I+U#!On7d}f(Ed-z=qX`Uk@y@E&;?;+1o
zA)XK$*l}IV%;x?}7YvJRx$FX;vWw|fMWH?c{b*<;r=ut*p=G5_4gJO$lKxfeseC~p
zdm#c@lHh2%|1d?C{1UY)DgO5HOB7)`4;$W!x3$Qj*mbQ;;RB-1WuYosI?wI-44=6*
zJ(=P8nW<Sjw<Ww+1Pm1hOLTzu)b6mR10$i-?-a@W1)p)zdlR<F6?v*F?h%Tg0=(`n
z!y5ey?4rwe5=JTVM4`)f9N-&{`>SCbSNuOE8F0af!2~`t)*)GFDXoJ@ym<TK1&DEQ
z6<x{XK%#R{!?8eKItKVL5H)lU@M~1d1RfQp2KNK6TE%nYy#o3LBn1o!NC^<!_^5z!
u0TTj54qhQz;A0(gS!-d|J`Z%3>&G9#mU4rIn4hM>N@<BN9}6<W6a5E<jLDn;

delta 434
zcmX9&O-LJI5Z$+Fl5aP=n`{!3XckRPNV{#Rg?bQD5Yjc^UlOs12t5>xg;EIJ<Rn57
z&lS=+2h1%21#M1(&~tmr*`I^ALa)8G6z9W%_ujzFdo$gc^Cwo*G<AjR`>(H!-|3F!
zAl`X;iel$_(`w`z$pb*y#=7D@8gAip5F2zES`n)?Z?Uqt;L)@2nXa+@HKSFhwLqHw
zho=iWp`Hq5FL)H`DXifmL+ZA|If1Hg^78HhRm2<WiN~5-(sNv{NiV_$`YYb?k++%y
zi*~ggxOA({;3L_39%ULt9JTd|@1*D^(o|iYJ<o&l9O%-%;RW~PAN146!W-_J7Vw3Q
z6S@VV3Os;cp-&-)M%EPubR7MFE|0Ss;`h@fD#iZcgy!riEX&Pd+a3ol=rEo~mA=LQ
zs3V2?i5zP5Bhkgn;rnC}G#G2+mV+`GT@@<BFyPnaPw*$DJfv!>Unq0ydy*=WmLx4p
fs!FO!s*{^8!lQb6HW3pk5fe5eCZZxKY{R(&ft+L_

diff --git a/pyth/articles.py b/pyth/articles.py
new file mode 100644
index 0000000..346a917
--- /dev/null
+++ b/pyth/articles.py
@@ -0,0 +1,231 @@
+import psycopg2
+import numpy as np
+from sklearn.metrics.pairwise import cosine_similarity
+from dotenv import load_dotenv
+import os
+from openai import OpenAI , APIError 
+from langchain.embeddings import OpenAIEmbeddings
+from vectData import get_specific_data, modify_similar_data, insert_data, preparing_articles, get_source_data, get_ready_data
+import tiktoken
+from scrapingsingle import num_tokens_from_string, slice_text_at_2k_tokens
+import json
+
+load_dotenv()
+
+OPENAI_API_KEY = os.getenv("OPENAI_API_KEY")
+client = OpenAI()
+embeddings = OpenAIEmbeddings()
+
+print(f"Checking for similar!")
+
+host = os.getenv("DB_HOST")
+port = os.getenv("DB_PORT")
+user = os.getenv("DB_USER")
+password = os.getenv("DB_PASSWORD")
+dbname = os.getenv("DB_NAME")
+
+def calculate_cosine_similarity(v1, v2):
+    v1_normalized = v1 / np.linalg.norm(v1)
+    v2_normalized = v2 / np.linalg.norm(v2)
+
+    similarity = cosine_similarity([v1_normalized], [v2_normalized])[0][0]
+    return similarity
+
+def parse_embedding_string(embedding_str):
+    if isinstance(embedding_str, str):
+        numbers = [float(num) for num in embedding_str[1:-1].split(',')]
+        return np.array(numbers)
+    elif isinstance(embedding_str, np.ndarray):
+        return embedding_str
+    else:
+        raise ValueError("Invalid type for embedding_str. Must be either str or np.ndarray.")
+
+
+def get_titles_links_embeddings():
+    conn = psycopg2.connect(
+        host=host,
+        port=port,
+        user=user,
+        password=password,
+        dbname=dbname
+    )
+    cursor = conn.cursor()
+    cursor.execute('SELECT title, link, embedding FROM vectorsvevijesti WHERE ready = True;')
+    data = cursor.fetchall()
+    cursor.close()
+
+    titles = [row[0] for row in data]
+    links = [row[1] for row in data]
+    embeddings = [parse_embedding_string(row[2]) for row in data]
+
+    return titles, links, embeddings
+
+def find_and_group_similar_articles(eps=0.5, min_samples=2, threshold=0.95):
+    try:
+        conn = psycopg2.connect(
+            host=host,
+            port=port,
+            user=user,
+            password=password,
+            dbname=dbname
+        )
+
+        with conn, conn.cursor() as cursor:
+            titles, links, embeddings = get_titles_links_embeddings()
+
+            processed_articles = set()
+            grouped_similar_articles = []
+
+            for i, (title1, link1, embedding1) in enumerate(zip(titles, links, embeddings)):
+                if (title1, link1) not in processed_articles:
+                    processed_articles.add((title1, link1))
+                    group = [(title1, link1)]
+
+                    for j, (title2, link2, embedding2) in enumerate(zip(titles, links, embeddings)):
+                        if i != j and (title2, link2) not in processed_articles:
+                            similarity = calculate_cosine_similarity(embedding1, embedding2)
+
+                            if similarity > threshold:
+                                processed_articles.add((title2, link2))
+                                group.append((title2, link2))
+
+                    grouped_similar_articles.append(group)
+
+            return grouped_similar_articles
+
+    except psycopg2.Error as e:
+        print(f"Error: {e}")
+        return []
+    
+def processing_similar():
+        grouped_similar_articles_result = find_and_group_similar_articles()
+
+        if grouped_similar_articles_result:
+
+            for group in grouped_similar_articles_result:
+                articles = []
+
+                if len(group) > 1:
+                    for article_tuple in group:
+                        if len(article_tuple) >= 2:
+                            title, link = article_tuple[:2]
+                            article = [title, link]
+                            articles.append(article)
+                    l = len(articles)
+                    if l == 2:
+                        print("2")
+                        a_one = articles[0][0]
+                        a_two = articles[1][0]
+
+                        get_one = get_specific_data(a_one)
+                        get_two = get_specific_data(a_two)
+
+                        text1 = get_one[0][1]
+                        text2 = get_two[0][1]
+                        link1 = get_one[0][2]
+                        link2 = get_two[0][2]
+                        if link1 != link2:
+                            link = f"{link1}, {link2}"
+                        else:
+                            link = link1
+
+                        ftoks = num_tokens_from_string(text1)
+                        stoks = num_tokens_from_string(text2)
+                        tokens = ftoks + stoks
+
+                        similar_d = f"C: {a_one}, {a_two}"
+
+                        modify_similar_data(similar_d, a_one)
+                        preparing_articles(False, a_one)
+
+                        modify_similar_data(similar_d, a_two)
+                        preparing_articles(False, a_two)
+
+                        print(tokens)
+                        if tokens > 2000:
+                            combined_text = f"{text1} {text2}"
+                            combined_text = slice_text_at_2k_tokens(combined_text)
+                            user_message = rf"Here is text {combined_text}, combined from 3 sources, filter text, and make news content, return as JSON only with single 'content' field"
+                        else:
+                            user_message = rf"Here are 2 texts {text1} {text2}, combine the following texts into a cohesive news remove any non-news related to both texts and provide the cleaned data as a JSON only with single 'content' field."
+
+                    if l == 3:
+                        print("3")
+                        a_one = articles[0][0]
+                        a_two = articles[1][0]
+                        a_three = articles[2][0]
+
+                        get_one = get_specific_data(a_one)
+                        get_two = get_specific_data(a_two)
+                        get_three = get_specific_data(a_three)
+
+                        text1 = get_one[0][1]
+                        text2 = get_two[0][1]
+                        text3 = get_three[0][1]
+                        link1 = get_one[0][2]
+                        link2 = get_two[0][2]
+                        link3 = get_three[0][2]
+                        if link1 != link2:
+                            if link2 != link3:
+                                link = f"{link1}, {link2}, {link3}"
+                            else:
+                                link = f"{link1}, {link2}"
+                        else:
+                            if link2 != link3:
+                                link = f"{link1}, {link3}"
+                            else:
+                                link = link1
+                        ftoks = num_tokens_from_string(text1)
+                        stoks = num_tokens_from_string(text2)
+                        ttoks = num_tokens_from_string(text3)
+                        tokens = ftoks + stoks + ttoks
+
+                        similar_d = f"C: {a_one}, {a_two}, {a_three}"
+                        modify_similar_data(similar_d, a_one)
+                        preparing_articles(False, a_one)
+
+                        modify_similar_data(similar_d, a_two)
+                        preparing_articles(False, a_two)
+
+                        modify_similar_data(similar_d, a_three)
+                        preparing_articles(False, a_three)
+
+                        print(tokens)
+                        if tokens > 2000:
+                            combined_text = f"{text1} {text2} {text3}"
+                            combined_text = slice_text_at_2k_tokens(combined_text)
+                            user_message = rf"Here is text {combined_text}, combined from 3 sources, filter text, and make news content, return as JSON only with single 'content' field"
+                        else:
+                            user_message = rf"Here are 3 texts {text1} {text2} and {text3}, combine the following texts into a cohesive news remove any non-news related to both texts and provide the cleaned data as a JSON only with single 'content' field."
+                    try:
+                        completion = client.chat.completions.create(
+                            model="gpt-3.5-turbo",
+                            messages=[
+                                {"role": "system", "content": "Data analytic, Journalist and News reporter"},
+                                {"role": "user", "content": user_message}
+                            ])
+                        generated_text = completion.choices[0].message.content
+
+                        response_data = json.loads(generated_text)
+                        title = a_one
+                        text = response_data["content"]
+                        vector = embeddings.embed_query(generated_text)
+
+                        insert_data(title, text, link, vector, similar_d)
+                        print(f"Inserting combined: {title}")
+
+                    except Exception as e:
+                        print(f"Error: {e}")
+                        print(f"Title: {a_one}")
+                        print(f"Answer: {generated_text}")
+                        continue
+        else:
+            print("No similar articles found.")
+if __name__=="__main__":
+    processing_similar()
+ready = get_ready_data()
+if ready:
+    for a in ready:
+        print(f"Title: {a[0]}")
+        print(f"Link: {a[2]}")
+        print(f"Status: {a[3]}")
\ No newline at end of file
diff --git a/pyth/scrapingsingle.py b/pyth/scrapingsingle.py
index 8e65beb..44ff2eb 100644
--- a/pyth/scrapingsingle.py
+++ b/pyth/scrapingsingle.py
@@ -4,7 +4,7 @@ from urllib.parse import urljoin
 from openai import OpenAI , APIError 
 import os
 from langchain.embeddings import OpenAIEmbeddings
-from vectData import (insert_data ,is_similar_data ,get_similar, get_specific_data, delete_specific,get_all_links,cleansing ,modify_similar_data)
+from vectData import (insert_data ,is_similar_data ,get_similar, get_specific_data,get_all_links,cleansing ,modify_similar_data)
 import json
 from dotenv import load_dotenv
 import tiktoken
@@ -48,6 +48,19 @@ def replace_with_spaces(text):
     cleaned_text = ''.join(char if char in allowed_chars else ' ' for char in text)
     return cleaned_text
 
+
+def fix_links(links_set):
+    modified_links = set()
+
+    for link in links_set:
+        if "www" in link:
+            modified_link = link.replace("www.", "")
+            modified_links.add(modified_link)
+        else:
+            modified_links.add(link)
+
+    return modified_links
+
 total_links = set()
 collected_news = set()
 
@@ -78,13 +91,13 @@ for dlink in dlinks:
         total_links.update(temp_links)
 
 final_links = {item for item in total_links if item}
-i = 0 
 
 db_links = set(get_all_links())
 new_links = final_links - db_links
 final_links = new_links
+final_links = set(final_links)
 
-
+final_links = fix_links(final_links)
 
 if __name__ == '__main__':
 
@@ -142,6 +155,7 @@ if __name__ == '__main__':
         print(f"Error in completion: {e}")
         continue
 
+
 def comb_similar():
 
     print("Checking similar")
@@ -185,12 +199,17 @@ def comb_similar():
                         combined_text = f"{text1}{text2}{text3}"
                         combined_text = slice_text_at_2k_tokens(combined_text)
                         user_message = rf"Here is text {combined_text}, combined from 3 sources, filter text, and make news content, return as JSON only with 'content' field"
-                        link = f"{link1} {link2} {link3}"
+                        if link1 != link2 and link1 != link3 and link2 != link3:
+                            link = f"{link1} {link2} {link3}"
+                        else:
+                            link = link1
 
                     else:
                         user_message = rf"Here are 3 texts {text1} {text2} and {text3}, combine the following texts into a cohesive news remove any non-news related to both texts and provide the cleaned data as a JSON only with 'content' field."
-                        link = f"{link1} {link2} {link3}"
-
+                        if link1 != link2 and link1 != link3 and link2 != link3:
+                            link = f"{link1} {link2} {link3}"
+                        else:
+                            link = link1
                 else:
                     ftcheck = num_tokens_from_string(f_text)
                     stcheck = num_tokens_from_string(s_text)
@@ -198,12 +217,17 @@ def comb_similar():
                     if fscomb <2000:
                         combined_text = f"{f_text}{s_text}"
                         user_message = rf"Here is text {combined_text}, combined from 2 sources, filter text, and make news content, return as JSON only with 'content' field"
-                        link = f"{link_f} {link_s}"
+                        if link_f != link_s:
+                            link = f"{link_f} {link_s}"
+                        else:
+                            link = link_f
 
                     else:
                         user_message = rf"Here are 2 texts {f_text} and {s_text}, combine the following texts into a cohesive news remove any non-news related to both texts and provide the cleaned data as a JSON only with 'content' field."
-                        link = f"{link_f} {link_s}"
-
+                        if link_f != link_s:
+                            link = f"{link_f} {link_s}"
+                        else:
+                            link = link_f
             try:
                 completion = client.chat.completions.create(
                     model="gpt-3.5-turbo",
@@ -213,7 +237,6 @@ def comb_similar():
                     ]
                 )
                 generated_text = completion.choices[0].message.content
-                generated_text = generated_text
 
                 if similar_article:
                     if f_title == s_title:
@@ -222,6 +245,7 @@ def comb_similar():
                         similar_article.remove(sa)
                         print("Modified")
                     else:
+                        print(f"First: {f_title}")
                         print(f"Second: {s_title}")
                         modify_similar_data(first_t,"SOURCE")
                         modify_similar_data(second_t,"SOURCE")
@@ -243,5 +267,3 @@ def comb_similar():
             except Exception as e:
                 print(f"Error in completion: {e}")
                 continue
-
-comb_similar()
\ No newline at end of file
diff --git a/pyth/templates/index.html b/pyth/templates/index.html
index 9b156d8..c9e51c1 100644
--- a/pyth/templates/index.html
+++ b/pyth/templates/index.html
@@ -18,6 +18,5 @@
             <a href="/article/two">Second</a>
         </article>
     </div>
-    
 </body>
 </html>
\ No newline at end of file
diff --git a/pyth/vectData.py b/pyth/vectData.py
index e99883a..35a642c 100644
--- a/pyth/vectData.py
+++ b/pyth/vectData.py
@@ -83,6 +83,7 @@ def get_similar():
     return similar_data
 
 
+
 def insert_data(title, text, link, embedding, similar_d):
     conn = psycopg2.connect(
         host=host,
@@ -97,9 +98,9 @@ def insert_data(title, text, link, embedding, similar_d):
     cursor = conn.cursor()
 
     cursor.execute('''
-        INSERT INTO vectorsvevijesti (title, text, link, embedding, similar_d, time)
-        VALUES (%s, %s, %s, %s, %s ,%s);
-    ''', (title, text, link, embedding , similar_d, c_time))
+        INSERT INTO vectorsvevijesti (title, text, link, embedding, similar_d, time, ready)
+        VALUES (%s, %s, %s, %s, %s ,%s ,%s);
+    ''', (title, text, link, embedding , similar_d, c_time, True))
 
     conn.commit()
 
@@ -121,6 +122,39 @@ def get_data():
     cursor.close()
     return data
 
+def get_ready_data():
+    conn = psycopg2.connect(
+        host=host,
+        port=port,
+        user=user,
+        password=password,
+        dbname=dbname
+    )
+    cursor = conn.cursor()
+    query = '''SELECT title, text, link, ready FROM vectorsvevijesti WHERE ready = %s;'''
+
+    cursor.execute(query, ('True',))
+    data = cursor.fetchall()
+    cursor.close()
+    return data
+
+def get_source_data():
+    conn = psycopg2.connect(
+        host=host,
+        port=port,
+        user=user,
+        password=password,
+        dbname=dbname
+    )
+    cursor = conn.cursor()
+    query = '''SELECT title, text, link, ready FROM vectorsvevijesti WHERE ready = %s;'''
+
+    cursor.execute(query, ('False',))
+    data = cursor.fetchall()
+    cursor.close()
+    return data
+
+
 def modify_similar_data(new_value ,title):
 
     conn = psycopg2.connect(
@@ -138,6 +172,24 @@ def modify_similar_data(new_value ,title):
 
     conn.commit()
 
+
+def preparing_articles(new_value ,title):
+
+    conn = psycopg2.connect(
+        host=host,
+        port=port,
+        user=user,
+        password=password,
+        dbname=dbname
+    ) 
+    cursor = conn.cursor()
+
+    query = '''UPDATE vectorsvevijesti SET ready = %s WHERE title = %s '''
+
+    cursor.execute(query, (new_value, title))
+
+    conn.commit()
+
 def get_specific_data(title):
     conn = psycopg2.connect(
         host=host,
@@ -244,7 +296,9 @@ def create_db(conn):
             link VARCHAR,
             embedding vector(1536),
             similar_d VARCHAR,
-            time TIMESTAMP DEFAULT CURRENT_TIMESTAMP
+            time TIMESTAMP DEFAULT CURRENT_TIMESTAMP,
+            ready BOOLEAN
+
         );
     ''')
 
diff --git a/pyth/web-server.py b/pyth/web-server.py
index ae78c2b..ed1dc44 100644
--- a/pyth/web-server.py
+++ b/pyth/web-server.py
@@ -1,5 +1,5 @@
 from flask import Flask , render_template , jsonify
-from vectData import get_data
+from vectData import get_ready_data
 from flask_cors import CORS
 
 
@@ -21,4 +21,9 @@ def articleone():
 def articletwo():
     return render_template("two.html")
 
+@app.route('/data/get/news', methods=['GET'])
+def takenews():
+    data = get_ready_data()
+    return jsonify(data)
+
 app.run(debug=True)
\ No newline at end of file

From 96a2d888953319b0b2593dd504ad461f6073c4b5 Mon Sep 17 00:00:00 2001
From: Amir Sabani <amirsabani303@gmail.com>
Date: Sat, 6 Jan 2024 08:26:31 +0100
Subject: [PATCH 3/5] Removing previous f.

---
 pyth/scrapingsingle.py | 112 -----------------------------------------
 1 file changed, 112 deletions(-)

diff --git a/pyth/scrapingsingle.py b/pyth/scrapingsingle.py
index 44ff2eb..ac86b52 100644
--- a/pyth/scrapingsingle.py
+++ b/pyth/scrapingsingle.py
@@ -155,115 +155,3 @@ if __name__ == '__main__':
         print(f"Error in completion: {e}")
         continue
 
-
-def comb_similar():
-
-    print("Checking similar")
-    similar_article = get_similar()
-
-    grouped_data = {}
-
-
-    for sa in similar_article:
-        if similar_article:
-            first_t = get_specific_data(sa[0])
-            second_t = get_specific_data(sa[1])
-            link_f = first_t[0][2]
-            link_s = second_t[0][2]
-            f_text = first_t[0][1]
-            s_text = second_t[0][1]
-            f_title = first_t[0][0]
-            s_title = second_t[0][0]
-
-            if f_title in grouped_data:
-                grouped_data[f_title].append((f_text, link_f))
-            else:
-                grouped_data[f_title] = [(f_text, link_f)]
-
-            if s_title in grouped_data:
-                  grouped_data[s_title].append((s_text, link_s))
-            else:
-                 grouped_data[s_title] = [(s_text, link_s)]
-
-            for title, tuples in grouped_data.items():
-                if len(tuples) == 3:
-                    text1, link1 = tuples[0]
-                    text2, link2 = tuples[1]
-                    text3, link3 = tuples[2]
-
-                    t1check = num_tokens_from_string(text1)
-                    t2check = num_tokens_from_string(text2)
-                    t3check = num_tokens_from_string(text3)
-                    slice_if_more = t1check,t2check,t3check
-                    if slice_if_more < 2000:
-                        combined_text = f"{text1}{text2}{text3}"
-                        combined_text = slice_text_at_2k_tokens(combined_text)
-                        user_message = rf"Here is text {combined_text}, combined from 3 sources, filter text, and make news content, return as JSON only with 'content' field"
-                        if link1 != link2 and link1 != link3 and link2 != link3:
-                            link = f"{link1} {link2} {link3}"
-                        else:
-                            link = link1
-
-                    else:
-                        user_message = rf"Here are 3 texts {text1} {text2} and {text3}, combine the following texts into a cohesive news remove any non-news related to both texts and provide the cleaned data as a JSON only with 'content' field."
-                        if link1 != link2 and link1 != link3 and link2 != link3:
-                            link = f"{link1} {link2} {link3}"
-                        else:
-                            link = link1
-                else:
-                    ftcheck = num_tokens_from_string(f_text)
-                    stcheck = num_tokens_from_string(s_text)
-                    fscomb = ftcheck + stcheck
-                    if fscomb <2000:
-                        combined_text = f"{f_text}{s_text}"
-                        user_message = rf"Here is text {combined_text}, combined from 2 sources, filter text, and make news content, return as JSON only with 'content' field"
-                        if link_f != link_s:
-                            link = f"{link_f} {link_s}"
-                        else:
-                            link = link_f
-
-                    else:
-                        user_message = rf"Here are 2 texts {f_text} and {s_text}, combine the following texts into a cohesive news remove any non-news related to both texts and provide the cleaned data as a JSON only with 'content' field."
-                        if link_f != link_s:
-                            link = f"{link_f} {link_s}"
-                        else:
-                            link = link_f
-            try:
-                completion = client.chat.completions.create(
-                    model="gpt-3.5-turbo",
-                    messages=[
-                        {"role": "system", "content": "Data analytic, Journalist and News reporter"},
-                        {"role": "user", "content": user_message}
-                    ]
-                )
-                generated_text = completion.choices[0].message.content
-
-                if similar_article:
-                    if f_title == s_title:
-                        print(f_title)
-                        modify_similar_data(first_t,"SOURCE")
-                        similar_article.remove(sa)
-                        print("Modified")
-                    else:
-                        print(f"First: {f_title}")
-                        print(f"Second: {s_title}")
-                        modify_similar_data(first_t,"SOURCE")
-                        modify_similar_data(second_t,"SOURCE")
-                        similar_article.remove(sa)
-                        print("Modified")
-                else:
-                    print("Similar list is empty")
-
-                response_data = json.loads(generated_text)
-                title = f_title
-                text = response_data["content"]
-
-                vector = embeddings.embed_query(generated_text)
-
-                if not is_similar_data(title, text, link, vector, threshold=0.98):
-                    similar_d = "NO"
-                    insert_data(title, text, link, vector, similar_d)
-
-            except Exception as e:
-                print(f"Error in completion: {e}")
-                continue

From b7a0e5478c4999da1aa5f6966f09cf4159c1e51b Mon Sep 17 00:00:00 2001
From: Amir Sabani <amirsabani303@gmail.com>
Date: Sun, 7 Jan 2024 03:41:32 +0100
Subject: [PATCH 4/5] organizing code

---
 .../scrapingsingle.cpython-310.pyc            | Bin 6614 -> 4361 bytes
 pyth/__pycache__/vectData.cpython-310.pyc     | Bin 6045 -> 6449 bytes
 pyth/articles.py                              | 173 +++++++++---------
 pyth/scrapingsingle.py                        |  16 +-
 pyth/vectData.py                              | 168 +++--------------
 5 files changed, 122 insertions(+), 235 deletions(-)

diff --git a/pyth/__pycache__/scrapingsingle.cpython-310.pyc b/pyth/__pycache__/scrapingsingle.cpython-310.pyc
index 34597ac35e738ff6dec6066b9f60a885ea55899e..2598ed55e69e99b6c90bdb13b4eeebcdb0e7a35c 100644
GIT binary patch
delta 1035
zcmYLH-ES0C6rXc<cRD*eyR-qN3pQ3tOV_scgNn9L=*JdpF%Ym?Txur6+~e-7vor0z
zV`&=`n((9vvCVx0F&LxI1m1kpN1uGr#QO*M2oHpq_|SOo>;pGBzw>=_&hOs8PJex(
z6c>xOq0aZtef+6wzw`z?*&q4^#`pjEvEySLsv4jDEcT!!x=8n(>E_wyIqJ|pdXn~k
zN9X`Oh3`Eu=parhtUS!=Xr0iv?~&RJ&NR<cqii%UG-qpbIH%<Bqj{YB0cs1lK!?gk
zt*Z2}(i3>>(PEmph()a81difGIzr#Mm)iqAMMrCw(821Jb^<Tm&4ICMY&^~y_`x1*
zuYgfo0%NC$%XAEv9vBbFUC<Su8kE$QZZ2&+ZtL4{TSY!fr84pKKQf$wK%6q4K;Kho
zx=`*>L`cUE(Tk9}32r5<tU_#1T(?GGMC@7-oD|Qkui%Ub^MAluF=LNGkBIE!FfP8a
z=ZjPNhFlm#UvM@l{<d$zvUs;J4+CPW&^NlKvYaS5Vz3W&rRBOUFNj>1y|3I#Mv}&a
zl5r)cS-<$bu%bHOboz^-O25#Z-3D6~*PPzjYsz8QHLNJ85H_G~y+M2Cbns)^T~!ck
z<Awrh@@<}AYe)R*3`0dcbN=;I^HH6$TFALqN6tRc<$Bus+PA;G99(;Tp#n0WG#K(m
z98yWHT-|wXk+GQd22rmcx7I^Uf;gJ)tpMv(eU-~HbBj+hJu*8drjI6{%WRX!ku+(X
zV6@3fI&)ZoH0zi~4yBGC1{fvM#?~#QG>Gb4wX_L6uM09fVKNg$2|KQD=+iKw;f#h+
zk?(%XT-N4-80)@#XHuIp8mbyneipSgt3aAbkc4XAA??_ylRmr5>Br}4Wu@AYtl#hw
zS$MUpn#*VCB`EDzLD}Iq;=o5PJKAK{G38N~>KGwY)$M<!{z&XmE{lrM^*G|_QZMmR
z-en<O-QD;S*|sz{(NAI~^E_w;p~qY*^NU+Pu4}p_pv<i^MTY1p-+(T$SstFWhy#RJ
nK)@oe1354cN*!5Z6HCQxa)e}|6SBLVqy!FFyW}AIXO{dAmGCHr

delta 3208
zcmbtWO>7)V74GVp>FN0&|9cYubbh@iPByU<g_vwYoHz*yo2=qpCF>;2PNr(?9?x{!
zRqZ$)RWmD@3x`0WmLN+u;D}Q=pukETxWOR;gb;85sgE2$IYk1YMJp6|uV%)q!g69p
z^}ScGUcG+x>eZ|I`p!R0W!+3Bslo5#vk%y_z4x<2<X89i{gfQO|L5<=i)`N+?dA`I
zd!*hoO?R<Tc8sPs^oQCbeS;7!_$Mhezfe71eS@ayZn}r={ZOZ4^fh+$p+?8qF~H9~
zilKBtr~B^e^C#Ge>Pe~<wCWeDr{-ta478rj(`@E3nLoqM(20UJKMQm}&`Gv!^Q;;<
z$1-e|O|sY7IeLJ;em8cHh|~1o{CSpUvsYRJ?EFTIXjiqBr%{c4=^k1C3en~-5Ur76
z)ASI#&~f>y_O3?t`3u)CtUPVeHL|ABNjmj4ZT=$F=d|%7AN@(6h>+(&&iHY3H$)~l
zneO{2G|rL22=u~qxyDKkqeYM1@pu75d_0&o_mcy`qUn%5!5>XYjs|ZheoKxAdy)r-
z)hx4OJG5A;)p!Jr7^UT9=1@Kv@Z?Np8bz_1?JNm?B=}kKI=L7Or)J1l@Lp=y<V_eA
zIzX?+-$YHbSge<9r&#32pgSH3^~FhOhoDXIy&wXQ3&C$vp9cf+^qx!|M1MmAgBrgU
z97|hoU4agtLwE;ZT<2rRqob__sa0*m?lpjAWZng6WZ!m|m?NxJQCeWrR%nQI;j#KB
z!3XIH@+5ec{<!%>=L4V`nsp{nOYo~Wy$JA^8{ho--(S1&;^Y$&CcH(?#G+fHp?>M|
zCw;S=yWFxJtL)a7Ys|A<XWA;mq^%!rMGD$!XyOMDMNgvy)6gRuny=ZKPo#FHsof(t
zpZU53%75?aQm1-B+aP{K@e##GWdx-(TG0HMjBfEpTMk-&ye&uGY|CMepJ>aGPs)TO
zw>5rQ5}7Dyn-Ljr%2-8z3|={L8ApDB;NWphCY36MUQ(%=(%8~eywXg9CfSTW*5Kg%
z;)d?0{InO7=?y|-OFI9nOrx_P&-hv3!8zb_eja#O4Dih^zuPlp23FhyGzYX7Xcy2v
z*&};pUnS!A%YJGsY5dnR^H7sHXkBnXBL09Emjj?VK!L*PH9<BgvogOF;lBjht!TbY
zv!IcXd4=6DKjs%!+@{PTp-D6i!(g1I&^%2)if<Wv(Khx%wv0hvX}@BuWeePogHzjp
znn1V9ZF2j7<`2msTm)?MsEorBOg!U$v*UY4`5u$TQUp|nWK4a)Q0oK-rSg_$aVj_n
zlfl6lIM|tS<g;fqnx0urRFl;d&CxvVqTNvQdgLHdsB*o{yShIthpTFzs+nrmA5p3J
z4M>&bk`AuaJWVE4-sT{!`Zjc;No_MPRn|aG_v4te7q|hLz%?mdjSkA>R&Q&jmxFZt
zw2dYnh>npca0NBJYqML9JSP6AO!z4|O1DAwT3*j)uafTY`eaI4vLJWR?Q}?0*q_j0
zf2Y^qk;|R!0-K6z-T)NX-x1B<g#{MAF(P+$Tx+Td3qxPswUVNWVueK>YU}8wM*j37
zD=*p3f+g&_T`O@;;6OiDfHmql)<-@B(8!!;oLRQ8u+mzMg$XPUw`{1rR)xEDYswPt
zDlaoJVO8v!$2cf9?|2hd$)Q%gw8SijtqGXqc+3GYXWlAztdg)U%w4`@xlV1}TC=@H
zYpks@26kADsv6qpQeQ8D2UE%cVKrjPa^t&Oj#%Czvnp<_=C0w2z|T{jfGXy>Rtdhl
z$b@~n?FDCb7x<F1ZaJ>AUwOt^t>nRKK>d~re&9MqP|J)r|CehA{yPejpAm)sHwaCL
z!lwc-*$x2D<KA3HxPgE-6Mqk(1P~f?m*2T^dNwrQbg2!Iq>cDln+tE+YM65jVoZVS
zn`>>mRkMYMo6G9U-nzOUco|JmfRns}>;k~}U>IBG5K^8%5x!OU3_uvO;pP#%4+Yy1
z@PY`9a?NH=@T1&tGhSYFZOD!=-oA=jAIT`S)^>!^s&E~+dfgHgVUpEvF-l=4MVL~2
zab=b9b#9{hIL=GV-YK(Xyq(5(hq-nJ7fal;;Z+c(7r48+3{L}E@=DE67o{*>!3Y$+
z&=e{Hz!`Ya7b|TlLZhOd5^$NeXdL>s2j=1+Kt|o5q2aB<#VEoUX33$}a{&nUCR;rq
z*qdtgnp0uiJ5<Kg2FzrKnQAc^QG?hN?Mkukau#MfC#&T`dQ~u9?1b$It~_4x+9pJs
zF)9LQg~|V1*<p5pIgDdc7n|ryn1Ne<*>wa{F;P#9(74UYp3B2TCw?>}?3ITHJhQ-d
zv90kv@IX8TFm;1O^<=~#=~w=y-b=E23-daRE-3|5H;GA-(DKmIWRUa|Lm!N^XlE3S
zB|*c`yCW^CgElmnt-my0X5)sAHj?U})w695WO`DMlHf(Ye?)&2{TKfboE#_Wpp1Vx
zjNB53IaW3PMlh1~V*EDn!GrARQSPGj4nSzo*30iCb|S*#VFc5CE2sGZR6UAtF!)Dy
zhj9_vGr?%?;uvlXKY=idpk8oikvjzdDTC=F_(X6&w_~2;JCLi#+zN6W;adm-!9&1j
z8vi!J8o~nv^?qAN?gNDHAT$sjBH)69xANCWckm=Xakw{vQPweT5S#vX^kB<iYao7!
VUWitnMBmRt4AaDXUw@g7{TuAhY$gBz

diff --git a/pyth/__pycache__/vectData.cpython-310.pyc b/pyth/__pycache__/vectData.cpython-310.pyc
index ad5b7d5761068ede0ccc9fe7203405c2138f4c53..9cb85afae0f2b46246f3778a2635f28163d634c4 100644
GIT binary patch
literal 6449
zcma)A-E$jP72hvOD_NEuCr#|eZ8uGmSVgg$6gnX`p{}horm>un<g^uO#aj2;R<ioY
z-IY^&WFBz)1cia&fuVH9;my49FYs3|`^qp(o_Gknlwsg^?rLR8wgb}a{oZ@`oclY!
zbM9>n4<{7-{yOwq{<Cw6@)xS~{$i-Si^sj8DhgAW>L?}3HAktbB~_)e?r1f=q|375
z7_~?#BFm~1Eyd(JX30bzapJW^DIxo!&QNWrG*nBLlB&WJdkRu>f0)Ids-=`HnJA6O
zQXHjGSxTUEN|uID8so~t(>%pT_$WWc$5`^qNa+k4W~tAW(o1ZFjUqqG-eP0y^yg~n
z96Q5aLd!Ti%g!O6VB>58`OEBOb{_e8HpyN=KFMBXuOWYhS?mJxSJ~_ABJ$VR8|)Ht
zi(O_{kY8X^ERFni_9pul@{26Pt|EVfO|u!~m-r=;im3%9eeD_PG?!L=-F@sJ8xee?
z>Uvz1w|K>C2sE9lG~8;Pm)&Zu>e!;{ZKH9>Y1pjH8Xm82r8VDVw#U6{jr(y*8FxI}
zk1f7ezOzy&%EG;sd{9^|Wb^(Iy6(*v3LmcI7iD*DemR?t_{L_#^?ak*5J+1t7rxoF
zUH3^tFh9!H>UND+H2UPuFM`~_vw+9FiKMM~%0qQuYb#IH^UAK)Ry%c7)^$&BYa41?
z-%$57rcOW$6Uwg9HlPbFCjccSZTMQf=|`Pv-F7y7quvlTL2Kaiw5@A+uKUAV*UHpx
zJJlV|P`%z;O&n_KKoKwF)o*UhY&L3q#&+#ByI!4H<nAM{(VTI&_*V5HcfIP>noU}t
zX>NO)Go<=O+q0*e+y42A?NnM0)LTBX4>YxFA{kXj)w8Ohib+%|Bt`fmWpx#F2NjQ0
z1mVRvQ<?TTYD{Ow7utlfud&Eeby3+<cU4c{H`-8HAsDYejNlEct)L!d(LMDiYC4uX
zcA)~+aL*vwz|@~aF_qF*_tal%kF`Re44@~n4)}P$jW+$3uh&~Osihz}k9YmVoC6eA
z8nx!F*HM2?Vw_QS-fY^!<z-%5<BV178)erM$foC<2Gr!<LLq$Z8EN6!fAIT8&FsuC
z)wi%&%<{II+*)r4t8b2JYq{lm)*82X)!XF4!n_s+)tl3GW(#3&Pp4ykq6#~3J-c4v
zFc(kw5x417JuyaK9FfEPSZBPSxNkcxo)rQ%r1`^r%VAUtA_#X-?6b$qXJG+1i6o&;
zstGlToi;Ub6%BuT@QXkFbLzq0zh5Cs2!F#U5I;(*_%jNgvadc>b|dWwHW}NhDk$k_
ziMFGQ$|ozkv386B0=uSX>_<@6CtyGOQH+SAW}qkG#oF<<zNhUDwTIfqBSU=J*4l|j
zx+t{G-K1x>vCnAH+sQq!tQTjIw(^z2qHXgl<!fUPYoaYiZC`6tV|WW+k$4I&LM;wx
z#aV)S`dc55^uHJOvLV=PGPiTRkiDB-C|X|Cb9kn!=M3!kk##%2vTOxRc4%v}(#{0|
z>lp!S=UgG6HVZ6f10Ah8yJ;n?i#vu)lS_3lkq4mNv@ZHuZl$<0SpXARHX17qw;Jn~
zOLe!=5*2>oc6!J+Dvf&Gk5*d3Z3sWcKjW2_$9;31dzDSwaU^KO6jt|R>#%O{s5D-G
z2oS?!W%?99(geIcKT>fTE>92p5h<i^c>FW)BT4ATyAp$XHwAY$8x9lKY2wrTGgt$e
zNq3Cvj~{I;d#$F!{ZzLnSY@nR@4gNkhf~txVuF^5cj&In2H`wXbwjTq<w;|>`xX)t
zC^ms%QyoJt%fR%gdPYqVw$-TYi>lf`QYjNHVi7M@@N|DVO7sxKpTCKu191@guG$8d
z5qkkjiiA1b!M;I2YlDP9^gG2q&~ybj9xv91ce44cbvOzLu$FSx)Ro-Im5g<zu(Fz8
z$X-bwM8q|GiB!ILn@ZoN<OY(o9&AbEaf^#>KiQoNyF941p$+bZYRlqXY5AmuP)}kB
zt$o@c;}5mr-bW?W25F*W@PQ^sH&PQ!V>;MB;Cqc3JvE(0dTNF=YGYl8=AyZs_xm(w
z5ezbiWcoq{3U0G)>w8vFwD|0a&f|Hn^JuF~nNR}fai9ivOJ46l6R#rkb<ub-pg&=u
zgS?QqfMjQev?&4Ymg!^N9%DGpZ=CpD;s=;6txDPmmb^=g(ANYBIWD<)kqWf<k-2D}
z=+oSBB+@~efrBI|LnnzfX3&j{7+##T$|}u6^fj)C+cZ8BK+KTL5e-E4BT{BR(KX>C
zKIi-k6tqlhj3Nn*G^M3rq6tmp(b(s6$lp-JP6p}TLK6BMPYXTGzQF*$j+Zdn5vHxj
zo@($5+I~bDXOuh+d;xTn)^j^QPgtGbQVu~Q*<5ku2%B3|Qq+t^q?j25WaiLpF#@4!
z#*#2hcjvx8e|I%ou%<4#8LR)XGM8L>(z9}KF&z_82!?<KpzF7EFnyy|Lo6VTJtn@3
zapEQ=vy{wHLYl!ifU(8{ju^nsI~Y*H<ED^+9zlbny76z*NUDPR`b?h8ogSK15KR!R
zUF|bYsSw)#<E?U5!sZ}gCh<PalcS{nt9+C2L6~Cb47f<^;i3=GdgQ~xi1T>{y&)GJ
zGBeX?+mGdDJ@?H3!}M-zz#zvu^$tmg9COK?MVx66)krY~vEra;DH2V-AqA{q$a4y_
zh-{POpvd+75Dg~^C_X|juqr;L9D(g^grP53afDV3!UVZw3$KX>lzfV$?`T6hB)*^x
zeolcxM~~q1T^wTI;dC;lb*W4AA)M=&4uCMXdT(*Qm_2GNg>3QABEZE!c;MZn5d{qg
z#sInnG1`IQ$Lst_8F4gpDgjPWMgW`v%$%+@Sap3n^kP!fACnw(SRt*BLcfBvdZNgp
zj9$X@jTeb>xZOv^5I@2U!lq>4^TwKjBhseGs1w4uU(hf@xZp_oh?_Pd1hhMiN@pWf
zYy`p#Yy`rKbyY%Im0YKzH3&DzX+nkveRkQ$RNY9R$BTA2>Ugs~B51(=#=w^N!)}vT
zs_WHCxrsCNpbAb&AciBzynhPGx}ioYME?e915fv-qeRaF9+%>qqvlP4S0}uXu#`ti
z=%^<IGjcl@IyyO-p!#-!JRR+Vbe|L=Y<A9<L5T3H;C%T3I;5!SAV3J{cVPSDb1tHA
zI$QpRhRZO)B7Gn(4`PI#z#tqNXt{?hap$oXj2_hOaNk_N#u{C{CS<@1R(XilKKV$e
zU6fr$<$s~<(Acjo;sgX^e-SSpns@q$bxWV658!7|s1e-ha9l!!sQMj=6`FI3%=r<C
zgs1!K6X{(v2O@c3Fs6N}jw`zg-80~jsWM%fQsmH-&?AEZm{P3EY(`FoU&QRp-gb8~
z|Ci)AnazRd(x!CZLdJ#^t{lg5ooJmdw6@DmqrMS%YUv#ZVT7ZfUB{Kc#_uti++sS-
z7zmI|(nlSwefl5>lTH?B_{nD$Xi0K;XfQGy0*PE+%&*+Diu3Q?&00&ht?Wljg<|0d
z!_OiP?2k<(dk1o9CrguHqR}jS_L{^0K;K8P90@~*4hYjgwNDro4P9XfK_L&|v$4U%
z0iNz5sFjXhgUhFukOPz;;tM0aOAGldxvT6)#cZyyw2~tM>6Fzcq@BZ}-MFpuN>?98
zh94gIt*P!?7Jj$}TB~lrO;>Hlx|d&Cp3i@5eUSY)(>E%xnEUhjg*)^4fi6Uv*0DX3
z%#Q8p2H>3?o4WR$x8F(k&)f9{$4^dyqg7m5&K8RE%lE9s?Cts0yG3hZHJ{Jsisf!k
z|D=J7d~aptZgxJ`m9P`jrlW&kp*`(EjCx$8>c=aX6=cBH{)pinb|a+VNdhfRwBr0i
z&N6)&SGewWrP18DF31A>Q_YRwMrOL(PK)~E?jsnKs8828ZuKhebknYiCsphd@uDBW
zomq1`xNOrJF0O;+<+Gp|DKKoZX+H|`#htXEJ1~)=WP}nr#E4T!{21NL;DR*}e3IJb
zIct$hbh4Ib8yRp53T|ZpD8n-uu*mp8kXw`-E?G~Sx-=0fc@K3;%8)mj<{V<8mcwt6
z;kY>@rjmqZ1#xB)5m8i2XbEVL{)VQh;XnE>(=?-rxH*Y@*i4vl<Z&}*MrA3AS}Za4
EUz@qqc>n+a

literal 6045
zcmb7ITXWmS6~>Juc-6&<W5t)iu^o#EE!FO{O=8E1Y|*hATU1Fp7d9ye;zAN)kf0Zk
z9BH5@=he+jpE{FCM}G8M|3do@`ihx8bo$WAOWPT@FX?oq-&v5LNKvjs4t5v23t;h`
z?>px#+<ZPG;n#ipw^ndUlKx632Y)G?ypO|sLzW~aG1-wCR4b0umK(B6ZPiiQYC{!m
z&C%M4Mnbe@C)r4eYxIVWI^m?-nMOv8C7o<L+sL+ajhrl5nMV>zeLv4qPvk~Hv~;v4
zL@SNfq-bT(ni8!nTGN*F#WAa3O<0rGlr_zAj}wg<mS=^pq{d6E#3tF)S90Sxn`Xz*
z^D>)ZFQGocj<c6h&$1J27WFIa6?PK!Np^~zMtzE%VXvY-%?x%H^%?dWJBRvJcAi~8
zZLrtbMbu~694n%JjlIF%M19UWXU#k!MC6)Oy!0KRxKflu)qCKen&8%k?fDjOZd)zi
z<>;Dfxt`sznx5UZ9h2Ms4mz`rYqBPDeXFxwR6?DZzUA9(D@;?#EXOy))Y6US?MkgK
z8mpCR)VNnGSHmoZRu^lvk1N$BF}$*PxBN5_YMZX-hg#R=D7QR|hkDoayoWAlVUn$N
z%(m51Xvw`_0=0(YCJyf%6oKSRU&#APAU%;!N_$Em_s(T;uKH@AY{-GSAwN=>JPQ<N
zr9CasfQ7QcK_027g-WLzCLOzDIvb(Zae155Gm42&*}jb9N|@ii+@yZfv3D(o(<=v0
zGXtcaO8g`){r;_mO}A|=n4Y<2cI<^E%e(Kp-34#k+P1&2Jm0?5HVO5G?vB5?K+rFl
zzB%9B2~W06r?uq(-sT}Y(5*ck#iTqbA6GP)pT^1GKKuHQ|DOBoAMdpYo&K+Y2B}0K
z^>;J~7hmyJU-J`wlF5$~dx;>ipL!zgC4=O?&Xgx$30i6Nq=M9v^!e(Z9_UO3Vrf6K
zpG8}n1<w09%*fy@fsw4A4>E!JNZHE;xj?(GaXV0g?0uF0DoF3;{X!rGGJ4b?{|Nf?
zCs;C&zL8ieNPi=Js}VENr;EPyx2j-jW-pI*Og@47z}sw%X5?sOxc9+q|H^NbgQF}D
z>lRjc9&f#SrB=REzF9YX+jp#z)n2n0vpX9lnESqQt6I5hM8qGM=Bl8@cf^hFh<m#)
z*CHhtAiZg<yIURhj*&6W?P{XTEq6d%A2)pmeTtC@m6b|;_f!q!H9U8Vw=Bb5H#|Bu
zF|XxVXKxj!z;th?<#so&gsGO>>3{>AjK(LZn51HgifI&KvbDuMmxn3qORKfzTcN&g
z`K?XUariMBPnevWJ7H=a#DPQwFT$)X7S^O?hlwt?JARmGIj(0F3t>V45^BEnC8S4a
zgy|R^sCtuI-lprYP@~21^YoNs)|c=Vc+qA&(+f`=?ri#7UB?Ow@ksQn>G(XpJj};^
zv;_VNJtp1LQ<DiXMFpaO6i(P)-z|x^dJUc4brhPc#Q)@f^i)RCWgW+~tjif3x~xGm
zGdMJ~lVU6>EB`7KXoSCoTeNV*Khl3+J<sR?W7GrRBh(`^h5XLG9z+U~g@RP{WQf6m
z3O1@eHr9vO7{BLuA{rmxE?3LOU>0a)EUy@I7gs75OUA`o<zDq>`C{>DmJ<;C92G}V
zNLY|xpee6Y@g|C*#xGM_7&q}?%i=p>E`A(XGm3w9!}9wExP>b{vezi~T8ub<7sEqd
ziJTWjcHxz(XpF%%;ivX>;gu47U$mcL@bEo9q6JB&uBV<Tz&5d;6&R<;Cs70k)>;qi
zUuTToZ+QhVh@h)i4yoOki#&rtLMR!;!jcj5vot`z1Q*h_N(Q$~wo{Dn{n6r`d*zxj
zcfl(e!-rA2;L%aMDkj&9`4=%$5}<@?$9*_37}W2!+qNIsOy?y`;g_hGr(%JMpHV@^
z#N;L|G`gH3#y~&3h|`a8c%-ILyXk6DnN+p^>WQ2pW*(^s{x&X;Ielq}(*nllIai9>
zPY)1}Uqwf#k&_ywn@)72fi|Wb#WhkoX_zQ=<cgoYkI^w)8>3;S3TBN{agSNwe=zjM
zL(CEEc&?nI8SjEDSCLm~bq?7PCVY{KVS|MQLO@(0aM;6?XX7=O>*MeN<{XIwU&3f#
zA-qf{a+tVfI*4FLE@DEcUIa3+ipRK&-=^Z{C=TUkvERIg(J`1Sfg=2-3cslZD*UEK
z+Fn-#?h0wXr{uoZymoJOX|Y~Dtle6<J`kuunD%_8&~()CH1i^|BNrHX$M?`eW}5C;
z51ZSj1M3LA#g0<&b<|GB+Ag!#cly3j!1O!Z=-F`;nlc=mG-XnO#3~p%5<LDPMq`P+
z^*jIuggX54{0?rz?@}?stm!Vdy2$Pk%zH_R_j{VQO2scwv?u}U|0uKU+ts^)lQDLc
z5%DOSRA5(R-LR_~NbB;zs<5`wi;0wf_pOT!!hsBJNKJ7pI^dF@E3Sdv1)YnDamEYt
zUe{{b>vpTz#r9(qnJGc{{tR+If4~cS<7HP6sRZ0l4Rel^okwaJ1KAk&LrFMOnf4VV
zK~h+f9?5|7U^0>D1-P?4;EwjTLpG#bmhu`}sW*dS6OaEqxd*#3X;%7;@<4%AWRd*}
zOt8;W=6@6gnGyD+uX)Hn-FEl-pXqLN>lta+AmosfHfcrP{58kLX2!cdA5V^qa>)7X
zY%RKE)D-!l8~%wNHQo#vc^du?W}xUc^w#voF>}eqjWNUjW$uVSy0iqw!XJ&@J{%HZ
z@drAfUS{?JUS|UPZVMa5KArzU011yH4|yD2lM6~t=ARHaIO5+BICXT70Y{3`F+a@|
zraqQWNFa<vGKSDKA@nSSF872kMTr=Mo{!ylkFWeyJb*$TGk3h*(hFgTEz>o4^<v>g
zd^n{}oRW1;1|Q^4oLu_BgqJ>F>@*#>vk^_A3}lpgX>8NX4nBlz{1c-Q?S}mLw5}_f
zLiz`?zr>s&WL0#;wEKY@2q_AIea(xcw(l%oU#eDCjr!t^J7r_}mQns>xmK?o3XE5a
zKX6MhKu8^I3C2dc4C8LM>6>egr6EFiC-9;pnWU~M*mDsqpAjqv;|Mv57#506;|SN^
zR{?<DR|!8Izzrhbryf;&rw|krJz@til=)w{SuIn(Q2wM|Ua2itRtPHEJPpBRR<N=-
zkMCU)BYSB2-~)j%7hgpi44WBi_68Ct+jNZ8>hj&i>Zits<xfjPv!clK(PH)H?ZxWI
z5OyBM*b(8`$Bx81l%DP9F8}1mKP?X5H;$g;Z%(@eqrQB%T&pkMT{V`<w-)c+sT()%
zRjcKddNUpwzG;+g+^AIUlowYr@hkQ=ImO(I2z8KbkxUNAQ#nAs(TLN+li};w+Dk;c
zabW<Peg#JX#QPlgMJPK%)%j>iM7?mTyAgfvneTsm;k1PCgm)iu=bibs<#W5`&38?k
zKeS;~a*<)8v(@hIM4ws|*Tbht@gbB`TEvChAyS7)ge!a>J$es*j^>L@@-(&RvxC?p
zi|v-!!SD~LkMe4fABs#&<Q5{b2@fuujgXdj%>#~0Kt@};P``$Rbjz`>llVNkoi62M
r`qOSHhwmUsH3OAK|B(b$&!qJ8`jmcLpTvJkpT<G034KPN%ANTitnM;m

diff --git a/pyth/articles.py b/pyth/articles.py
index 346a917..56d5c5a 100644
--- a/pyth/articles.py
+++ b/pyth/articles.py
@@ -1,12 +1,10 @@
 import psycopg2
 import numpy as np
-from sklearn.metrics.pairwise import cosine_similarity
 from dotenv import load_dotenv
 import os
-from openai import OpenAI , APIError 
+from openai import OpenAI
 from langchain.embeddings import OpenAIEmbeddings
-from vectData import get_specific_data, modify_similar_data, insert_data, preparing_articles, get_source_data, get_ready_data
-import tiktoken
+from vectData import get_specific_data, modify_similar_data, insert_data, preparing_articles, calculate_cosine_similarity,get_titles_links_embeddings
 from scrapingsingle import num_tokens_from_string, slice_text_at_2k_tokens
 import json
 
@@ -18,80 +16,30 @@ embeddings = OpenAIEmbeddings()
 
 print(f"Checking for similar!")
 
-host = os.getenv("DB_HOST")
-port = os.getenv("DB_PORT")
-user = os.getenv("DB_USER")
-password = os.getenv("DB_PASSWORD")
-dbname = os.getenv("DB_NAME")
-
-def calculate_cosine_similarity(v1, v2):
-    v1_normalized = v1 / np.linalg.norm(v1)
-    v2_normalized = v2 / np.linalg.norm(v2)
-
-    similarity = cosine_similarity([v1_normalized], [v2_normalized])[0][0]
-    return similarity
-
-def parse_embedding_string(embedding_str):
-    if isinstance(embedding_str, str):
-        numbers = [float(num) for num in embedding_str[1:-1].split(',')]
-        return np.array(numbers)
-    elif isinstance(embedding_str, np.ndarray):
-        return embedding_str
-    else:
-        raise ValueError("Invalid type for embedding_str. Must be either str or np.ndarray.")
-
-
-def get_titles_links_embeddings():
-    conn = psycopg2.connect(
-        host=host,
-        port=port,
-        user=user,
-        password=password,
-        dbname=dbname
-    )
-    cursor = conn.cursor()
-    cursor.execute('SELECT title, link, embedding FROM vectorsvevijesti WHERE ready = True;')
-    data = cursor.fetchall()
-    cursor.close()
-
-    titles = [row[0] for row in data]
-    links = [row[1] for row in data]
-    embeddings = [parse_embedding_string(row[2]) for row in data]
-
-    return titles, links, embeddings
 
 def find_and_group_similar_articles(eps=0.5, min_samples=2, threshold=0.95):
     try:
-        conn = psycopg2.connect(
-            host=host,
-            port=port,
-            user=user,
-            password=password,
-            dbname=dbname
-        )
+        titles, links, embeddings = get_titles_links_embeddings()
 
-        with conn, conn.cursor() as cursor:
-            titles, links, embeddings = get_titles_links_embeddings()
+        processed_articles = set()
+        grouped_similar_articles = []
 
-            processed_articles = set()
-            grouped_similar_articles = []
+        for i, (title1, link1, embedding1) in enumerate(zip(titles, links, embeddings)):
+            if (title1, link1) not in processed_articles:
+                processed_articles.add((title1, link1))
+                group = [(title1, link1)]
 
-            for i, (title1, link1, embedding1) in enumerate(zip(titles, links, embeddings)):
-                if (title1, link1) not in processed_articles:
-                    processed_articles.add((title1, link1))
-                    group = [(title1, link1)]
+                for j, (title2, link2, embedding2) in enumerate(zip(titles, links, embeddings)):
+                    if i != j and (title2, link2) not in processed_articles:
+                        similarity = calculate_cosine_similarity(embedding1, embedding2)
 
-                    for j, (title2, link2, embedding2) in enumerate(zip(titles, links, embeddings)):
-                        if i != j and (title2, link2) not in processed_articles:
-                            similarity = calculate_cosine_similarity(embedding1, embedding2)
+                        if similarity > threshold:
+                            processed_articles.add((title2, link2))
+                            group.append((title2, link2))
 
-                            if similarity > threshold:
-                                processed_articles.add((title2, link2))
-                                group.append((title2, link2))
+                grouped_similar_articles.append(group)
 
-                    grouped_similar_articles.append(group)
-
-            return grouped_similar_articles
+        return grouped_similar_articles
 
     except psycopg2.Error as e:
         print(f"Error: {e}")
@@ -101,7 +49,6 @@ def processing_similar():
         grouped_similar_articles_result = find_and_group_similar_articles()
 
         if grouped_similar_articles_result:
-
             for group in grouped_similar_articles_result:
                 articles = []
 
@@ -112,8 +59,8 @@ def processing_similar():
                             article = [title, link]
                             articles.append(article)
                     l = len(articles)
+
                     if l == 2:
-                        print("2")
                         a_one = articles[0][0]
                         a_two = articles[1][0]
 
@@ -141,7 +88,6 @@ def processing_similar():
                         modify_similar_data(similar_d, a_two)
                         preparing_articles(False, a_two)
 
-                        print(tokens)
                         if tokens > 2000:
                             combined_text = f"{text1} {text2}"
                             combined_text = slice_text_at_2k_tokens(combined_text)
@@ -150,7 +96,6 @@ def processing_similar():
                             user_message = rf"Here are 2 texts {text1} {text2}, combine the following texts into a cohesive news remove any non-news related to both texts and provide the cleaned data as a JSON only with single 'content' field."
 
                     if l == 3:
-                        print("3")
                         a_one = articles[0][0]
                         a_two = articles[1][0]
                         a_three = articles[2][0]
@@ -190,13 +135,82 @@ def processing_similar():
                         modify_similar_data(similar_d, a_three)
                         preparing_articles(False, a_three)
 
-                        print(tokens)
                         if tokens > 2000:
                             combined_text = f"{text1} {text2} {text3}"
                             combined_text = slice_text_at_2k_tokens(combined_text)
                             user_message = rf"Here is text {combined_text}, combined from 3 sources, filter text, and make news content, return as JSON only with single 'content' field"
                         else:
                             user_message = rf"Here are 3 texts {text1} {text2} and {text3}, combine the following texts into a cohesive news remove any non-news related to both texts and provide the cleaned data as a JSON only with single 'content' field."
+                    if l == 4:
+                        print("4")
+                        a_one = articles[0][0]
+                        a_two = articles[1][0]
+                        a_three = articles[2][0]
+                        a_four = articles[3][0]
+
+                        get_one = get_specific_data(a_one)
+                        get_two = get_specific_data(a_two)
+                        get_three = get_specific_data(a_three)
+                        get_four = get_specific_data(a_four)
+
+                        text1 = get_one[0][1]
+                        text2 = get_two[0][1]
+                        text3 = get_three[0][1]
+                        text4 = get_four[0][1]
+                        link1 = get_one[0][2]
+                        link2 = get_two[0][2]
+                        link3 = get_three[0][2]
+                        link4 = get_four[0][2]
+
+                        if link1 != link2:
+                            if link2 != link3:
+                                if link3 != link4:
+                                    link = f"{link1}, {link2}, {link3}, {link4}"
+                                else:
+                                    link = f"{link1}, {link2}, {link3}"
+                            else:
+                                if link3 != link4:
+                                    link = f"{link1}, {link2}, {link4}"
+                                else:
+                                    link = f"{link1}, {link2}"
+                        else:
+                            if link2 != link3:
+                                if link3 != link4:
+                                    link = f"{link1}, {link3}, {link4}"
+                                else:
+                                    link = f"{link1}, {link3}"
+                            else:
+                                if link3 != link4:
+                                    link = f"{link1}, {link4}"
+                                else:
+                                    link = link1
+
+                        ftoks = num_tokens_from_string(text1)
+                        stoks = num_tokens_from_string(text2)
+                        ttoks = num_tokens_from_string(text3)
+                        frtoks = num_tokens_from_string(text4)
+
+                        tokens = ftoks + stoks + ttoks + frtoks
+
+                        similar_d = f"C: {a_one}, {a_two}, {a_three}, {a_four}"
+                        modify_similar_data(similar_d, a_one)
+                        preparing_articles(False, a_one)
+
+                        modify_similar_data(similar_d, a_two)
+                        preparing_articles(False, a_two)
+
+                        modify_similar_data(similar_d, a_three)
+                        preparing_articles(False, a_three)
+
+                        modify_similar_data(similar_d, a_four)
+                        preparing_articles(False, a_four)
+
+                        if tokens > 2000:
+                            combined_text = f"{text1} {text2} {text3} {text4}"
+                            combined_text = slice_text_at_2k_tokens(combined_text)
+                            user_message = rf"Here is text {combined_text}, combined from 4 sources, filter text, and make news content, return as JSON only with a single 'content' field"
+                        else:
+                            user_message = rf"Here are 4 texts {text1} {text2} {text3} and {text4}, combine the following texts into a cohesive news, remove any non-news related to all texts, and provide the cleaned data as a JSON only with a single 'content' field."
                     try:
                         completion = client.chat.completions.create(
                             model="gpt-3.5-turbo",
@@ -216,16 +230,11 @@ def processing_similar():
 
                     except Exception as e:
                         print(f"Error: {e}")
-                        print(f"Title: {a_one}")
-                        print(f"Answer: {generated_text}")
+                        print(a_one)
                         continue
+            else:
+                print("Done!.")
         else:
             print("No similar articles found.")
 if __name__=="__main__":
     processing_similar()
-ready = get_ready_data()
-if ready:
-    for a in ready:
-        print(f"Title: {a[0]}")
-        print(f"Link: {a[2]}")
-        print(f"Status: {a[3]}")
\ No newline at end of file
diff --git a/pyth/scrapingsingle.py b/pyth/scrapingsingle.py
index ac86b52..e939adb 100644
--- a/pyth/scrapingsingle.py
+++ b/pyth/scrapingsingle.py
@@ -1,10 +1,10 @@
 from bs4 import BeautifulSoup
 import requests
 from urllib.parse import urljoin
-from openai import OpenAI , APIError 
+from openai import OpenAI 
 import os
 from langchain.embeddings import OpenAIEmbeddings
-from vectData import (insert_data ,is_similar_data ,get_similar, get_specific_data,get_all_links,cleansing ,modify_similar_data)
+from vectData import (insert_data ,is_similar_data ,get_all_links,cleansing )
 import json
 from dotenv import load_dotenv
 import tiktoken
@@ -39,7 +39,7 @@ def slice_text_at_2k_tokens(text):
 
     sliced_tokens = tokens[:max_tokens]
     sliced_text = encoding.decode(sliced_tokens)
-    
+
     return sliced_text
 
 
@@ -82,7 +82,6 @@ def get_article_links(url, already_checked):
         return link_store
 
 
-
 already_checked = set()
 
 for dlink in dlinks:
@@ -116,8 +115,6 @@ if __name__ == '__main__':
     
     title_text = replace_with_spaces(title_text)
 
-    
-    print(f"Tokens usage: {num_tokens_from_string(text_text, 'gpt-3.5-turbo')}")
     text_text = slice_text_at_2k_tokens(text_text)
     text_text = replace_with_spaces(str(text_text))
     
@@ -138,13 +135,6 @@ if __name__ == '__main__':
         title = response_data["title"]
         text = response_data["content"]
 
-        #print("*********************************")
-        #print(f"Title: {title}")
-        #print("---------------------------------")
-        #print(f"Content : {text}")
-        #print("*********************************")
-
-
         vector = embeddings.embed_query(generated_text)
         
         if not is_similar_data(title, text, link, vector, threshold=0.98):
diff --git a/pyth/vectData.py b/pyth/vectData.py
index 35a642c..e3deda7 100644
--- a/pyth/vectData.py
+++ b/pyth/vectData.py
@@ -7,7 +7,6 @@ import os
 from dotenv import load_dotenv
 from datetime import datetime ,timedelta
 
-
 load_dotenv()
 
 host = os.getenv("DB_HOST")
@@ -27,20 +26,20 @@ conn = psycopg2.connect(
 def calculate_cosine_similarity(v1, v2):
     v1_normalized = v1 / np.linalg.norm(v1)
     v2_normalized = v2 / np.linalg.norm(v2)
-
     similarity = cosine_similarity([v1_normalized], [v2_normalized])[0][0]
     return similarity
 
-def is_similar_data(title, text, link, embedding, threshold=0.98):
-    conn = psycopg2.connect(
-        host=host,
-        port=port,
-        user=user,
-        password=password,
-        dbname=dbname
-    )
-    cursor = conn.cursor()
+def parse_embedding_string(embedding_str):
+    if isinstance(embedding_str, str):
+        numbers = [float(num) for num in embedding_str[1:-1].split(',')]
+        return np.array(numbers)
+    elif isinstance(embedding_str, np.ndarray):
+        return embedding_str
+    else:
+        raise ValueError("Invalid type for embedding_str. Must be either str or np.ndarray.")
 
+def is_similar_data(title, text, link, embedding, threshold=0.98):
+    cursor = conn.cursor()
     cursor.execute('SELECT title,embedding,link FROM vectorsvevijesti;')
     existing_embeddings = cursor.fetchall()
 
@@ -54,12 +53,12 @@ def is_similar_data(title, text, link, embedding, threshold=0.98):
                 similar_d = existing_title
                 insert_data(title,text,link,embedding,similar_d)
                 print(f"Similar data found: \n #{title} \n #{existing_title}")
-                print(f"Inserting: #{title} \n")
+                print(f"Inserting: #{title}")
                 similar_d = "NO"
                 cursor.close()
                 return True
             else:
-                print(f"Same source of same article!")
+                print(f"Same article of same source!")
                 cursor.close()
                 return True
 
@@ -68,13 +67,6 @@ def is_similar_data(title, text, link, embedding, threshold=0.98):
     return False
 
 def get_similar():
-    conn = psycopg2.connect(
-        host=host,
-        port=port,
-        user=user,
-        password=password,
-        dbname=dbname
-    )
     cursor = conn.cursor()
     query = '''SELECT title,similar_d FROM vectorsvevijesti WHERE similar_d NOT IN ('NO', 'SOURCE')'''
     cursor.execute(query)
@@ -82,73 +74,49 @@ def get_similar():
     cursor.close()
     return similar_data
 
+def get_titles_links_embeddings():
+    cursor = conn.cursor()
+    cursor.execute('SELECT title, link, embedding FROM vectorsvevijesti WHERE ready = True;')
+    data = cursor.fetchall()
+    cursor.close()
+
+    titles = [row[0] for row in data]
+    links = [row[1] for row in data]
+    embeddings = [parse_embedding_string(row[2]) for row in data]
+
+    return titles, links, embeddings
 
 
 def insert_data(title, text, link, embedding, similar_d):
-    conn = psycopg2.connect(
-        host=host,
-        port=port,
-        user=user,
-        password=password,
-        dbname=dbname
-    )
     c_time = datetime.now()
-
-
     cursor = conn.cursor()
-
     cursor.execute('''
         INSERT INTO vectorsvevijesti (title, text, link, embedding, similar_d, time, ready)
         VALUES (%s, %s, %s, %s, %s ,%s ,%s);
     ''', (title, text, link, embedding , similar_d, c_time, True))
-
     conn.commit()
-
     cursor.close()
 
 def get_data():
-    conn = psycopg2.connect(
-        host=host,
-        port=port,
-        user=user,
-        password=password,
-        dbname=dbname
-    )
+
     cursor = conn.cursor()
     query = '''SELECT title,text,link FROM vectorsvevijesti;'''
-
     cursor.execute(query)
     data = cursor.fetchall()
     cursor.close()
     return data
 
 def get_ready_data():
-    conn = psycopg2.connect(
-        host=host,
-        port=port,
-        user=user,
-        password=password,
-        dbname=dbname
-    )
     cursor = conn.cursor()
     query = '''SELECT title, text, link, ready FROM vectorsvevijesti WHERE ready = %s;'''
-
     cursor.execute(query, ('True',))
     data = cursor.fetchall()
     cursor.close()
     return data
 
 def get_source_data():
-    conn = psycopg2.connect(
-        host=host,
-        port=port,
-        user=user,
-        password=password,
-        dbname=dbname
-    )
     cursor = conn.cursor()
     query = '''SELECT title, text, link, ready FROM vectorsvevijesti WHERE ready = %s;'''
-
     cursor.execute(query, ('False',))
     data = cursor.fetchall()
     cursor.close()
@@ -156,138 +124,60 @@ def get_source_data():
 
 
 def modify_similar_data(new_value ,title):
-
-    conn = psycopg2.connect(
-        host=host,
-        port=port,
-        user=user,
-        password=password,
-        dbname=dbname
-    ) 
     cursor = conn.cursor()
-
     query = '''UPDATE vectorsvevijesti SET similar_d = %s WHERE title = %s '''
-
     cursor.execute(query, (new_value, title))
-
     conn.commit()
 
 
 def preparing_articles(new_value ,title):
-
-    conn = psycopg2.connect(
-        host=host,
-        port=port,
-        user=user,
-        password=password,
-        dbname=dbname
-    ) 
     cursor = conn.cursor()
-
     query = '''UPDATE vectorsvevijesti SET ready = %s WHERE title = %s '''
-
     cursor.execute(query, (new_value, title))
-
     conn.commit()
 
 def get_specific_data(title):
-    conn = psycopg2.connect(
-        host=host,
-        port=port,
-        user=user,
-        password=password,
-        dbname=dbname
-    )
     cursor = conn.cursor()
-    query = '''SELECT title, text, link, similar_d, embedding FROM vectorsvevijesti WHERE title = %s'''
+    query = '''SELECT title, text, link, similar_d, embedding, ready FROM vectorsvevijesti WHERE title = %s'''
     cursor.execute(query, (title,))
-    
     specific_post = cursor.fetchall()
     cursor.close()
     return specific_post
 
+
 def get_all_links():
-    conn = psycopg2.connect(
-        host=host,
-        port=port,
-        user=user,
-        password=password,
-        dbname=dbname
-    )
     cursor = conn.cursor()
     query = '''SELECT link FROM vectorsvevijesti'''
     cursor.execute(query)
-
     db_links = {link[0] for link in cursor.fetchall()}
     cursor.close()
     return db_links
 
 def delete_specific(title):
-    conn = psycopg2.connect(
-        host=host,
-        port=port,
-        user=user,
-        password=password,
-        dbname=dbname
-    )
-
     cursor = conn.cursor()
     query = '''DELETE FROM vectorsvevijesti WHERE title = %s'''
-
     cursor.execute(query,(title,))
     cursor.close()
 
 def cleansing():
-
-    conn = psycopg2.connect(
-        host=host,
-        port=port,
-        user=user,
-        password=password,
-        dbname=dbname
-    )
-
     day_long = datetime.now() - timedelta(days=1)
-
     cursor = conn.cursor()
-
     query = '''DELETE FROM vectorsvevijesti WHERE time < %s'''
     cursor.execute(query,(day_long,))
-
     conn.commit()
     cursor.close()
 
 def drop_table():
-    conn = psycopg2.connect(
-        host=host,
-        port=port,
-        user=user,
-        password=password,
-        dbname=dbname
-    )
-
     cursor = conn.cursor()
-
     query = '''DROP TABLE IF EXISTS vectorsvevijesti;'''
     cursor.execute(query)
-
     conn.commit()
     cursor.close()
 
-def create_db(conn):
-    conn = psycopg2.connect(
-        host=host,
-        port=port,
-        user=user,
-        password=password,
-        dbname=dbname
-    )
+def create_db():
     cursor = conn.cursor()
-
     cursor.execute("CREATE EXTENSION IF NOT EXISTS vector")
-
     register_vector(conn)
-
     cursor.execute('''
         CREATE TABLE IF NOT EXISTS vectorsvevijesti (
             id bigserial PRIMARY KEY,
@@ -298,10 +188,8 @@ def create_db(conn):
             similar_d VARCHAR,
             time TIMESTAMP DEFAULT CURRENT_TIMESTAMP,
             ready BOOLEAN
-
         );
     ''')
-
     conn.commit()
     cursor.close()
-create_db(conn)
+create_db()

From 54a41046ce4b7b1a14f14150f003ac38b73d4502 Mon Sep 17 00:00:00 2001
From: Amir Sabani <amirsabani303@gmail.com>
Date: Mon, 8 Jan 2024 00:28:20 +0100
Subject: [PATCH 5/5] Fixed response/JSON

---
 .../scrapingsingle.cpython-310.pyc            | Bin 4361 -> 4498 bytes
 pyth/__pycache__/vectData.cpython-310.pyc     | Bin 6449 -> 6449 bytes
 pyth/articles.py                              |   5 ++-
 pyth/scrapingsingle.py                        |  41 +++++++++---------
 4 files changed, 23 insertions(+), 23 deletions(-)

diff --git a/pyth/__pycache__/scrapingsingle.cpython-310.pyc b/pyth/__pycache__/scrapingsingle.cpython-310.pyc
index 2598ed55e69e99b6c90bdb13b4eeebcdb0e7a35c..b39ce5c530a438802d33a09755610775c64abdd0 100644
GIT binary patch
delta 2015
zcmZ8iO;8h89N)LuY&Kt;009!@BM>18C_=yhiXe&~lv<tE)^VLqCh-1*4Z8`xjUV-b
zQ@D80(Y{kh?VvY1ogQpYJ@(w`^kX`m+3Cq!4?TJ5$@c#?RGqT(e*f=}ef$51I|H9(
z^m;TJlJHL}JOsP#f!<Aic`$Nti%3+WvK24_Nd1;(2aTYoQ>~C4Ho|tqh}cmhYU_r+
z=NmI(=o_%&c8k%nr)xD@QKwmLcEU&y30k%#MBT%{ZaWP=Aw~zN+mg`<LBwQ5qM@h6
z*h<kbjhMvfqKByt`)CZh*AyD3EjxarhqltT9m(jW3EGadk9N>bq-mO@DWv@{fT=Pb
z?x$UJAL<4@X$Vq_(#N`yg+a)|(6(&kAjj@QW;YMHCxl2>Kc(HYXGhwC%%ZeSjA0mn
z=(gZSU>HV{l5qeIc-mpl+7C^7koIoK_Xz_S#sc3Oqag1df>G#tA{%2sV5~Y$`><RA
z3cC~dj_Ica-+Yqx?;fTDG_xbYq^O6wqVS+w`zu12@*D;|hp9b>X_z*qp@@!YC}I;u
z=!I#d(<tu~oX7Wgx*3?ELmLYF2l|@6x0a!^dZc=^I!mK8OLH{;NT$Pd1d0zOdH|*o
z4?gzO{MIA6BGb{kvT+QKRp+RblB)C7<HiCcU;zs(Ky3E}EMSW#;Uqnjl8i;9V@Ss#
zxqHg9oQ4Q2!Z_Z-X*x~|cm4N?vqUG1GZ6ky4`;UhM7ktheXdAw_CEQ963JL1(yc>L
zc!y5H(nIO7yp7-Gl5`oz(O9~&boF_Y-XJ$n^MQBrMgBt0^buD*zX`R4r95%tP41Mv
z0+gDyij!CPsIQOPzEm%o!&bdaOSImA+I1l^*esi@RCVgLZ@%<xl9Y}s;ri`51<Tc-
zwptfSo=L2OPx!CIl4x}lgb>jQOY+D5Zt{|U=f9APqSE{#AW6^sERH;D5zr=}6~R?0
zU@myZ3u=b6^N-YAxI-8{=;U|Q?w)RxUkYc1C?teWgs6BzD6xzvb%CYOn)kiOM72LD
z0_zeWBAc0-=}>gr9m`yWQp0RmP%_s_H2?}UD?IlL7((Flk#_E?Ka&prRiMB9O>l6w
z0yVg~$>t{ci@^KMR!2lwC!g1nEd^v96+t0M(cTze*J>oof7g}^Z@m^exWP5^X2~*Z
z8_tvn68EbT4WEd3WDK6+7lS{MIX)PAmrQaNI+2?dfqpNDi6}QD_|o;Vbq(HrPyR>f
zI623A!o`)>Rr4~-ix9<Zfc>_!PzGlmXsp)l%{c=_M@C3U?7T2(rIKAXYo!u9ield9
z%IgI@<9H@m4pn$rDgI-4dcsTZ_b&GT`9rgo=`;(N81hmSNJ`A$Gm-R>izu)U1zbYd
z>yz~e#p~`_rw~PRmSC<Rm{x$_i+oPL=DFxf(k^d6+PTIc-B>R-(q_X+<F%NS--~t?
z)=aQyx?H2_>}tJ+Gv3IiJ>4i)OJFWnv%zu76>!*Pk-x-$i%zwQY059Vz7=PZiH_Mk
z@6|I~u3UHAgjKFpR@d=nM&b2NF~67VI;=Jp%Z)M<lfZEHC8h}o3acV^3di1CH75Sm
zczfZ7g}&6>I~Eq6Y6ZkPvWO?FS|;}GhJb&sx8@gw&gV3k>oaQ&CiahI1c>ovV*+Lb
z6!_nIzj{uvr+Hs&IV;A79T#v$fOpGh1$Pp`RlTq0uu=XXHlX+#jSc=hc7&ApU$J3w
znJ42jTW>yz$BFOaYP0ymaLs}_f|BzHAtE&gSzyu|YQd?pN<y+gP1Z<4))Xy_k6#T5
zjT+ZvvD6_V-`3GjLtZQda<W(oT~3e){~;bNVl-N1wBeCEi2O=@r3Ww?wdjwT6%r@P
R?YOLCoOWA&rTnVM{{r;#);0hD

delta 1974
zcmY*a&2JM&6rWkIH|wvplQ<#H7fBqFn2=BMflEjUBv2EiQc9s6K$hcqF>7{hGiwNN
zXd(qw>H!3-Pz97KL29K|s)X8mrJj4?(#!q_m3r$P_02j^nrMGB@AuyC&70l#<j3i+
z2aIYg7AE-jUGy1z-~7nvroTKI9ow{<SQ90jaK+M@j%&~g*<lv;In9dLQ5LmhEM^<b
zu;VOlCs@L6X3cgBYuVGavR2eJSxLK%we4~3tR3362_?|%qrS6`>${Y7fVNFo3c`q;
zCBipDFDdKdVIDCl>*iBD20h$>-gTA7dE#D>?dQ$B<sM;uyp<<$?dNU09oGR!V~Rl^
z5Ac1w1GypJ8iuZAa@AlXFa#qoysfYdWW)m)+&KuDT}sJ~EuP|?_XrFwlg(|)Mj;J}
zZGyW)Fban{2pfYjpB?qR1JGE<dDnI2Ar+s&C?4<wn*e2J5+<N~S7B2?VX8dMyYaZg
zaCm11@7D8@;*Do{@6H_G&-?Je*=0Nhxp^7E`%83pld>azz<?icWG^5KS(b%)4D5$_
zEMgw|Ad71j?H;+4`@1<vl|LvSEidpWPxC>3;9G?c@nM*MPWT995i>7>k}WCx;C+Q1
zgJb1IPEw@&Vfi>)f+e=J39UOPU<qqF2`Bkzim+u|58*luojWVO=M=<X8K&{3r}!8j
zzaM-^oh+YVry=^5htu0ZN-mKbuT%mbJ*0OoP{MMQ+>OB*J_)(!<b|@0ul^GG0y~Z6
zF6VB%^4EB7gKi-8ssCiAT_uoSQ#|eC8dR2Yp1yQ0w<1JUWT=;Da4Ys2aBfygPNvC=
zm=y;^J<kjEf)_WPykpv?RS*p#QiA$h#%uPC8WhcSv*=z8>>u=6?J76d@4OB1MR-ue
zsup;jSL;x@_3N`hji#D$ZoD8ygXQT^DWa@W`jLo~n+{%%ccRx(5yI4<qRYJ>?52+U
zQ}EnK0!j0A6Cs(PXvMuqN@$nRhTv%&Fc)Op0WD2C+*8^}Bqg0bbh>x6?w($>ofZU@
zsx+*GX;jhh2~$-OX}7ECFPd_LdVgC(B9n#|N>G8@HL*D99@Wp!_?{7&Ru<~D3aD9y
zBIGyB`n9}M!>u!p4o5>!X$Kx7#@yfa3LSJOL#xy86(r@Mb@O)KGAq}e87VRlG^#5)
zjmm!otD19v4!x#F-7mvu>6H6N_{2z73WL5#NR=0s`~0nfbrTwQZB*~hMve#05aRyU
z)b2ir^yc54ol(S)6sl$&?Dr*-3@tcNFIMf^;uSO<1tCeqS?SXAdAnd%@_BIt%}l^k
zu1(`Jh0kGez>P#NWc|Fsx>>jWSBq4K7cA3hWVX=$M`rFI;*#{ynrlQ;bK(;;#CZu9
z5ccX6J(74=z5n8USyl3%6Zh}vQ~JdHDz>H;oW8<iqjRiK;eEr!Y6Y9FKHRr%g2kP2
zOt%jeo^FHV6iVQTi!#9#_pCABBAY9->IK%E86hhZ3+@vmy(xlHp;R3&X%#A^;x)Yg
zIJ_GgAwRRH--2R&8HYw-a}uFT2uYAX5h5ZXDj|m8sb!~H!Cv(TLdY-fH?ybVMB#{t
zxD3*YmWic%?rc1{x+s}|Qx{&qtkgx9l%yq$Ntlx`f#5~z)q25dw3BBPtCodj0nb-p
z!x7jBM4WV=##e`B(}-gdmL>RacSY`wBY2ws@f<PgMiK+=bRtWyxK`pIz36_E$Zr1k
z6&g(@75W0s@=XgCDO%2BgeZ|6oS+g1eblKI&~V~3oHyCuNmW<%gsy2(v;$hRE@zO2
zsj_7#Vf3r0LQc^YISGc6#A!%UHLIY*Clw4*aNkaqH`*JcN%ezuJR*rP394=-6a%ID
LmhwjZQ&s*2<~h|u

diff --git a/pyth/__pycache__/vectData.cpython-310.pyc b/pyth/__pycache__/vectData.cpython-310.pyc
index 9cb85afae0f2b46246f3778a2635f28163d634c4..e806a8a9cbd50fe04e1492d4897bbd05bc644fdc 100644
GIT binary patch
delta 19
ZcmdmJw9$wwpO=@50SMmkZRApy1OPD&1X%z8

delta 19
ZcmdmJw9$wwpO=@50SKOQZ{$*!1OPD91Wy0}

diff --git a/pyth/articles.py b/pyth/articles.py
index 56d5c5a..b5ae49f 100644
--- a/pyth/articles.py
+++ b/pyth/articles.py
@@ -7,6 +7,7 @@ from langchain.embeddings import OpenAIEmbeddings
 from vectData import get_specific_data, modify_similar_data, insert_data, preparing_articles, calculate_cosine_similarity,get_titles_links_embeddings
 from scrapingsingle import num_tokens_from_string, slice_text_at_2k_tokens
 import json
+from json_repair import repair_json
 
 load_dotenv()
 
@@ -16,7 +17,6 @@ embeddings = OpenAIEmbeddings()
 
 print(f"Checking for similar!")
 
-
 def find_and_group_similar_articles(eps=0.5, min_samples=2, threshold=0.95):
     try:
         titles, links, embeddings = get_titles_links_embeddings()
@@ -142,7 +142,6 @@ def processing_similar():
                         else:
                             user_message = rf"Here are 3 texts {text1} {text2} and {text3}, combine the following texts into a cohesive news remove any non-news related to both texts and provide the cleaned data as a JSON only with single 'content' field."
                     if l == 4:
-                        print("4")
                         a_one = articles[0][0]
                         a_two = articles[1][0]
                         a_three = articles[2][0]
@@ -220,6 +219,8 @@ def processing_similar():
                             ])
                         generated_text = completion.choices[0].message.content
 
+                        generated_text = repair_json(generated_text)
+
                         response_data = json.loads(generated_text)
                         title = a_one
                         text = response_data["content"]
diff --git a/pyth/scrapingsingle.py b/pyth/scrapingsingle.py
index e939adb..672ba87 100644
--- a/pyth/scrapingsingle.py
+++ b/pyth/scrapingsingle.py
@@ -8,7 +8,7 @@ from vectData import (insert_data ,is_similar_data ,get_all_links,cleansing )
 import json
 from dotenv import load_dotenv
 import tiktoken
-
+from json_repair import repair_json
 
 load_dotenv()
 cleansing()
@@ -21,50 +21,50 @@ embeddings = OpenAIEmbeddings()
 dlinks = ['https://klix.ba', 'https://srpskainfo.com', 'https://bljesak.info']
 headers = {'User-Agent': 'Mozilla/5.0 (Linux; Android 5.1.1; SM-G928X Build/LMY47X) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.83 Mobile Safari/537.36'}
 
-
-
 def num_tokens_from_string(string: str, model="gpt-3.5-turbo") -> int:
     encoding = tiktoken.encoding_for_model(model)
     return len(encoding.encode(string))
 
 def slice_text_at_2k_tokens(text):
     encoding_name = "gpt-3.5-turbo"
-    max_tokens = 2000
-
+    max_tokens = 1950
     encoding = tiktoken.encoding_for_model(encoding_name)
     tokens = encoding.encode(text)
-
     if len(tokens) <= max_tokens:
         return [text] 
-
     sliced_tokens = tokens[:max_tokens]
     sliced_text = encoding.decode(sliced_tokens)
-
     return sliced_text
 
+def slice_title_if_needed(text):
+    encoding_name = "gpt-3.5-turbo"
+    max_tokens = 100
+    encoding = tiktoken.encoding_for_model(encoding_name)
+    tokens = encoding.encode(text)
+    if len(tokens) <= max_tokens:
+        return [text] 
+    sliced_tokens = tokens[:max_tokens]
+    sliced_text = encoding.decode(sliced_tokens)
+    return sliced_text
 
 def replace_with_spaces(text):
     allowed_chars = "ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyzČčĆćDždžĐđŠšŽž0123456789 "
     cleaned_text = ''.join(char if char in allowed_chars else ' ' for char in text)
     return cleaned_text
 
-
 def fix_links(links_set):
     modified_links = set()
-
     for link in links_set:
         if "www" in link:
             modified_link = link.replace("www.", "")
             modified_links.add(modified_link)
         else:
             modified_links.add(link)
-
     return modified_links
 
 total_links = set()
 collected_news = set()
 
-
 def get_article_links(url, already_checked):
     response = requests.get(url,headers)
     if response.status_code == 200:
@@ -81,25 +81,22 @@ def get_article_links(url, already_checked):
                     already_checked.add(link_value)
         return link_store
 
-
 already_checked = set()
 
 for dlink in dlinks:
     temp_links = get_article_links(dlink, already_checked)
     if temp_links:
         total_links.update(temp_links)
-
 final_links = {item for item in total_links if item}
 
 db_links = set(get_all_links())
 new_links = final_links - db_links
 final_links = new_links
 final_links = set(final_links)
-
 final_links = fix_links(final_links)
 
 if __name__ == '__main__':
-
+ 
  for link in final_links:
     response = requests.get(link,headers)
     soup = BeautifulSoup(response.text, 'html.parser')
@@ -117,24 +114,26 @@ if __name__ == '__main__':
 
     text_text = slice_text_at_2k_tokens(text_text)
     text_text = replace_with_spaces(str(text_text))
-    
+
+    ttk = num_tokens_from_string(text_text)
+
+    if ttk > 1900:
+        title_text = slice_title_if_needed(title_text)
     try:
         completion = client.chat.completions.create(
             model="gpt-3.5-turbo",
             messages=[
                 {"role": "system", "content": "Data analytic, Journalist and News reporter"},
-                {"role": "user", "content": rf"Extract relevant information from the following input: Title: {title_text}, Text: {text_text}. Remove any non-news element related to the current text and title, and provide the cleaned data as a JSON object with 'title' and 'content' fields."}
+                {"role": "user", "content": rf"Extract relevant information from the following input: Title: {title_text}, Text: {text_text}. Remove any non-news element related to the current text and title, and provide the cleaned data make sure that its valid JSON object with 'title' field and 'content' field."}
             ]
         )
         generated_text = completion.choices[0].message.content
 
-        generated_text = generated_text
+        generated_text = repair_json(generated_text)
 
         response_data = json.loads(generated_text)
-        
         title = response_data["title"]
         text = response_data["content"]
-
         vector = embeddings.embed_query(generated_text)
         
         if not is_similar_data(title, text, link, vector, threshold=0.98):