From ae1c1902dae5dea7eddbbce8f61457cf68d29472 Mon Sep 17 00:00:00 2001
From: Amir Sabani <amirsabani303@gmail.com>
Date: Tue, 2 Jan 2024 15:00:07 +0100
Subject: [PATCH] Combine similar article

---
 pyth/.env                                     |   7 +
 pyth/.gitlab-ci.yml                           |  21 ++
 .../scrapingsingle.cpython-310.pyc            | Bin 0 -> 3031 bytes
 pyth/__pycache__/vectData.cpython-310.pyc     | Bin 0 -> 5433 bytes
 pyth/requirements.txt                         | 141 +++++++++++++
 pyth/scrapingsingle.py                        | 186 +++++++++++++++--
 pyth/templates/index.html                     |  23 +++
 pyth/templates/one.html                       |  12 ++
 pyth/templates/two.html                       |  12 ++
 .../test_scrapingsingle.cpython-310.pyc       | Bin 0 -> 2416 bytes
 .../__pycache__/test_vectData.cpython-310.pyc | Bin 0 -> 2808 bytes
 pyth/tests/test_scrapingsingle.py             |  60 ++++++
 pyth/tests/test_vectData.py                   |  89 ++++++++
 pyth/vectData.py                              | 190 +++++++++++++++---
 pyth/web-server.py                            |  24 +++
 15 files changed, 726 insertions(+), 39 deletions(-)
 create mode 100644 pyth/.env
 create mode 100644 pyth/.gitlab-ci.yml
 create mode 100644 pyth/__pycache__/scrapingsingle.cpython-310.pyc
 create mode 100644 pyth/__pycache__/vectData.cpython-310.pyc
 create mode 100644 pyth/requirements.txt
 create mode 100644 pyth/templates/index.html
 create mode 100644 pyth/templates/one.html
 create mode 100644 pyth/templates/two.html
 create mode 100644 pyth/tests/__pycache__/test_scrapingsingle.cpython-310.pyc
 create mode 100644 pyth/tests/__pycache__/test_vectData.cpython-310.pyc
 create mode 100644 pyth/tests/test_scrapingsingle.py
 create mode 100644 pyth/tests/test_vectData.py
 create mode 100644 pyth/web-server.py

diff --git a/pyth/.env b/pyth/.env
new file mode 100644
index 0000000..c213e8f
--- /dev/null
+++ b/pyth/.env
@@ -0,0 +1,7 @@
+OPENAI_API_KEY = "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" 
+
+DB_HOST =localhost
+DB_PORT =5432
+DB_USER =postgres
+DB_PASSWORD =salmonela pljusti 221 hamo
+DB_NAME =svevijestiweb
\ No newline at end of file
diff --git a/pyth/.gitlab-ci.yml b/pyth/.gitlab-ci.yml
new file mode 100644
index 0000000..8cd8989
--- /dev/null
+++ b/pyth/.gitlab-ci.yml
@@ -0,0 +1,21 @@
+stages:
+  - test
+
+variables:
+
+before_script:
+  - pip install -r requirements.txt 
+
+test_file1:
+  stage: test
+  script:
+    - python -m pytest tests/test_scrapingsingle.py
+  only:
+    - master
+
+test_file2:
+  stage: test
+  script:
+    - python -m pytest tests/test_vectData.py
+  only:
+    - master
diff --git a/pyth/__pycache__/scrapingsingle.cpython-310.pyc b/pyth/__pycache__/scrapingsingle.cpython-310.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..38af9dbd593bcd53feec35a1f82ca687699f9f61
GIT binary patch
literal 3031
zcmai0TW=f372aJgmn%x7BuBo;*O6^mqAiiOWLb`^xKV7ub$mtT#_<*|vEm$&OU+(1
zGn6fY0u0D6L1Dlt(5Ey2oj3oJKD0le^V+8XeQTeB!swYLWg97qEHSq;XU?2C^PO)P
z7Yca;zi&!^fUkxO;~#qP@i&Nr&#{QRmSIqXn#>4I&op)4VwPuNn_-#I_Uu$<vux;i
zPJce<<#0aB+;G4fNM#PohlAc=+Rw3}u;3NKqF3ze4|~I?@3N6_)EhMo7~M0l&UFva
zfj6f22{?O(HwFV(AFLZR|AXlrqJwlOFulWY1f}C?eUuhx@ulG%OGn4y&`slM(K`Xh
z-~=4sv%HgVl5fIz_Y|CbgD2T~N{8vlO9RGl8hfTkV1kZrTCYuh8VIg@>zxLxdj?L!
z;Ww6d7ECzXoTLZP&N(>OokBl8`N2f*rs-I>L=VzKXlYtoLfLt(K@Zn;|3W%{B%Qy|
zpPy;}9>$up&2qCs$LUdej2{29MNiO^aQ-`ko`M;y$@f_;ty^^BmE~Q8i_J^a7&n@8
z&3W%K40jjcGFra^SLo?+!&}7m47QVSm7d+h(_uRai{BaFTm8|wemez|A4z+<2fLr9
z)|Q|Mi!h02UZT^q^eX$>6b=;jWqWwnkBzOiZNRnH=FWs^c*~~IF5q70VR_%`W8(>8
z#9RK|@>aXoJ~N-8WGyYF3qNX{l}uIm0{oT?Hd<^gZYB3ol526+jDrZf&VvM^mD|`G
z>Gf8_b)Yne>H=l%!&_fLO~$-rslgx;z-5*C(pSTQsEQyAn9oxI>JGBlr&StDh_+Sn
z!Nb-2E4QmF4{ulRtUf7a+QSVg6R}jOY_i~adEIXx+7}3(h)q9;HsW$E4%=h<@^#h(
z;cu4pOgsNu+<bPW4v}nsb1!ZOjQN#?@<lRzH;7u#uaT9A@;IPmp?s-)=^9zPH+$>T
zxvO83FIoYkmAm(zTweUTL{^f7!DCpz6UfTK{9<|j3Yot1>qqzQ&JY%C0=WgX&A3Ev
zG<Y0B<?>?rVtH<1?n?RUJh>OI2MoxXzv1(szqp1;`~K63?qIorMZCmH8eOwvNb8NY
zYjvz<hMJoe|6JPG&r)m8+Rbz_U594gn7ek}*v)oqOoubOPRD6F)TUYLys~z4og7LJ
z@47PAF*+{IjT^Xfpfk`hw@tp>$#&fiCa-C9%q~jPgqz$t+Q}jej5VX=-v9A0=*v%o
z4H>d>;&Y6n%K2OdH3rJ`AK}&64GtT87}ZL7<#O0+fsjIF>L69F0X_vT)S!^QY>8?u
z#-Tp9vL!s1%H0SeTJ;&@87*}D1QA75#-|jmWe{p=*k>HA>{M$Fj4x2Vhe%??ld=V3
zQn`J9gvzrZ+N=tM9Pom+m(>EHY~A!{w|&-vw+5fU`Jb*=8v3ey;jjBqP`L?WQ^rX}
zY{Pbd_>sYE=nDzFlI+MvMbx;TXmDd;P)>H#C?2xf-@cmebrj7Cg4K|jH+8X1*D9K>
zsY@Pz)(h)DcGmtkKZ8m&6RZ7Chebyrg}@kg8b-%>>g<{wlUp70kJc7uXX<xaVOCk?
zi^>ipgde2*G%i#F%K{|kLvsBR4u!TnX7F=*%B@yI%$I7F<BMXHGRkVqVY!55UYX>7
zJj$Y$_UK<nu&Qg1T<uXaeQ#cw-=<!@wKNj4Lh>Mai<z&(qVKn4@w2#0Wn~~4{M^g@
zG7Ch{%_Y5qcJqkA=ky9Q`M;j<8C2l2x~gE+--GLj{cMNS)Mr{gk5#)+Pvq=;d0|$z
z_<F1yv4eLTwlCa7QX+ojvmM0s4EZu{aU7s)D5T^*JQIXN5_1Fs2HoZ{Vn0`lBP1)S
z>=x!k`}*p0$^Du{MF!h`B#9;-9{MtfBeH>nKx6~RM$B0J4B>;*NlPw~M>;M`r0vd-
zM;I^c{i#fT17W-kxcLr=;%GL~4xrf(x6}5036#h<HCStLuEjdoskdpMXVPxM<L!V#
zPmh5g;WEv?#23UTU#>m4PvZ3^GBkM>$Of58mrkWir~0RxA{zlPD$027Y>2tblpBH&
zejNnY(Bg|auoLHh>1*fqPdYLCOJ6&GqZeDUMCyP0tN#A^D}>j8M5Ymqn9=sZRnB9M
zK_nXF40M#2Na-_`Sr?a6e&HkNm>NO?VZnNzxpZ<VCq{<x18(bq6$>@S{HR`QU`~|b
z{qw~&?A56cQ`_lFmQsr-C-vTtYsOZt9%u~l91gjwWp-1<k#c$u8XwRi2a^I{H?Emp
zIW-n&^yEKmiP|ZH@B>;Qg9)q#Wh{NxBNkPxA$V{npjC~Clt1{m*3G61RUW~d^p%}f
zf>#Y{5c&1J1x)?O4*^sE6fWbVy3%~rOPyo7cMvP(q)0&8)XzMc)fi3F8S@x%Ch#V(
z=}Byi96I{p8U&sV`5O1me-L82G~%EJLgo7KNr9t^_#^|@fbQGZe*=Un>@$4&_aFtD
z$|gL(fDNVrtKuWWca+n+1~styyatH|figd48O`xMLUflAy)6dUHQ|ajRzrr1{5*uL
ztm~1qb*#MQSPn9_YdRU-IwP*7Ib8F05ocXXYZt9Ca|nxtdKPLOGOc&cyJAkyyC3s?
VW(>LCeldbI?)1WXXaC){{tKS$N(uk~

literal 0
HcmV?d00001

diff --git a/pyth/__pycache__/vectData.cpython-310.pyc b/pyth/__pycache__/vectData.cpython-310.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..4104298addadbf5270d81b2b0903869d4f76c93f
GIT binary patch
literal 5433
zcmbVQTW{OQ6()zIL|uJ}H?ebNHa81Z>?Vu0+a#N<6Um6Xv1~|6c30S~Kx@V}6G~Ku
zv=bZjlk*xB*w;k>`!Nsw2L%fB7xbBLMIYLrK>N`4rA2|BGnA-{<%LrUbK%VJ_MPuL
z=Zu_8CMm)3yT5$L{(44|{)8v}M;uOm0mYq^C5cK@wxt@j#Fm<JO_s5**rch{6wz00
zwW-xK(U<L5EiSInYdW-=ooFU&Nii3*Q_WN@)lApYvc!`664d%ZhQ<%&T2}OQ=#7b9
z0(#@3mxSJg=%t`H$)sneSeA{kaW=swY5I*;o1z(-eJ#~KqSxs-op>$RPSZ(x3P#S*
zDf$t#)ATew1MLi*rZdo<rDy3mXwT8}^a8Z!=|y@8+6&a6m!Z8#Kc-ipy+p6lYtS0Z
zU{m|}<#I*J-FS~^m2z^RxG!vI#yH!sT#xbkHfwkehoOmv<613Ncde#no80ntU@&Dn
zCaqJ)W3BBR33O_D%(I#-NMKEw?U_Nm@Sy%^rBW50)s=GCc~U8sgA`1yE>tRCu9OR6
zy0oxde5VEKrsH~n+IBe9TQ1{)-ZowLrNe0uqiZd*$r=P-xpQdHs!$$6aqmFoOP=&h
zJ|MnyD4&z|h%a}}WpS=}icdCVU)hlN36*C6g&Ap2^;N)vlsJ$?%BcZqwS$;#wM=^>
zP+Jafa(qTk3&{2@D7S;m_N_XOo3^#fD4gEzKTY<KdMEL7aOuB4o!@ktY~FOuHM3>S
z7nu9pbK3LnHruwIG1s$hHcdo*zP;mZ&Li{%(=+GVJHfezX*afPfVY0c4tQ%<hiY6N
zmroN_<`>}P&)@v|_y3yx=I@_35S{Lkg$}AgAoVxsATA#96i@XuFGl4z+MecX2k}E`
zFXqP%bV?3^CD2R2NZgMXq;FUEbYG_mAeQiw2Px>QGl26!8dfCXOoN$}m+_OnvQPHX
ze%e=`tK9O5pL(wFU-^l>jF<H#UxpFI&+LQFyfGT{rSByg_Y>bsZ&hR_jOk)5@m3K`
zP3~pjJ;o0~Wx(511y`hTW^nYyO!vySq<@xXz`EHI&%jsj-mVlM7avv)&+=@RXU#Q6
zsny!ZgSnp@i{+JNBP4#$G<O9p-Xk~OBlmXCR6->fKzh?yceYyej*&F3?5d(pFSUTU
z9^CW}j1eOlkkU$Z_k0D&Yq-u9Z!p7IH(We5VO_&!mltyrz;t(~;j}ky2l0l}Y5@m0
z8jX)(HICH;R+CT#vBnm69UjElE7sWZSfH;nud!*`Ha~^)n#sAj6U5hnI3Q8Miy&o*
z7pvoI2U?q3Eicd-w&Su~HqZnhf$FhWAU#AQNJQv>sy8`vHyxV>D!v@QicdMkUV*QG
z53NTl-C+9YVBOnl+bqaNGvTu)qx0zUAQO$@EAX@Um_$cUbt=RZR_AeM%yPSKNqp7E
zFzDWgN|j0Ui~UEBCy6fWP$p$vPD0UT6(lnSMTLG$%*AB#&ukWF_@{7-29)SP{dd*#
z4}8D~^?>gY>X9iyzjL7bp@L+gAO%K}$Y5UqHYy!9J{@3V^qr%LXngsoSS}j9RX{6a
zsbtLFD6QPc8#k6$3QLPi#lnr;yA($#_!X><BayHnzlKY$WA!7baw@-tePLeh#TMf`
zK{|RM@MhQosSW0JO|S@8x@fUs^wkJ+{uxXU_$72-2`IuZtwLu6vYHn^(1l;py58s@
zNx{c=Jc;VZ)?<eRu+<Jy0^>OPB#hL3Snnr|&aqU27=+MOSB|LNm<>IHfkMa|$ilo4
z@iX5;KMyXX$#T(6pDsLpQmh!W*WA1@Sd9ENH+NSo%w<kum>9qiC@tq@&qSbjr`fc;
z&`LVb!xDZIt2wOZvHBTSXg*k6$CnE)$0*U$49~&oQz$MfXxLJ^5+hkf{jaX2iCB58
z3i!|A@`%Sb2Y4)?`yq#lk-DF1{4NXxDmtcNg6T*woUmcZaqL2Mqi!F-nj`r^SGVpx
zm>t0`;uE1;1$3+W3g}ivW~~#!D1wX|V$!`QtA&MX@hEpH#cGcr#%I8Tj%Ed?!hu}!
zBosgahT8lbdXRb~TI^+g+q6NF!uF9&1$M)zooYJNTHom^Qvm40joi~vsbtVOs$`si
zxeGAWz$n)}Fnx%?Luf~UCxctVlz{+vkXiwFiZ89pJ?H>Z(s6v4WOW@MWPyEQctC8C
zyXn*24?4sixLgoR8--Aiaoen6ty_(H8*<EHz$Szr>#jh)y@3xthHqIBFMx08@s3r9
z`)D*|$HWP$Q1vzN4*6D)_GN&xKVoQ|h;g|C-0|`nupxnWz~EJZ;!Z)e36K9awg+~j
z(v0*Sc|pJ`vPf|RCXmdNxgUpKWzcg3iF+<28BVi({~g{9Z#^aL8i*Vu9(8;pckZ6;
zK*s9cpNkfUM(GPIq1tu27G5%Jip;<b-{PZ=3o4T!d@#c=Va>o-;}=KFMNa%b%pDT_
z%>pnML_ab|JR<WCRe2})o<Q1Tu(@Ke8|c#cHwciBb(HZC8FC(7m9r!*^Dht_DA6$h
zP8EhnfFp$w*Go`Bl{fOV1cZ@L#vpW62t5Ttmpek2!e|RZ&qThm!&iO@9sv7A@a;S9
zZvI3VLSB3iTxTwO5=V)#l4C~3(cry+$<c52=QOxS-KpD7Ya?8QA!nF+3CP9G7VLI6
zehaf9?FO9Xq^=W{p#A~b608|OR)K+tb|07}N@1MoYJMPdxn3x*tQysY2ak)!(xOrP
zYN=AK9Em=6b03)X^$=2eS>MQTlBC>e*FAI1W`96nrlA^29dwmIVvVq@AT0fH1RX^L
z%VRhhMYwMA3;=Yto?gNSHwZ}`jwoU?DkvyMM4Bf+Qag_E+QV`YgL3h!YOz#VS}7q^
zm?00qWqty07UgW6OCn^CEbr|CjoIib%pxsntXUhd&$CS1SS>FtFO<JFz9@d3A6OMe
zrl$+#hmRJ@LsO7m8Y5?fXCFBerJ)_$&))jUCqK;%-ZzS#qi>FBp;290E>@}w%d1AA
zxVZ4-an*SEq+BkRs`Y3l`iySknm&mbuYz&ItOcdeCqdFju;HlE;0*uWplg4GYeu?y
z*u4=bX&@Kw5FlJ##O8ANN=UC@qP-FB+vmEwXpXNCOuNrP(!4d-WFEH~?p)in_)7~6
zhi)*?T3gNbPPk_#jtl=WiGQ>>raoM_79?&EgOCJ&bREByx`OLPN{0Wyi2bA3>WCa#
zq@^Og5($F{SHdj|4<hs;zN^n035+m75A=JG%5B-~J}SyBK&4A*8Go4breOygQ<5OP
d@Hdp&>B+c$RUg++Lz#dwu8-+c`b7Ht{{ZQGt<nGh

literal 0
HcmV?d00001

diff --git a/pyth/requirements.txt b/pyth/requirements.txt
new file mode 100644
index 0000000..983c61e
--- /dev/null
+++ b/pyth/requirements.txt
@@ -0,0 +1,141 @@
+aiohttp==3.9.1
+aiosignal==1.3.1
+annotated-types==0.6.0
+anyio==4.2.0
+apturl==0.5.2
+async-timeout==4.0.3
+attrs==23.1.0
+beautifulsoup4==4.12.2
+blinker==1.7.0
+blis==0.7.11
+Brlapi==0.8.3
+catalogue==2.0.10
+certifi==2020.6.20
+chardet==4.0.0
+charset-normalizer==3.3.2
+click==8.1.7
+cloudpathlib==0.16.0
+colorama==0.4.4
+command-not-found==0.3
+confection==0.1.4
+cryptography==3.4.8
+cupshelpers==1.0
+cymem==2.0.8
+dataclasses-json==0.6.3
+DateTime==5.4
+dbus-python==1.2.18
+decorator==4.4.2
+defer==1.0.6
+distro==1.7.0
+distro-info==1.1+ubuntu0.1
+en-core-web-sm @ https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.7.1/en_core_web_sm-3.7.1-py3-none-any.whl
+exceptiongroup==1.2.0
+Flask==3.0.0
+Flask-Cors==4.0.0
+frozenlist==1.4.1
+greenlet==1.1.2
+gyp==0.1
+h11==0.14.0
+httpcore==1.0.2
+httplib2==0.20.2
+httpx==0.25.2
+idna==3.3
+importlib-metadata==4.6.4
+itsdangerous==2.1.2
+jeepney==0.7.1
+Jinja2==3.1.2
+joblib==1.3.2
+jsonpatch==1.33
+jsonpointer==2.4
+keyring==23.5.0
+langchain==0.0.352
+langchain-community==0.0.6
+langchain-core==0.1.3
+langcodes==3.3.0
+langsmith==0.0.74
+language-selector==0.1
+launchpadlib==1.10.16
+lazr.restfulclient==0.14.4
+lazr.uri==1.0.6
+louis==3.20.0
+macaroonbakery==1.3.1
+MarkupSafe==2.1.3
+marshmallow==3.20.1
+more-itertools==8.10.0
+multidict==6.0.4
+murmurhash==1.0.10
+mypy-extensions==1.0.0
+netifaces==0.11.0
+numpy==1.26.2
+oauthlib==3.2.0
+olefile==0.46
+openai==1.5.0
+packaging==23.2
+pbr==5.8.0
+pexpect==4.8.0
+pgvector==0.2.4
+Pillow==9.0.1
+preshed==3.0.9
+protobuf==3.12.4
+psycopg==3.1.15
+psycopg2-binary==2.9.9
+ptyprocess==0.7.0
+pycairo==1.20.1
+pycups==2.0.1
+pydantic==2.5.2
+pydantic_core==2.14.5
+PyGObject==3.42.1
+PyJWT==2.3.0
+pymacaroons==0.13.0
+PyNaCl==1.5.0
+pyparsing==2.4.7
+pyRFC3339==1.1
+python-apt==2.4.0+ubuntu2
+python-dateutil==2.8.1
+python-debian==0.1.43+ubuntu1.1
+python-dotenv==1.0.0
+pytz==2022.1
+pyxdg==0.27
+PyYAML==5.4.1
+regex==2023.10.3
+reportlab==3.6.8
+requests==2.31.0
+scikit-learn==1.3.2
+scipy==1.11.4
+SecretStorage==3.3.1
+six==1.16.0
+slugify==0.0.1
+smart-open==6.4.0
+sniffio==1.3.0
+soupsieve==2.5
+spacy==3.7.2
+spacy-legacy==3.0.12
+spacy-loggers==1.0.5
+SQLAlchemy==1.4.31
+sqlalchemy-migrate==0.13.0
+sqlparse==0.4.2
+srsly==2.4.8
+systemd-python==234
+Tempita==0.5.2
+tenacity==8.2.3
+thinc==8.2.2
+threadpoolctl==3.2.0
+tiktoken==0.5.2
+tqdm==4.66.1
+typer==0.9.0
+typing-inspect==0.9.0
+typing_extensions==4.9.0
+ubuntu-advantage-tools==8001
+ubuntu-drivers-common==0.0.0
+ufw==0.36.1
+unattended-upgrades==0.1
+urllib3==1.26.5
+wadllib==1.3.6
+wasabi==1.1.2
+weasel==0.3.4
+Werkzeug==3.0.1
+xdg==5
+xkit==0.0.0
+yarl==1.9.4
+zipp==1.0.0
+zope.interface==6.1
diff --git a/pyth/scrapingsingle.py b/pyth/scrapingsingle.py
index e03be09..8e65beb 100644
--- a/pyth/scrapingsingle.py
+++ b/pyth/scrapingsingle.py
@@ -1,15 +1,20 @@
 from bs4 import BeautifulSoup
 import requests
 from urllib.parse import urljoin
-from openai import OpenAI
+from openai import OpenAI , APIError 
 import os
 from langchain.embeddings import OpenAIEmbeddings
-from langchain.vectorstores.pgvector import PGVector
-from vectData import insert_data ,is_similar_data 
+from vectData import (insert_data ,is_similar_data ,get_similar, get_specific_data, delete_specific,get_all_links,cleansing ,modify_similar_data)
 import json
+from dotenv import load_dotenv
+import tiktoken
 
 
-os.environ["OPENAI_API_KEY"] = "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"
+load_dotenv()
+cleansing()
+
+OPENAI_API_KEY = os.getenv("OPENAI_API_KEY")
+
 client = OpenAI()
 embeddings = OpenAIEmbeddings()
 
@@ -17,9 +22,36 @@ dlinks = ['https://klix.ba', 'https://srpskainfo.com', 'https://bljesak.info']
 headers = {'User-Agent': 'Mozilla/5.0 (Linux; Android 5.1.1; SM-G928X Build/LMY47X) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.83 Mobile Safari/537.36'}
 
 
+
+def num_tokens_from_string(string: str, model="gpt-3.5-turbo") -> int:
+    encoding = tiktoken.encoding_for_model(model)
+    return len(encoding.encode(string))
+
+def slice_text_at_2k_tokens(text):
+    encoding_name = "gpt-3.5-turbo"
+    max_tokens = 2000
+
+    encoding = tiktoken.encoding_for_model(encoding_name)
+    tokens = encoding.encode(text)
+
+    if len(tokens) <= max_tokens:
+        return [text] 
+
+    sliced_tokens = tokens[:max_tokens]
+    sliced_text = encoding.decode(sliced_tokens)
+    
+    return sliced_text
+
+
+def replace_with_spaces(text):
+    allowed_chars = "ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyzČčĆćDždžĐđŠšŽž0123456789 "
+    cleaned_text = ''.join(char if char in allowed_chars else ' ' for char in text)
+    return cleaned_text
+
 total_links = set()
 collected_news = set()
 
+
 def get_article_links(url, already_checked):
     response = requests.get(url,headers)
     if response.status_code == 200:
@@ -36,6 +68,8 @@ def get_article_links(url, already_checked):
                     already_checked.add(link_value)
         return link_store
 
+
+
 already_checked = set()
 
 for dlink in dlinks:
@@ -44,8 +78,17 @@ for dlink in dlinks:
         total_links.update(temp_links)
 
 final_links = {item for item in total_links if item}
+i = 0 
 
-for link in final_links:
+db_links = set(get_all_links())
+new_links = final_links - db_links
+final_links = new_links
+
+
+
+if __name__ == '__main__':
+
+ for link in final_links:
     response = requests.get(link,headers)
     soup = BeautifulSoup(response.text, 'html.parser')
 
@@ -54,6 +97,16 @@ for link in final_links:
 
     texts = soup.find_all(['p'])
     text_text = ' '.join([text.get_text(strip=True) for text in texts])
+
+    text_text = text_text
+    title_text = title_text
+    
+    title_text = replace_with_spaces(title_text)
+
+    
+    print(f"Tokens usage: {num_tokens_from_string(text_text, 'gpt-3.5-turbo')}")
+    text_text = slice_text_at_2k_tokens(text_text)
+    text_text = replace_with_spaces(str(text_text))
     
     try:
         completion = client.chat.completions.create(
@@ -65,23 +118,130 @@ for link in final_links:
         )
         generated_text = completion.choices[0].message.content
 
+        generated_text = generated_text
+
         response_data = json.loads(generated_text)
         
         title = response_data["title"]
         text = response_data["content"]
 
-        print("*********************************")
-        print(f"Title: {title}")
-        print("---------------------------------")
-        print(f"Content : {text}")
-        print("*********************************")
+        #print("*********************************")
+        #print(f"Title: {title}")
+        #print("---------------------------------")
+        #print(f"Content : {text}")
+        #print("*********************************")
 
 
         vector = embeddings.embed_query(generated_text)
-
-        if not is_similar_data(title, text, link, vector, threshold=0.9):
-         insert_data(title, text, link, vector)
         
+        if not is_similar_data(title, text, link, vector, threshold=0.98):
+         similar_d = "NO"
+         insert_data(title, text, link, vector,similar_d)
+
     except Exception as e:
         print(f"Error in completion: {e}")
         continue
+
+def comb_similar():
+
+    print("Checking similar")
+    similar_article = get_similar()
+
+    grouped_data = {}
+
+
+    for sa in similar_article:
+        if similar_article:
+            first_t = get_specific_data(sa[0])
+            second_t = get_specific_data(sa[1])
+            link_f = first_t[0][2]
+            link_s = second_t[0][2]
+            f_text = first_t[0][1]
+            s_text = second_t[0][1]
+            f_title = first_t[0][0]
+            s_title = second_t[0][0]
+
+            if f_title in grouped_data:
+                grouped_data[f_title].append((f_text, link_f))
+            else:
+                grouped_data[f_title] = [(f_text, link_f)]
+
+            if s_title in grouped_data:
+                  grouped_data[s_title].append((s_text, link_s))
+            else:
+                 grouped_data[s_title] = [(s_text, link_s)]
+
+            for title, tuples in grouped_data.items():
+                if len(tuples) == 3:
+                    text1, link1 = tuples[0]
+                    text2, link2 = tuples[1]
+                    text3, link3 = tuples[2]
+
+                    t1check = num_tokens_from_string(text1)
+                    t2check = num_tokens_from_string(text2)
+                    t3check = num_tokens_from_string(text3)
+                    slice_if_more = t1check,t2check,t3check
+                    if slice_if_more < 2000:
+                        combined_text = f"{text1}{text2}{text3}"
+                        combined_text = slice_text_at_2k_tokens(combined_text)
+                        user_message = rf"Here is text {combined_text}, combined from 3 sources, filter text, and make news content, return as JSON only with 'content' field"
+                        link = f"{link1} {link2} {link3}"
+
+                    else:
+                        user_message = rf"Here are 3 texts {text1} {text2} and {text3}, combine the following texts into a cohesive news remove any non-news related to both texts and provide the cleaned data as a JSON only with 'content' field."
+                        link = f"{link1} {link2} {link3}"
+
+                else:
+                    ftcheck = num_tokens_from_string(f_text)
+                    stcheck = num_tokens_from_string(s_text)
+                    fscomb = ftcheck + stcheck
+                    if fscomb <2000:
+                        combined_text = f"{f_text}{s_text}"
+                        user_message = rf"Here is text {combined_text}, combined from 2 sources, filter text, and make news content, return as JSON only with 'content' field"
+                        link = f"{link_f} {link_s}"
+
+                    else:
+                        user_message = rf"Here are 2 texts {f_text} and {s_text}, combine the following texts into a cohesive news remove any non-news related to both texts and provide the cleaned data as a JSON only with 'content' field."
+                        link = f"{link_f} {link_s}"
+
+            try:
+                completion = client.chat.completions.create(
+                    model="gpt-3.5-turbo",
+                    messages=[
+                        {"role": "system", "content": "Data analytic, Journalist and News reporter"},
+                        {"role": "user", "content": user_message}
+                    ]
+                )
+                generated_text = completion.choices[0].message.content
+                generated_text = generated_text
+
+                if similar_article:
+                    if f_title == s_title:
+                        print(f_title)
+                        modify_similar_data(first_t,"SOURCE")
+                        similar_article.remove(sa)
+                        print("Modified")
+                    else:
+                        print(f"Second: {s_title}")
+                        modify_similar_data(first_t,"SOURCE")
+                        modify_similar_data(second_t,"SOURCE")
+                        similar_article.remove(sa)
+                        print("Modified")
+                else:
+                    print("Similar list is empty")
+
+                response_data = json.loads(generated_text)
+                title = f_title
+                text = response_data["content"]
+
+                vector = embeddings.embed_query(generated_text)
+
+                if not is_similar_data(title, text, link, vector, threshold=0.98):
+                    similar_d = "NO"
+                    insert_data(title, text, link, vector, similar_d)
+
+            except Exception as e:
+                print(f"Error in completion: {e}")
+                continue
+
+comb_similar()
\ No newline at end of file
diff --git a/pyth/templates/index.html b/pyth/templates/index.html
new file mode 100644
index 0000000..9b156d8
--- /dev/null
+++ b/pyth/templates/index.html
@@ -0,0 +1,23 @@
+<!DOCTYPE html>
+<html lang="en">
+<head>
+    <meta charset="UTF-8">
+    <meta name="viewport" content="width=device-width, initial-scale=1.0">
+    <title>Test Pyth</title>
+</head>
+<body>
+    <div>
+        <article>
+            <h2>Test Title 1</h2>
+            <p>Test Text 1</p>
+            <a href="/article/one"> First</a>
+        </article>
+        <article>
+            <h2>Test Title 2</h2>
+            <p>Test Text 2</p>
+            <a href="/article/two">Second</a>
+        </article>
+    </div>
+    
+</body>
+</html>
\ No newline at end of file
diff --git a/pyth/templates/one.html b/pyth/templates/one.html
new file mode 100644
index 0000000..bcba718
--- /dev/null
+++ b/pyth/templates/one.html
@@ -0,0 +1,12 @@
+<!DOCTYPE html>
+<html lang="en">
+<head>
+    <meta charset="UTF-8">
+    <meta name="viewport" content="width=device-width, initial-scale=1.0">
+    <title>Article</title>
+</head>
+<body>
+    <h2>Test Title</h2>
+    <p>Test Text</p>
+</body>
+</html>
\ No newline at end of file
diff --git a/pyth/templates/two.html b/pyth/templates/two.html
new file mode 100644
index 0000000..bcba718
--- /dev/null
+++ b/pyth/templates/two.html
@@ -0,0 +1,12 @@
+<!DOCTYPE html>
+<html lang="en">
+<head>
+    <meta charset="UTF-8">
+    <meta name="viewport" content="width=device-width, initial-scale=1.0">
+    <title>Article</title>
+</head>
+<body>
+    <h2>Test Title</h2>
+    <p>Test Text</p>
+</body>
+</html>
\ No newline at end of file
diff --git a/pyth/tests/__pycache__/test_scrapingsingle.cpython-310.pyc b/pyth/tests/__pycache__/test_scrapingsingle.cpython-310.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..ab3b6cea01b3884563720a5ef05001b86732ad46
GIT binary patch
literal 2416
zcmZ`4%Z?jGaC&Ty$K%I7vv~l?aDZS)>`e$DMNvdZR?&jAiP#8<k)l!Wbgw;5&m-OK
z4QqK%n;Xi311CV*aLX6)1AIka5eLrPa)_vEd&vVaqpq&5>aMPL7wvZ7!1vpG-}9Tk
z<NSe(SHCJOK8K-x2f!RggcITH3X-{zOJ=l6Q~_E=RI^%Cv$U%4vU*gvcun|OBWhUO
z6G7IDn)7q5s0HWhqMdc3j-~lxAzO?Vv!!S$TaK3J`&ObA-Z^xL!&i=0S>q{*PVnZT
z6Rq(&z?1wGz|$6<vG6SxL~q}ASd+CLJFLZ>(L0Bg=qw}KPPhFRSmJDTiK&%TCqqEm
zUvN6s>F!u;7vmBLi+4(%-`L#9b~s~cK2SjO@814~C%TY;dow;@O;J!5vqJNHuUj!o
z1FmB#b(#nsi!^_rOf$_DmpW!tQ?rn&SfyDisGJcxckXU%-Pnw8+}(`7+W2;|Hq^Sj
z+V5Yw{8?`u{!3RsSzll8C#dtQp9_o6VW?FA+=&QtB9{^7K6W4$6|l2v7VdGSH*?Jg
zlIpa`69RjWzYZW6`kOFR037XTqTNIHfJ~jEimn1q7<mdI*0o#CeRV*zcT}H}r{uuZ
z{?r{c81Al2D@VZqg8wUWs;qj{WHshJcBa)^&LPrjxP#RPh<ldrTfR5v*L7>u9(6_w
ztib{d+0QO(v(B{klfxFKb%2Y%)Q~!G+0qmDz@Pe~MYep}87+;L4;mU$VhSm75KIHM
za@sj)!n_J|OP@Gevz#_qbdsHzHqjc3uT5KX94)OKTl#Q;IpDgJTYsT{C(WVGM6aY0
z0tmr%hnHbog7NWl629h5++KsR4dd@q00wZ+eII;DMz%zrkRRNK?zZ#Hy$4xSQ(C6w
zGe|1T7tO!ZUDvq1byL%+7W|nbPlJr-oBd&t@jg{_hvsSj7FQ2+QTEjy-%Cdj+w@{a
zmFBWv?(1P+14UUFt3=Wg^A?8Sy>j0K*F>sxQe@@z_fSVv_>?ob@<xjEP)MA<%$eRb
zQ6yBT>wp{!Fr@rn<K;34mMaKO0O-2%Buu7?Hd>=*;0$hf3&016ybWN|9+djx$GuN3
z>apA@jHmX&v~2RxEvTE2=2YxMRb2?bEXEQRpbHRLxWyl-Q1Y^n;0JJGRThGqdQyN1
zxi-}?gl=+u11_hDhK+*n(OidVzFWx5Rz<igi!9Vb9_|)G6pz4Vz%Ix7YIqNWaW$Oy
z7s7j>KVU!h!moK&>~Xk!Kg^5#VvY)c*bJ^i`BZZj>cR?4#!?~~jkns`=w7gBDT}?7
z@!3AXX%5G*MTAs^H2iY=&Q@6LjG*C!k5WAh&)cKt?a}jd>&}O}DHlxj!0uXBFfNRr
zai!>hD~Yu(F%#vx=-mJVJu_(1nBkyQ_mqUD?--BGdes6Il2f)HCqte*;LJ3s!sfN{
za7=}%2%ej!E;JSM-sVgGaExhZDv-#sg4dlzf&OlqvzQ8Ds-q&!jhBej#v>V0ZJL;e
zf@4ooz=A6^#%x%m30I~*x4|k7=T(uL8n#(w0{(ADHcgAiaKGF){!Gu!yxTEV#l^0v
zqD2N2R3+TPfeNkNc-D;|$j-L%pyt36$~17AQG%EHna+Uc9Qr3`GhX{xqV3-^4_lMH
zJ^MPmk>qCa&5FWgSL*-*vPgV4AT82yS4j(o@47J7i2K5O(WwWnPka)%Ew@FMN%hYO
zB;jlQ{6EFI1x??N<D6zZj!h89kQ8Hhh+@-<!BJGqIC2BygdOG;U@Ni(G^8th_I;;S
zkx1#DGyXVFHCkfY$5<~bk_Qs|i2M+MsqCmLHUrG6p!om-o#wrl@scRgoO{Wdxl6%=
z%2lr%%)N(A)OZCvzciH|3cq40vlmv@anX6bz1b9&4cv<lnsEzADo96ok!2I9Jp`X3
ztD+!F-^XPamz@ME9-;=Z#WI%I8I6x#zDXhN(e_t7WF3ZXGXAxhW3OY8DQscjD~MHV
V{v!s_B%T|%9)Z7tuu9h4e*i+*sk{IH

literal 0
HcmV?d00001

diff --git a/pyth/tests/__pycache__/test_vectData.cpython-310.pyc b/pyth/tests/__pycache__/test_vectData.cpython-310.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..eb021b54da734ef672232f37f4363122de9a67fb
GIT binary patch
literal 2808
zcmb7GNpBlB6drOGjYhJ(#A$;pt-1zE8awHR0!@pgw%QbE<kWT$K$pRINZaGgqLP#o
z3vw^ct>}M{kG}WE6ukD7zt9}o_c-1cpq0VLkDTF~_ddSG#n@P2!S9dTzwtk-mh~4d
zj{h83Jb)orK`@Jv)asTq=~A<{ySAB~t^+eo-OTHHS*2Ua{H~u>yVWe{2E_WoVm5PL
zS<K<qMs3IL*7+E7pHp#<TcgIVML_qG87=QMe9P*zTzxH$(zu^SiidF_lbnY#$&xe@
ziQ3ZRi9A?_EK-rKCAs86l?#83@1trgIBH-kG3q`3vtjW7hWr%-x4MK`UCQl|!^ke_
zx&~1|o<TOCia`z_-yj!Il?TjYl~>jd>DB=ItZHzb1+4bU>W;BG8-uyQ8f+ZqaW=sw
zVV+=9>=MkAY<kIRUDo5vT&f>)#n(ink|NiY`R~F<3roueJXu&Q!PBMoqOQTCCl8mF
zo-HiSo5!7pkJ~W;Hx7P?D=_9@$PEz68WHqsXob{Z@C>kRF!%=8F&Ml9>>3RI0rpg7
z!yj536ow7Mf#JgNnD;x(VO0gNs_qcDMGJhXbc7FI6cACCzyK396m<}Lu6EW7skGB8
z1js&Inf7~;lrIXww8vKRDC4b~riIiVTq4gmMFUTdqnJQ3iDC)_9F$ve(OdgeSK=bi
zc?=p62oIj_5pBn*+_S`0Sp7XWyIy2`Hj>dwlqa+ETs~JtZ&q&d&13_ZPwr%qR9wvV
zw$%Epf*omOxCv_KA;4yOTRM<jJ?+h<U@saaQFEQvN%`kchaCL*ZyJ@s)l*kGb9DU7
zWl>ONE(;X{op4<yEr8HH(rHogHtcIRP79#y3Si?_DX!t8F~uV>U%beTdGErOM4b&f
zxN+Ky6K|fe<S=Z$g5zk(1`*SWp1gY4ufXsbF(FV|T-}8^tePO89We&yTR~~KXAEcJ
zGVF=BP+WMcUfdV55O9Bv<mu{ZKV3uO2cSY?5cr3bBlZ59iOS&eX@AX$GkzX2{t2il
z{ghRlM--U{WN#2TjdQt!e&G-|;6Td}@4+ORDBeMV7bM<Cfnjm%X8Z%bXJB7qLii*g
zK5Y=^pTU*W#vZ(U!d?t$9412M0Wh*n7~Q7K-Y!$vVeT&7b`%|wAsyO7XU8FyvUjX)
zNYRlqbj$r!dyVYUGEw)ujt&$=dZ-eWa$PMkf2sCin&i)4V<kxld>kq=&3oF5M3k>_
zfxSVvAao7V0V;3%mwuGCJb_oE-BP8aP@98_bd_f-oUtTd(+*bb(=^>MpWm<IQO-ia
zl}Pv|)NXkD3(#tkuFSAHX;6<|p@TbT`2&Y8(sG7Wbij}*0Q^@{k0?GMcNc1(vj5+{
z38jzWvn^NLhDl%?mbBV{bWqZ|Ec$$(Re=E{W>MTlaSvbf1eg6(oo2IHvU##e0xyUC
z<slrFn2AS(HfR8};%Jb;-SdgPSm6n7(E}WYTQu7w7L>GYG9)94ov37N<m^J{+=kvV
za);29_In8J3?47Fe`?PyH*Yn+UtD<HO!C!2WTrKSGG6CdG^3)Gl*{I`NA1OS(=0-4
zAI)!?H?e9L;;6dc1PV=pV$$jgf63#%;@Vj$id6fnT*d1}&c)~Ov}KzRHtDTvrCR<n
zk!L8rYA8PZ|Kd2gi=anh6AU2JAy&!Y*12?^d$`k@(tc=M2}2!(VOFqy$^qBI5R(j@
z3`21V^owZ}7uM2RjJ+!3YQ13MI=+gHL41hfBNU&Z_!7m}D2^(ZLD*OX_5&OetDJ8<
zLazcsAynuDR5IJI`4zujpEU2H?OBxMVb~hiem_qX@}%9opY^uNNH<*o&DZ`xdlguY
z1%}K~WifqR`^el}1SJNo5clzzgC980TJ7I2+4>giR@ot-+~VJLGDZEL>riz61-4nB
AbN~PV

literal 0
HcmV?d00001

diff --git a/pyth/tests/test_scrapingsingle.py b/pyth/tests/test_scrapingsingle.py
new file mode 100644
index 0000000..5afcfda
--- /dev/null
+++ b/pyth/tests/test_scrapingsingle.py
@@ -0,0 +1,60 @@
+import unittest
+from unittest.mock import patch
+import requests
+from bs4 import BeautifulSoup
+from langchain.embeddings import OpenAIEmbeddings
+from langchain.vectorstores.pgvector import PGVector
+from openai import OpenAI
+import json
+from dotenv import load_dotenv
+from scrapingsingle import get_article_links, insert_data, is_similar_data
+import os
+
+load_dotenv()
+
+OPENAI_API_KEY = os.getenv("OPENAI_API_KEY")
+client = OpenAI()
+embeddings = OpenAIEmbeddings()
+
+
+already_checked = set()
+total_links = set()
+collected_news = set()
+dlinks = 'http://127.0.0.1:5000/'
+
+class TestIntegration(unittest.TestCase):
+
+
+    def test_integration(self):
+        link = get_article_links(dlinks,already_checked)
+        self.assertEqual(len(already_checked), 2)
+
+        for link in total_links:
+            response = requests.get(link)
+            soup = BeautifulSoup(response.text, 'html.parser')
+
+            titles = soup.find_all(['h2', 'h1', 'h3'])
+            title_text = ' '.join([title.get_text(strip=True) for title in titles])
+
+            texts = soup.find_all(['p'])
+            text_text = ' '.join([text.get_text(strip=True) for text in texts])
+
+            completion = client.chat.completions.create(
+                model="gpt-3.5-turbo",
+                messages=[
+                    {"role": "system", "content": "Data analytic, Journalist and News reporter"},
+                    {"role": "user", "content": rf"Extract relevant information from the following input: Title: {title_text}, Text: {text_text}. Remove any non-news element related to the current text and title, and provide the cleaned data as a JSON object with 'title' and 'content' fields."}
+                ]
+            )
+            generated_text = completion.choices[0].message.content
+
+            response_data = json.loads(generated_text)
+            title = response_data["title"]
+            text = response_data["content"]
+
+            vector = embeddings.embed_query(generated_text)
+
+            self.assertIn("Test Title", title)
+            self.assertIn("Test Text", text)
+            self.assertEqual(len(total_links), 2)
+
diff --git a/pyth/tests/test_vectData.py b/pyth/tests/test_vectData.py
new file mode 100644
index 0000000..99d4dd6
--- /dev/null
+++ b/pyth/tests/test_vectData.py
@@ -0,0 +1,89 @@
+import unittest
+import numpy as np
+import psycopg2
+import os
+from vectData import calculate_cosine_similarity, is_similar_data, insert_data, get_data, create_db
+
+class TestIntegration(unittest.TestCase):
+    host = os.getenv("DB_HOST")
+    port = os.getenv("DB_PORT")
+    user = os.getenv("DB_USER")
+    password = os.getenv("DB_PASSWORD")
+    dbname = os.getenv("DB_NAME")
+
+    @classmethod
+    def setUpClass(cls):
+        cls.host = os.getenv("DB_HOST")
+        cls.port = os.getenv("DB_PORT")
+        cls.user = os.getenv("DB_USER")
+        cls.password = os.getenv("DB_PASSWORD")
+        cls.dbname = os.getenv("DB_NAME")
+
+        cls.conn = psycopg2.connect(
+            host=cls.host,
+            port=cls.port,
+            user=cls.user,
+            password=cls.password,
+            dbname=cls.dbname
+        )
+        create_db(cls.conn)
+
+    @classmethod
+    def tearDownClass(cls):
+        cls.conn.close()
+
+    def setUp(self):
+        if self.conn.closed:
+            self.conn = psycopg2.connect(
+                host=self.host,
+                port=self.port,
+                user=self.user,
+                password=self.password,
+                dbname=self.dbname
+            )
+        self.cursor = self.conn.cursor()
+
+    def tearDown(self):
+        if not self.cursor.closed:
+            self.cursor.close()
+
+        if not self.conn.closed:
+            self.conn.close()
+
+    def test_insert_and_retrieve_data(self):
+        title = 'test_title'
+        text = 'test_text'
+        link = 'test_link'
+        embedding = np.arange(1, 1537)
+
+        insert_data(title, text, link, embedding)
+
+        data = get_data()
+
+        self.assertEqual(data, [(title, text, link)])
+
+    def test_is_similar_data_integration(self):
+        title = 'test_title'
+        text = 'test_text'
+        link = 'test_link'
+        embedding = np.arange(1, 1537)
+
+        insert_data(title, text, link, embedding)
+
+        result = is_similar_data(title, text, link, embedding)
+        self.assertTrue(result)
+
+        result = is_similar_data(title, text, link, embedding)
+        self.assertTrue(result)
+
+        result = is_similar_data(title, text, link, embedding)
+        self.assertTrue(result)
+
+    def test_create_db_integration(self):
+        cursor = self.conn.cursor()
+        cursor.execute("SELECT * FROM information_schema.tables WHERE table_name = 'vectorsvevijesti'")
+        table_exist = bool(cursor.fetchone())
+        self.assertTrue(table_exist)
+
+if __name__ == '__main__':
+    unittest.main()
diff --git a/pyth/vectData.py b/pyth/vectData.py
index dd1e2d7..e99883a 100644
--- a/pyth/vectData.py
+++ b/pyth/vectData.py
@@ -3,12 +3,26 @@ from psycopg2 import sql
 from pgvector.psycopg2 import register_vector
 from sklearn.metrics.pairwise import cosine_similarity
 import numpy as np
+import os
+from dotenv import load_dotenv
+from datetime import datetime ,timedelta
 
-host = 'localhost'
-port = '5432'
-user = 'postgres'
-password = 'salmonela pljusti 221 hamo'
-dbname = 'vector_svw'
+
+load_dotenv()
+
+host = os.getenv("DB_HOST")
+port = os.getenv("DB_PORT")
+user = os.getenv("DB_USER")
+password = os.getenv("DB_PASSWORD")
+dbname = os.getenv("DB_NAME")
+
+conn = psycopg2.connect(
+        host=host,
+        port=port,
+        user=user,
+        password=password,
+        dbname=dbname
+    )
 
 def calculate_cosine_similarity(v1, v2):
     v1_normalized = v1 / np.linalg.norm(v1)
@@ -17,7 +31,7 @@ def calculate_cosine_similarity(v1, v2):
     similarity = cosine_similarity([v1_normalized], [v2_normalized])[0][0]
     return similarity
 
-def is_similar_data(title, text, link, embedding, threshold=0.9):
+def is_similar_data(title, text, link, embedding, threshold=0.98):
     conn = psycopg2.connect(
         host=host,
         port=port,
@@ -27,25 +41,33 @@ def is_similar_data(title, text, link, embedding, threshold=0.9):
     )
     cursor = conn.cursor()
 
-    cursor.execute('SELECT title ,embedding FROM vectorsvevijesti;')
+    cursor.execute('SELECT title,embedding,link FROM vectorsvevijesti;')
     existing_embeddings = cursor.fetchall()
 
     for existing_embedding_tuple in existing_embeddings:
         existing_title = existing_embedding_tuple[0]
         existing_embedding = np.array(existing_embedding_tuple[1]).flatten()
+        existing_link = existing_embedding_tuple[2]
         similarity = calculate_cosine_similarity(existing_embedding, embedding)
         if similarity > threshold:
-            print(f"Similar data found: \n #{title} \n #{existing_title}")
-            cursor.close()
-            conn.close()
-            return True
+            if link != existing_link:
+                similar_d = existing_title
+                insert_data(title,text,link,embedding,similar_d)
+                print(f"Similar data found: \n #{title} \n #{existing_title}")
+                print(f"Inserting: #{title} \n")
+                similar_d = "NO"
+                cursor.close()
+                return True
+            else:
+                print(f"Same source of same article!")
+                cursor.close()
+                return True
 
     print(f"Inserting: #{title}")
     cursor.close()
-    conn.close()
     return False
 
-def insert_data(title, text, link, embedding):
+def get_similar():
     conn = psycopg2.connect(
         host=host,
         port=port,
@@ -53,17 +75,35 @@ def insert_data(title, text, link, embedding):
         password=password,
         dbname=dbname
     )
+    cursor = conn.cursor()
+    query = '''SELECT title,similar_d FROM vectorsvevijesti WHERE similar_d NOT IN ('NO', 'SOURCE')'''
+    cursor.execute(query)
+    similar_data = cursor.fetchall()
+    cursor.close()
+    return similar_data
+
+
+def insert_data(title, text, link, embedding, similar_d):
+    conn = psycopg2.connect(
+        host=host,
+        port=port,
+        user=user,
+        password=password,
+        dbname=dbname
+    )
+    c_time = datetime.now()
+
+
     cursor = conn.cursor()
 
     cursor.execute('''
-        INSERT INTO vectorsvevijesti (title, text, link, embedding)
-        VALUES (%s, %s, %s, %s);
-    ''', (title, text, link, embedding))
+        INSERT INTO vectorsvevijesti (title, text, link, embedding, similar_d, time)
+        VALUES (%s, %s, %s, %s, %s ,%s);
+    ''', (title, text, link, embedding , similar_d, c_time))
 
     conn.commit()
 
     cursor.close()
-    conn.close()
 
 def get_data():
     conn = psycopg2.connect(
@@ -79,11 +119,110 @@ def get_data():
     cursor.execute(query)
     data = cursor.fetchall()
     cursor.close()
-    conn.close()
-
     return data
 
-def create_db():
+def modify_similar_data(new_value ,title):
+
+    conn = psycopg2.connect(
+        host=host,
+        port=port,
+        user=user,
+        password=password,
+        dbname=dbname
+    ) 
+    cursor = conn.cursor()
+
+    query = '''UPDATE vectorsvevijesti SET similar_d = %s WHERE title = %s '''
+
+    cursor.execute(query, (new_value, title))
+
+    conn.commit()
+
+def get_specific_data(title):
+    conn = psycopg2.connect(
+        host=host,
+        port=port,
+        user=user,
+        password=password,
+        dbname=dbname
+    )
+    cursor = conn.cursor()
+    query = '''SELECT title, text, link, similar_d, embedding FROM vectorsvevijesti WHERE title = %s'''
+    cursor.execute(query, (title,))
+    
+    specific_post = cursor.fetchall()
+    cursor.close()
+    return specific_post
+
+def get_all_links():
+    conn = psycopg2.connect(
+        host=host,
+        port=port,
+        user=user,
+        password=password,
+        dbname=dbname
+    )
+    cursor = conn.cursor()
+    query = '''SELECT link FROM vectorsvevijesti'''
+    cursor.execute(query)
+
+    db_links = {link[0] for link in cursor.fetchall()}
+    cursor.close()
+    return db_links
+
+def delete_specific(title):
+    conn = psycopg2.connect(
+        host=host,
+        port=port,
+        user=user,
+        password=password,
+        dbname=dbname
+    )
+
+    cursor = conn.cursor()
+    query = '''DELETE FROM vectorsvevijesti WHERE title = %s'''
+
+    cursor.execute(query,(title,))
+    cursor.close()
+
+def cleansing():
+
+    conn = psycopg2.connect(
+        host=host,
+        port=port,
+        user=user,
+        password=password,
+        dbname=dbname
+    )
+
+    day_long = datetime.now() - timedelta(days=1)
+
+    cursor = conn.cursor()
+
+    query = '''DELETE FROM vectorsvevijesti WHERE time < %s'''
+    cursor.execute(query,(day_long,))
+
+    conn.commit()
+    cursor.close()
+
+def drop_table():
+    conn = psycopg2.connect(
+        host=host,
+        port=port,
+        user=user,
+        password=password,
+        dbname=dbname
+    )
+
+    cursor = conn.cursor()
+
+    query = '''DROP TABLE IF EXISTS vectorsvevijesti;'''
+    cursor.execute(query)
+
+    conn.commit()
+    cursor.close()
+
+def create_db(conn):
     conn = psycopg2.connect(
         host=host,
         port=port,
@@ -97,19 +236,18 @@ def create_db():
 
     register_vector(conn)
 
-    cursor.execute("DROP TABLE IF EXISTS vectorsvevijesti;")
-
     cursor.execute('''
-        CREATE TABLE vectorsvevijesti (
+        CREATE TABLE IF NOT EXISTS vectorsvevijesti (
             id bigserial PRIMARY KEY,
             title VARCHAR,
             text VARCHAR,
             link VARCHAR,
-            embedding vector(1536)
+            embedding vector(1536),
+            similar_d VARCHAR,
+            time TIMESTAMP DEFAULT CURRENT_TIMESTAMP
         );
     ''')
 
     conn.commit()
     cursor.close()
-    conn.close()
-create_db()
\ No newline at end of file
+create_db(conn)
diff --git a/pyth/web-server.py b/pyth/web-server.py
new file mode 100644
index 0000000..ae78c2b
--- /dev/null
+++ b/pyth/web-server.py
@@ -0,0 +1,24 @@
+from flask import Flask , render_template , jsonify
+from vectData import get_data
+from flask_cors import CORS
+
+
+app = Flask(__name__)
+
+CORS(app)
+
+@app.route('/')
+def index() :
+    return render_template("index.html")
+
+
+@app.route('/article/one')
+def articleone():
+    return render_template("one.html")
+
+
+@app.route('/article/two')
+def articletwo():
+    return render_template("two.html")
+
+app.run(debug=True)
\ No newline at end of file