From 35d4439d28f500fccd965df0035a7f215eaa9d58 Mon Sep 17 00:00:00 2001
From: Lio Novelli <liopold@drunomics.com>
Date: Sun, 6 Feb 2022 19:09:10 +0100
Subject: [PATCH] Fix return errors.

---
 .gitignore                                    |   3 +-
 README.md                                     |  25 +++++
 .../__pycache__/settings.cpython-37.pyc       | Bin 271 -> 267 bytes
 ger_gfonts/ger_gfonts/settings.py             |   2 +-
 .../__pycache__/gfonts_spider.cpython-37.pyc  | Bin 4834 -> 4077 bytes
 .../start_urls_spider.cpython-37.pyc          | Bin 1023 -> 1143 bytes
 .../ger_gfonts/spiders/gfonts_spider.py       | 106 ++++++++----------
 .../ger_gfonts/spiders/start_urls_spider.py   |   6 +-
 ger_gfonts/utility/.countries.py.swp          | Bin 12288 -> 0 bytes
 .../__pycache__/countries.cpython-37.pyc      | Bin 1673 -> 1692 bytes
 ger_gfonts/utility/countries.py               |   7 +-
 ger_gfonts/utility/google_scrapy.py           |  45 ++++++++
 12 files changed, 128 insertions(+), 66 deletions(-)
 delete mode 100644 ger_gfonts/utility/.countries.py.swp
 create mode 100644 ger_gfonts/utility/google_scrapy.py
diff --git a/.gitignore b/.gitignore
index b096d08..63cc484 100644
--- a/.gitignore
+++ b/.gitignore
@@ -1,2 +1,3 @@
-__pycache__
 gfonts.json
+__pycache__
+*/__pycache__
diff --git a/README.md b/README.md
index 16ccdf6..83a6be2 100644
--- a/README.md
+++ b/README.md
@@ -6,14 +6,39 @@ Based on: https://docs.scrapy.org/en/latest/intro/tutorial.html
 
 ## Usage
 
+    pip3 install -e .
     scrapy startproject ger_gfonts
     cd ger_gfonts
     scrapy crawl gfonts -O gfonts.json
 
 ## TODO
 
+!Implement a crawling spider: https://doc.scrapy.org/en/latest/topics/spiders.html#crawlspider
+
 Start checking for google analytics for all eu websites.
 
+- eu countries tlds: https://www.whois365.com/en/listtld/europe
+
+### meta pixel
+
+    <!-- Meta Pixel Code -->
+    <script>
+    !function(f,b,e,v,n,t,s)
+    {if(f.fbq)return;n=f.fbq=function(){n.callMethod?
+    n.callMethod.apply(n,arguments):n.queue.push(arguments)};
+    if(!f._fbq)f._fbq=n;n.push=n;n.loaded=!0;n.version='2.0';
+    n.queue=[];t=b.createElement(e);t.async=!0;
+    t.src=v;s=b.getElementsByTagName(e)[0];
+    s.parentNode.insertBefore(t,s)}(window, document,'script',
+    'https://connect.facebook.net/en_US/fbevents.js');
+    fbq('init', '898263220867925');
+    fbq('track', 'PageView');
+    </script>
+    <noscript><img height="1" width="1" style="display:none"
+    src="https://www.facebook.com/tr?id=898263220867925&ev=PageView&noscript=1"
+    /></noscript>
+    <!-- End Meta Pixel Code -->
+
 ## IDEAS
 
 Make it into browserextension that would notify you.
diff --git a/ger_gfonts/ger_gfonts/__pycache__/settings.cpython-37.pyc b/ger_gfonts/ger_gfonts/__pycache__/settings.cpython-37.pyc
index 912c08d20354f4e966a7084fbd8d317a7a940164..4b31e1616d2a9723fdd85b302320c5409ee7017b 100644
GIT binary patch
delta 34
ocmeBY>Sp3~;^pOH0D{Du{}ZJr@`f_HO-%M-begz9dg6Hp0FizQ00000

delta 38
scmeBX>SyA0;^pOH0D|r7e<eyy<PBvEnV9Uu=r(bKG;?Z^?!;4$0KG^HI{*Lx

diff --git a/ger_gfonts/ger_gfonts/settings.py b/ger_gfonts/ger_gfonts/settings.py
index facd1d3..0442b11 100644
--- a/ger_gfonts/ger_gfonts/settings.py
+++ b/ger_gfonts/ger_gfonts/settings.py
@@ -17,7 +17,7 @@ NEWSPIDER_MODULE = 'ger_gfonts.spiders'
 #USER_AGENT = 'ger_gfonts (+http://www.yourdomain.com)'
 
 # Obey robots.txt rules
-ROBOTSTXT_OBEY = True
+ROBOTSTXT_OBEY = False
 
 # Configure maximum concurrent requests performed by Scrapy (default: 16)
 #CONCURRENT_REQUESTS = 32
diff --git a/ger_gfonts/ger_gfonts/spiders/__pycache__/gfonts_spider.cpython-37.pyc b/ger_gfonts/ger_gfonts/spiders/__pycache__/gfonts_spider.cpython-37.pyc
index 1dc051dbfb40f7474fda1e4fe0f06feff400d6f1..69a306d1caee8e0c267c80a08c153814645cb616 100644
GIT binary patch
delta 2142
zcmah~UvC>l5Wl_uKHHZ+geEC%n$o7!trgLSA`z;nlq9HXYFBOAfKf>=zKwIv`Oev0
z(<E{*Qt}8w(Y+y%(r3g|B|ZipV5L650}>Mb0=&S?otw5%C4Abs@$ByG&ToD*_s7)p
zGwzLI(NW;nGnLh60|)LH5eM&8FZqgZgoReIRwN4OBy?-;r;2a-*1qCfRNd2R13tN@
zl<b3VXQoO-Isu>Wu((aVsE+<#{8Uh`!{F_MXPY`~7*BRc&n$xJpK9_ic_*1rXUTB#
zP`%XC!Dzrh2mD76Lg|tw*(1BEP&17^5SmX=A651UQMzhV?<!4W!(t5IhbCH{;EZx;
z;kv$VcR_og5G6VV9#U_84@xta?dsvut@E(a!NqgR!xOuj$TtgJ4O|y}?K>46Y<|5A
zkU%7QWyigLcX4w5{@v=G`Hw3zlRIvuy7bC_z{Re6VYuqmH%cxuAtb4FSja5Yj5Z4*
zA?@{;i^yxyo^)tu#gAKF5OHaG?KX{kSqS4sg+883&9eBI1%fUya7Y=K1NC(Znt!y*
zYI}^+Y9viwXI^_-T6gJYhjIa@;Y>+q1w7kkl(*xEQ)#AlU+Ur2AlhJ<m`u2+odWST
z41NNHqC3PPE-7R~b>Tgj{H#qhFmo8wCouR85L?%}<Pdn1!Z^LFZl8p_5MLcvb~Rt?
zY8xiI=mQ;=mCXVHP>J%m@Hyz8!2oy-fY+?-<kqR@Plj+WsjoA-mi%s=s4Xp&RH@ZD
zLL>wWR{Jrr({L_3gJKfJ>yb!jEr|S27vf0p3oy+GK`3O9s1TA3k4Xy2g8jUF9?X9c
z5NrxWNn>Z>CCvsEkVvVcmy(f!$WA9Kxrq;sol{KDd6A*_VKW~Fp};{l95q6Q6&ptK
zG<Ugr1le_1ur>1vWMzPC>;+_ps;@mE?85&6mW(^+A2E!MVF3NRvv<*OF*9KDGoZ?-
zz3J|^A<{d+77agy6&zWR!8F(h=?7=pO!GXO{N{{WLWe3-_maPzv%Rz^7$TT~XG$}p
zbIq#9ok+0ln%Y=<xj?F|cFAIwaRU|y8v-HCh>9?-r$xffp?MkvM00fcTCO4bCGctp
zIb1sm;zsgQ{v+20?FivtlRxuQy#~;4i*;3~?dGn&{h+HibzcWk8p7xr&}d9yLfbF^
z?R{Z)&1P;7H3LGlVAkqdO$V&bhQ{{s4SgXGt!KZh9TspGK|+`Ngf0W2%RuPzvLc9Y
z2vzie`FqgMMipP{cONZfx+LC?wNSlZnS&-`PA=Z8+`5;tc*kC-E-qG=XC_O<l!*+<
zBsDIW)Iu6%$xR!J^OY9{z9(YFGaU8RI1bqr1m!IhV@eMsR&&XIiKR5KzIZJc(Jiq8
z&536<l%~R1gS7e5s&^QpkiXaY!p6bZZ5Vt4gaYgyBRa^eq(;*JE*2KpcSfN0lGS2z
z4t+plB>b2+X<rMy)~fH#ddZl3tBl#MIUL#@Us(%6S~F7p*e-@&uP>AD-Cw2<nUb1C
zhPOYy5?fe3@dgg{nmRZC)Evx{3)y9|J+B8Rb5Qd0ou$y{>&ca&X)=^N8oJa26v6Wd
z2xz_?F5=b-r$Pi#gR=pg!j74-Hl;OEH|1msR(e~87hwx1ULKihY0E|0=3#L3WD{N0
z0aRPHHG9Z*ZrV9`@}L^F!EkA5ke!5=bhCy(&D((wp9Y2>UZ$bI<_zD17(Nt2s*Fm#
z$>S*bX87V4wV{p(!a!_KXZ0CSo|WBI+=%YqbVbNiEA~4foy9hjwl^CZ8+K6}l8uk8
F{s%!I%7p*`

literal 4834
zcmb7IO>Y~=8Qz`!;F6*wTahg}NmC_uU9(7}exN{VIBsl-Qq(AvD#~%XXu+&FD{84F
zm!26#GC`k|9*g$aLk`k0|D!*k=ehQjb8iI-_jzYYT9ktTr7-Wz&d2V&&phwP=<)P)
z$-=MukC)N)>z4H|dKmp&G(JX=UqWz;+o=^&%~HF=Le_CYr{jjMosW5;XXf~!Z|Xu=
zK<%VKrx+H^95*d>rot)P+OW9C{jV+V$L!1r%iOM8mBM%UidCyP+OPK#9t%CSDx#Bg
z_~7myr*XyBg=3Lsy|{~JfMzceGH%k!(T}0=F^c><L~MmNw?fA4&}mtri{f#{oy5j2
zUG9BtVV6EHpbmJzi>Qmd#HUb~c$rV5p5iln7Im3l<JVD7^Ev(o>KQ)IZ=jy#H~9kU
zYkZO4LVcaT$=^af$KU2ZLj4ARhyNJ$JYVAPqQ1f3gSNMId1F26Dw(Sn`mF<c(l=JO
zw(HgU&gNQmx3TkRqq@5Nq_&s*vtU_G8w$~nYSMBQMb1DBtaIxEvH@N3Zo5`ty3mT%
z6Ol??k}49a0jwl2b7h<!d~1m^mi?!`a+r1El{Cp#c0|^Wn@X-6Wu0E8R$8(6Am0)-
z8?QH|IU~7}k2Lbf<=%50G#W`aQH{nm+8*uGvimnKE4w_J(KMr&;0%k==nFiMMgzNT
zU)bUS+H8Q9Z7GNP&g>U#V71+IZ@}6<^<zdMpKV*+85MAwo))aLe5{zSHrTLQf2Ov*
zw^V(yyS-C=RJ*@aDd|!otH%PYin`hXP<r}ABr4t$QS&GkQux@BF2%<Uo^_(6E43f>
zKtZm9!%V7f)QNRD&04kiWX(*_UQZ-lr3;3g+ue#Irsx%ch-EM9%2@kmgqvf?#WYRu
zO!pgTnsc?>vR%U8j6K6<?Ec&Yh&l5|2+|e_MT6ka(NNYoP`ChAK!Yv7Y8R{*j$#7`
z__@kCcLy#;y@AJ_Tf`c-)}K36sweNStR%gpdyp-I7kzJ~EwipJG_&Kb63;81_GJcG
zl%58|NdNukgn;nyQSF+^Zkk2B;v1y}(Ll4L7Z##kLNpYMW+sooOQPW={b%vY)%-)-
z2Vn0KhNW>(K%s00ko~tOP`I*S%qYTz{FlLlYy>D6PF>hX4BE1qW^2`oE#AXeg}vJ9
zYg<a>a7P=l=tSM0V*ZHLlUunmal94U#`tL7!Gi*|4T)LX<}lemvs*Ztfy0^Enp6Ak
zzb{|D>^sXm#?I(u#XLmCeYH!&6u1jVrLU1_Dv|kC_qNu4hINwOU;#W(XmJ9(OB2Vt
zCE&)prIQ-LCg;&Il&S+v1K}RFcMns<9f%(SF&KSm1rvw+A!1+g3!_=%%}lU*Yq*&U
z>jhKT2p|M#ZSZ>tAs9ViN4{7duz^dQ#)jcBa+VL+xqD$@^pk-H1&9MqP5cD!TnDF%
z;8FE>FXg$h8@vrQwEtC<9>?-Bo5KQJ0f3j{E|v>ogm{a@B%8%7`hJBX=OE|+=m<y>
zmtDKRaOE&YK4`2yox_;Kgz@P+1N$84U)XEbpRU2Q8C;-E27Kh#t)~dYxgi%1<A^V%
zN%yEfZ{o^wE6ZAG3=5RY&8(x{LlGY!N;pkP-b^Wx><_(EZk`@3mRB^=rGuo)^Ibp0
zb|h`ivaelL<<+dQD&!rg7<=Ss;M5R@zhO|q#UHht)885OybJr>zObO;hc9rZ@cxYZ
zx2y}ByGO2g%nL9T|A93e3C1IL%t-LSdUofjHE;k$vDRNaIXM|>|3TD^(&s8^8VoLv
zsHg?gju7bx9pJ)R5sDHNYWro`6iH9rzpvs`C4Paf@2Fq=5(1!ofJ*xyP?V<HCEY7t
zZmDEGVW5U#MEh|6$Ekt?HSfC$?zDkz6m%Y8?T|RkP-fnqLp=xT^xvEy&cw1Y;1k?=
zA1^z-dx<-X2%*Frc%E|{1Hx=s0kCJ~r<QUJhqRM)TH2AK*<T<C529wgpJhh`(25ej
zP54JplXMr$Bz_H{-M!r>Rqd@m+NxJC(@Fe>rc9cLHu`=B*mjcBIQ<keWB@^Yx&}?Z
zN6Yc#2`y<+lUA=mjJ#FuBHHZCZae66$qk_PObwTD%L1vOJ^Fm=0|EWdky#Bb$eeP>
zTAhlo{XFU$6Gzv988e5kS*KSih!64I+)bNU=XYb3X3enlDmDp<$l@c2%cz7!Fl?A&
zOkyLDid#D<c^Y7sSP6&(wvWFnxJ+a!V_c9f8gnza{0$GIvnO0QQw*sTusK7L#GO1*
zIz1dPnB14fslp@?lU(HuT)0_J`AD#kE{J<77<ldC8MT0AyMR%D;I~WYEgd;xfW9fX
zVXIx{-d`9Y`s^OQ=nvfdE6?r?y;Py5?WkW^M|!(<f2r>;ZEe;*tqWo*rS?r2(>}22
z&r-IwzP+`z{dBXofpl#;C*4g<1U;3|P8xS}4pO+#B{=K^$wh|5&76k|+NR=Tj2XAC
z{evt`vlH<qdT@G_nHiraC^%`C9ACcBJ3uPJk@_495hMAzaz+c7{znu^!P$aSUqmUf
zz@A54w&z)Ye!@<N$>2DRCkrj2tfEK?)Cx}V%>L`*3j{ZEfH*5~lsjL8t7iyUzqfX+
zFGdXQ7bQ|uxvWmr_>H5BL7m=6W<g2M0>uQRy}>BCGkO4H`!)9-JV>L?K93%Du=d|5
zR{!pV3Scy{GP(Q!{Ekxj5RH5RZf!2z%5+g6@&LjZxk)GL4e1`1%w`)0Ng9WqX<tQ?
zkZ7Zfvjcd5N&JQ%A9H*nQ@MksIexe%AiNJQF?-ZMijME!{y%>GVm^6kX{ld=7%oNT
zNDTaeq(|Jqc=k%8fa2t>2{<p`872<#T`V)SSVtp|lyqCAn=0K>>4r+TQ@WYbt(0!0
zbQ`6cDBVKo21>V2x_Q#A^P445;JsSN9<6EiXfI@st07zc1SJ%=@r97BeHyZARkLax
z^^=gTZ=&pmYy;&JD(Kt9qD?H`+SF`|>L;i_*Q~aMvK_LWEfn<cqFu+_I^I#odmnG$
zLw^X_XM2?;B()JIp&<5Sh~^=QJ_M&negqLyE0!dVAr2A}0-{CY&<GkxXkJ3EN@+@J
zS~QS;1<_4OWDq@S^=MSkqoie$R!I8VehZ@c9HNukIL_8Mg)8=+n<yAc{bcXu;a~se
z#HoU(c`8|}+@#wu-HsX!U1~Hs8OJ{{&@ML`&yJ&XIO0+r&NdHY+^hKLk|`)_)U(ZF
zsj^N(#!4mKmK1cCF|Ny`rzZ2xbMOicP|BGH8xxc$;+R+>$XN-pF+)p1x?HkAqv<sD
zQQ)9yl2Y5icA1MzHDG}gOa}!>FK~k?)Frga!3?Bl)>NiVS`*<P05eE$P%jVvLm<db
z1vxuG>7sZWLNgHyx(ewTTnN)-e_6!OkY%g<7Fiy48jqPrR@&G1ZCD2na#SCZ^E2U+
M954mTfR2a#55Xl_`~Uy|

diff --git a/ger_gfonts/ger_gfonts/spiders/__pycache__/start_urls_spider.cpython-37.pyc b/ger_gfonts/ger_gfonts/spiders/__pycache__/start_urls_spider.cpython-37.pyc
index 76470eb6ca6a86826e2a80180cd910fbaa73a7a8..ca557f2c40e419953b97f074de81d46c4c9168c1 100644
GIT binary patch
delta 568
zcmZut!D<^Z5S6sMTG_FkV0<w>HqdMcA&^T7r36D$D5Zwl1xFWQdz7$Y*G{F~9DM1a
z`2n;2I^`Qm4?Xngj@C4Rk^wzEjr8WtXcPYt?LoWUBp8!lo9W%U-KQVcuU;MjfiR15
zE_oiyI2Te-@}58h{GI^U<fidGkWHW?lEmxT{<kD>jnZU#F<*jq0_pA4SY-94zS_C>
z_!kVxIWBvEpoyeFBm*h~U=XBKh7dw@PbAtwj5`N`Mh(}n#ncpEOlDoPrV5R$>wNAE
z2gC7bJQ=Iu;N9iL`r!xnLz!k((phg0>2F+Qwf|V4`bl432+SqSg;r-*F4m<gGO%W=
z#4FQ6a6+kckrqmI@MJ>-LIquQpGqxQM!VGmdvW%kG^(fXdL6HIobJ)p?xXU!zW<cO
z)k$#p(e2JlTP$;Bby1{?YioKaGJOwEg=^*;Gckgnz<LlgWFin@olSPCDmb0A@OQFw
pwskSSa}#;+y*NI)O+lOb{d47=c#|)o%=BA|&$k||#agt-{sQ@4gFOHM

delta 454
zcmZutK}rKL6wS{}GNE>)f)(8filr`GC@2FW;>MkuqKj;XY9fq|ZB3>{W@|4{#!Gks
z_a49t%o*Ida9Mw*s73tYKOR5tJ$~{jra^cThBboq{5I`+lW-08C#{XuQ=)vu#zZkq
zZrGzIxq=R9^T}xQ{L0C{iy}G3w(AI*NKiyl1=3Sgd1E5|S&n3iqdzDYt`lRk&LC0R
zlr@`mO%@MLYKs;;agG^=7q4)+Qb+oMP4cZdM{z(SV8uOc?#{H%AP`Cs$4M{A;@CaL
z`UnIB<jeEs7n)uyR$`;=px?7vvWGP3-Il&X^CyxGy2ff}u<nKchX&+JbBQ~Z;;hY!
zk+&V028vA6!EaK<+=j;O6ku0j0(>g`YSs>lcW*D^vp=au|M^RCc-L3MR3E`l2(9D!
E0{(ztO#lD@

diff --git a/ger_gfonts/ger_gfonts/spiders/gfonts_spider.py b/ger_gfonts/ger_gfonts/spiders/gfonts_spider.py
index 14be6ba..1bbed47 100644
--- a/ger_gfonts/ger_gfonts/spiders/gfonts_spider.py
+++ b/ger_gfonts/ger_gfonts/spiders/gfonts_spider.py
@@ -5,7 +5,8 @@ import re
 import json
 from urllib.request import urlopen
 from urllib.parse import urlparse
-from utility.countries import *
+from utility.countries import isEuropean
+import validators
 
 class GFontsSpider(Spider):
     name = "gfonts"
@@ -21,88 +22,73 @@ class GFontsSpider(Spider):
         # check current url - german or eu (todo)
         # check if api.gfonts.com is found
         # @todo: check if google analytics is found
-        if self.isEuropean(response.url):
-            self.writeTrackers(response)
-            parsed = urlparse(response.url)
-            self.eu_domains.append(parsed.hostname)
-            self.logNewDomain(response.url)
+        parsed = urlparse(response.url)
+        if isEuropean(response.url):
+            print("URL EUROPEAN: " + response.url)
+            if parsed.hostname not in self.eu_domains:
+                self.eu_domains.append(parsed.hostname)
+                self.logNewDomain(response.url)
+                yield self.writeTrackers(response)
         else:
             print("NOT EUROPEAN: " + response.url)
-        self.parseOn(response)
-
-    def getCountryOfUrl(self, url):
-        ip = socket.gethostbyname(url)
-        api_url = 'https://ipinfo.io/' + ip + '/json'
-        response = urlopen(api_url)
-        data = json.load(response)
-        return data['country']
-
-    def isCountryGerman(self, url):
-        return 'DE' == self.getCountryOfUrl(url)
-
-    def isGermanTLD(self, url):
-        parts = urlparse(url)
-        tld = parts.hostname[-3:]
-        return tld == '.de'
-
-    def isGerman(self, url):
-        if not self.isGermanTLD(url):
-            return self.isCountryGerman(url)
-        return True
-    def isEuropean(self, url):
-        eu_tlds = self.getEuTlds()
-        parts = urlparse(url)
-        tld = parts.hostname[-3:]
-        if tld in eu_tlds:
-            return eu_tlds[tld]
-        country = self.getCountryOfUrl(url)
-        if country in eu_tlds.values():
-            return country
-        return False
+            self.checked_domains.append(parsed.hostname)
+        for link in self.parseOn(response):
+            yield scrapy.Request(link, callback=self.parse)
 
     def findGFonts(self, response):
-        for links in response.css('head link'):
-            return 'fonts.googleapis.com' in links.attrib['href']
+        for link in response.css('head link'):
+            try:
+                href = link.attrib['href']
+                if 'fonts.googleapis.com' in href:
+                    return True
+            except:
+                continue
+        return False
+
     def findGTrackers(self, response):
         trackers = { 'ga' : 'www.google-analytics.com',
                 'gt' : 'www.googletagmanager.com'}
-        result = {'ga':0, 'gt':0}
+        result = {'ga':False, 'gt':False}
         for script in response.css('script::text').getall():
-            if script.find(trackers['ga']) > 0:
-                result['ga'] = 1
-            if script.find(trackers['gt']) > 0:
-                result['gt'] = 1
+            if script.find(trackers['ga']) > 0: result['ga'] = True
+            if script.find(trackers['gt']) > 0: result['gt'] = True
         return result
+
     def findMetaPixel(self, response):
         for img in response.css('img'):
-            if img.attrib['src'].find('www.facebook.com/tr?id='):
-                return TRUE
-        return FALSE
+            try:
+                if img.attrib['src'].find('www.facebook.com/tr?id=') > 0: return True
+            except:
+                continue
+        return False
+
     def writeTrackers(self,response):
         gtrackers = self.findGTrackers(response)
-        yield {
+        return {
             'domain': urlparse(response.url).netloc,
-            'country': self.isEuropean(response.url),
+            'country': isEuropean(response.url),
             'gf': self.findGFonts(response),
             'ga': gtrackers['ga'],
-            'gt': gtrackers['gm'],
+            'gt': gtrackers['gt'],
             'mp': self.findMetaPixel(response)
                 }
 
-
     def parseOn(self, response):
         links = response.css('a');
         print('FOUND: ' + str(len(links)) + ' LINKS')
+        next_urls = []
         for link in links:
-            url = link.attrib['href']
-            # parse valid urls
-            found = urlparse(url)
-            if validators.url(url) and bool(found.netloc):
-                current = urlparse(response.url)
-                if current.hostname != found.hostname:
-                    yield response.follow(url, callback=self.parse)
-                else:
-                    print("NOT FOLLOWING: " + url)
+            try:
+                url = link.attrib['href']
+                found = urlparse(url)
+                if validators.url(url) and bool(found.netloc):
+                    current = urlparse(response.url)
+                    if current.hostname != found.hostname and found.hostname not in self.checked_domains:
+                        next_urls.append(url)
+            except:
+                continue
+        print('FOLLOW: ' + str(len(next_urls)) + ' LINKS')
+        return next_urls
 
     def getUrls(self):
         with open('sites.txt') as sites_file:
diff --git a/ger_gfonts/ger_gfonts/spiders/start_urls_spider.py b/ger_gfonts/ger_gfonts/spiders/start_urls_spider.py
index dc0028f..062cccf 100644
--- a/ger_gfonts/ger_gfonts/spiders/start_urls_spider.py
+++ b/ger_gfonts/ger_gfonts/spiders/start_urls_spider.py
@@ -3,9 +3,13 @@ import scrapy
 from scrapy.linkextractors import LinkExtractor
 #from utility.countries import getEuTlds
 from utility import countries
+from urllib.parse import urlencode, urlparse, parse_qs
 
-class firstSpider(scrapy.Spider):
+class startUrls(scrapy.Spider):
     name = "start_urls"
+    custom_settings = {
+        'ROBOTSTXT_OBEY': False
+    }
 
     def __init__(self):
         eu_tlds = countries.getEuTlds()
diff --git a/ger_gfonts/utility/.countries.py.swp b/ger_gfonts/utility/.countries.py.swp
deleted file mode 100644
index 6aec163319535a0eb877bec5ac207a0e71dd9bf1..0000000000000000000000000000000000000000
GIT binary patch
literal 0
HcmV?d00001

literal 12288
zcmeHNzmFS57@b3+2#_Cw3egOl(E7x&&W{FJxJd4NKa@*yN_>&H6Ig3|)}GvYciEXe
zVGz)QkWxbm8la+u5)ibA9#K&8A6!8N@0%H4971G?F6dk7-M;zeoA=GUnO(`c?VrEB
zeNDa=Ul6#?332?(U&$wLom+b61tBtBP;}vC%4DD>$-peg`~ZT@-Kw~w2G%qWi%D77
z<|r+4v_`7x1zKC3X*+EWiaNKIRwgc|3zWH=9bg9*J8)WDx_IF{<t@MTqI~Yzy~RT~
zgB@T8*a3Ec9bgC80d{~LU<dv;4%l)@e2CRN5mwX;_oaW_Lz8dp06V}AumkJ>JHQUG
z1MC1hzz(nj>;OCP7&?#)h4}H55T8AT$>ab3v)})}pB3U~;5*<Ra2LpcLtr1c3>=>k
z;wxYecoO*bv=AQy9|1XV6?h)_^BEz21AYL$2R;XmfEwrl9UubE0%w5Zr-k?x_y+hA
z_yV{KSYRJ`9e5cy1^j_|{{(yu+yiJGp8|Zb1MC1hzz(nj>;OB!4m@rSNL-b&b(PDF
zBr{4-fUXeqpNCEbg>))IQ|er*x@WVYiI0-3R;IDiayhevwj3$D=DsbR-bnYVtWj6l
zic2A>pdK_1AoQl|LkaLXd9O;bwk(s%ns{6on<o=>@am<OALQcbM+H!$?w1Ps=)-I}
zbr<t(tcamXr8b?qDoT~)F1saM`7o_+RX=2eHeofJs+xpRvnl6=g`n@~?yLtzUnZm*
zm8GjRL-;gb%B`#|qj;zy7ymCyov(Di{(PBey%WjyBR0hke{gw^n(r{N$w3r$Ir9Ef
z3>M!pMIL8GGHg`Jltpfo-|tz=?+`rC8%e2qC+8tF&>fAfElsQ0)TPeTBF2Zzk$gq!
z5`Us5>3fe5XiHNJ4wa3uv2-H(Q#uoV=V?9vcKU+z5?2)WM^P)fvKg&{52oO2Z#X`&
z;Mcm*`_4X}TV{yu?zsMv`ggmIR|WXZ8;%<VeyiiTCcf?YA@Qrx>YQFi{X4!tBfTB3
zm(|4g+_>zB_-)5?s(;<r&#C5h)SS~xE5tT#y4(@*P0z=~w*n{aEw8O<uG@aDn(A+(
z{+u4pVv9};c{8N>uVen;isBs~SBCg4A1CdO*G_3|8(5pu3lG$L7@Q2FmW(d1yAcVh
zqT!d_C)q1rb}$BC+j2>RcZu(VJFR6oNlN#6u!T&ra-8%ox@URr*~S*9RWYFlEz|wj
zy$+<tC-9X$c|C~Grt|bbcBS6Nn+%WgNj@FcS-L-OVtLkGPQz1xQ23Z$rgc8B8b@EI
MMHOC___SX94GiwrQUCw|

diff --git a/ger_gfonts/utility/__pycache__/countries.cpython-37.pyc b/ger_gfonts/utility/__pycache__/countries.cpython-37.pyc
index c102c3ddd3df971f365856534fafac78af20c344..25768089e86cf82407ea3e0b5693f33939ab7782 100644
GIT binary patch
delta 494
zcmY*Vu}T9$5WU&G-CROW6ch<wp$Os`BB(?|z(%nUG)=@J7Lw!+HHk^s-3Y>^(aL&T
z(fA2g7XFA_V`t+hXyNPy0`4-q^Jd=co1F*u(RKG+H)G*?<5uJD)qNrd91%s^N0Vhd
zloeU`Fa!l75<!c;z>owGk$EdX8&YLQ6!W%XBOck9Wf9X~Wc?^5%sVlcy=FU9v3n7!
z%brw?+iv|jj2+_}PY}bhTe8=U?M|;A_&lZq(TRD#E@T+Q<f>oOhjh1+MWO``WN|x?
z0kMg=2_}lm+>^!)HGpyJZBn&-QW0s4`QswI3i^XCLr(wFv$R+<DT=Ys&YyY+q#1+J
zngX$d-ai%7a5A1*bjBKTT7el;6;%_p6Q3l7VhcHm+_&w`EFqXY?SLrhXOhz!tg&i3
zNd6P^n|fyuN}q`W#%if>aIQLm6h*_>*6(Z?R`e%ZfU^E!i;&kI_vXwb5~;Ch$-uHc
M=EaobP=`6}56^~T<^TWy

delta 467
zcmY*VO-}+b5bd<vWkr^#LD7f_2{Cbn;8zey@Sxs3h&K+3u%fbx=@t{??unD<UX8(@
z;1AIsu)o3!S9Q81CN`PZH=XIc*S^@#wtZ;ZNrG$q@zd(Q+pknrxn17G6G=u8kT(dS
z0|8`7hh|AgB@O5hLMGYB2pCq4z))YboZ*q__uD;JMt0YgSAAbzJgNh>FwG-25MD&D
z?;~}?_D^CtNJ0uMM6rcZZK^Hc(mTUA!thfF9grk|A@pd2IP_Rd;h8hJ<j~0QUGGwq
z)R+}uQ7swGbYyAeyVkAiFf4>dvAL{gnFs_0(;)Vc{S(xpv0w(tM9!a)_~s!r&_FDF
z>d^S2*ufs;+qmKUZzDIGNBTG40#Q>%{<K!n4f<`7`OxwPuJ3SB(rLmSoJp_ai(TDO
zRiC`DvWnE7Lm*(rCM`q@f5-q)S7|d3>uSTy&FguwgNc`#PV4I2tRxZ^v$(~70hm=;
A0ssI2

diff --git a/ger_gfonts/utility/countries.py b/ger_gfonts/utility/countries.py
index 7f64de3..17634f0 100644
--- a/ger_gfonts/utility/countries.py
+++ b/ger_gfonts/utility/countries.py
@@ -15,13 +15,14 @@ def getEuTlds():
         '.bg':'BG', '.cy':'CY', '.mt':'MT'}
 
 def getCountryOfUrl(url):
-    ip = socket.gethostbyname(url)
+    parsed = urlparse(url)
+    ip = socket.gethostbyname(parsed.hostname)
     api_url = 'https://ipinfo.io/' + ip + '/json'
     response = urlopen(api_url)
     data = json.load(response)
     return data['country']
 
-def isCountryGerman(self, url):
+def isCountryGerman(url):
     return 'DE' == getCountryOfUrl(url)
 
 def isGermanTLD(url):
@@ -29,7 +30,7 @@ def isGermanTLD(url):
     tld = parts.hostname[-3:]
     return tld == '.de'
 
-def isGerman(self, url):
+def isGerman(url):
     if not isGermanTLD(url):
         return isCountryGerman(url)
     return True
diff --git a/ger_gfonts/utility/google_scrapy.py b/ger_gfonts/utility/google_scrapy.py
new file mode 100644
index 0000000..fa5604b
--- /dev/null
+++ b/ger_gfonts/utility/google_scrapy.py
@@ -0,0 +1,45 @@
+import requests
+import urllib
+import pandas as pd
+from requests_html import HTML
+from requests_html import HTMLSession
+
+def get_source(url):
+    """Return the source code for the provided URL.
+
+    Args:
+        url (string): URL of the page to scrape.
+
+    Returns:
+        response (object): HTTP response object from requests_html.
+    """
+
+    try:
+        session = HTMLSession()
+        response = session.get(url)
+        return response
+
+    except requests.exceptions.RequestException as e:
+        print(e)
+
+def scrape_google(query):
+
+    query = urllib.parse.quote_plus(query)
+    response = get_source("https://www.google.co.uk/search?q=" + query)
+
+    links = list(response.html.absolute_links)
+    google_domains = ('https://www.google.',
+                      'https://google.',
+                      'https://webcache.googleusercontent.',
+                      'http://webcache.googleusercontent.',
+                      'https://policies.google.',
+                      'https://support.google.',
+                      'https://maps.google.')
+
+    for url in links[:]:
+        if url.startswith(google_domains):
+            links.remove(url)
+
+    return links
+
+scrape_google('inurl:.si')