add domain logging

2022-02-02 20:07:56 +01:00 · 2022-02-02 20:07:56 +01:00 · b69869a040
parent cf5ac35399
commit b69869a040
2 changed files with 1 additions and 62 deletions
--- a/README.md
+++ b/README.md
@ -6,10 +6,10 @@ Based on: https://docs.scrapy.org/en/latest/intro/tutorial.html

 ## Usage

+    scrapy startproject ger_gfonts
    cd ger_gfonts
    scrapy crawl gfonts -O gfonts.json

-
 ## TODO

 Start checking for google analytics for all eu websites.
--- a/ger_gfonts/spiders/gfonts_spider.py
+++ b/ger_gfonts/spiders/gfonts_spider.py
@ -1,61 +0,0 @@
-import scrapy
-import socket
-import re
-import json
-from urllib.request import urlopen
-from urllib.parse import urlparse
-
-class GFontsSpider(scrapy.Spider):
-    name = "gfonts"
-    start_urls = self.getUrls()
-    custom_settings = {'CLOSESPIDER_PAGECOUNT': 2000}
-
-    def parse(self, response):
-        # check current url - german or eu (todo)
-        # check if api.gfonts.com is found
-        # todo: check if google analytics is found
-        if (self.isGerman(response.url)):
-            self.findGFonts(response)
-            self.parseOn(response)
-
-    def getCountryOfUrl(url):
-        ip = socket.gethostbyname(url)
-        api_url = 'https://ipinfo.io/' + ip + '/json'
-        response = urlopen(api_url)
-        data = json.load(response)
-        return data['country']
-
-    def isCountryGerman(url):
-        return 'DE' === self.getCountryOfUrl(url)
-
-    def isGermanTLD(url):
-        parts = urlparse(url)
-        tld = parts.hostname[-3:]
-        return tld === '.de'
-
-    def isGerman(url):
-        if (!self.isGermanTLD(url)):
-            return self.isCountryGerman(url)
-        return TRUE
-
-    def findGFonts(response):
-        for links in response.css('head links'):
-            if ('fonts.googleapis.com' in links.attrib['href']):
-                yield {
-                    'url': response.url,
-                    'gfonts': TRUE,
-                }
-
-    def parseOn(response):
-        for links in response.css('a'):
-            url = links.attrib['href']
-            if (bool(urlparse(url).netloc)):
-                current = urlparse(response.url)
-                found = urlparse(url)
-                if (current.hostname != found.hostname):
-                    yield response.follow(url, callback=self.parse)
-
-    def getUrls():
-        with open('../sites.txt') as sites_file:
-            sites = sites_file.readlines()
-            return sites