SlideShare ist ein Scribd-Unternehmen logo
1 von 108
Bastian Grimm, Peak Ace AG | @basgr
20+ Tipps, um das Beste aus euren Logfiles herauszuholen
Data-driven Technical SEO
Und warum sind Logfiles wichtig für eure SEO-Arbeit?
Why should you care?
pa.ag@peakaceag3
Ich bin ja großer Fan diverser Crawling Tools, aber …
Only access log files do show how a search
engine’s crawler is behaving on your site; all
crawling tools simply are trying to simulate
their behavior!”
Ihr wollt wissen, welche Seiten Suchmaschinen priorisieren? Nur so wird
klar, welchen URLs ihr besondere Aufmerksamkeit gönnen solltet.
1. Crawl-Prioritäten verstehen
Google könnte Crawling-Verhalten ändern oder die Frequenz reduzieren,
wenn ihr permanent große Mengen an Fehlern produziert.
2. Crawling-Probleme verhindern
Ihr wollt Schwachstellen im Crawling (Hierarchie, interne Linkstruktur etc.)
mit potenziell seitenübergreifenden Folgen identifizieren.
3. Globale Probleme verstehen
Ihr wollt sichergehen, dass Google alles Wichtige crawlt: vor allem ranking-
relevante Inhalte, aber auch schnelles Auffinden von aktuellem Content.
4.Optimales Crawling ermöglichen
Ihr wollt sicherstellen, dass jegliche gewonnene Link Equity immer mit
korrekten Links und/oder Redirects weitergegeben wird.
5. Korrekte Verlinkung sicherstellen
Denkt dran, Details hängen vom individuellen Setup ab!
Die Charakteristiken eines Logfiles
… je nach Webserver (Apache, nginx, IIS etc.), Caching und jeweiliger
Konfiguration. Versteht zuerst euer Setup!
Inhalt & Struktur variieren …
pa.ag@peakaceag11
Wie sieht ein Logfile normalerweise aus?
Server IP/Hostname1
Timestamp (Datum & Zeit)2
Methode (GET/POST/HEAD)3
Request URL4
HTTP Statuscode5
Größe in Bytes6
Referrer7
User Agent8
188.65.114.xxx [23/Nov/2018:02:00:00 -0100]
/resources/whitepapers/seo-whitepaper/
HTTP/1.1" 200 512 "http://www.seokomm.at/"
"Mozilla/5.0 (compatible; Googlebot/2.1;
+http://www.google.com/bot.html)"
"GET
Logfile-Daten können einen auch schnell überfordern, weil man so viel
mit ihnen machen kann. Bereitet also eure Fragen richtig vor!
Ihr müsst die richtigen Fragen stellen!
pa.ag@peakaceag13
Logfile-Daten können z. B. von GA-Daten abweichen
Logfiles sind serverseitige Informationen, Google Analytics verwendet clientseitigen
Code. Da Daten aus verschiedenen Quellen stammen, können sie unterschiedlich sein!
Auch die Konfiguration innerhalb Google Analytics führt zu
Datenunterschieden gegenüber Logfiles – wie z. B. Filter!
Was ihr wissen müsst, wenn ihr nach Logfiles fragt:
Häufig gestellte Fragen
Wir interessieren uns nur für Crawler wie Google und Bing; Nutzerdaten
sind unnötig (Betriebssystem, Browser, Telefonnummer, Namen etc.)
1. Personenbezogene Daten in Logfiles
Wenn ihr woanders einen Cache-Server und/oder CDN betreibt, das Logs
erstellt, brauchen wir diese Daten ebenfalls.
2. Logfiles an verschiedenen Orten
Es gibt verschiedenste Wege, das Thema anzugehen:
Logfile Auditing Tools
pa.ag@peakaceag18
Eine Sache, die definitiv nicht klappen wird: Notepad!
pa.ag@peakaceag19
Do-it-yourself-Lösung basierend auf Excel
Ihr müsstet Filter, Querverweise etc. manuell erstellen – das skaliert nicht wirklich!
pa.ag@peakaceag20
ScreamingFrog Log File Analyser
Einsteigerfreundliches, desktopbasiertes Logfile Auditing mit vordefinierten Reports
Keine Freigabemöglichkeiten, manueller Up-& Download der Logfiles,
generell problematisch bei größeren Dateien etc.
Desktoplösungen mit Limitierungen
pa.ag@peakaceag22
Splunk Enterprise & Cloud: Large-scale Log Management
Enterprise Tools wie Splunk bieten Funktionen, die weit über einfaches Logfile
Monitoring hinausgehen.
Image sources: https://www.splunk.com
pa.ag@peakaceag23
Der Elastic Stack (ELK): Elasticsearch, Logstash & Kibana
Elasticsearch: Search & Analytics Engine, Logstash: Server-side Data Processing
Pipeline, Kibana: Datenvisualisierung (Charts, Graphen etc.) – komplett Open Source!
Image source: https://pa.ag/2JbFUhP
pa.ag24
Graylog, logrunner, logz.io, loggly, sumo logic, papertrail
Besonders logrunner.io sowie logz.io mit starkem Fokus auf SEO-basiertem Auditing
(vorgefertigte Reportings, nützliche Dashboards etc.)
Was gibt’s aktuell an neuen Tools?
Have you already met ...?
pa.ag@peakaceag26
crawlOPTIMIZER: SaaS Logfile Auditing made in Vienna
Viele nützliche Reports, die einen einfachen Einstieg in das Thema Logfiles ermöglichen:
Mehr: https://www.crawloptimizer.com/
pa.ag@peakaceag27
crawlOPTIMIZER: SaaS Logfile Auditing made in Vienna
BRPs (Business Relevant Pages) und dezidierte Auswertung dieser als Top-USP
pa.ag@peakaceag28
Ryte BotLogs: Crawler Tracking via Pixel/Snippet
Ryte schreibt „eigene“ Logfiles, die ausschließlich Crawler-Zugriffe protokollieren.
Der große Vorteil: Kein (manuelles) Herumhantieren mit (großen) Logfiles.
Mehr: https://botlogs.ryte.com/
pa.ag@peakaceag29
Ryte BotLogs: Crawler Tracking via Pixel/Snippet
Super hilfreiche Timeline zur Darstellung einzelner (Crawl-) Events im zeitlichen Verlauf,
je nach User Agent und kategorisiert nach Priorität.
Up-/Downloads von Logfiles werden unnötig, einfache Freigabe-
funktionen, Möglichkeit mit sehr großen Datenmengen zu arbeiten etc.
Vorteil von SaaS: Echtzeit
Für einen leichten Einstieg: Trend Monitoring (im Zeitverlauf) & erste
Erkenntnisse sammeln
Let’s have a look at some data
pa.ag@peakaceag32
Einfachster Ansatz: Anomalien im Zeitverlauf erkennen
Tipp: Deswegen ist es sinnvoll, eure Logfiles regelmäßig zu checken (z. B. wöchentlich).
Das sieht erstmal ungewöhnlich
aus; ideale Grundlage für
weitere Nachforschungen.
pa.ag@peakaceag33
Crawl-Frequenz nach User Agent im zeitlichen Verlauf
Das Verständnis von Mustern und Unregelmäßigkeiten kann sehr hilfreich sein – schaut
euch das Crawl-Verhalten einzelner User-Agents immer auch im zeitlichen Verlauf an.
Sucht mit Logfiles nach Spambots oder Scrapern, um diese zu blockieren!
Welche anderen „Bots“ besuchen euch?
pa.ag@peakaceag35
Nicht jeder ist das, was er zu sein scheint!
Herausfinden, ob Googlebot wirklich Googlebot ist? Reverse DNS Lookup.
Bingbot kann genauso verifiziert werden, hier wäre die Antwort: *.search.msn.com.
Source: https://pa.ag/2JqOk8d
pa.ag@peakaceag36
Aktuelles Thema: Google MFI Switch
Checkt, ob der Google-Smartphone- den Desktopbot (im Crawl-Volumen) überholt hat.
Smartphonebot Crawl-
Volumen immer noch
niedriger als Desktop-Crawls
pa.ag@peakaceag37
Welche Seiten crawlt Googlebot am häufigsten?
Überprüft zusätzlich, ob diese mit den wichtigsten Seiten eurer Domain übereinstimmen.
Sind dies wirklich eure
wertvollsten Landingpages?
pa.ag@peakaceag38
Übersicht des Crawl-Volumens & Statuscodes je Verzeichnis
Ihr seht sofort, ob ihr Crawling-/Response-Probleme in einem Verzeichnis habt.
Tipp: Regelmäßig prüfen für eine kontinuierliche Performance der Top-Verzeichnisse.
Auswertungen & entsprechende Maßnahmen:
Was geht noch alles?
1. Redirects
pa.ag@peakaceag41
Identifiziert „falsche“ Redirects: 302 / 303 / 307 / 308
Maßnahme: Anpassen auf 301 (außer Geo-Redirects); achtet auch auf Redirect-Ketten!
Drill down to understand
what’s in there
2. Crawl-Fehler
pa.ag@peakaceag43
4xx Client Error: zu viele sind sicher kein positives Signal!
Maßnahme: wiederherstellen (200), weiterleiten (301) oder vollständig entfernen (410)
pa.ag@peakaceag44
Googlebot kann sich nicht einloggen … (403: Forbidden)
If it‘s linked, Google will try to crawl it – they are greedy!
pa.ag@peakaceag45
5xx Server Error: meist infrastrukturell bedingt
Maßnahme: Genau beobachten und/oder mit der IT reden (Serververfügbarkeit etc.)
Achtung: 503-Antworten können ggf. gewollt sein (geplante Wartungsarbeiten).
Prüft mehrfach; was passiert
bei erneutem Versuch?
3. Crawl-Prioritäten
pa.ag@peakaceag47
Beste/schlechteste gecrawlte URLs & Ordner verstehen
Maßnahme: zusätzliche interne Verlinkungen auf stark gecrawlten Seiten hinzufügen
(Linkhubs), stärkere interne Verlinkung von wenig/schwach gecrawlten Seiten
Kann für zusätzliche interne Verlinkungen verwendet
werden (Discovery).
Offensichtlich schwach, entweder irrelevant (entfernen)
oder braucht mehr Aufmerksamkeit (mehr Links).
4. Zuletzt gecrawlt
pa.ag@peakaceag49
Erkennt, ob (neue) URLs überhaupt gecrawlt wurden
Maßnahme: Wenn relevante URLs noch gar nicht gecrawlt wurden, ist eure interne
Verlinkung vermutlich zu schwach. Erwägt XML-Sitemaps, stärkere Verlinkung etc.
Wenn das wichtige URLs sind, habt
ihr möglicherweise ein Problem!
5. Crawl Budget & Waste
pa.ag@peakaceag51
Diesen Tweet von John habt ihr alle gesehen?
Source: https://pa.ag/2LUnt2R
pa.ag@peakaceag52
Wasting server resources on pages […] will
drain crawl activity from pages that do actually
have value, which may cause a significant
delay in discovering great content on a site.
Das sagt Googles Webmaster Central Blog dazu:
Source: https://pa.ag/2HhsYoz
pa.ag@peakaceag53
Wenn ihr jemals mit solchen Domains zu tun hattet …
Mit >30.000.000.000 crawlbaren URLs (durch Parameternutzung) richtig umzugehen,
macht einen Unterschied in der organischen Performance – garantiert!
pa.ag@peakaceag54
Ähnlich wie zu sagen, alle Redirects seien gleich …
… in diesem Fall haben wir nur die Weiterleitungen von 302/307 auf 301 umgestellt.
pa.ag55
URL-Parameter verursachen die meisten Probleme
(Kombinierte) URL-Parameter erzeugen insbesondere bei großen Domains nicht selten
Millionen von unnötigen URLs, die Googlebot (wenn einmal gefunden) fleißig crawlt.
pa.ag56
Verhalten der URL-Parameter im Zeitverlauf überwachen
Seid bei neuen Parametern sowie bei deutlich erhöhtem Crawling von bereits
bekannten Parametern auf der Hut:
pa.ag@peakaceag57
Überwacht weniger (ranking-) relevante Dateitypen
Maßnahme: ggf. die Art der Integration / des Ladens dieser einzelnen Komponenten
(bspw. XML-Fragmente) überdenken (keine eigene URL notwendig?)
Noch bessere Insights durch das Kombinieren mehrerer Quellen
Verknüpfen von Crawl- & Logfile-Daten
pa.ag@peakaceag60
Gap-Analysen der Crawl-Quellen
Unterschiede in den Quellen zu verstehen kann dabei helfen, unterschiedliches
Verhalten nachzuvollziehen, z. B. Webcrawl vs. Sitemap – oder vs. Logfiles.
URLs, die beim Webcrawl gefunden
wurden, aber in keinem Logfile.
pa.ag@peakaceag61
Auffinden von versehentlichen noindex-Anweisungen
Diese Produkt-URL wird oft gecrawlt, wurde aber versehentlich nicht indexierbar gemacht.
Ein Abgleich der Crawl-Direktive mit dem Verhalten (Logfiles) half bei der Lösung.
pa.ag@peakaceag62
Nicht gecrawlte Seiten, die in der Sitemap vorhanden sind
Diese Daten weisen auf zu wenig interne Links innerhalb der Seitenarchitektur hin.
Verbessert eure Architektur und haltet auch eure XML-Sitemaps sauber!
Klickt hier, um die jeweiligen URLs
aufzurufen und zu untersuchen.
pa.ag@peakaceag63
Indexierbare Seiten, die nicht gecrawlt werden
Ein guter Ausgangspunkt, um mit der Optimierung zu beginnen, die Indexierung/
Konsolidierung zu überdenken oder diese URLs vollständig zu löschen.
Hier ein paar weitere Reports: je nachdem was ihr vorhabt …
Time for some more?
pa.ag@peakaceag65
Crawl-Frequenz nach Content-Typen im Zeitverlauf
Das Crawling von JS/CSS-Dateien zu beobachten (z. B. nach Frontend/Template-
Änderungen) kann helfen, die Verarbeitung durch Google zu verstehen.
pa.ag@peakaceag66
Analysiert Fehler nach Content-Typen gruppiert
Vielleicht hat (nur) Google Probleme mit einer ganz bestimmten Art von Content?
Kategorisiert z. B. eure 404er nach unterschiedlichen Dateitypen wie JS, CSS etc.
pa.ag@peakaceag67
Identifiziert URLs, die länger nicht gecrawlt wurden
Fangt an, diese Seiten zu optimieren, wenn sie wirklich wichtig sind!
pa.ag@peakaceag68
Identifiziert (unbekannte) große URLs/Dateien
Je nach Details der Logfiles, z. B. nach durchschnittlicher Bytegröße sortieren und für
#webperf nutzen.
Vielleicht ladet ihr Sachen
ohne richtige Komprimierung?
Vielleicht müsst ihr eure Bilder
richtig optimieren?
pa.ag@peakaceag69
Integrate log file auditing into your regular
SEO workflow; one-off audits are good for a
start but it really becomes invaluable if you
combine it with web crawl data and do it on an
on-going basis.”
Logfile Auditing ist kein Projekt, sondern ein Prozess!
pa.ag@peakaceag70
Kurz zusammengefasst ...
Zum Nacharbeiten für die kommende Woche:
01
Keine One-fits-all-
Lösung
Logfilegröße, -menge
& -verfügbarkeit sind
ausschlaggebend für
die Toolauswahl.
02
Vorbereitung ist alles
Konkrete
Fragestellungen helfen
bei der effizienten
Analyse.
03
Crawl-Daten only
Seid präzise bei euren
Anfragen (an die IT),
ihr wollt nur wissen,
was Suchmaschinen
machen!
04
Reverse-DNS nutzen
Nicht jeder Crawler
ist, wer er vorgibt zu
sein – vertraut nicht
"blind“ auf den User
Agent.
05
URL-Parameter
sind nahezu immer
das größte Problem
(Kombinationen,
Reihenfolgen,
Konsistenz) – auditiert
diese zuerst.
Oh yeah, there’s one more thing …
Ich möchte: keine IT involvieren, unbegrenzte Skalierbarkeit, flexible
Berichte, mehrere (API-) Datenquellen und Nutzerfreundlichkeit!
Es muss einen anderen Weg geben!
„Sicher, solange ihr uns bezahlt!“
„Can you integrate with our
Google Data Studio reports?“
(Und jeder auf der #seokomm bekommt das als Geschenk, kostenlos!)
Wir haben uns da was überlegt:
pa.ag75
Der aktuell genutzte Tool Stack
(Wir haben es leider nicht mehr geschafft Searchmetrics & Majestic anzubinden)
Logfiles Google Analytics
Google Data
Studio
Google Search ConsoleInput Data Sources
Data Processing Output Data
DeepCrawl
Google Big
Query
Google Data
Prep
Google Apps
Script
Individuelle Reports, die auf eure Bedürfnisse zugeschnitten sind.
Und wie sieht das Ergebnis aus?
pa.ag77
Crawl-Verhalten im zeitlichen Verlauf visualisieren
Wird die Seite ausreichend und regelmäßig von allen relevanten Bots gecrawlt?
pa.ag78
Am häufigsten gecrawlte URLs und Dateien
Welche Crawl Hubs könnten zur Verbesserung der internen Verlinkung genutzt werden?
Connect and conquer …
Wie funktioniert das?
pa.ag80
Workflow I: Logfiles abrufen, IPs löschen & bereitstellen
(A) Logfiles vom Server downloaden, (B) IP-Adressen löschen mit PowerShell, (C)
Logfiles zu einer Datei zusammenfügen (D) und auf Google Cloud Storage hochladen.
Weiterver-
arbeitung
Online
Upload
Download
auf den PC
B CA
Logfiles Google Cloud Storage
D
große Datensätze
speichern
CMD / SED
Logfiles in einer Datei
zusammenführen
PowerShell
IP-Adressen löschen
(DGSVO… und so!)
vom Server, CDN,
Cache, etc.
PowerShell Windows: (Get-Content example.txt) -replace "(b[0-9]{1,3}.){3}[0-9]{1,3}", '0.0.0.0‘ -replace "(([a-zA-Z0-9]{1,4}|):){1,7}([a-zA-Z0-9]{1,4}|:)", '0:0:0:0:0:0:0:0' | Out-File example.txt
CMD: cmd => cd desktop => cd logfiles => dir => copy * logfiles_all
Linux: sed -i -E 's/(b[0-9]{1,3}.){3}[0-9]{1,3}b'/0.0.0.0/ temp.log /// sed -i -E 's/(([a-zA-Z0-9]{1,4}|):){1,7}([a-zA-Z0-9]{1,4}|:)b'/0:0:0:0:0:0:0:0/ temp.log
pa.ag81
Workflow II: Logfile-Daten zur Visualisierung bringen
(1) Logfiles werden im Google Cloud Storage gespeichert, (6) in Dataprep verarbeitet,
(7) nach BigQuery exportiert, (8) in Data Studio via BigQuery Connector visualisiert.
8
Google Data Studio
Daten aller Quellen
visualisieren
Daten
senden
Daten
abbildenImportieren
Google Dataprep
6
Quellen bereinigen
und verknüpfen
7
Google Big Query
große Datensätze
verarbeiten
1
Logfiles
gespeichert in Google
Cloud Storage
pa.ag82
Workflow III: Logfile-Daten weiter anreichern
GA-, GSC- und DC-Daten werden über ihre APIs mithilfe von Google Apps Script
importiert.
GSC
API v3
GA
API v4
GA
GSC
Google Apps Script
Daten aus APIs abrufen
durch Definition von
Metriken & Settings (z.B.
Zeitspanne) via JS
2
3
65
DeepCrawl
API
4
pa.ag83
Logfiles
Workflow IV: Alles verknüpfen (& zukünftig noch mehr!)
Datenquellen mithilfe von Dataprep verknüpfen.
GSC-, GA- & DC-Daten senden
Daten
senden
Google Apps
Script
76
5 1
Searchmetrics Screaming FrogMajestic SEO
in Kürze manuellin Kürze
Mitglieder des Supply-Chain Teams
Tools und ihre Kernaufgaben
pa.ag85
#1 Logfile-Daten von Webservern, CDN, Cache etc.
Wie oft crawlen Bots tatsächlich? Was crawlen sie und wann?
Quelle: https://pa.ag/2zs9lcY
▪ Anzahl der Crawls/Anfragen pro Bot-Typ
▪ Identifizierung von Crawling-Mustern
▪ Fehler / Weiterleitungen
▪ 3xx
▪ 4xx
▪ 5xx
Ziel: Verbesserung der Seitenarchitektur
durch Analyse echter Bot-Crawling-Daten
LogfilesGoogle Cloud
Storage
Als Textdatei
importieren
(IP-Adressen
ausschließen!)
pa.ag
15TB (pro Datei), die in BigQuery verschoben werden sollen.
Größe ist definitiv KEIN Problem
pa.ag
nginx/Apache/etc. >> fluentd >> BigQuery
Standalone files are messy, agreed.
pa.ag89
#2 Google Analytics API
Ergänzt Reports um Verhaltensdaten und Page-Speed-Metriken der User.
Google Analytics
Reporting API v4
Ziel: Vergleich des Crawling-Verhaltens mit Benutzer- und
Ladezeitdaten
URL-basierte Daten zu wichtigen Engagement-Metriken:
▪ Sessions
▪ User
▪ Absprungrate
▪ Durchschn. Verweildauer
▪ Durchschn. Server Response Time
▪ Durchschn. Seitenladezeit
▪ …
pa.ag90
#3 Google Search Console API
Performance-Daten der organischen Suche direkt von Google
Ziel: Vergleich des Crawling-Verhaltens mit organischen
Klickdaten & Abfrage gefundener Crawling-Fehler
Organische Klickdaten:
▪ Klicks
▪ Impressions
▪ …
URL-basierte Server-Response-Daten:
▪ Statuscode
Google Search
Console API v3
pa.ag91
#4 DeepCrawl API
Website-Architektur, Statuscodes, Indexierungsdirektiven, etc.
Ziel: Erfassen von Indexierungsdirektiven, Response
Codes und vielem mehr
DeepCrawl
API
pa.ag92
#5 Google Apps Script I: GA
API-Zugriff: benutzerdefiniert verschiedene Dimensionen und Metriken aus GA erfassen
Quelle: https://pa.ag/2OWnjJa
Ziel: Google-Analytics-Daten (über die API) an BigQuery
senden
Google Apps Script
pa.ag93
#5 Google Apps Script II: GSC
API-Zugriff: JavaScript Code zum Abrufen von Crawl- und Suchanalysedaten der GSC
Quelle: https://pa.ag/2OWnjJa
Ziel: Daten aus der Google Search Console an BigQuery
senden
Google Apps Script
pa.ag94
#5 Google Apps Script III: DeepCrawl
API-Zugriff: benutzerdefiniert verschiedene Daten/Direktiven aus DeepCrawl erfassen
Quelle: https://pa.ag/2OWnjJa
Ziel: DeepCrawl-Daten (über API) an BigQuery senden
Google Apps Script
pa.ag95
#6 Google Cloud Dataprep I: Aufbereiten
Schritt 1: Daten aufbereiten und kombinieren für die anschließende Visualisierung
Quelle: https://pa.ag/2Q6rEde
Ziel: Bereinigen und Transformieren der Daten
Dataprep: „Excel on rocket fuel“
▪ Großartiger RegEx Support
▪ Daten auswählen und automatisiert
Vorschläge zur Verarbeitung erhalten
▪ Datenquellen verbinden durch z. B.
Full Inner/Outer Join, Left/Right Join …
Google Apps Script
pa.ag97
#6 Google Cloud Dataprep II: Verbinden (URL)
Schritt 2: Daten mehrerer Quellen verbinden mit verschiedenen Verknüpfungsoptionen
Quelle: https://pa.ag/2Q6rEde
Ziel: Kombination
von Daten aus
Logfiles, GSC, GA &
DeepCrawl
Google Apps Script
pa.ag98
#6 Google Cloud Dataprep III: Workflows
Kern des ganzen Prozesses: Quellen innerhalb verschachtelter Workflows verknüpfen
Ziel: Kombination von
Logfiles, GSC, GA und
DeepCrawl innerhalb des
Processing Flows
Google Apps Script
pa.ag99
#7 Google Cloud BigQuery I: Tabellen erstellen
Die BigQuery-Tabellenstruktur wird erstellt wie im Google Apps Script angegeben.
Quelle: https://pa.ag/2QWtiPQ
Ziel: Speichern von großen Datenmengen zum
schnelleren Abrufen und Verarbeiten
Google BigQuery
pa.ag100
#7 Google Cloud BigQuery II: Daten verfügbar machen
Data Warehouse mit superschneller SQL-Abfrage für sehr große Tabellen
Quelle: https://pa.ag/2QWtiPQ
Möglichkeit: Abfrage der Daten vor der Visualisierung
Google BigQuery
pa.ag101
#8 Google Data Studio: Visualisierung
Letzter Schritt: In der Visualisierung läuft alles zusammen. Verwendet BigQuery
Connectors, um Daten aus BigQuery-Tabellen in Google Data Studio zu laden.
Quelle: https://pa.ag/2xLAyoV
Ziel: Import und Visualisierung von Daten aus BigQuery
Google Data Studio
pa.ag
Here you go:
Ein paar Beispiele?
pa.ag@peakaceag103
pa.ag@peakaceag104
pa.ag@peakaceag105
pa.ag@peakaceag106
pa.ag@peakaceag107
pa.ag@peakaceag108
pa.ag@peakaceag
Really now, one last thing…
pa.ag@peakaceag110
We’re hiring! 30+ performance marketing jobs in Berlin!
Come and say “hello” or apply via jobs.pa.ag. We look forward to talking to you!
Always looking for talent!
Check out jobs.pa.ag
pa.ag@peakaceag
twitter.com/peakaceag
facebook.com/peakaceag
www.pa.ag
ALWAYS LOOKING FOR TALENT! CHECK OUT JOBS.PA.AG
WINNER
Bastian Grimm
bg@pa.ag
Folien? Kein Problem:
https://pa.ag/seok18logs
Ihr wollt unser Logfile-Setup kostenlos(!) nutzen?
e-mail us > seokomm@pa.ag

Weitere ähnliche Inhalte

Was ist angesagt?

Corrie Jones BrightonSEO deck
Corrie Jones BrightonSEO deckCorrie Jones BrightonSEO deck
Corrie Jones BrightonSEO deckCorrie Jones
 
Data-driven SEO & content strategy to reduce your customer acquisition costs
Data-driven SEO & content strategy to reduce your customer acquisition costsData-driven SEO & content strategy to reduce your customer acquisition costs
Data-driven SEO & content strategy to reduce your customer acquisition costsadlift
 
BSEO How to cheat Facebook into giving you cheaper CPMs.pptx
BSEO How to cheat Facebook into giving you cheaper CPMs.pptxBSEO How to cheat Facebook into giving you cheaper CPMs.pptx
BSEO How to cheat Facebook into giving you cheaper CPMs.pptxClaire Stanley-Manock
 
EAT: Have We Been Looking At It Backwards
EAT: Have We Been Looking At It BackwardsEAT: Have We Been Looking At It Backwards
EAT: Have We Been Looking At It BackwardsEdwardZiubrzynski1
 
The Full Scoop on Google's Title Rewrites
The Full Scoop on Google's Title RewritesThe Full Scoop on Google's Title Rewrites
The Full Scoop on Google's Title RewritesMordy Oberstein
 
Creating Search Quality Algorithms - Richard Lawrence - BrightonSEO.pdf
Creating Search Quality Algorithms - Richard Lawrence - BrightonSEO.pdfCreating Search Quality Algorithms - Richard Lawrence - BrightonSEO.pdf
Creating Search Quality Algorithms - Richard Lawrence - BrightonSEO.pdfRichard Lawrence
 
Why Scaling (Great) Content Is So Bloody Hard
Why Scaling (Great) Content Is So Bloody HardWhy Scaling (Great) Content Is So Bloody Hard
Why Scaling (Great) Content Is So Bloody HardAhrefs
 
SEO, PPC and AI in 2023 and Beyond
SEO, PPC and AI in 2023 and BeyondSEO, PPC and AI in 2023 and Beyond
SEO, PPC and AI in 2023 and BeyondLily Ray
 
Martin McGarry - SEO strategy c/o England manager Gareth Southgate
Martin McGarry - SEO strategy c/o England manager Gareth SouthgateMartin McGarry - SEO strategy c/o England manager Gareth Southgate
Martin McGarry - SEO strategy c/o England manager Gareth SouthgateMartin McGarry
 
Brighton SEO Talk HS FINAL.pptx
Brighton SEO Talk HS FINAL.pptxBrighton SEO Talk HS FINAL.pptx
Brighton SEO Talk HS FINAL.pptxHarry Sumner
 
How to do User Research on a shoestring budget
How to do User Research on a shoestring budgetHow to do User Research on a shoestring budget
How to do User Research on a shoestring budgetAngus Carbarns
 
Data Driven Approach to Scale SEO at BrightonSEO 2023
Data Driven Approach to Scale SEO at BrightonSEO 2023Data Driven Approach to Scale SEO at BrightonSEO 2023
Data Driven Approach to Scale SEO at BrightonSEO 2023Nitin Manchanda
 
BrightonSEO Slides April 2023
BrightonSEO Slides April 2023BrightonSEO Slides April 2023
BrightonSEO Slides April 2023Cheryl Luzet
 
3 HACKS PARA CONSEGUIR MÁS LEADS Y MEJORAR TU SEO, UX y CRO
3 HACKS PARA CONSEGUIR MÁS  LEADS Y MEJORAR TU SEO, UX y CRO3 HACKS PARA CONSEGUIR MÁS  LEADS Y MEJORAR TU SEO, UX y CRO
3 HACKS PARA CONSEGUIR MÁS LEADS Y MEJORAR TU SEO, UX y CROIñaki Tovar
 
How to Incorporate ML in your SERP Analysis, Lazarina Stoy -BrightonSEO Oct, ...
How to Incorporate ML in your SERP Analysis, Lazarina Stoy -BrightonSEO Oct, ...How to Incorporate ML in your SERP Analysis, Lazarina Stoy -BrightonSEO Oct, ...
How to Incorporate ML in your SERP Analysis, Lazarina Stoy -BrightonSEO Oct, ...LazarinaStoyanova
 
Turning A Neglected YouTube Channel into a Traffic Generation Machine
Turning A Neglected YouTube Channel into a Traffic Generation MachineTurning A Neglected YouTube Channel into a Traffic Generation Machine
Turning A Neglected YouTube Channel into a Traffic Generation MachinePhil Nottingham
 
Content Design & its Role in SEO and Accessibility [BrightonSEO Spring 2023]
Content Design & its Role in SEO and Accessibility [BrightonSEO Spring 2023]Content Design & its Role in SEO and Accessibility [BrightonSEO Spring 2023]
Content Design & its Role in SEO and Accessibility [BrightonSEO Spring 2023]Chloe Smith
 
BrightonSEO April 2023 Similar AI: Automation recipes for SEO success
BrightonSEO April 2023 Similar AI: Automation recipes for SEO successBrightonSEO April 2023 Similar AI: Automation recipes for SEO success
BrightonSEO April 2023 Similar AI: Automation recipes for SEO successDylan Fuler
 
Internal Linking - The Topic Clustering Way edited.pptx
Internal Linking - The Topic Clustering Way edited.pptxInternal Linking - The Topic Clustering Way edited.pptx
Internal Linking - The Topic Clustering Way edited.pptxDixon Jones
 
How to get more traffic with less content - BrightonSEO
How to get more traffic with less content - BrightonSEOHow to get more traffic with less content - BrightonSEO
How to get more traffic with less content - BrightonSEOAnna Gregory-Hall
 

Was ist angesagt? (20)

Corrie Jones BrightonSEO deck
Corrie Jones BrightonSEO deckCorrie Jones BrightonSEO deck
Corrie Jones BrightonSEO deck
 
Data-driven SEO & content strategy to reduce your customer acquisition costs
Data-driven SEO & content strategy to reduce your customer acquisition costsData-driven SEO & content strategy to reduce your customer acquisition costs
Data-driven SEO & content strategy to reduce your customer acquisition costs
 
BSEO How to cheat Facebook into giving you cheaper CPMs.pptx
BSEO How to cheat Facebook into giving you cheaper CPMs.pptxBSEO How to cheat Facebook into giving you cheaper CPMs.pptx
BSEO How to cheat Facebook into giving you cheaper CPMs.pptx
 
EAT: Have We Been Looking At It Backwards
EAT: Have We Been Looking At It BackwardsEAT: Have We Been Looking At It Backwards
EAT: Have We Been Looking At It Backwards
 
The Full Scoop on Google's Title Rewrites
The Full Scoop on Google's Title RewritesThe Full Scoop on Google's Title Rewrites
The Full Scoop on Google's Title Rewrites
 
Creating Search Quality Algorithms - Richard Lawrence - BrightonSEO.pdf
Creating Search Quality Algorithms - Richard Lawrence - BrightonSEO.pdfCreating Search Quality Algorithms - Richard Lawrence - BrightonSEO.pdf
Creating Search Quality Algorithms - Richard Lawrence - BrightonSEO.pdf
 
Why Scaling (Great) Content Is So Bloody Hard
Why Scaling (Great) Content Is So Bloody HardWhy Scaling (Great) Content Is So Bloody Hard
Why Scaling (Great) Content Is So Bloody Hard
 
SEO, PPC and AI in 2023 and Beyond
SEO, PPC and AI in 2023 and BeyondSEO, PPC and AI in 2023 and Beyond
SEO, PPC and AI in 2023 and Beyond
 
Martin McGarry - SEO strategy c/o England manager Gareth Southgate
Martin McGarry - SEO strategy c/o England manager Gareth SouthgateMartin McGarry - SEO strategy c/o England manager Gareth Southgate
Martin McGarry - SEO strategy c/o England manager Gareth Southgate
 
Brighton SEO Talk HS FINAL.pptx
Brighton SEO Talk HS FINAL.pptxBrighton SEO Talk HS FINAL.pptx
Brighton SEO Talk HS FINAL.pptx
 
How to do User Research on a shoestring budget
How to do User Research on a shoestring budgetHow to do User Research on a shoestring budget
How to do User Research on a shoestring budget
 
Data Driven Approach to Scale SEO at BrightonSEO 2023
Data Driven Approach to Scale SEO at BrightonSEO 2023Data Driven Approach to Scale SEO at BrightonSEO 2023
Data Driven Approach to Scale SEO at BrightonSEO 2023
 
BrightonSEO Slides April 2023
BrightonSEO Slides April 2023BrightonSEO Slides April 2023
BrightonSEO Slides April 2023
 
3 HACKS PARA CONSEGUIR MÁS LEADS Y MEJORAR TU SEO, UX y CRO
3 HACKS PARA CONSEGUIR MÁS  LEADS Y MEJORAR TU SEO, UX y CRO3 HACKS PARA CONSEGUIR MÁS  LEADS Y MEJORAR TU SEO, UX y CRO
3 HACKS PARA CONSEGUIR MÁS LEADS Y MEJORAR TU SEO, UX y CRO
 
How to Incorporate ML in your SERP Analysis, Lazarina Stoy -BrightonSEO Oct, ...
How to Incorporate ML in your SERP Analysis, Lazarina Stoy -BrightonSEO Oct, ...How to Incorporate ML in your SERP Analysis, Lazarina Stoy -BrightonSEO Oct, ...
How to Incorporate ML in your SERP Analysis, Lazarina Stoy -BrightonSEO Oct, ...
 
Turning A Neglected YouTube Channel into a Traffic Generation Machine
Turning A Neglected YouTube Channel into a Traffic Generation MachineTurning A Neglected YouTube Channel into a Traffic Generation Machine
Turning A Neglected YouTube Channel into a Traffic Generation Machine
 
Content Design & its Role in SEO and Accessibility [BrightonSEO Spring 2023]
Content Design & its Role in SEO and Accessibility [BrightonSEO Spring 2023]Content Design & its Role in SEO and Accessibility [BrightonSEO Spring 2023]
Content Design & its Role in SEO and Accessibility [BrightonSEO Spring 2023]
 
BrightonSEO April 2023 Similar AI: Automation recipes for SEO success
BrightonSEO April 2023 Similar AI: Automation recipes for SEO successBrightonSEO April 2023 Similar AI: Automation recipes for SEO success
BrightonSEO April 2023 Similar AI: Automation recipes for SEO success
 
Internal Linking - The Topic Clustering Way edited.pptx
Internal Linking - The Topic Clustering Way edited.pptxInternal Linking - The Topic Clustering Way edited.pptx
Internal Linking - The Topic Clustering Way edited.pptx
 
How to get more traffic with less content - BrightonSEO
How to get more traffic with less content - BrightonSEOHow to get more traffic with less content - BrightonSEO
How to get more traffic with less content - BrightonSEO
 

Ähnlich wie Data-driven Technical SEO: Logfile Auditing - SEOkomm 2018

SEOday Köln 2020 - Surprise, Surprise - 5 SEO secrets
SEOday Köln 2020 - Surprise, Surprise - 5 SEO secretsSEOday Köln 2020 - Surprise, Surprise - 5 SEO secrets
SEOday Köln 2020 - Surprise, Surprise - 5 SEO secretsBastian Grimm
 
Crawl-Budget Optimierung - SEOday 2015
Crawl-Budget Optimierung - SEOday 2015Crawl-Budget Optimierung - SEOday 2015
Crawl-Budget Optimierung - SEOday 2015Bastian Grimm
 
Logfile-Analyse: Wo ver(sch)wendet Google Crawling-Ressourcen? | Stephan Czys...
Logfile-Analyse: Wo ver(sch)wendet Google Crawling-Ressourcen? | Stephan Czys...Logfile-Analyse: Wo ver(sch)wendet Google Crawling-Ressourcen? | Stephan Czys...
Logfile-Analyse: Wo ver(sch)wendet Google Crawling-Ressourcen? | Stephan Czys...TA Trust Agents Internet GmbH
 
SEOkomm 2019 - André Goldmann - User-Experience-Optimierung für SEOs - Wie du...
SEOkomm 2019 - André Goldmann - User-Experience-Optimierung für SEOs - Wie du...SEOkomm 2019 - André Goldmann - User-Experience-Optimierung für SEOs - Wie du...
SEOkomm 2019 - André Goldmann - User-Experience-Optimierung für SEOs - Wie du...André Goldmann
 
SeoDay 2017: Mikroprozesse im SEO
SeoDay 2017: Mikroprozesse im SEOSeoDay 2017: Mikroprozesse im SEO
SeoDay 2017: Mikroprozesse im SEOget traction GmbH
 
OMWest Barcamp 2018: Onpage SEO im Griff: Alerting und Monitoring für SEOs
OMWest Barcamp 2018: Onpage SEO im Griff: Alerting und Monitoring für SEOsOMWest Barcamp 2018: Onpage SEO im Griff: Alerting und Monitoring für SEOs
OMWest Barcamp 2018: Onpage SEO im Griff: Alerting und Monitoring für SEOsget traction GmbH
 
Smartes SEO Monitoring & Alerting mit Apps Scripts [DE] - John Muñoz
Smartes SEO Monitoring & Alerting mit Apps Scripts [DE] - John MuñozSmartes SEO Monitoring & Alerting mit Apps Scripts [DE] - John Muñoz
Smartes SEO Monitoring & Alerting mit Apps Scripts [DE] - John MuñozJohn Muñoz
 
Google Analytics & Seo @seosixt wiesn 2014
Google Analytics & Seo @seosixt wiesn 2014Google Analytics & Seo @seosixt wiesn 2014
Google Analytics & Seo @seosixt wiesn 2014121WATT GmbH
 
Mehr Pagespeed geht nicht - SEOkomm 2015
Mehr Pagespeed geht nicht - SEOkomm 2015Mehr Pagespeed geht nicht - SEOkomm 2015
Mehr Pagespeed geht nicht - SEOkomm 2015Bastian Grimm
 
Onpage SEO im Griff: Alerting und Monitoring für SEOs
Onpage SEO im Griff: Alerting und Monitoring für SEOsOnpage SEO im Griff: Alerting und Monitoring für SEOs
Onpage SEO im Griff: Alerting und Monitoring für SEOsget traction GmbH
 
Welcome to a New Reality - SEO goes Mobile First in 2017
Welcome to a New Reality - SEO goes Mobile First in 2017Welcome to a New Reality - SEO goes Mobile First in 2017
Welcome to a New Reality - SEO goes Mobile First in 2017Bastian Grimm
 
Google Search Console: Dateninterpretation & API | Stephan Czysch | OMX 2015
Google Search Console: Dateninterpretation & API | Stephan Czysch | OMX 2015Google Search Console: Dateninterpretation & API | Stephan Czysch | OMX 2015
Google Search Console: Dateninterpretation & API | Stephan Czysch | OMX 2015TA Trust Agents Internet GmbH
 
Bing Webmaster Tools SMX Munich 2014
Bing Webmaster Tools SMX Munich 2014Bing Webmaster Tools SMX Munich 2014
Bing Webmaster Tools SMX Munich 2014Stephan F. Walcher
 
Welcome to a New Reality - SEO goes Mobile First in 2017
Welcome to a New Reality - SEO goes Mobile First in 2017Welcome to a New Reality - SEO goes Mobile First in 2017
Welcome to a New Reality - SEO goes Mobile First in 2017Bastian Grimm
 
Site Speed EXTREME - SEOkomm 2014
Site Speed EXTREME - SEOkomm 2014Site Speed EXTREME - SEOkomm 2014
Site Speed EXTREME - SEOkomm 2014Bastian Grimm
 
Google - Mobil-First-Index @SEO-Campixx 2018 | Maximilian Bloch
Google - Mobil-First-Index @SEO-Campixx 2018 | Maximilian BlochGoogle - Mobil-First-Index @SEO-Campixx 2018 | Maximilian Bloch
Google - Mobil-First-Index @SEO-Campixx 2018 | Maximilian BlochMaximilian Bloch
 

Ähnlich wie Data-driven Technical SEO: Logfile Auditing - SEOkomm 2018 (20)

SEOday Köln 2020 - Surprise, Surprise - 5 SEO secrets
SEOday Köln 2020 - Surprise, Surprise - 5 SEO secretsSEOday Köln 2020 - Surprise, Surprise - 5 SEO secrets
SEOday Köln 2020 - Surprise, Surprise - 5 SEO secrets
 
Crawl-Budget Optimierung - SEOday 2015
Crawl-Budget Optimierung - SEOday 2015Crawl-Budget Optimierung - SEOday 2015
Crawl-Budget Optimierung - SEOday 2015
 
Logfile-Analyse: Wo ver(sch)wendet Google Crawling-Ressourcen? | Stephan Czys...
Logfile-Analyse: Wo ver(sch)wendet Google Crawling-Ressourcen? | Stephan Czys...Logfile-Analyse: Wo ver(sch)wendet Google Crawling-Ressourcen? | Stephan Czys...
Logfile-Analyse: Wo ver(sch)wendet Google Crawling-Ressourcen? | Stephan Czys...
 
SEOkomm 2019 - André Goldmann - User-Experience-Optimierung für SEOs - Wie du...
SEOkomm 2019 - André Goldmann - User-Experience-Optimierung für SEOs - Wie du...SEOkomm 2019 - André Goldmann - User-Experience-Optimierung für SEOs - Wie du...
SEOkomm 2019 - André Goldmann - User-Experience-Optimierung für SEOs - Wie du...
 
Seo Hilfe
Seo HilfeSeo Hilfe
Seo Hilfe
 
SeoDay 2017: Mikroprozesse im SEO
SeoDay 2017: Mikroprozesse im SEOSeoDay 2017: Mikroprozesse im SEO
SeoDay 2017: Mikroprozesse im SEO
 
OMWest Barcamp 2018: Onpage SEO im Griff: Alerting und Monitoring für SEOs
OMWest Barcamp 2018: Onpage SEO im Griff: Alerting und Monitoring für SEOsOMWest Barcamp 2018: Onpage SEO im Griff: Alerting und Monitoring für SEOs
OMWest Barcamp 2018: Onpage SEO im Griff: Alerting und Monitoring für SEOs
 
Google Search Console für SEO einsetzen!
Google Search Console für SEO einsetzen!Google Search Console für SEO einsetzen!
Google Search Console für SEO einsetzen!
 
Smartes SEO Monitoring & Alerting mit Apps Scripts [DE] - John Muñoz
Smartes SEO Monitoring & Alerting mit Apps Scripts [DE] - John MuñozSmartes SEO Monitoring & Alerting mit Apps Scripts [DE] - John Muñoz
Smartes SEO Monitoring & Alerting mit Apps Scripts [DE] - John Muñoz
 
Google Analytics & Seo @seosixt wiesn 2014
Google Analytics & Seo @seosixt wiesn 2014Google Analytics & Seo @seosixt wiesn 2014
Google Analytics & Seo @seosixt wiesn 2014
 
Mehr Pagespeed geht nicht - SEOkomm 2015
Mehr Pagespeed geht nicht - SEOkomm 2015Mehr Pagespeed geht nicht - SEOkomm 2015
Mehr Pagespeed geht nicht - SEOkomm 2015
 
Onpage SEO im Griff: Alerting und Monitoring für SEOs
Onpage SEO im Griff: Alerting und Monitoring für SEOsOnpage SEO im Griff: Alerting und Monitoring für SEOs
Onpage SEO im Griff: Alerting und Monitoring für SEOs
 
Tracking-Herausforderungen 2020
Tracking-Herausforderungen 2020Tracking-Herausforderungen 2020
Tracking-Herausforderungen 2020
 
Welcome to a New Reality - SEO goes Mobile First in 2017
Welcome to a New Reality - SEO goes Mobile First in 2017Welcome to a New Reality - SEO goes Mobile First in 2017
Welcome to a New Reality - SEO goes Mobile First in 2017
 
Google Search Console: Dateninterpretation & API | Stephan Czysch | OMX 2015
Google Search Console: Dateninterpretation & API | Stephan Czysch | OMX 2015Google Search Console: Dateninterpretation & API | Stephan Czysch | OMX 2015
Google Search Console: Dateninterpretation & API | Stephan Czysch | OMX 2015
 
Bing Webmaster Tools SMX Munich 2014
Bing Webmaster Tools SMX Munich 2014Bing Webmaster Tools SMX Munich 2014
Bing Webmaster Tools SMX Munich 2014
 
Welcome to a New Reality - SEO goes Mobile First in 2017
Welcome to a New Reality - SEO goes Mobile First in 2017Welcome to a New Reality - SEO goes Mobile First in 2017
Welcome to a New Reality - SEO goes Mobile First in 2017
 
SEO Maintenance - SEODay 2015
SEO Maintenance - SEODay 2015SEO Maintenance - SEODay 2015
SEO Maintenance - SEODay 2015
 
Site Speed EXTREME - SEOkomm 2014
Site Speed EXTREME - SEOkomm 2014Site Speed EXTREME - SEOkomm 2014
Site Speed EXTREME - SEOkomm 2014
 
Google - Mobil-First-Index @SEO-Campixx 2018 | Maximilian Bloch
Google - Mobil-First-Index @SEO-Campixx 2018 | Maximilian BlochGoogle - Mobil-First-Index @SEO-Campixx 2018 | Maximilian Bloch
Google - Mobil-First-Index @SEO-Campixx 2018 | Maximilian Bloch
 

Mehr von Bastian Grimm

Migration Best Practices - Peak Ace on Air
Migration Best Practices - Peak Ace on AirMigration Best Practices - Peak Ace on Air
Migration Best Practices - Peak Ace on AirBastian Grimm
 
Technical SEO vs. User Experience - Bastian Grimm, Peak Ace AG
Technical SEO vs. User Experience - Bastian Grimm, Peak Ace AGTechnical SEO vs. User Experience - Bastian Grimm, Peak Ace AG
Technical SEO vs. User Experience - Bastian Grimm, Peak Ace AGBastian Grimm
 
Advanced data-driven technical SEO - SMX London 2019
Advanced data-driven technical SEO - SMX London 2019Advanced data-driven technical SEO - SMX London 2019
Advanced data-driven technical SEO - SMX London 2019Bastian Grimm
 
Migration Best Practices - SMX West 2019
Migration Best Practices - SMX West 2019Migration Best Practices - SMX West 2019
Migration Best Practices - SMX West 2019Bastian Grimm
 
Migration Best Practices - Search Y 2019, Paris
Migration Best Practices - Search Y 2019, ParisMigration Best Practices - Search Y 2019, Paris
Migration Best Practices - Search Y 2019, ParisBastian Grimm
 
Migration Best Practices - SEOkomm 2018
Migration Best Practices - SEOkomm 2018Migration Best Practices - SEOkomm 2018
Migration Best Practices - SEOkomm 2018Bastian Grimm
 
OK Google, Whats next? - OMT Wiesbaden 2018
OK Google, Whats next? - OMT Wiesbaden 2018OK Google, Whats next? - OMT Wiesbaden 2018
OK Google, Whats next? - OMT Wiesbaden 2018Bastian Grimm
 
Super speed around the globe - SearchLeeds 2018
Super speed around the globe - SearchLeeds 2018Super speed around the globe - SearchLeeds 2018
Super speed around the globe - SearchLeeds 2018Bastian Grimm
 
Migration Best Practices - SMX London 2018
Migration Best Practices - SMX London 2018Migration Best Practices - SMX London 2018
Migration Best Practices - SMX London 2018Bastian Grimm
 
Welcome to a new reality - DeepCrawl Webinar 2018
Welcome to a new reality - DeepCrawl Webinar 2018Welcome to a new reality - DeepCrawl Webinar 2018
Welcome to a new reality - DeepCrawl Webinar 2018Bastian Grimm
 
Web Performance Madness - brightonSEO 2018
Web Performance Madness - brightonSEO 2018Web Performance Madness - brightonSEO 2018
Web Performance Madness - brightonSEO 2018Bastian Grimm
 
Digitale Assistenzsysteme - SMX München 2018
Digitale Assistenzsysteme - SMX München 2018Digitale Assistenzsysteme - SMX München 2018
Digitale Assistenzsysteme - SMX München 2018Bastian Grimm
 
AMP - SMX München 2018
AMP - SMX München 2018AMP - SMX München 2018
AMP - SMX München 2018Bastian Grimm
 
How fast is fast enough - SMX West 2018
How fast is fast enough - SMX West 2018How fast is fast enough - SMX West 2018
How fast is fast enough - SMX West 2018Bastian Grimm
 
Whats Next in SEO & CRO - 3XE Conference 2018 Dublin
Whats Next in SEO & CRO - 3XE Conference 2018 DublinWhats Next in SEO & CRO - 3XE Conference 2018 Dublin
Whats Next in SEO & CRO - 3XE Conference 2018 DublinBastian Grimm
 
Migration Best-Practices: So gelingt der erfolgreiche Relaunch - SEOkomm 2017
Migration Best-Practices: So gelingt der erfolgreiche Relaunch - SEOkomm 2017Migration Best-Practices: So gelingt der erfolgreiche Relaunch - SEOkomm 2017
Migration Best-Practices: So gelingt der erfolgreiche Relaunch - SEOkomm 2017Bastian Grimm
 
Digitale Assistenten - OMX 2017
Digitale Assistenten - OMX 2017Digitale Assistenten - OMX 2017
Digitale Assistenten - OMX 2017Bastian Grimm
 
Migration Best-Practices: Successfully re-launching your website - SMX New Yo...
Migration Best-Practices: Successfully re-launching your website - SMX New Yo...Migration Best-Practices: Successfully re-launching your website - SMX New Yo...
Migration Best-Practices: Successfully re-launching your website - SMX New Yo...Bastian Grimm
 
Three site speed optimisation tips to make your website REALLY fast - Brighto...
Three site speed optimisation tips to make your website REALLY fast - Brighto...Three site speed optimisation tips to make your website REALLY fast - Brighto...
Three site speed optimisation tips to make your website REALLY fast - Brighto...Bastian Grimm
 
HTTPs Migration How To - SMX München 2017
HTTPs Migration How To - SMX München 2017HTTPs Migration How To - SMX München 2017
HTTPs Migration How To - SMX München 2017Bastian Grimm
 

Mehr von Bastian Grimm (20)

Migration Best Practices - Peak Ace on Air
Migration Best Practices - Peak Ace on AirMigration Best Practices - Peak Ace on Air
Migration Best Practices - Peak Ace on Air
 
Technical SEO vs. User Experience - Bastian Grimm, Peak Ace AG
Technical SEO vs. User Experience - Bastian Grimm, Peak Ace AGTechnical SEO vs. User Experience - Bastian Grimm, Peak Ace AG
Technical SEO vs. User Experience - Bastian Grimm, Peak Ace AG
 
Advanced data-driven technical SEO - SMX London 2019
Advanced data-driven technical SEO - SMX London 2019Advanced data-driven technical SEO - SMX London 2019
Advanced data-driven technical SEO - SMX London 2019
 
Migration Best Practices - SMX West 2019
Migration Best Practices - SMX West 2019Migration Best Practices - SMX West 2019
Migration Best Practices - SMX West 2019
 
Migration Best Practices - Search Y 2019, Paris
Migration Best Practices - Search Y 2019, ParisMigration Best Practices - Search Y 2019, Paris
Migration Best Practices - Search Y 2019, Paris
 
Migration Best Practices - SEOkomm 2018
Migration Best Practices - SEOkomm 2018Migration Best Practices - SEOkomm 2018
Migration Best Practices - SEOkomm 2018
 
OK Google, Whats next? - OMT Wiesbaden 2018
OK Google, Whats next? - OMT Wiesbaden 2018OK Google, Whats next? - OMT Wiesbaden 2018
OK Google, Whats next? - OMT Wiesbaden 2018
 
Super speed around the globe - SearchLeeds 2018
Super speed around the globe - SearchLeeds 2018Super speed around the globe - SearchLeeds 2018
Super speed around the globe - SearchLeeds 2018
 
Migration Best Practices - SMX London 2018
Migration Best Practices - SMX London 2018Migration Best Practices - SMX London 2018
Migration Best Practices - SMX London 2018
 
Welcome to a new reality - DeepCrawl Webinar 2018
Welcome to a new reality - DeepCrawl Webinar 2018Welcome to a new reality - DeepCrawl Webinar 2018
Welcome to a new reality - DeepCrawl Webinar 2018
 
Web Performance Madness - brightonSEO 2018
Web Performance Madness - brightonSEO 2018Web Performance Madness - brightonSEO 2018
Web Performance Madness - brightonSEO 2018
 
Digitale Assistenzsysteme - SMX München 2018
Digitale Assistenzsysteme - SMX München 2018Digitale Assistenzsysteme - SMX München 2018
Digitale Assistenzsysteme - SMX München 2018
 
AMP - SMX München 2018
AMP - SMX München 2018AMP - SMX München 2018
AMP - SMX München 2018
 
How fast is fast enough - SMX West 2018
How fast is fast enough - SMX West 2018How fast is fast enough - SMX West 2018
How fast is fast enough - SMX West 2018
 
Whats Next in SEO & CRO - 3XE Conference 2018 Dublin
Whats Next in SEO & CRO - 3XE Conference 2018 DublinWhats Next in SEO & CRO - 3XE Conference 2018 Dublin
Whats Next in SEO & CRO - 3XE Conference 2018 Dublin
 
Migration Best-Practices: So gelingt der erfolgreiche Relaunch - SEOkomm 2017
Migration Best-Practices: So gelingt der erfolgreiche Relaunch - SEOkomm 2017Migration Best-Practices: So gelingt der erfolgreiche Relaunch - SEOkomm 2017
Migration Best-Practices: So gelingt der erfolgreiche Relaunch - SEOkomm 2017
 
Digitale Assistenten - OMX 2017
Digitale Assistenten - OMX 2017Digitale Assistenten - OMX 2017
Digitale Assistenten - OMX 2017
 
Migration Best-Practices: Successfully re-launching your website - SMX New Yo...
Migration Best-Practices: Successfully re-launching your website - SMX New Yo...Migration Best-Practices: Successfully re-launching your website - SMX New Yo...
Migration Best-Practices: Successfully re-launching your website - SMX New Yo...
 
Three site speed optimisation tips to make your website REALLY fast - Brighto...
Three site speed optimisation tips to make your website REALLY fast - Brighto...Three site speed optimisation tips to make your website REALLY fast - Brighto...
Three site speed optimisation tips to make your website REALLY fast - Brighto...
 
HTTPs Migration How To - SMX München 2017
HTTPs Migration How To - SMX München 2017HTTPs Migration How To - SMX München 2017
HTTPs Migration How To - SMX München 2017
 

Data-driven Technical SEO: Logfile Auditing - SEOkomm 2018

  • 1. Bastian Grimm, Peak Ace AG | @basgr 20+ Tipps, um das Beste aus euren Logfiles herauszuholen Data-driven Technical SEO
  • 2. Und warum sind Logfiles wichtig für eure SEO-Arbeit? Why should you care?
  • 3. pa.ag@peakaceag3 Ich bin ja großer Fan diverser Crawling Tools, aber … Only access log files do show how a search engine’s crawler is behaving on your site; all crawling tools simply are trying to simulate their behavior!”
  • 4. Ihr wollt wissen, welche Seiten Suchmaschinen priorisieren? Nur so wird klar, welchen URLs ihr besondere Aufmerksamkeit gönnen solltet. 1. Crawl-Prioritäten verstehen
  • 5. Google könnte Crawling-Verhalten ändern oder die Frequenz reduzieren, wenn ihr permanent große Mengen an Fehlern produziert. 2. Crawling-Probleme verhindern
  • 6. Ihr wollt Schwachstellen im Crawling (Hierarchie, interne Linkstruktur etc.) mit potenziell seitenübergreifenden Folgen identifizieren. 3. Globale Probleme verstehen
  • 7. Ihr wollt sichergehen, dass Google alles Wichtige crawlt: vor allem ranking- relevante Inhalte, aber auch schnelles Auffinden von aktuellem Content. 4.Optimales Crawling ermöglichen
  • 8. Ihr wollt sicherstellen, dass jegliche gewonnene Link Equity immer mit korrekten Links und/oder Redirects weitergegeben wird. 5. Korrekte Verlinkung sicherstellen
  • 9. Denkt dran, Details hängen vom individuellen Setup ab! Die Charakteristiken eines Logfiles
  • 10. … je nach Webserver (Apache, nginx, IIS etc.), Caching und jeweiliger Konfiguration. Versteht zuerst euer Setup! Inhalt & Struktur variieren …
  • 11. pa.ag@peakaceag11 Wie sieht ein Logfile normalerweise aus? Server IP/Hostname1 Timestamp (Datum & Zeit)2 Methode (GET/POST/HEAD)3 Request URL4 HTTP Statuscode5 Größe in Bytes6 Referrer7 User Agent8 188.65.114.xxx [23/Nov/2018:02:00:00 -0100] /resources/whitepapers/seo-whitepaper/ HTTP/1.1" 200 512 "http://www.seokomm.at/" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" "GET
  • 12. Logfile-Daten können einen auch schnell überfordern, weil man so viel mit ihnen machen kann. Bereitet also eure Fragen richtig vor! Ihr müsst die richtigen Fragen stellen!
  • 13. pa.ag@peakaceag13 Logfile-Daten können z. B. von GA-Daten abweichen Logfiles sind serverseitige Informationen, Google Analytics verwendet clientseitigen Code. Da Daten aus verschiedenen Quellen stammen, können sie unterschiedlich sein! Auch die Konfiguration innerhalb Google Analytics führt zu Datenunterschieden gegenüber Logfiles – wie z. B. Filter!
  • 14. Was ihr wissen müsst, wenn ihr nach Logfiles fragt: Häufig gestellte Fragen
  • 15. Wir interessieren uns nur für Crawler wie Google und Bing; Nutzerdaten sind unnötig (Betriebssystem, Browser, Telefonnummer, Namen etc.) 1. Personenbezogene Daten in Logfiles
  • 16. Wenn ihr woanders einen Cache-Server und/oder CDN betreibt, das Logs erstellt, brauchen wir diese Daten ebenfalls. 2. Logfiles an verschiedenen Orten
  • 17. Es gibt verschiedenste Wege, das Thema anzugehen: Logfile Auditing Tools
  • 18. pa.ag@peakaceag18 Eine Sache, die definitiv nicht klappen wird: Notepad!
  • 19. pa.ag@peakaceag19 Do-it-yourself-Lösung basierend auf Excel Ihr müsstet Filter, Querverweise etc. manuell erstellen – das skaliert nicht wirklich!
  • 20. pa.ag@peakaceag20 ScreamingFrog Log File Analyser Einsteigerfreundliches, desktopbasiertes Logfile Auditing mit vordefinierten Reports
  • 21. Keine Freigabemöglichkeiten, manueller Up-& Download der Logfiles, generell problematisch bei größeren Dateien etc. Desktoplösungen mit Limitierungen
  • 22. pa.ag@peakaceag22 Splunk Enterprise & Cloud: Large-scale Log Management Enterprise Tools wie Splunk bieten Funktionen, die weit über einfaches Logfile Monitoring hinausgehen. Image sources: https://www.splunk.com
  • 23. pa.ag@peakaceag23 Der Elastic Stack (ELK): Elasticsearch, Logstash & Kibana Elasticsearch: Search & Analytics Engine, Logstash: Server-side Data Processing Pipeline, Kibana: Datenvisualisierung (Charts, Graphen etc.) – komplett Open Source! Image source: https://pa.ag/2JbFUhP
  • 24. pa.ag24 Graylog, logrunner, logz.io, loggly, sumo logic, papertrail Besonders logrunner.io sowie logz.io mit starkem Fokus auf SEO-basiertem Auditing (vorgefertigte Reportings, nützliche Dashboards etc.)
  • 25. Was gibt’s aktuell an neuen Tools? Have you already met ...?
  • 26. pa.ag@peakaceag26 crawlOPTIMIZER: SaaS Logfile Auditing made in Vienna Viele nützliche Reports, die einen einfachen Einstieg in das Thema Logfiles ermöglichen: Mehr: https://www.crawloptimizer.com/
  • 27. pa.ag@peakaceag27 crawlOPTIMIZER: SaaS Logfile Auditing made in Vienna BRPs (Business Relevant Pages) und dezidierte Auswertung dieser als Top-USP
  • 28. pa.ag@peakaceag28 Ryte BotLogs: Crawler Tracking via Pixel/Snippet Ryte schreibt „eigene“ Logfiles, die ausschließlich Crawler-Zugriffe protokollieren. Der große Vorteil: Kein (manuelles) Herumhantieren mit (großen) Logfiles. Mehr: https://botlogs.ryte.com/
  • 29. pa.ag@peakaceag29 Ryte BotLogs: Crawler Tracking via Pixel/Snippet Super hilfreiche Timeline zur Darstellung einzelner (Crawl-) Events im zeitlichen Verlauf, je nach User Agent und kategorisiert nach Priorität.
  • 30. Up-/Downloads von Logfiles werden unnötig, einfache Freigabe- funktionen, Möglichkeit mit sehr großen Datenmengen zu arbeiten etc. Vorteil von SaaS: Echtzeit
  • 31. Für einen leichten Einstieg: Trend Monitoring (im Zeitverlauf) & erste Erkenntnisse sammeln Let’s have a look at some data
  • 32. pa.ag@peakaceag32 Einfachster Ansatz: Anomalien im Zeitverlauf erkennen Tipp: Deswegen ist es sinnvoll, eure Logfiles regelmäßig zu checken (z. B. wöchentlich). Das sieht erstmal ungewöhnlich aus; ideale Grundlage für weitere Nachforschungen.
  • 33. pa.ag@peakaceag33 Crawl-Frequenz nach User Agent im zeitlichen Verlauf Das Verständnis von Mustern und Unregelmäßigkeiten kann sehr hilfreich sein – schaut euch das Crawl-Verhalten einzelner User-Agents immer auch im zeitlichen Verlauf an.
  • 34. Sucht mit Logfiles nach Spambots oder Scrapern, um diese zu blockieren! Welche anderen „Bots“ besuchen euch?
  • 35. pa.ag@peakaceag35 Nicht jeder ist das, was er zu sein scheint! Herausfinden, ob Googlebot wirklich Googlebot ist? Reverse DNS Lookup. Bingbot kann genauso verifiziert werden, hier wäre die Antwort: *.search.msn.com. Source: https://pa.ag/2JqOk8d
  • 36. pa.ag@peakaceag36 Aktuelles Thema: Google MFI Switch Checkt, ob der Google-Smartphone- den Desktopbot (im Crawl-Volumen) überholt hat. Smartphonebot Crawl- Volumen immer noch niedriger als Desktop-Crawls
  • 37. pa.ag@peakaceag37 Welche Seiten crawlt Googlebot am häufigsten? Überprüft zusätzlich, ob diese mit den wichtigsten Seiten eurer Domain übereinstimmen. Sind dies wirklich eure wertvollsten Landingpages?
  • 38. pa.ag@peakaceag38 Übersicht des Crawl-Volumens & Statuscodes je Verzeichnis Ihr seht sofort, ob ihr Crawling-/Response-Probleme in einem Verzeichnis habt. Tipp: Regelmäßig prüfen für eine kontinuierliche Performance der Top-Verzeichnisse.
  • 39. Auswertungen & entsprechende Maßnahmen: Was geht noch alles?
  • 41. pa.ag@peakaceag41 Identifiziert „falsche“ Redirects: 302 / 303 / 307 / 308 Maßnahme: Anpassen auf 301 (außer Geo-Redirects); achtet auch auf Redirect-Ketten! Drill down to understand what’s in there
  • 43. pa.ag@peakaceag43 4xx Client Error: zu viele sind sicher kein positives Signal! Maßnahme: wiederherstellen (200), weiterleiten (301) oder vollständig entfernen (410)
  • 44. pa.ag@peakaceag44 Googlebot kann sich nicht einloggen … (403: Forbidden) If it‘s linked, Google will try to crawl it – they are greedy!
  • 45. pa.ag@peakaceag45 5xx Server Error: meist infrastrukturell bedingt Maßnahme: Genau beobachten und/oder mit der IT reden (Serververfügbarkeit etc.) Achtung: 503-Antworten können ggf. gewollt sein (geplante Wartungsarbeiten). Prüft mehrfach; was passiert bei erneutem Versuch?
  • 47. pa.ag@peakaceag47 Beste/schlechteste gecrawlte URLs & Ordner verstehen Maßnahme: zusätzliche interne Verlinkungen auf stark gecrawlten Seiten hinzufügen (Linkhubs), stärkere interne Verlinkung von wenig/schwach gecrawlten Seiten Kann für zusätzliche interne Verlinkungen verwendet werden (Discovery). Offensichtlich schwach, entweder irrelevant (entfernen) oder braucht mehr Aufmerksamkeit (mehr Links).
  • 49. pa.ag@peakaceag49 Erkennt, ob (neue) URLs überhaupt gecrawlt wurden Maßnahme: Wenn relevante URLs noch gar nicht gecrawlt wurden, ist eure interne Verlinkung vermutlich zu schwach. Erwägt XML-Sitemaps, stärkere Verlinkung etc. Wenn das wichtige URLs sind, habt ihr möglicherweise ein Problem!
  • 50. 5. Crawl Budget & Waste
  • 51. pa.ag@peakaceag51 Diesen Tweet von John habt ihr alle gesehen? Source: https://pa.ag/2LUnt2R
  • 52. pa.ag@peakaceag52 Wasting server resources on pages […] will drain crawl activity from pages that do actually have value, which may cause a significant delay in discovering great content on a site. Das sagt Googles Webmaster Central Blog dazu: Source: https://pa.ag/2HhsYoz
  • 53. pa.ag@peakaceag53 Wenn ihr jemals mit solchen Domains zu tun hattet … Mit >30.000.000.000 crawlbaren URLs (durch Parameternutzung) richtig umzugehen, macht einen Unterschied in der organischen Performance – garantiert!
  • 54. pa.ag@peakaceag54 Ähnlich wie zu sagen, alle Redirects seien gleich … … in diesem Fall haben wir nur die Weiterleitungen von 302/307 auf 301 umgestellt.
  • 55. pa.ag55 URL-Parameter verursachen die meisten Probleme (Kombinierte) URL-Parameter erzeugen insbesondere bei großen Domains nicht selten Millionen von unnötigen URLs, die Googlebot (wenn einmal gefunden) fleißig crawlt.
  • 56. pa.ag56 Verhalten der URL-Parameter im Zeitverlauf überwachen Seid bei neuen Parametern sowie bei deutlich erhöhtem Crawling von bereits bekannten Parametern auf der Hut:
  • 57. pa.ag@peakaceag57 Überwacht weniger (ranking-) relevante Dateitypen Maßnahme: ggf. die Art der Integration / des Ladens dieser einzelnen Komponenten (bspw. XML-Fragmente) überdenken (keine eigene URL notwendig?)
  • 58. Noch bessere Insights durch das Kombinieren mehrerer Quellen Verknüpfen von Crawl- & Logfile-Daten
  • 59. pa.ag@peakaceag60 Gap-Analysen der Crawl-Quellen Unterschiede in den Quellen zu verstehen kann dabei helfen, unterschiedliches Verhalten nachzuvollziehen, z. B. Webcrawl vs. Sitemap – oder vs. Logfiles. URLs, die beim Webcrawl gefunden wurden, aber in keinem Logfile.
  • 60. pa.ag@peakaceag61 Auffinden von versehentlichen noindex-Anweisungen Diese Produkt-URL wird oft gecrawlt, wurde aber versehentlich nicht indexierbar gemacht. Ein Abgleich der Crawl-Direktive mit dem Verhalten (Logfiles) half bei der Lösung.
  • 61. pa.ag@peakaceag62 Nicht gecrawlte Seiten, die in der Sitemap vorhanden sind Diese Daten weisen auf zu wenig interne Links innerhalb der Seitenarchitektur hin. Verbessert eure Architektur und haltet auch eure XML-Sitemaps sauber! Klickt hier, um die jeweiligen URLs aufzurufen und zu untersuchen.
  • 62. pa.ag@peakaceag63 Indexierbare Seiten, die nicht gecrawlt werden Ein guter Ausgangspunkt, um mit der Optimierung zu beginnen, die Indexierung/ Konsolidierung zu überdenken oder diese URLs vollständig zu löschen.
  • 63. Hier ein paar weitere Reports: je nachdem was ihr vorhabt … Time for some more?
  • 64. pa.ag@peakaceag65 Crawl-Frequenz nach Content-Typen im Zeitverlauf Das Crawling von JS/CSS-Dateien zu beobachten (z. B. nach Frontend/Template- Änderungen) kann helfen, die Verarbeitung durch Google zu verstehen.
  • 65. pa.ag@peakaceag66 Analysiert Fehler nach Content-Typen gruppiert Vielleicht hat (nur) Google Probleme mit einer ganz bestimmten Art von Content? Kategorisiert z. B. eure 404er nach unterschiedlichen Dateitypen wie JS, CSS etc.
  • 66. pa.ag@peakaceag67 Identifiziert URLs, die länger nicht gecrawlt wurden Fangt an, diese Seiten zu optimieren, wenn sie wirklich wichtig sind!
  • 67. pa.ag@peakaceag68 Identifiziert (unbekannte) große URLs/Dateien Je nach Details der Logfiles, z. B. nach durchschnittlicher Bytegröße sortieren und für #webperf nutzen. Vielleicht ladet ihr Sachen ohne richtige Komprimierung? Vielleicht müsst ihr eure Bilder richtig optimieren?
  • 68. pa.ag@peakaceag69 Integrate log file auditing into your regular SEO workflow; one-off audits are good for a start but it really becomes invaluable if you combine it with web crawl data and do it on an on-going basis.” Logfile Auditing ist kein Projekt, sondern ein Prozess!
  • 69. pa.ag@peakaceag70 Kurz zusammengefasst ... Zum Nacharbeiten für die kommende Woche: 01 Keine One-fits-all- Lösung Logfilegröße, -menge & -verfügbarkeit sind ausschlaggebend für die Toolauswahl. 02 Vorbereitung ist alles Konkrete Fragestellungen helfen bei der effizienten Analyse. 03 Crawl-Daten only Seid präzise bei euren Anfragen (an die IT), ihr wollt nur wissen, was Suchmaschinen machen! 04 Reverse-DNS nutzen Nicht jeder Crawler ist, wer er vorgibt zu sein – vertraut nicht "blind“ auf den User Agent. 05 URL-Parameter sind nahezu immer das größte Problem (Kombinationen, Reihenfolgen, Konsistenz) – auditiert diese zuerst.
  • 70. Oh yeah, there’s one more thing …
  • 71. Ich möchte: keine IT involvieren, unbegrenzte Skalierbarkeit, flexible Berichte, mehrere (API-) Datenquellen und Nutzerfreundlichkeit! Es muss einen anderen Weg geben!
  • 72. „Sicher, solange ihr uns bezahlt!“ „Can you integrate with our Google Data Studio reports?“
  • 73. (Und jeder auf der #seokomm bekommt das als Geschenk, kostenlos!) Wir haben uns da was überlegt:
  • 74. pa.ag75 Der aktuell genutzte Tool Stack (Wir haben es leider nicht mehr geschafft Searchmetrics & Majestic anzubinden) Logfiles Google Analytics Google Data Studio Google Search ConsoleInput Data Sources Data Processing Output Data DeepCrawl Google Big Query Google Data Prep Google Apps Script
  • 75. Individuelle Reports, die auf eure Bedürfnisse zugeschnitten sind. Und wie sieht das Ergebnis aus?
  • 76. pa.ag77 Crawl-Verhalten im zeitlichen Verlauf visualisieren Wird die Seite ausreichend und regelmäßig von allen relevanten Bots gecrawlt?
  • 77. pa.ag78 Am häufigsten gecrawlte URLs und Dateien Welche Crawl Hubs könnten zur Verbesserung der internen Verlinkung genutzt werden?
  • 78. Connect and conquer … Wie funktioniert das?
  • 79. pa.ag80 Workflow I: Logfiles abrufen, IPs löschen & bereitstellen (A) Logfiles vom Server downloaden, (B) IP-Adressen löschen mit PowerShell, (C) Logfiles zu einer Datei zusammenfügen (D) und auf Google Cloud Storage hochladen. Weiterver- arbeitung Online Upload Download auf den PC B CA Logfiles Google Cloud Storage D große Datensätze speichern CMD / SED Logfiles in einer Datei zusammenführen PowerShell IP-Adressen löschen (DGSVO… und so!) vom Server, CDN, Cache, etc. PowerShell Windows: (Get-Content example.txt) -replace "(b[0-9]{1,3}.){3}[0-9]{1,3}", '0.0.0.0‘ -replace "(([a-zA-Z0-9]{1,4}|):){1,7}([a-zA-Z0-9]{1,4}|:)", '0:0:0:0:0:0:0:0' | Out-File example.txt CMD: cmd => cd desktop => cd logfiles => dir => copy * logfiles_all Linux: sed -i -E 's/(b[0-9]{1,3}.){3}[0-9]{1,3}b'/0.0.0.0/ temp.log /// sed -i -E 's/(([a-zA-Z0-9]{1,4}|):){1,7}([a-zA-Z0-9]{1,4}|:)b'/0:0:0:0:0:0:0:0/ temp.log
  • 80. pa.ag81 Workflow II: Logfile-Daten zur Visualisierung bringen (1) Logfiles werden im Google Cloud Storage gespeichert, (6) in Dataprep verarbeitet, (7) nach BigQuery exportiert, (8) in Data Studio via BigQuery Connector visualisiert. 8 Google Data Studio Daten aller Quellen visualisieren Daten senden Daten abbildenImportieren Google Dataprep 6 Quellen bereinigen und verknüpfen 7 Google Big Query große Datensätze verarbeiten 1 Logfiles gespeichert in Google Cloud Storage
  • 81. pa.ag82 Workflow III: Logfile-Daten weiter anreichern GA-, GSC- und DC-Daten werden über ihre APIs mithilfe von Google Apps Script importiert. GSC API v3 GA API v4 GA GSC Google Apps Script Daten aus APIs abrufen durch Definition von Metriken & Settings (z.B. Zeitspanne) via JS 2 3 65 DeepCrawl API 4
  • 82. pa.ag83 Logfiles Workflow IV: Alles verknüpfen (& zukünftig noch mehr!) Datenquellen mithilfe von Dataprep verknüpfen. GSC-, GA- & DC-Daten senden Daten senden Google Apps Script 76 5 1 Searchmetrics Screaming FrogMajestic SEO in Kürze manuellin Kürze
  • 83. Mitglieder des Supply-Chain Teams Tools und ihre Kernaufgaben
  • 84. pa.ag85 #1 Logfile-Daten von Webservern, CDN, Cache etc. Wie oft crawlen Bots tatsächlich? Was crawlen sie und wann? Quelle: https://pa.ag/2zs9lcY ▪ Anzahl der Crawls/Anfragen pro Bot-Typ ▪ Identifizierung von Crawling-Mustern ▪ Fehler / Weiterleitungen ▪ 3xx ▪ 4xx ▪ 5xx Ziel: Verbesserung der Seitenarchitektur durch Analyse echter Bot-Crawling-Daten LogfilesGoogle Cloud Storage Als Textdatei importieren (IP-Adressen ausschließen!)
  • 85. pa.ag 15TB (pro Datei), die in BigQuery verschoben werden sollen. Größe ist definitiv KEIN Problem
  • 86. pa.ag nginx/Apache/etc. >> fluentd >> BigQuery Standalone files are messy, agreed.
  • 87. pa.ag89 #2 Google Analytics API Ergänzt Reports um Verhaltensdaten und Page-Speed-Metriken der User. Google Analytics Reporting API v4 Ziel: Vergleich des Crawling-Verhaltens mit Benutzer- und Ladezeitdaten URL-basierte Daten zu wichtigen Engagement-Metriken: ▪ Sessions ▪ User ▪ Absprungrate ▪ Durchschn. Verweildauer ▪ Durchschn. Server Response Time ▪ Durchschn. Seitenladezeit ▪ …
  • 88. pa.ag90 #3 Google Search Console API Performance-Daten der organischen Suche direkt von Google Ziel: Vergleich des Crawling-Verhaltens mit organischen Klickdaten & Abfrage gefundener Crawling-Fehler Organische Klickdaten: ▪ Klicks ▪ Impressions ▪ … URL-basierte Server-Response-Daten: ▪ Statuscode Google Search Console API v3
  • 89. pa.ag91 #4 DeepCrawl API Website-Architektur, Statuscodes, Indexierungsdirektiven, etc. Ziel: Erfassen von Indexierungsdirektiven, Response Codes und vielem mehr DeepCrawl API
  • 90. pa.ag92 #5 Google Apps Script I: GA API-Zugriff: benutzerdefiniert verschiedene Dimensionen und Metriken aus GA erfassen Quelle: https://pa.ag/2OWnjJa Ziel: Google-Analytics-Daten (über die API) an BigQuery senden Google Apps Script
  • 91. pa.ag93 #5 Google Apps Script II: GSC API-Zugriff: JavaScript Code zum Abrufen von Crawl- und Suchanalysedaten der GSC Quelle: https://pa.ag/2OWnjJa Ziel: Daten aus der Google Search Console an BigQuery senden Google Apps Script
  • 92. pa.ag94 #5 Google Apps Script III: DeepCrawl API-Zugriff: benutzerdefiniert verschiedene Daten/Direktiven aus DeepCrawl erfassen Quelle: https://pa.ag/2OWnjJa Ziel: DeepCrawl-Daten (über API) an BigQuery senden Google Apps Script
  • 93. pa.ag95 #6 Google Cloud Dataprep I: Aufbereiten Schritt 1: Daten aufbereiten und kombinieren für die anschließende Visualisierung Quelle: https://pa.ag/2Q6rEde Ziel: Bereinigen und Transformieren der Daten Dataprep: „Excel on rocket fuel“ ▪ Großartiger RegEx Support ▪ Daten auswählen und automatisiert Vorschläge zur Verarbeitung erhalten ▪ Datenquellen verbinden durch z. B. Full Inner/Outer Join, Left/Right Join … Google Apps Script
  • 94. pa.ag97 #6 Google Cloud Dataprep II: Verbinden (URL) Schritt 2: Daten mehrerer Quellen verbinden mit verschiedenen Verknüpfungsoptionen Quelle: https://pa.ag/2Q6rEde Ziel: Kombination von Daten aus Logfiles, GSC, GA & DeepCrawl Google Apps Script
  • 95. pa.ag98 #6 Google Cloud Dataprep III: Workflows Kern des ganzen Prozesses: Quellen innerhalb verschachtelter Workflows verknüpfen Ziel: Kombination von Logfiles, GSC, GA und DeepCrawl innerhalb des Processing Flows Google Apps Script
  • 96. pa.ag99 #7 Google Cloud BigQuery I: Tabellen erstellen Die BigQuery-Tabellenstruktur wird erstellt wie im Google Apps Script angegeben. Quelle: https://pa.ag/2QWtiPQ Ziel: Speichern von großen Datenmengen zum schnelleren Abrufen und Verarbeiten Google BigQuery
  • 97. pa.ag100 #7 Google Cloud BigQuery II: Daten verfügbar machen Data Warehouse mit superschneller SQL-Abfrage für sehr große Tabellen Quelle: https://pa.ag/2QWtiPQ Möglichkeit: Abfrage der Daten vor der Visualisierung Google BigQuery
  • 98. pa.ag101 #8 Google Data Studio: Visualisierung Letzter Schritt: In der Visualisierung läuft alles zusammen. Verwendet BigQuery Connectors, um Daten aus BigQuery-Tabellen in Google Data Studio zu laden. Quelle: https://pa.ag/2xLAyoV Ziel: Import und Visualisierung von Daten aus BigQuery Google Data Studio
  • 99. pa.ag Here you go: Ein paar Beispiele?
  • 107. pa.ag@peakaceag110 We’re hiring! 30+ performance marketing jobs in Berlin! Come and say “hello” or apply via jobs.pa.ag. We look forward to talking to you! Always looking for talent! Check out jobs.pa.ag
  • 108. pa.ag@peakaceag twitter.com/peakaceag facebook.com/peakaceag www.pa.ag ALWAYS LOOKING FOR TALENT! CHECK OUT JOBS.PA.AG WINNER Bastian Grimm bg@pa.ag Folien? Kein Problem: https://pa.ag/seok18logs Ihr wollt unser Logfile-Setup kostenlos(!) nutzen? e-mail us > seokomm@pa.ag