Human-in-the-Loop: das Web als Grundlage interdisziplinärer Data Science Methoden und Fragestellungen

1Stefan Dietze
Backup
Human in the Loop: das Web als Grundlage interdisziplinärer
Data Science-Methoden und Fragestellungen
Stefan Dietze
GESIS – Leibniz Institute for the Social Sciences,
Heinrich-Heine-Universität Düsseldorf,
L3S Research Center

2Stefan Dietze
Web Suche nach…
• Dokumente
• Fakten
• Claims
• Meinungen

3Stefan Dietze
Web Suche nach…
• Dokumente
• Fakten
• Claims
• Meinungen

4Stefan Dietze
Web Suche nach…
• Dokumente
• Fakten
• Claims
• Meinungen

5Stefan Dietze
Web Suche nach…
• Dokumente
• Fakten
• Claims
• Meinungen
Wir versuchen, diese Frage am Ende des Talks
mithilfe von Data „Science“ zu „beantworten“.

6Stefan Dietze
Human-in-the-loop: KI und Crowd Intelligenz im Web
Human/Crowd Intelligence
Artificial Intelligence
Web Content & Data
(z.B. Webseiten, Social Media, Wikipedia,
Tags, semi-structured Data)
Interaktionen & Verhalten
(z.B. Clickstreams, Queries,
Likes/Shares)
Interpretation & Verarbeitung mithilfe von:
 Information Retrieval
(Crawling, Indexing, Ranking etc)
 Natural Language Processing
 Graph Analyse (z.B. PageRank et al.)
 Wissensbasierte Methoden, Inferenz & Reasoning
 Statistik
 Machine & Deep Learning
o Query Interpretation & Intent Prediction
o Klassifikation von Nutzern, Sessions,
Dokumenten, Quellen
o Ranking und Personalisierung
o ….

7Stefan Dietze
Überblick
Teil I
Extraktion von maschinen-interpretierbarem Wissen aus dem Web
(„Content“)
Teil II
Verstehen von Nutzerverhalten und –interaktionen im Web
(„User“)

8Stefan Dietze
Fakten, Claims, Stances/Standpunkte, Meinungen im Web
 Untersuchungen zur Wissenskonstruktion, Meinungsbildung, Beinflussung
und Desinformation im Web als disziplinübergreifendes und stark
wachsendes Forschungsfeld (z.B. Vousoughi et al. 2018)
 Erkenntnisgewinn (z.B. Sozialwiss., Psychologie), z.B. zu:
o Wissenskonstruktion im Web
o Viralität und Spreading von Claims und Desinformation
o Effekt von Desinformation auf die Meinungsbildung
o Selbstverstärkende Effekte von Biases und Echokammern
 Methoden (Informatik), z.B. für:
o Extraktion von Faktenwissen aus dem Web
[WWW18, SWJ19]
o Extraktion und Verifikation von Claims im Web
[ISWC2019]
o Erkennen des Standpunkts von Webseiten oder Tweets
o Extraktion von Meinungen/Trends, z.B. aus dem Social Web/Twitter
[CIKM2020, ESWC18]

9Stefan Dietze
Extraktion von „long-tail“ Faktenwissen im Web ?
<„Tim Berners-Lee“ s:founderOf „Solid“>
 Wie lässt sich entitätsbezogenes Faktenwissen bzw.
Wissensgraphen aus Webseiten gewinnen?
 Anwendung von NLP/Informationsextraktionsmethoden?
Skalierbarkeit: Google Index = ca. 50 Billionen Websiten (die sich
dynamisch ändern)
 Nutzung von eingebettetem Web Markup (Microdata/RDFa) wie
schema.org-basierte Annotationen
 Weit verbreitet: ca. 40% aller Webseiten in Common Crawl (3.2
Mrd. Webseiten) beinhalten Markup (ca. 44 Mrd. „Fakten“)
 Herausforderungen
o Fehler. Annotationsfehler und faktische Fehler [Meusel et al,
ESWC2015]
o Mehrdeutigkeit und Koreferenzen. z.B. 18.000 Markup-
Instanzen von “iPhone 6” in Common Crawl 2016 &
mehrdeutige Literale (z.B. „Apple“>)
o Redundanzen & Konflikte. Großer Anteil von äquivalenten
oder direkt in Konflikt stehenden Aussagen

10Stefan Dietze
KnowMore: data fusion on Web Markup
 0. Noise: Data Cleansing (URIs, Deduplizierung etc)
 1.a) Scale: Blocking mit BM25 Entity Retrieval auf Lucene Index der Markup Daten
 1.b) Relevanz: überwachte Auflösung von Koreferenzen
 2.) Qualität & Redundanz: Data Fusion mit überwachtem Klassifizierer für alle Fakten (SVM, knn, CNN, RF, LR, NB), nutzt diverse
Feature Set (Autorität, Relevanz etc) der Quelle (z.B. PageRank), Entitätsbeschreibung oder Fakten
1. Blocking &
coreference resolution
2. Fusion / Fact selection
(supervised)
Web page
markup
Web crawl
(Common Crawl,
44 bn facts)
Yu, R., [..], Dietze, S., KnowMore-Knowledge Base
Augmentation with Structured Web Markup, Semantic Web
Journal 2019 (SWJ2019)
Tempelmeier, N., Demidova, S., Dietze, S., Inferring Missing
Categorical Information in Noisy and Sparse Web Markup,
The Web Conf. 2018 (WWW2018)
New Query Entities
BBC Audio, type:(Organization)
Chapman & Hall, type:(Publisher)
Put Out More Flags, type:(Book)
Entity Description
author Evelyn Waugh
priorWork Put Out More Flags
ISBN 978031874803074
copyrightHolder Evelyn Waugh
releaseDate 1945
… …
Query Entity
Brideshead Revisited, type:(Book)
Candidate Facts
node1 publisher Chapman & Hall
node1 releaseDate 1945
node1 publishDate 1961
node2 country UK
node2 publisher Black Bay Books
node3 country US
node3 copyrightHolder Evelyn Waugh
… …. ….
Ca. 5000 Fakten für „Brideshead Revisited“
(125.000 Fakten für „iPhone6“)
20 korrekte & nicht-redundante Fakten für „Brideshead Rev.“

11Stefan Dietze
KnowMore: data fusion on Web Markup
 0. Noise: Data Cleansing (URIs, Deduplizierung etc)
 1.a) Scale: Blocking mit BM25 Entity Retrieval auf Lucene Index der Markup Daten
 1.b) Relevanz: überwachte Auflösung von Koreferenzen
 2.) Qualität & Redundanz: Data Fusion mit überwachtem Klassifizierer für alle Fakten (SVM, knn, CNN, RF, LR, NB), nutzt diverse
Feature Set (Autorität, Relevanz etc) der Quelle (z.B. PageRank), Entitätsbeschreibung oder Fakten
1. Blocking &
coreference resolution
2. Fusion / Fact selection
(supervised)
Web page
markup
Web crawl
(Common Crawl,
44 bn facts)
Yu, R., [..], Dietze, S., KnowMore-Knowledge Base
Augmentation with Structured Web Markup, Semantic Web
Journal 2019 (SWJ2019)
Tempelmeier, N., Demidova, S., Dietze, S., Inferring Missing
Categorical Information in Noisy and Sparse Web Markup,
The Web Conf. 2018 (WWW2018)
New Query Entities
BBC Audio, type:(Organization)
Chapman & Hall, type:(Publisher)
Put Out More Flags, type:(Book)
Entity Description
author Evelyn Waugh
priorWork Put Out More Flags
ISBN 978031874803074
copyrightHolder Evelyn Waugh
releaseDate 1945
… …
Query Entity
Brideshead Revisited, type:(Book)
Candidate Facts
node1 publisher Chapman & Hall
node1 releaseDate 1945
node1 publishDate 1961
node2 country UK
node2 publisher Black Bay Books
node3 country US
node3 copyrightHolder Evelyn Waugh
… …. ….
Ca. 5000 Fakten für „Brideshead Revisited“
(125.000 Fakten für „iPhone6“)
20 korrekte & nicht-redundante Fakten für „Brideshead Rev.“
Data Fusion Performance
 Experimente für Bücher, Filme, Produkte
 Baselines: BM25, CBFS [ESWC2015], PreRecCorr [Pochampally et.
al., ACM SIGMOD 2014], variieren stark zwischen den Typen
Anreicherung von Wissensgraphen / Finden neuer Fakten?
 Durchschnittlich 60% - 70% aller Fakten sind neu (im Vergleich zu
Wissensgraphen wie WikiData, Freebase, Wikipedia/DBpedia)
 Weitere Experimente zum Lernen von kategorischen Merkmalen
(z.B. Filmgenren oder Produktkategorien) [WWW2018]

12Stefan Dietze
Extraktion von Diskurs & Meinungen aus Twitter
http://dbpedia.org/resource/Tim_Berners-Lee
wna:positive-emotion
onyx:hasEmotionIntensity "0.75"
 Heterogenität: multimodal, multilingual,
informell, “noisy” Sprache
 Kontextabhängigkeit: Interpretation kurzer
Tweets erfordert Berücksichtigung von Kontext
(z.B. Zeitpunkt, verlinkte Inhalte), “Dusseldorf” =>
Stadt oder Fußball-Team
 Representativität & Bias: demographische
Verteilungen in Twitter Archiven nicht bekannt
 Dynamik & Scale: z.B. 8000 tweets pro Sekunde,
plus Interaktionen (Retweets etc) & Kontext (z.B.
25% aller Tweets beinhalten URLs)
 Evolution & temporale Aspekte: Evolution von
Interaktionen über die Zeit wichtig für die
moisten Forschungsfragen
http://dbpedia.org/resource/Solid
wna:negative-emotion
P. Fafalios, V. Iosifidis, E. Ntoutsi, and S. Dietze,
TweetsKB: A Public and Large-Scale RDF Corpus of
Annotated Tweets, ESWC'18.

13Stefan Dietze
TweetsKB: a knowledge base of Web mined societal discourse
https://data.gesis.org/tweetskb/
 Sammlung & Archivierung von 10 Mrd. Tweets über 7
Jahre (permanenter Crawl der Twitter 1%-API seit 2013)
 Informationsextraktion mithilfe von NLP-Methoden zur
Extraktion von Entitäten und Sentimenten
(verteilte Batch-Verarbeitung mit Hadoop Map/Reduce)
o Entity Linking mit Wikipedia/DBpedia (Yahoo‘s FEL
[Blanco et al. 2015])
(“president”/“potus”/”trump” => dbp:DonaldTrump),
zur Disambiguierung von Tweets und Verlinkung mit
Hintergrundwissen (z.B. US Politiker? Republikaner?),
hohe Precision (.85), schwacher recall (.39)
o Sentiment Analyse mit SentiStrength [Thelwall et al.,
2017], F1 ca. .80
o Extraktion von Metadaten und Lifting in etablierte
Formate und Schemas (SIOC, schema.org), Publikation
mithilfe von W3C Standards (RDF/SPARQL)

14Stefan Dietze
TweetsKB: a knowledge base of Web mined societal discourse
https://data.gesis.org/tweetskb/
 Sammlung & Archivierung von 10 Mrd. Tweets über 7
Jahre (permanenter Crawl der Twitter 1%-API seit 2013)
 Informationsextraktion mithilfe von NLP-Methoden zur
Extraktion von Entitäten und Sentimenten
(verteilte Batch-Verarbeitung mit Hadoop Map/Reduce)
o Entity Linking mit Wikipedia/DBpedia (Yahoo‘s FEL
[Blanco et al. 2015])
(“president”/“potus”/”trump” => dbp:DonaldTrump),
zur Disambiguierung von Tweets und Verlinkung mit
Hintergrundwissen (z.B. US Politiker? Republikaner?),
hohe Precision (.85), schwacher recall (.39)
o Sentiment Analyse mit SentiStrength [Thelwall et al.,
2017], F1 ca. .80
o Extraktion von Metadaten und Lifting in etablierte
Formate und Schemas (SIOC, schema.org), Publikation
mithilfe von W3C Standards (RDF/SPARQL)
Anwendungsszenarien
 Aggregation von Sentimenten zu bestimmten Themen
oder Entitäten, z.B. CDU vs SPD Politiker in bestimmter
Zeitperiode
 Twitter Archive zum Verstehen von temporären
Entitätsbeziehungen z.B. “austerity” & “Greece” 2010-
2015
 Verfolgen von Claims und Fake News und deren Impact
(siehe folgende Slides)
-0.40000
-0.30000
-0.20000
-0.10000
0.00000
0.10000
0.20000
0.30000
0.40000
Cologne Düsseldorf

15Stefan Dietze
TweetsCOV19: a knowledge graph of societal discourse on COVID19
Dimitrov, D., Baran, E., Fafalios, P., Yu, R., Zhu, X., Zloch, M., Dietze,
S., TweetsCOV19 -- A Knowledge Base of Semantically Annotated
Tweets about the COVID-19 Pandemic, CIKM2020.
https://data.gesis.org/tweetscov19/
 COVID19-Diskurs als Basis für interdisziplinäre
Forschung zu Solidaritätsverhalten,
gesellschaftlichen Veränderungen in der
Pandemie
 8.1 Millionen Tweets seit Oktober 2019
(kontinuierlich aktualisiert), extrahiert mithilfe
von COVID-19-spezifischer Seed List &
TweetsKB Pipeline
 Genutzt als Corpus für CIKM2020 AnalytiCup &
durch interdisziplinäre Partner, z.B. mit
Heinrich-Heine-Universität, University of
Hildesheim, etc

16Stefan Dietze
Web Mining von Wissen über Claims & “Stances”/Standpunkte

17Stefan Dietze
Stance,
Vertrauenswürdigkeit
des Claims?
Stance,
Vertrauenswürdigkeit des Claims?
Web Mining von Wissen über Claims & “Stances”/Standpunkte

18Stefan Dietze
Erkennen von Stances/Standpunkten
Motivation
 Problem: erkennen des Standpunkt von Web Dokumenten
(Webseiten, Tweets) zu bestimmtem Claim
(Klassenverteilung sehr unausgewogen)
 Anwendungen: Stance von Dokumenten (besonders
disagreement) wichtig (a) als Signal Korrektheit der Aussage &
(b) für die Klassifikation von Quellen (Twitternutzer, PLDs)
A. Roy, A. Ekbal, S. Dietze, P. Fafalios, Exploiting stance
hierarchies for cost-sensitive stance detection of Web
documents, preprint.

19Stefan Dietze
Motivation
Ansatz
 Cascading binary classifiers zur Addressierung von Problemen
bei jedem Schritt (z.B. Kosten für Misklassifikation)
 Features, z.B. Textähnlichkeit (Word2Vec etc), Sentimente, LIWC
 Stärkste Modelle pro Schritt: 1) SVM with class-wise penalty, 2)
CNN, 3) SVM with class-wise penalty
 Experimente mit Fake News Challenge Benchmark Dataset &
Baselines

20Stefan Dietze
Motivation
Ansatz
 Cascading binary classifiers zur Addressierung von Problemen
bei jedem Schritt (z.B. Kosten für Misklassifikation)
 Features, z.B. Textähnlichkeit (Word2Vec etc), Sentimente, LIWC
 Stärkste Modelle pro Schritt: 1) SVM with class-wise penalty, 2)
CNN, 3) SVM with class-wise penalty
 Experimente mit Fake News Challenge Benchmark Dataset &
Baselines
Ergebnisse
 Geringfügige Overall Performance Verbesserung
 Verbesserung für disagree Klasse von 27%

21Stefan Dietze
ClaimsKG: a knowledge graph of Web-mined claims
Motivation
 Faktengeprüfte Claims über verschiedene
(unstrukturierte) Fact-Checking Seiten verteilt
 Claims zu bestimmten Themen, z.B. COVID19-
relevante Claims von US Politikern schwer zu
finden
ClaimsKG Ansatz
 Harvesting von Claims und Metadaten von
Fact-Checking Seiten (e.g. snopes.com,
Politifact.com etc);
 Aktuell ca. 30.000 Claims (plus mining
schema.org/ClaimReview markup (> 500.000
statements in Common Crawl 2017)
 Veröffentlicht als KG durch durch NLP Pipeline
analog zu TweetsKB (Entity Linking, Data
Lifting, Normalisierung)
https://data.gesis.org/claimskg/
A. Tchechmedjiev, P. Fafalios, K. Boland, S. Dietze, B. Zapilko,
K. Todorov, ClaimsKG – A Live Knowledge Graph of fact-
checked Claims, ISWC2019

22Stefan Dietze
Überblick
Teil I
Extraktion von maschinen-interpretierbarem Wissen aus dem Web
(„Content“)
Teil II
Verstehen von Nutzerverhalten und –interaktionen im Web
(„User“)

23Stefan Dietze
Kompetenz & Wissensakquise von Web Nutzern
Vorhersage durch Verhaltensspuren?
 Forschungsfrage: Lässt sich anhand von
Nutzerverhalten wie Browsing, Scrolling, oder
Verhaltensspuren (Mausbewegungen, Keystrokes, Eye
Tracking) die Kompetenz und die Wissensakquise von
Nutzern vorhersagen?
 Ansatz: Experimente und Machine Learning-Ansätze
in zwei Szenarien: (a) Web Suche und (b) Microtask
Crowdsourcing wie Amazon Mechanical Turk
 Anwendungen z.B. zur Klassifikation von Web
Nutzern, Verbesserung von Suchergebnissen oder die
Adaption in Lern- und Assessmentumgebungen
Gadiraju, U., Kawase, R., Dietze, S, Demartini, G.,
Understanding Malicious Behavior in Crowdsourcing
Platforms: The Case of Online Surveys, ACM CHI2015.
Gadiraju, U., Demartini, G., Kawase, R., Dietze, S., Crowd
Anatomy Beyond the Good and Bad: Behavioral Traces for
Crowd Worker Modeling and Pre-selection, Computer
Supported Cooperative Work 28(5): 815-841 (2019)

24Stefan Dietze
Akquisition von Wissen während der Web Suche?
Herausforderungen & Ergebnisse
 Identifizieren von kohärenten Such-Sessions?
 Erkennen von “Lernen” während der Suche: identifizieren von
“informational sessions” (im Gegensatz zu “transactional” oder
“navigational” Suche [Broder, 2002])
o Klassifikation mit ca. F1 score 75% anhand von
Nutzerinteraktionen
 Wie kompetent ist der/die Nutzende? -
Vorhersagen und verstehen des Wissensstands Nutzender
anhand des “In-Session”-Verhaltens
 Wie gut erreicht der/die Nutzende das Lernziel bzw. sein
Informationsbedürfnis? – Vorhersagen des Wissenszuwachses
während einer Session
o Korrelation von Nutzerverhalten (Queries, Browsing,
Mausbewegungen etc) & Wissensstand/-zuwachs [CHIIR18]
o Vorhersage von Wissenstand/-zuwachs mithilfe überwachter
ML- Methoden [SIGIR18]

25Stefan Dietze
Wissensstand & -zuwachs vs Nutzerverhalten bei der Web Suche
Daten & experimentelles Setup
 Crowdsourcing von Verhaltensdaten resp. Such-Sessions
 10 Themen/Informationsbedürfnisse (z.B. “Altitude sickness”,
“Tornados”) plus Pre- and Post-Tests zur Bestimmung von
Wissensstand – und Wissenszuwachs (KS, KG)
 Ca. 1000 Crowd Worker; 100 Sessions pro Topic
 Monitoring von Nutzerverhalten entlang von 76 Features in 5
Kategorien: session, query, SERP – search engine result page, browsing,
mouse traces
Ergebnisse
 70% der Nutzer zeigen Wissenszuwachs (KG)
 Negative Korrelation zwischen Wissenszuwachs und topic popularity
(avg. accuracy of workers in knowledge tests) (R= -.87)
 Aktiv auf Webseiten verbrachte Zeit erklärt 7% des Wissenszuwachses
 Query complexity erklärt 25% des Wissenszuwachses
 Suchverhalten korreliert stärker mit Such-Thema als mit KG/KS
Gadiraju, U., Yu, R., Dietze, S., Holtz, P.,. Analyzing
Knowledge Gain of Users in Informational Search
Sessions on the Web. ACM CHIIR 2018.

26Stefan Dietze
ML Modelle zur Vorhersage von KG/KS während der Suche
 Kategorisierung der Sessions entlang von Wissensstand (KS) & Wissenszuwachs (KG)
in {low, moderate, high} mit (low < (mean ± 0.5 SD) < high)
 Überwachte Multiclass Klassifikation (Naive Bayes, Logistic Regression, SVM, Random Forest, Multilayer
Perceptron)
 KG Vorhersage Performance
(nach 10-facher Cross-Validation)
 Feature Impact (KG prediction)
Yu, R., Gadiraju, U., Holtz, P., Rokicki, M., Kemkes, P., Dietze, S.,
Analyzing Knowledge Gain of Users in Informational Search
Sessions on the Web. ACM SIGIR 2018.

27Stefan Dietze
ML Modelle zur Vorhersage von KG/KS während der Suche
 Kategorisierung der Sessions entlang von Wissensstand (KS) & Wissenszuwachs (KG)
in {low, moderate, high} mit (low < (mean ± 0.5 SD) < high)
 Überwachte Multiclass Klassifikation (Naive Bayes, Logistic Regression, SVM, Random Forest, Multilayer
Perceptron)
 KG Vorhersage Performance
(nach 10-facher Cross-Validation)
 Feature Impact (KG prediction)
Aktuelle & zukünftige Arbeiten
 Laborstudien für zuverlässigere Daten notwendig
(kontrollierte Umgebung, längere Sessions)
[abgeschlossen]
 Zusätzliche Features wie Eye Tracking
[CHIIR2020]
 Ressourcen-Features (wie z.B. complexity,
analytic/emotional language, multimodality etc) als
weitere Signale [IR Journal, under review]
 Verbessern von Ranking/Retrieval bei der Web Suche
oder in digitalen Archiven
(SALIENT Project, Leibniz Kooperative Exzellenz, mit
IWM, Uni Tübingen, TIB Hannover)
Yu, R., Gadiraju, U., Holtz, P., Rokicki, M., Kemkes, P., Dietze, S.,
Analyzing Knowledge Gain of Users in Informational Search
Sessions on the Web. ACM SIGIR 2018.

31Stefan Dietze
Weitere Features zur Vorhersage der Kompetenz von Nutzenden
Kompetenz & der “Dunning-Kruger Effect”
 Inkompetenz in bestimmtem Task mindert die Fähigkeit, die
eigene Inkompetenz im Task zu erkennen
(David Dunning. 2011. The Dunning-Kruger Effect: On Being Ignorant of One’s Own Ignorance.
Advances in experimental social psychology 44 (2011), 247.)
Forschungsfragen
 Selbsteinschätzung als zusätzliches Feature um Kompetenz
vorherzusagen?
 Anwendung in Microtask-Crowdsourcing zur Klassifikation
von “Workern” oder im Online Lernen zur Klassifikation von
Lernenden
Einige Ergebnisse
 Selbsteinschätzung als zuverlässiges Feature zur Vorhersage
von Kompetenz/Future Performance;
 zuverlässiger als die bisherige Performance im Task
 Tendenz zur Überschätzung der eigenen Kompetenz wächst
mit wachsendem Schweregrad des Tasks Performance („accuracy“) of users classified as „competent“ according to (1)
prior performance and (2) performance plus self-assessment
Gadiraju, U., Fetahu, B., Kawase, R., Siehndel, P., Dietze, S.,
Using Worker Self-Assessments for Competence-based Pre-
Selection in Crowdsourcing Microtasks. In: ACM Transactions
on Computer-Human Interaction (ACM TOCHI), Vol. 24,
Issue 4, August 2017.

32Stefan Dietze
Zum Abschluss: kann Data Science „die“ Frage beantworten?

33Stefan Dietze
Rückblick: Web-mined Meinungen in TweetsKB
http://dbpedia.org/resource/Tim_Berners-Lee
wna:positive-emotion
http://dbpedia.org/resource/Solid
wna:negative-emotion
Anzahl Tweets, die Stadt Köln bzw. Düsseldorf)
erwähnen
(in 1,5 Mrd Englisch-sprachigen und bereinigten Tweets
2013-2018)
• # dbp:Cologne: 89.564
• # dbp:Dusseldorf: 4723
• Meinung als zum Ausdruck gebrachte Sentimente
pro Tweet
• „Happiness (e, ti) = mean of sentiment score delta
(positive - negative) of all Tweets mentioning entity
e in time interval ti“

34Stefan Dietze
Köln vs Düsseldorf: ein Antwortversuch mit TweetsKB
-0.40000
-0.30000
-0.20000
-0.10000
0.00000
0.10000
0.20000
0.30000
0.40000
Cologne Düsseldorf
Durchschnittliche Sentiment Scores (2013-2017):
• Happiness(Cologne) = 0.09281
• Happiness(Dusseldorf) = 0.04056
• Positive (Cologne) = 0.17297
• Positive (Dusseldorf) = 0.1245
• Negative (Cologne) = 0.07948
• Negative (Dusseldorf) = 0.09030
„Erkenntnisse“
• Köln „happier“
• Köln & Düsseldorf „happy“
(positive durchschnittliche Sentiment Scores)
Herausforderung: Bias
• Bias: Twitter Nutzer nicht repräsentativ
• Bias: englisch-sprachige Twitter Nutzer nicht
repräsentativ
• Bias: Verteilung von Touristen & Einwohner sehr
unterschiedlich für beide Städte (Kölner Dom)
Januar 2016,
Silvester/Domplatte (K)
März 2017,
Axt Attacke in U-Bahn (D)
Happiness(dbp:Cologne)
Happiness(dbp:Dusseldorf)
Source: https://theculturetrip.com/europe/germany/articles/8-fascinating-things-didnt-know-colognes-cathedral/© freedom100m

35Stefan Dietze
Knowledge Technologies for the Social Sciences (WTS)
https://www.gesis.org/en/institute/departments/knowledge-technologies-for-
the-social-sciences/
Data & Knowledge Engineering @ HHU
https://www.cs.hhu.de/en/research-groups/data-knowledge-engineering.html
L3S
http://www.l3s.de
Acknowledgements
• Maribel Acosta (KIT, Karlsruhe)
• Felix Bensmann (GESIS)
• Katarina Boland (GESIS, Germany)
• Stefan Conrad (HHU, Germany)
• Elena Demidova (L3S, Germany)
• Dimitar Dimitrov (GESIS, Germany)
• Asif Ekbal (IIT Patna, India)
• Pavlos Fafalios (FORTH ICS, Greece)
• Daniel Hienert (GESIS, Germany)
• Peter Holtz (IWM, Tübingen)
• Vasileios Iosifidis (L3S, Germany)
• Dagmar Kern (GESIS, Germany)
• Eirini Ntoutsi (LUH, Germany)
• Vasilis Iosifidis (L3S, Germany)
• Wolfgang Otto (GESIS, Germany)
• Andrea Papenmeier (GESIS, Germany)
• Markus Rokicki (L3S, Germany)
• Arjun Roy (IIT Patna, India)
• Nicolas Tempelmeier (L3S, Germany)
• Konstantin Todorov (LIRMM, France)
• Ran Yu (GESIS, Germany)
• Benjamin Zapilko (GESIS, Germany)
• Matthäus Zloch (GESIS, Germany)

Human-in-the-Loop: das Web als Grundlage interdisziplinärer Data Science Methoden und Fragestellungen

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (7)

Ähnlich wie Human-in-the-Loop: das Web als Grundlage interdisziplinärer Data Science Methoden und Fragestellungen

Ähnlich wie Human-in-the-Loop: das Web als Grundlage interdisziplinärer Data Science Methoden und Fragestellungen (20)

Mehr von Stefan Dietze

Mehr von Stefan Dietze (20)

Human-in-the-Loop: das Web als Grundlage interdisziplinärer Data Science Methoden und Fragestellungen