Human-in-the-Loop: das Web als Grundlage interdisziplinärer Data Science Methoden und Fragestellungen
1. 1Stefan Dietze
Backup
Human in the Loop: das Web als Grundlage interdisziplinärer
Data Science-Methoden und Fragestellungen
Stefan Dietze
GESIS – Leibniz Institute for the Social Sciences,
Heinrich-Heine-Universität Düsseldorf,
L3S Research Center
5. 5Stefan Dietze
Web Suche nach…
• Dokumente
• Fakten
• Claims
• Meinungen
Wir versuchen, diese Frage am Ende des Talks
mithilfe von Data „Science“ zu „beantworten“.
6. 6Stefan Dietze
Human-in-the-loop: KI und Crowd Intelligenz im Web
Human/Crowd Intelligence
Artificial Intelligence
Web Content & Data
(z.B. Webseiten, Social Media, Wikipedia,
Tags, semi-structured Data)
Interaktionen & Verhalten
(z.B. Clickstreams, Queries,
Likes/Shares)
Interpretation & Verarbeitung mithilfe von:
Information Retrieval
(Crawling, Indexing, Ranking etc)
Natural Language Processing
Graph Analyse (z.B. PageRank et al.)
Wissensbasierte Methoden, Inferenz & Reasoning
Statistik
Machine & Deep Learning
o Query Interpretation & Intent Prediction
o Klassifikation von Nutzern, Sessions,
Dokumenten, Quellen
o Ranking und Personalisierung
o ….
7. 7Stefan Dietze
Überblick
Teil I
Extraktion von maschinen-interpretierbarem Wissen aus dem Web
(„Content“)
Teil II
Verstehen von Nutzerverhalten und –interaktionen im Web
(„User“)
8. 8Stefan Dietze
Fakten, Claims, Stances/Standpunkte, Meinungen im Web
Untersuchungen zur Wissenskonstruktion, Meinungsbildung, Beinflussung
und Desinformation im Web als disziplinübergreifendes und stark
wachsendes Forschungsfeld (z.B. Vousoughi et al. 2018)
Erkenntnisgewinn (z.B. Sozialwiss., Psychologie), z.B. zu:
o Wissenskonstruktion im Web
o Viralität und Spreading von Claims und Desinformation
o Effekt von Desinformation auf die Meinungsbildung
o Selbstverstärkende Effekte von Biases und Echokammern
Methoden (Informatik), z.B. für:
o Extraktion von Faktenwissen aus dem Web
[WWW18, SWJ19]
o Extraktion und Verifikation von Claims im Web
[ISWC2019]
o Erkennen des Standpunkts von Webseiten oder Tweets
o Extraktion von Meinungen/Trends, z.B. aus dem Social Web/Twitter
[CIKM2020, ESWC18]
9. 9Stefan Dietze
Extraktion von „long-tail“ Faktenwissen im Web ?
<„Tim Berners-Lee“ s:founderOf „Solid“>
Wie lässt sich entitätsbezogenes Faktenwissen bzw.
Wissensgraphen aus Webseiten gewinnen?
Anwendung von NLP/Informationsextraktionsmethoden?
Skalierbarkeit: Google Index = ca. 50 Billionen Websiten (die sich
dynamisch ändern)
Nutzung von eingebettetem Web Markup (Microdata/RDFa) wie
schema.org-basierte Annotationen
Weit verbreitet: ca. 40% aller Webseiten in Common Crawl (3.2
Mrd. Webseiten) beinhalten Markup (ca. 44 Mrd. „Fakten“)
Herausforderungen
o Fehler. Annotationsfehler und faktische Fehler [Meusel et al,
ESWC2015]
o Mehrdeutigkeit und Koreferenzen. z.B. 18.000 Markup-
Instanzen von “iPhone 6” in Common Crawl 2016 &
mehrdeutige Literale (z.B. „Apple“>)
o Redundanzen & Konflikte. Großer Anteil von äquivalenten
oder direkt in Konflikt stehenden Aussagen
10. 10Stefan Dietze
KnowMore: data fusion on Web Markup
0. Noise: Data Cleansing (URIs, Deduplizierung etc)
1.a) Scale: Blocking mit BM25 Entity Retrieval auf Lucene Index der Markup Daten
1.b) Relevanz: überwachte Auflösung von Koreferenzen
2.) Qualität & Redundanz: Data Fusion mit überwachtem Klassifizierer für alle Fakten (SVM, knn, CNN, RF, LR, NB), nutzt diverse
Feature Set (Autorität, Relevanz etc) der Quelle (z.B. PageRank), Entitätsbeschreibung oder Fakten
1. Blocking &
coreference resolution
2. Fusion / Fact selection
(supervised)
Web page
markup
Web crawl
(Common Crawl,
44 bn facts)
Yu, R., [..], Dietze, S., KnowMore-Knowledge Base
Augmentation with Structured Web Markup, Semantic Web
Journal 2019 (SWJ2019)
Tempelmeier, N., Demidova, S., Dietze, S., Inferring Missing
Categorical Information in Noisy and Sparse Web Markup,
The Web Conf. 2018 (WWW2018)
New Query Entities
BBC Audio, type:(Organization)
Chapman & Hall, type:(Publisher)
Put Out More Flags, type:(Book)
Entity Description
author Evelyn Waugh
priorWork Put Out More Flags
ISBN 978031874803074
copyrightHolder Evelyn Waugh
releaseDate 1945
… …
Query Entity
Brideshead Revisited, type:(Book)
Candidate Facts
node1 publisher Chapman & Hall
node1 releaseDate 1945
node1 publishDate 1961
node2 country UK
node2 publisher Black Bay Books
node3 country US
node3 copyrightHolder Evelyn Waugh
… …. ….
Ca. 5000 Fakten für „Brideshead Revisited“
(125.000 Fakten für „iPhone6“)
20 korrekte & nicht-redundante Fakten für „Brideshead Rev.“
11. 11Stefan Dietze
KnowMore: data fusion on Web Markup
0. Noise: Data Cleansing (URIs, Deduplizierung etc)
1.a) Scale: Blocking mit BM25 Entity Retrieval auf Lucene Index der Markup Daten
1.b) Relevanz: überwachte Auflösung von Koreferenzen
2.) Qualität & Redundanz: Data Fusion mit überwachtem Klassifizierer für alle Fakten (SVM, knn, CNN, RF, LR, NB), nutzt diverse
Feature Set (Autorität, Relevanz etc) der Quelle (z.B. PageRank), Entitätsbeschreibung oder Fakten
1. Blocking &
coreference resolution
2. Fusion / Fact selection
(supervised)
Web page
markup
Web crawl
(Common Crawl,
44 bn facts)
Yu, R., [..], Dietze, S., KnowMore-Knowledge Base
Augmentation with Structured Web Markup, Semantic Web
Journal 2019 (SWJ2019)
Tempelmeier, N., Demidova, S., Dietze, S., Inferring Missing
Categorical Information in Noisy and Sparse Web Markup,
The Web Conf. 2018 (WWW2018)
New Query Entities
BBC Audio, type:(Organization)
Chapman & Hall, type:(Publisher)
Put Out More Flags, type:(Book)
Entity Description
author Evelyn Waugh
priorWork Put Out More Flags
ISBN 978031874803074
copyrightHolder Evelyn Waugh
releaseDate 1945
… …
Query Entity
Brideshead Revisited, type:(Book)
Candidate Facts
node1 publisher Chapman & Hall
node1 releaseDate 1945
node1 publishDate 1961
node2 country UK
node2 publisher Black Bay Books
node3 country US
node3 copyrightHolder Evelyn Waugh
… …. ….
Ca. 5000 Fakten für „Brideshead Revisited“
(125.000 Fakten für „iPhone6“)
20 korrekte & nicht-redundante Fakten für „Brideshead Rev.“
Data Fusion Performance
Experimente für Bücher, Filme, Produkte
Baselines: BM25, CBFS [ESWC2015], PreRecCorr [Pochampally et.
al., ACM SIGMOD 2014], variieren stark zwischen den Typen
Anreicherung von Wissensgraphen / Finden neuer Fakten?
Durchschnittlich 60% - 70% aller Fakten sind neu (im Vergleich zu
Wissensgraphen wie WikiData, Freebase, Wikipedia/DBpedia)
Weitere Experimente zum Lernen von kategorischen Merkmalen
(z.B. Filmgenren oder Produktkategorien) [WWW2018]
12. 12Stefan Dietze
Extraktion von Diskurs & Meinungen aus Twitter
http://dbpedia.org/resource/Tim_Berners-Lee
wna:positive-emotion
onyx:hasEmotionIntensity "0.75"
onyx:hasEmotionIntensity "0.0"
Heterogenität: multimodal, multilingual,
informell, “noisy” Sprache
Kontextabhängigkeit: Interpretation kurzer
Tweets erfordert Berücksichtigung von Kontext
(z.B. Zeitpunkt, verlinkte Inhalte), “Dusseldorf” =>
Stadt oder Fußball-Team
Representativität & Bias: demographische
Verteilungen in Twitter Archiven nicht bekannt
Dynamik & Scale: z.B. 8000 tweets pro Sekunde,
plus Interaktionen (Retweets etc) & Kontext (z.B.
25% aller Tweets beinhalten URLs)
Evolution & temporale Aspekte: Evolution von
Interaktionen über die Zeit wichtig für die
moisten Forschungsfragen
http://dbpedia.org/resource/Solid
wna:negative-emotion
P. Fafalios, V. Iosifidis, E. Ntoutsi, and S. Dietze,
TweetsKB: A Public and Large-Scale RDF Corpus of
Annotated Tweets, ESWC'18.
13. 13Stefan Dietze
TweetsKB: a knowledge base of Web mined societal discourse
P. Fafalios, V. Iosifidis, E. Ntoutsi, and S. Dietze,
TweetsKB: A Public and Large-Scale RDF Corpus of
Annotated Tweets, ESWC'18.
https://data.gesis.org/tweetskb/
Sammlung & Archivierung von 10 Mrd. Tweets über 7
Jahre (permanenter Crawl der Twitter 1%-API seit 2013)
Informationsextraktion mithilfe von NLP-Methoden zur
Extraktion von Entitäten und Sentimenten
(verteilte Batch-Verarbeitung mit Hadoop Map/Reduce)
o Entity Linking mit Wikipedia/DBpedia (Yahoo‘s FEL
[Blanco et al. 2015])
(“president”/“potus”/”trump” => dbp:DonaldTrump),
zur Disambiguierung von Tweets und Verlinkung mit
Hintergrundwissen (z.B. US Politiker? Republikaner?),
hohe Precision (.85), schwacher recall (.39)
o Sentiment Analyse mit SentiStrength [Thelwall et al.,
2017], F1 ca. .80
o Extraktion von Metadaten und Lifting in etablierte
Formate und Schemas (SIOC, schema.org), Publikation
mithilfe von W3C Standards (RDF/SPARQL)
14. 14Stefan Dietze
TweetsKB: a knowledge base of Web mined societal discourse
P. Fafalios, V. Iosifidis, E. Ntoutsi, and S. Dietze,
TweetsKB: A Public and Large-Scale RDF Corpus of
Annotated Tweets, ESWC'18.
https://data.gesis.org/tweetskb/
Sammlung & Archivierung von 10 Mrd. Tweets über 7
Jahre (permanenter Crawl der Twitter 1%-API seit 2013)
Informationsextraktion mithilfe von NLP-Methoden zur
Extraktion von Entitäten und Sentimenten
(verteilte Batch-Verarbeitung mit Hadoop Map/Reduce)
o Entity Linking mit Wikipedia/DBpedia (Yahoo‘s FEL
[Blanco et al. 2015])
(“president”/“potus”/”trump” => dbp:DonaldTrump),
zur Disambiguierung von Tweets und Verlinkung mit
Hintergrundwissen (z.B. US Politiker? Republikaner?),
hohe Precision (.85), schwacher recall (.39)
o Sentiment Analyse mit SentiStrength [Thelwall et al.,
2017], F1 ca. .80
o Extraktion von Metadaten und Lifting in etablierte
Formate und Schemas (SIOC, schema.org), Publikation
mithilfe von W3C Standards (RDF/SPARQL)
Anwendungsszenarien
Aggregation von Sentimenten zu bestimmten Themen
oder Entitäten, z.B. CDU vs SPD Politiker in bestimmter
Zeitperiode
Twitter Archive zum Verstehen von temporären
Entitätsbeziehungen z.B. “austerity” & “Greece” 2010-
2015
Verfolgen von Claims und Fake News und deren Impact
(siehe folgende Slides)
-0.40000
-0.30000
-0.20000
-0.10000
0.00000
0.10000
0.20000
0.30000
0.40000
Cologne Düsseldorf
15. 15Stefan Dietze
TweetsCOV19: a knowledge graph of societal discourse on COVID19
Dimitrov, D., Baran, E., Fafalios, P., Yu, R., Zhu, X., Zloch, M., Dietze,
S., TweetsCOV19 -- A Knowledge Base of Semantically Annotated
Tweets about the COVID-19 Pandemic, CIKM2020.
https://data.gesis.org/tweetscov19/
COVID19-Diskurs als Basis für interdisziplinäre
Forschung zu Solidaritätsverhalten,
gesellschaftlichen Veränderungen in der
Pandemie
8.1 Millionen Tweets seit Oktober 2019
(kontinuierlich aktualisiert), extrahiert mithilfe
von COVID-19-spezifischer Seed List &
TweetsKB Pipeline
Genutzt als Corpus für CIKM2020 AnalytiCup &
durch interdisziplinäre Partner, z.B. mit
Heinrich-Heine-Universität, University of
Hildesheim, etc
18. 18Stefan Dietze
Erkennen von Stances/Standpunkten
Motivation
Problem: erkennen des Standpunkt von Web Dokumenten
(Webseiten, Tweets) zu bestimmtem Claim
(Klassenverteilung sehr unausgewogen)
Anwendungen: Stance von Dokumenten (besonders
disagreement) wichtig (a) als Signal Korrektheit der Aussage &
(b) für die Klassifikation von Quellen (Twitternutzer, PLDs)
A. Roy, A. Ekbal, S. Dietze, P. Fafalios, Exploiting stance
hierarchies for cost-sensitive stance detection of Web
documents, preprint.
19. 19Stefan Dietze
Erkennen von Stances/Standpunkten
Motivation
Problem: erkennen des Standpunkt von Web Dokumenten
(Webseiten, Tweets) zu bestimmtem Claim
(Klassenverteilung sehr unausgewogen)
Anwendungen: Stance von Dokumenten (besonders
disagreement) wichtig (a) als Signal Korrektheit der Aussage &
(b) für die Klassifikation von Quellen (Twitternutzer, PLDs)
Ansatz
Cascading binary classifiers zur Addressierung von Problemen
bei jedem Schritt (z.B. Kosten für Misklassifikation)
Features, z.B. Textähnlichkeit (Word2Vec etc), Sentimente, LIWC
Stärkste Modelle pro Schritt: 1) SVM with class-wise penalty, 2)
CNN, 3) SVM with class-wise penalty
Experimente mit Fake News Challenge Benchmark Dataset &
Baselines
A. Roy, A. Ekbal, S. Dietze, P. Fafalios, Exploiting stance
hierarchies for cost-sensitive stance detection of Web
documents, preprint.
20. 20Stefan Dietze
Erkennen von Stances/Standpunkten
Motivation
Problem: erkennen des Standpunkt von Web Dokumenten
(Webseiten, Tweets) zu bestimmtem Claim
(Klassenverteilung sehr unausgewogen)
Anwendungen: Stance von Dokumenten (besonders
disagreement) wichtig (a) als Signal Korrektheit der Aussage &
(b) für die Klassifikation von Quellen (Twitternutzer, PLDs)
Ansatz
Cascading binary classifiers zur Addressierung von Problemen
bei jedem Schritt (z.B. Kosten für Misklassifikation)
Features, z.B. Textähnlichkeit (Word2Vec etc), Sentimente, LIWC
Stärkste Modelle pro Schritt: 1) SVM with class-wise penalty, 2)
CNN, 3) SVM with class-wise penalty
Experimente mit Fake News Challenge Benchmark Dataset &
Baselines
Ergebnisse
Geringfügige Overall Performance Verbesserung
Verbesserung für disagree Klasse von 27%
A. Roy, A. Ekbal, S. Dietze, P. Fafalios, Exploiting stance
hierarchies for cost-sensitive stance detection of Web
documents, preprint.
21. 21Stefan Dietze
ClaimsKG: a knowledge graph of Web-mined claims
Motivation
Faktengeprüfte Claims über verschiedene
(unstrukturierte) Fact-Checking Seiten verteilt
Claims zu bestimmten Themen, z.B. COVID19-
relevante Claims von US Politikern schwer zu
finden
ClaimsKG Ansatz
Harvesting von Claims und Metadaten von
Fact-Checking Seiten (e.g. snopes.com,
Politifact.com etc);
Aktuell ca. 30.000 Claims (plus mining
schema.org/ClaimReview markup (> 500.000
statements in Common Crawl 2017)
Veröffentlicht als KG durch durch NLP Pipeline
analog zu TweetsKB (Entity Linking, Data
Lifting, Normalisierung)
https://data.gesis.org/claimskg/
A. Tchechmedjiev, P. Fafalios, K. Boland, S. Dietze, B. Zapilko,
K. Todorov, ClaimsKG – A Live Knowledge Graph of fact-
checked Claims, ISWC2019
22. 22Stefan Dietze
Überblick
Teil I
Extraktion von maschinen-interpretierbarem Wissen aus dem Web
(„Content“)
Teil II
Verstehen von Nutzerverhalten und –interaktionen im Web
(„User“)
23. 23Stefan Dietze
Kompetenz & Wissensakquise von Web Nutzern
Vorhersage durch Verhaltensspuren?
Forschungsfrage: Lässt sich anhand von
Nutzerverhalten wie Browsing, Scrolling, oder
Verhaltensspuren (Mausbewegungen, Keystrokes, Eye
Tracking) die Kompetenz und die Wissensakquise von
Nutzern vorhersagen?
Ansatz: Experimente und Machine Learning-Ansätze
in zwei Szenarien: (a) Web Suche und (b) Microtask
Crowdsourcing wie Amazon Mechanical Turk
Anwendungen z.B. zur Klassifikation von Web
Nutzern, Verbesserung von Suchergebnissen oder die
Adaption in Lern- und Assessmentumgebungen
Gadiraju, U., Kawase, R., Dietze, S, Demartini, G.,
Understanding Malicious Behavior in Crowdsourcing
Platforms: The Case of Online Surveys, ACM CHI2015.
Gadiraju, U., Demartini, G., Kawase, R., Dietze, S., Crowd
Anatomy Beyond the Good and Bad: Behavioral Traces for
Crowd Worker Modeling and Pre-selection, Computer
Supported Cooperative Work 28(5): 815-841 (2019)
24. 24Stefan Dietze
Akquisition von Wissen während der Web Suche?
Herausforderungen & Ergebnisse
Identifizieren von kohärenten Such-Sessions?
Erkennen von “Lernen” während der Suche: identifizieren von
“informational sessions” (im Gegensatz zu “transactional” oder
“navigational” Suche [Broder, 2002])
o Klassifikation mit ca. F1 score 75% anhand von
Nutzerinteraktionen
Wie kompetent ist der/die Nutzende? -
Vorhersagen und verstehen des Wissensstands Nutzender
anhand des “In-Session”-Verhaltens
Wie gut erreicht der/die Nutzende das Lernziel bzw. sein
Informationsbedürfnis? – Vorhersagen des Wissenszuwachses
während einer Session
o Korrelation von Nutzerverhalten (Queries, Browsing,
Mausbewegungen etc) & Wissensstand/-zuwachs [CHIIR18]
o Vorhersage von Wissenstand/-zuwachs mithilfe überwachter
ML- Methoden [SIGIR18]
25. 25Stefan Dietze
Wissensstand & -zuwachs vs Nutzerverhalten bei der Web Suche
Daten & experimentelles Setup
Crowdsourcing von Verhaltensdaten resp. Such-Sessions
10 Themen/Informationsbedürfnisse (z.B. “Altitude sickness”,
“Tornados”) plus Pre- and Post-Tests zur Bestimmung von
Wissensstand – und Wissenszuwachs (KS, KG)
Ca. 1000 Crowd Worker; 100 Sessions pro Topic
Monitoring von Nutzerverhalten entlang von 76 Features in 5
Kategorien: session, query, SERP – search engine result page, browsing,
mouse traces
Ergebnisse
70% der Nutzer zeigen Wissenszuwachs (KG)
Negative Korrelation zwischen Wissenszuwachs und topic popularity
(avg. accuracy of workers in knowledge tests) (R= -.87)
Aktiv auf Webseiten verbrachte Zeit erklärt 7% des Wissenszuwachses
Query complexity erklärt 25% des Wissenszuwachses
Suchverhalten korreliert stärker mit Such-Thema als mit KG/KS
Gadiraju, U., Yu, R., Dietze, S., Holtz, P.,. Analyzing
Knowledge Gain of Users in Informational Search
Sessions on the Web. ACM CHIIR 2018.
26. 26Stefan Dietze
ML Modelle zur Vorhersage von KG/KS während der Suche
Kategorisierung der Sessions entlang von Wissensstand (KS) & Wissenszuwachs (KG)
in {low, moderate, high} mit (low < (mean ± 0.5 SD) < high)
Überwachte Multiclass Klassifikation (Naive Bayes, Logistic Regression, SVM, Random Forest, Multilayer
Perceptron)
KG Vorhersage Performance
(nach 10-facher Cross-Validation)
Feature Impact (KG prediction)
Yu, R., Gadiraju, U., Holtz, P., Rokicki, M., Kemkes, P., Dietze, S.,
Analyzing Knowledge Gain of Users in Informational Search
Sessions on the Web. ACM SIGIR 2018.
27. 27Stefan Dietze
ML Modelle zur Vorhersage von KG/KS während der Suche
Kategorisierung der Sessions entlang von Wissensstand (KS) & Wissenszuwachs (KG)
in {low, moderate, high} mit (low < (mean ± 0.5 SD) < high)
Überwachte Multiclass Klassifikation (Naive Bayes, Logistic Regression, SVM, Random Forest, Multilayer
Perceptron)
KG Vorhersage Performance
(nach 10-facher Cross-Validation)
Feature Impact (KG prediction)
Aktuelle & zukünftige Arbeiten
Laborstudien für zuverlässigere Daten notwendig
(kontrollierte Umgebung, längere Sessions)
[abgeschlossen]
Zusätzliche Features wie Eye Tracking
[CHIIR2020]
Ressourcen-Features (wie z.B. complexity,
analytic/emotional language, multimodality etc) als
weitere Signale [IR Journal, under review]
Verbessern von Ranking/Retrieval bei der Web Suche
oder in digitalen Archiven
(SALIENT Project, Leibniz Kooperative Exzellenz, mit
IWM, Uni Tübingen, TIB Hannover)
Yu, R., Gadiraju, U., Holtz, P., Rokicki, M., Kemkes, P., Dietze, S.,
Analyzing Knowledge Gain of Users in Informational Search
Sessions on the Web. ACM SIGIR 2018.
28. 31Stefan Dietze
Weitere Features zur Vorhersage der Kompetenz von Nutzenden
Kompetenz & der “Dunning-Kruger Effect”
Inkompetenz in bestimmtem Task mindert die Fähigkeit, die
eigene Inkompetenz im Task zu erkennen
(David Dunning. 2011. The Dunning-Kruger Effect: On Being Ignorant of One’s Own Ignorance.
Advances in experimental social psychology 44 (2011), 247.)
Forschungsfragen
Selbsteinschätzung als zusätzliches Feature um Kompetenz
vorherzusagen?
Anwendung in Microtask-Crowdsourcing zur Klassifikation
von “Workern” oder im Online Lernen zur Klassifikation von
Lernenden
Einige Ergebnisse
Selbsteinschätzung als zuverlässiges Feature zur Vorhersage
von Kompetenz/Future Performance;
zuverlässiger als die bisherige Performance im Task
Tendenz zur Überschätzung der eigenen Kompetenz wächst
mit wachsendem Schweregrad des Tasks Performance („accuracy“) of users classified as „competent“ according to (1)
prior performance and (2) performance plus self-assessment
Gadiraju, U., Fetahu, B., Kawase, R., Siehndel, P., Dietze, S.,
Using Worker Self-Assessments for Competence-based Pre-
Selection in Crowdsourcing Microtasks. In: ACM Transactions
on Computer-Human Interaction (ACM TOCHI), Vol. 24,
Issue 4, August 2017.
30. 33Stefan Dietze
Rückblick: Web-mined Meinungen in TweetsKB
http://dbpedia.org/resource/Tim_Berners-Lee
wna:positive-emotion
onyx:hasEmotionIntensity "0.75"
onyx:hasEmotionIntensity "0.0"
http://dbpedia.org/resource/Solid
wna:negative-emotion
P. Fafalios, V. Iosifidis, E. Ntoutsi, and S. Dietze,
TweetsKB: A Public and Large-Scale RDF Corpus of
Annotated Tweets, ESWC'18.
Anzahl Tweets, die Stadt Köln bzw. Düsseldorf)
erwähnen
(in 1,5 Mrd Englisch-sprachigen und bereinigten Tweets
2013-2018)
• # dbp:Cologne: 89.564
• # dbp:Dusseldorf: 4723
• Meinung als zum Ausdruck gebrachte Sentimente
pro Tweet
• „Happiness (e, ti) = mean of sentiment score delta
(positive - negative) of all Tweets mentioning entity
e in time interval ti“