Světový a český Twitter jako zdroj pro data mining
1. Světový a český Twitter
jako
zdroj pro data mining
Josef Šlerka, WebExpo 2009
2. Twitter.com
Twitter je poskytovatel sociální sítě a mikroblogu,
který umožňuje uživatelům posílat a číst příspěvky
zaslané jinými uživateli, známé jako tweety.
Tweety jsou textové příspěvky dlouhé maximálně
140 znaků, které se zobrazují na uživatelově
profilové stránce a na stránkách jeho odběratelů
(followers).
(Wikipedia)
4. Data mining je analytická metodologie
získávání netriviálních skrytých a potenciálně
užitečných informací z dat. (Wikipedie)
Různé variace jsou pak: text mining, web
mining a další včetně semantických analýz.
5. Data mining Twitteru
- umožňuje využití všech klasických metod DM
- přidává jim čas a prostor
- díky tomu je lépe propojuje do skutečnosti než
klasické dokumenty na webu
- relativně snadné propojení s ostatními sociálními
sítěmi (až 30 % uživatelů má jeden nickname pro
všechny sítě)
- možnost sledovat jak lidi, tak věci
6. Příklady takovýchto metod
- různé varianty sémantické distance či
podobnosti (Jaccardův index apod.)
- frekvenční analýzy celkového korpusu členěné
podle času (jsou lidé smutnější ráno nebo
večer?)
- frekvenční analýzy korpusu členěné podle
místa (od marketingu po vědu)
- identifikace opinion makerů v síti
8. Transmission News - 5 API v jednom
na adrese www. transnews.tw
Twitter API
Yahoo Geo
Open Calais (on-line semantický analyzér)
Google Search AJAX
Google Maps
plus propojení na Wikipedii
14. Užitá metodika aplikace Vrabčák 1.0
- od června 2009 zálohování twittů z lokace v
ČR pomocí API Twitteru v hodinových
intervalech
- automatická detekce jazyka
- pomocí frekvenčího slovníku zachycování možných
českých autorů
- komparace se zahraničními statistikami
15. Vrabčák 1.0 - čísla červen - září 2009
- celkem shromážděno přes 700.000 twittů
- od 10.628 unikátních uživatelů kteří o sobě
povolili údaj o lokaci (ČR) nebo twittli česky
- z toho 5.880 alespoň jednou twittlo česky
- jen 2.424 česky píšících uživatelů uvedlo svou
lokaci (obvykle svou lokaci uvádí 30 procent
uživatelů)
16. Kolik má tedy český Twitter uživatelů?
Česky píšících mezi 6.000 - 8.000
Další 1.000 až 2.000
preferují pravděpodobně angličtinu
Celkem tedy má český Twitter přibližně
až 10.000 aktivních uživatelů
17. Jaká je jejich dynamika?
Každé čtyři týdny rostl počet uživatel, kteří
alespoň jednou twittli česky průměrně o 25
procent.
Počet aktivních uživatelů roste mezi týdny jen
o 3 až 5 procent.
Absolutní počty twittů rostou také o 25 procent
zhruba po 4 týdnech.
18. Charekteristika česky psaných twittů?
2 % jsou RT
4 % obsahují hash
21.5 % tvoří odpovědi a konverzace
34.6 % obsahují link
23. Co víme, ale nevíme proč...
aneb co se za pár měsíc naznačilo
- nejčastěji twittují Češi ve čtvrtek a v úterý, nejméně v
sobotu. Ve světě je naopak nejpopulárnějším dnem
úterý, nejméně využívaná je pak neděle.
- počet twittů stoupá od začátku měsíce do jeho konce,
pak o něco poklesne a zase stoupá, stručně řečeno lidé
twittují více na konci než na začátku