3. Video O’Reilly Strata conference Data Bootcamp (5 stundas video)http://shop.oreilly.com/product/0636920018506.do Meaningful Insights from Raw Metrics (Virtual worlds, …)http://shop.oreilly.com/product/0636920019176.do O’Reilly OSCon – data sessions
15. Python Izmantotspiemērosar Web Science saistītosresursos: “Mining the Social Web” “Natural Language Processing with NLTK” O’Reilly Strata conf – “Data Bootcamp” Viegliapgūstamavaloda Tīra, vieglilasāmasintakse Dive Into Python: http://diveintopython.org/toc/index.html
16. Python Plašsbibliotēkuatbalsts NLTK, SciPy, networkx, WebKit iPython Lietojumiapmācībā un darbā Viena no Google “oficiālajām” valodām MIT nesenpārgājauz Python progrmmēšanasapmācībaibakalaurukursāhttp://ocw.mit.edu/courses/electrical-engineering-and-computer-science/6-189-a-gentle-introduction-to-programming-using-python-january-iap-2011/
17. Valodasizvēle Python lietojumamirdažaspriekšrocības: mēsvarampalīdzētdarbāar Python tajāirrakstīti “Mining the Social Web” piemēri Varlietotvairākasvalodas / servisus vienu – datuvākšanai citu – datuapstrādeivaivizualizācijai Katrasgrupasziņā
21. Datu veidi Nestrukturēti vai formāli vāji strukturēti dati HTML lapas (prezentācija vs. semantika) teksts, attēli, video u.c. Struktrēti dati RDB tīmekļa serviss RDF/SPARQL end-points DBpedia, Freebase, GeoNames, OpenCyc, ... Linked Data un LOD Community Sociālie tīkli Twitter struktūra Facebook sociālais grafs un Open Graph protokols ...
22. Datu apstrāde Priekšapstrāde Dabīgās valodas apstrāde Datu “bagātināšana” (metadati, linked data) Analīze, vizualizācija, ...
23. Priekšapstrāde Formāti, rakstzīmju kodējumi, valodas noteikšana Potenciāli derīgā satura (satura bloku) atfiltrēšana (web scraping kontekstā) Tvītu un komentāru normalizācija “Tokenizācija” jeb teksta sadalīšana vārdos (vārdlietojumos) Kas ir vārds? Identitāšu anonimizācija (MD5) ...
24. Uzdevums Kad zināma datu kopa jau ir savākta... Tokenizācija: “normālie” vārdi, skaitļi, citi (..), “liekie” (Sakārtots) biežumsaraksts: vārdformas un to lietojumu skaits Novērojumi, secinājumi?
25.
26.
27.
28.
Hinweis der Redaktion
Šie 2 slaidinebijaseminārā, bet tikapievienotivēlākkādatuvizualizācijasservisapiemērs.
Šie 2 slaidinebijaseminārā, bet tikapievienotivēlākkādatuvizualizācijasservisapiemērs.
C/C++, Java, Python and Javascriptvailaistprogrammasuz Google App Engine