Suche senden
Hochladen
Twitter クライアント “Termtter” の紹介と収集したソーシャルデータを Fluentd + Hadoop で分析する話
•
9 gefällt mir
•
4,530 views
I
id774
Folgen
Technologie
Melden
Teilen
Melden
Teilen
1 von 57
Jetzt herunterladen
Downloaden Sie, um offline zu lesen
Empfohlen
Go言語入門者が Webアプリケーション を作ってみた話 #devfest #gdgkyoto
Go言語入門者が Webアプリケーション を作ってみた話 #devfest #gdgkyoto
Shoot Morii
Go言語によるwebアプリの作り方
Go言語によるwebアプリの作り方
Yasutaka Kawamoto
Go言語のスライスを理解しよう
Go言語のスライスを理解しよう
Yasutaka Kawamoto
知って得する標準関数の使い方
知って得する標準関数の使い方
Soudai Sone
PHPBLT#6 PHPの未来に入るかもしれない機能の紹介
PHPBLT#6 PHPの未来に入るかもしれない機能の紹介
sters
Firefox Add-on SDK 入門
Firefox Add-on SDK 入門
Shoot Morii
CakePHPで開発する時に統一しておきたいコーディング内容(080316)
CakePHPで開発する時に統一しておきたいコーディング内容(080316)
柴田 篤志
PHP, Now and Then 2011
PHP, Now and Then 2011
Rui Hirokawa
Empfohlen
Go言語入門者が Webアプリケーション を作ってみた話 #devfest #gdgkyoto
Go言語入門者が Webアプリケーション を作ってみた話 #devfest #gdgkyoto
Shoot Morii
Go言語によるwebアプリの作り方
Go言語によるwebアプリの作り方
Yasutaka Kawamoto
Go言語のスライスを理解しよう
Go言語のスライスを理解しよう
Yasutaka Kawamoto
知って得する標準関数の使い方
知って得する標準関数の使い方
Soudai Sone
PHPBLT#6 PHPの未来に入るかもしれない機能の紹介
PHPBLT#6 PHPの未来に入るかもしれない機能の紹介
sters
Firefox Add-on SDK 入門
Firefox Add-on SDK 入門
Shoot Morii
CakePHPで開発する時に統一しておきたいコーディング内容(080316)
CakePHPで開発する時に統一しておきたいコーディング内容(080316)
柴田 篤志
PHP, Now and Then 2011
PHP, Now and Then 2011
Rui Hirokawa
Perl勉強会#2資料
Perl勉強会#2資料
Kiyo Tsunezumi
WebAPIではじめるphp入門
WebAPIではじめるphp入門
Hiroaki Murayama
PHPの今とこれから 2013
PHPの今とこれから 2013
Rui Hirokawa
XPagesで検索してみよう
XPagesで検索してみよう
Masahiko Miyo
PHPの今とこれから2014
PHPの今とこれから2014
Rui Hirokawa
Pycon2014 django performance
Pycon2014 django performance
hirokiky
最新PHP事情 (2000年7月22日,PHPカンファレンス)
最新PHP事情 (2000年7月22日,PHPカンファレンス)
Rui Hirokawa
PHPの今とこれから2021
PHPの今とこれから2021
Rui Hirokawa
PHPの今とこれから2019
PHPの今とこれから2019
Rui Hirokawa
Good Parts of PHP and the UNIX Philosophy
Good Parts of PHP and the UNIX Philosophy
Yuya Takeyama
Tokyo Webmining #12 Hapyrus
Tokyo Webmining #12 Hapyrus
Koichi Fujikawa
メタメタプログラミングRuby
メタメタプログラミングRuby
emasaka
PHPの今とこれから2020
PHPの今とこれから2020
Rui Hirokawa
Pelicanによる www.python.jpの構築
Pelicanによる www.python.jpの構築
Atsuo Ishimoto
OPcacheの新機能ファイルベースキャッシュの内部実装を読んでみた
OPcacheの新機能ファイルベースキャッシュの内部実装を読んでみた
Yoshio Hanawa
テンプレートエンジンって何?
テンプレートエンジンって何?
Shoichi Takahashi
ヒカルのGo 資料 Webアプリケーションの作り方
ヒカルのGo 資料 Webアプリケーションの作り方
Yosuke Furukawa
RのffとbigmemoryとRevoScaleRとを比較してみた
RのffとbigmemoryとRevoScaleRとを比較してみた
Kazuya Wada
Symfony2 How to create your Bundle
Symfony2 How to create your Bundle
chobi e
Perl logging
Perl logging
keroyonn
統計学における相関分析と仮説検定の基本的な考え方とその実践
統計学における相関分析と仮説検定の基本的な考え方とその実践
id774
20090622 Vimm4
20090622 Vimm4
id774
Weitere ähnliche Inhalte
Was ist angesagt?
Perl勉強会#2資料
Perl勉強会#2資料
Kiyo Tsunezumi
WebAPIではじめるphp入門
WebAPIではじめるphp入門
Hiroaki Murayama
PHPの今とこれから 2013
PHPの今とこれから 2013
Rui Hirokawa
XPagesで検索してみよう
XPagesで検索してみよう
Masahiko Miyo
PHPの今とこれから2014
PHPの今とこれから2014
Rui Hirokawa
Pycon2014 django performance
Pycon2014 django performance
hirokiky
最新PHP事情 (2000年7月22日,PHPカンファレンス)
最新PHP事情 (2000年7月22日,PHPカンファレンス)
Rui Hirokawa
PHPの今とこれから2021
PHPの今とこれから2021
Rui Hirokawa
PHPの今とこれから2019
PHPの今とこれから2019
Rui Hirokawa
Good Parts of PHP and the UNIX Philosophy
Good Parts of PHP and the UNIX Philosophy
Yuya Takeyama
Tokyo Webmining #12 Hapyrus
Tokyo Webmining #12 Hapyrus
Koichi Fujikawa
メタメタプログラミングRuby
メタメタプログラミングRuby
emasaka
PHPの今とこれから2020
PHPの今とこれから2020
Rui Hirokawa
Pelicanによる www.python.jpの構築
Pelicanによる www.python.jpの構築
Atsuo Ishimoto
OPcacheの新機能ファイルベースキャッシュの内部実装を読んでみた
OPcacheの新機能ファイルベースキャッシュの内部実装を読んでみた
Yoshio Hanawa
テンプレートエンジンって何?
テンプレートエンジンって何?
Shoichi Takahashi
ヒカルのGo 資料 Webアプリケーションの作り方
ヒカルのGo 資料 Webアプリケーションの作り方
Yosuke Furukawa
RのffとbigmemoryとRevoScaleRとを比較してみた
RのffとbigmemoryとRevoScaleRとを比較してみた
Kazuya Wada
Symfony2 How to create your Bundle
Symfony2 How to create your Bundle
chobi e
Perl logging
Perl logging
keroyonn
Was ist angesagt?
(20)
Perl勉強会#2資料
Perl勉強会#2資料
WebAPIではじめるphp入門
WebAPIではじめるphp入門
PHPの今とこれから 2013
PHPの今とこれから 2013
XPagesで検索してみよう
XPagesで検索してみよう
PHPの今とこれから2014
PHPの今とこれから2014
Pycon2014 django performance
Pycon2014 django performance
最新PHP事情 (2000年7月22日,PHPカンファレンス)
最新PHP事情 (2000年7月22日,PHPカンファレンス)
PHPの今とこれから2021
PHPの今とこれから2021
PHPの今とこれから2019
PHPの今とこれから2019
Good Parts of PHP and the UNIX Philosophy
Good Parts of PHP and the UNIX Philosophy
Tokyo Webmining #12 Hapyrus
Tokyo Webmining #12 Hapyrus
メタメタプログラミングRuby
メタメタプログラミングRuby
PHPの今とこれから2020
PHPの今とこれから2020
Pelicanによる www.python.jpの構築
Pelicanによる www.python.jpの構築
OPcacheの新機能ファイルベースキャッシュの内部実装を読んでみた
OPcacheの新機能ファイルベースキャッシュの内部実装を読んでみた
テンプレートエンジンって何?
テンプレートエンジンって何?
ヒカルのGo 資料 Webアプリケーションの作り方
ヒカルのGo 資料 Webアプリケーションの作り方
RのffとbigmemoryとRevoScaleRとを比較してみた
RのffとbigmemoryとRevoScaleRとを比較してみた
Symfony2 How to create your Bundle
Symfony2 How to create your Bundle
Perl logging
Perl logging
Andere mochten auch
統計学における相関分析と仮説検定の基本的な考え方とその実践
統計学における相関分析と仮説検定の基本的な考え方とその実践
id774
20090622 Vimm4
20090622 Vimm4
id774
はじめてのパターン認識勉強会 20130716
はじめてのパターン認識勉強会 20130716
Hiroko Onari
Rでソーシャルネットワーク分析
Rでソーシャルネットワーク分析
Hiroko Onari
Data scientist casual talk in 白金台
Data scientist casual talk in 白金台
Hiroko Onari
Webシステムにおける自動分類器を利用した機械学習と顧客購買行動の予測
Webシステムにおける自動分類器を利用した機械学習と顧客購買行動の予測
id774net
20080706_ecogeek_lt
20080706_ecogeek_lt
id774
20081220 Lt
20081220 Lt
id774
アルゴリズム取引のシステムを開発・運用してみて分かったこと
アルゴリズム取引のシステムを開発・運用してみて分かったこと
Satoshi KOBAYASHI
データベース設計徹底指南
データベース設計徹底指南
Mikiya Okuno
Andere mochten auch
(10)
統計学における相関分析と仮説検定の基本的な考え方とその実践
統計学における相関分析と仮説検定の基本的な考え方とその実践
20090622 Vimm4
20090622 Vimm4
はじめてのパターン認識勉強会 20130716
はじめてのパターン認識勉強会 20130716
Rでソーシャルネットワーク分析
Rでソーシャルネットワーク分析
Data scientist casual talk in 白金台
Data scientist casual talk in 白金台
Webシステムにおける自動分類器を利用した機械学習と顧客購買行動の予測
Webシステムにおける自動分類器を利用した機械学習と顧客購買行動の予測
20080706_ecogeek_lt
20080706_ecogeek_lt
20081220 Lt
20081220 Lt
アルゴリズム取引のシステムを開発・運用してみて分かったこと
アルゴリズム取引のシステムを開発・運用してみて分かったこと
データベース設計徹底指南
データベース設計徹底指南
Ähnlich wie Twitter クライアント “Termtter” の紹介と収集したソーシャルデータを Fluentd + Hadoop で分析する話
Ruby向け帳票ソリューション「ThinReports」の開発で知るOSSの威力
Ruby向け帳票ソリューション「ThinReports」の開発で知るOSSの威力
ThinReports
FluentdとGrothForecastをインストールする
FluentdとGrothForecastをインストールする
regret raym
Hadoopの紹介
Hadoopの紹介
bigt23
Puppetのススメ
Puppetのススメ
Gosuke Miyashita
Apache Spark 1000 nodes NTT DATA
Apache Spark 1000 nodes NTT DATA
NTT DATA OSS Professional Services
Googleの基盤クローン Hadoopについて
Googleの基盤クローン Hadoopについて
Kazuki Ohta
Ruby way-openstack.keynote
Ruby way-openstack.keynote
Uchio Kondo
Hadoop ~Yahoo! JAPANの活用について~
Hadoop ~Yahoo! JAPANの活用について~
Yahoo!デベロッパーネットワーク
FukuokaPHP 3
FukuokaPHP 3
ichikaway
社内向けTech Talk資料~Fluentdの基本紹介~
社内向けTech Talk資料~Fluentdの基本紹介~
Daisuke Ikeda
Hadoop splittable-lzo-compression
Hadoop splittable-lzo-compression
Daiki Sato
Go言語で作る webアプリ@gocon 2013 spring
Go言語で作る webアプリ@gocon 2013 spring
Takuya Ueda
いまさら聞けないRake入門
いまさら聞けないRake入門
Tomoya Kawanishi
株式会社インタースペース 守安様 登壇資料
株式会社インタースペース 守安様 登壇資料
leverages_event
Doument root設定
Doument root設定
asanu
Hadoop Trends & Hadoop on EC2
Hadoop Trends & Hadoop on EC2
Yifeng Jiang
第1回Hadoop関西勉強会参加レポート
第1回Hadoop関西勉強会参加レポート
You&I
behatエクステンションの作り方
behatエクステンションの作り方
Ryo Tomidokoro
Hadoop on LXC
Hadoop on LXC
俊夫 森
そろそろRStudioの話
そろそろRStudioの話
Kazuya Wada
Ähnlich wie Twitter クライアント “Termtter” の紹介と収集したソーシャルデータを Fluentd + Hadoop で分析する話
(20)
Ruby向け帳票ソリューション「ThinReports」の開発で知るOSSの威力
Ruby向け帳票ソリューション「ThinReports」の開発で知るOSSの威力
FluentdとGrothForecastをインストールする
FluentdとGrothForecastをインストールする
Hadoopの紹介
Hadoopの紹介
Puppetのススメ
Puppetのススメ
Apache Spark 1000 nodes NTT DATA
Apache Spark 1000 nodes NTT DATA
Googleの基盤クローン Hadoopについて
Googleの基盤クローン Hadoopについて
Ruby way-openstack.keynote
Ruby way-openstack.keynote
Hadoop ~Yahoo! JAPANの活用について~
Hadoop ~Yahoo! JAPANの活用について~
FukuokaPHP 3
FukuokaPHP 3
社内向けTech Talk資料~Fluentdの基本紹介~
社内向けTech Talk資料~Fluentdの基本紹介~
Hadoop splittable-lzo-compression
Hadoop splittable-lzo-compression
Go言語で作る webアプリ@gocon 2013 spring
Go言語で作る webアプリ@gocon 2013 spring
いまさら聞けないRake入門
いまさら聞けないRake入門
株式会社インタースペース 守安様 登壇資料
株式会社インタースペース 守安様 登壇資料
Doument root設定
Doument root設定
Hadoop Trends & Hadoop on EC2
Hadoop Trends & Hadoop on EC2
第1回Hadoop関西勉強会参加レポート
第1回Hadoop関西勉強会参加レポート
behatエクステンションの作り方
behatエクステンションの作り方
Hadoop on LXC
Hadoop on LXC
そろそろRStudioの話
そろそろRStudioの話
Kürzlich hochgeladen
UPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdf
furutsuka
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
sugiuralab
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
danielhu54
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Yuma Ohgami
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
Atomu Hidaka
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
Ryo Sasaki
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000
Shota Ito
Kürzlich hochgeladen
(7)
UPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdf
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000
Twitter クライアント “Termtter” の紹介と収集したソーシャルデータを Fluentd + Hadoop で分析する話
1.
Twitter クライアント “Termtter”
の紹介 と収集したソーシャルデータを Fluentd + Hadoop で分析する話
2.
自己紹介 ソフトウェアエンジニア 渋家 / 平田ホスピタル
住人 (家がたくさんある) http://id774.net ↑ここに色々書いてあるから読んで ブログやツイッターのリンクは全部上から辿れるので省略
3.
はじめに Twitter クライアント作ったよ
4.
Termtter
5.
特徴 ターミナルから Twitter できる
(べんり) 実装言語は Ruby v1.0.0 リリースは 4 年前 2013 年 2 月からコミッタに 最新版 v2.2.2 を 9/5 にリリース! http://blog.id774.net/post/2013/09/05/397/ ↑ここに色々書いてある
6.
みんな使ってみてね!
7.
おしまい ご清聴ありがとうございました
8.
補足 これだけじゃさみしいので… ここから先はすべて「補足」です
9.
Termtter + Fluentd 最新版
Termtter v2.2.2 は何がすごいの → Fluentd と連携できるようになった Fluentd ってなに → データをなんでも JSON 形式で扱うログ収集ツール → 入出力はプラグインで自由に拡張できる → 実装言語は Ruby → とにかく最近流行ってる
10.
JSON ってなに こういうやつ { “name”: “山田太郎”, “age”:
20 }
11.
JSON の特徴 JavaScript Object
Notation 元々は JavaScript のサブセットだが言語を選ばない キーと値のペアという形式 値に数値、文字列、配列、オブジェクト等の型を持てる データの受け渡しとしてモダンな形式
12.
Fluentd まじ便利
13.
Fluentd の何がすごいか ・プラグインで拡張できる → 新しい入出力方法に対応する場合もプラグインを書 くだけで対応完了! ・なんでも
JSON で扱う → どんな問題領域にも応用可能 とにかく Fluentd にデータを渡してしまえば良い!!! 安心して思考停止できる
14.
プラグインを書けば何でもできる
15.
昔あったよね、そういうやつ… 引用元 : 5分でネットがわかるシリーズ(6):一足早く「Plagger」の便利さを実感してみよう (2/5) [江原顕雄,@IT] http://www.atmarkit.co.jp/ait/articles/0611/21/news109_2.html
16.
Plagger ・だいぶ前 (2006 年頃)
流行った ・Perl で実装されている → 多大な数の CPAN モジュールを利用する ・レシピと呼ばれる YAML ファイルで挙動を定義する ・Plagger というツールとしても有益であったが、何より プラガブルなツールを作ると便利という見本になった
17.
自分でも作った https://github.com/automaticruby/automaticruby
18.
Automatic Ruby ・ Plagger
インスパイア ・ 2012 年に Ruby で初めて実装 ・現時点の最新版 v13.7.0 (2013/07) リリース ・インターネットの情報を何でも集めてどこにでも出力 $ gem install automatic でインストールできます
19.
Automatic Ruby の特徴 ・フィードの配列をプラグイン間で受け渡す ・レシピと呼ばれる
YAML ファイルで挙動を定義する → レシピの形式は Plagger とまったく同じ ・レシピの解釈は順列 → Plagger と違い無限に YAML を順に解析し続ける ・たくさんのライブラリに依存するのは Plagger と一緒 → Gemfile と bundler があるから管理がラクかな ・協力者募集してますので pull request 送ってね!
20.
Fluentd とも連携可能 http://blog.id774.net/post/2013/06/29/381/
21.
Automatic Ruby まじ便利 http://blog.id774.net/post/2012/06/20/98/
http://blog.id774.net/post/2012/10/16/267/
22.
みんな使ってみてね!
23.
おしまい ご清聴ありがとうございました
24.
おしまいじゃないです 終わってないよ 話を元に戻すと… 収集したツイートを Fluentd で収集するという話
25.
先ほどの絵で表すと Termtter
26.
Fluentd 最強伝説 Fluentd にバトンさえ渡せばその先好きなようにできる Amazon
S3 にためる → 全ツイートを無限に永久保存 MongoDB にためる → いろんなアプリから利用する Hadoop にためる → ソーシャルデータ分析
27.
Hadoop に貯めてみた 対象 …
ここ約 3 年位のフォローしている人のツイート 期間 … 2011 ~ 2013 年 フォロー数 … 約 10,000 人 (1 分に 1 回程度クロール) ツイート数 … 約 3,666 万件 データサイズ … 約 20GB もっとクロールしまくればテラバイトやそれ以上の単位 にもなるだろうけど取りあえず自分の観測範囲を分析
28.
ここで MapReduce の基本方針 Key,
Value のうち Value 部分に JSON 文字列を格納 → 型付きのデータ構造をそのまま格納できる Key 部分に Mapper/Reducer で利用するキーを格納 → 一行ごとに JSON Parser を動かすのは非効率 Mapper を分散させて Reducer の数を 1 つに → 分散して処理 → 中間ソート後に集約するだけ
29.
Hadoop Streaming を利用 ・だって
Ruby 使いたいよね ・実行方法が面倒 hadoop jar ~/hadoop/contrib/hadoop-current-streaming.jar ¥ -D hadoop.options ¥ -input httpd_logs ¥ -output logc_output ¥ -mapper /home/who/work/hadoop/script/map.rb ¥ -reducer /home/who/work/hadoop/script/reduce.rb ¥ -inputformat TextInputFormat ¥ -outputformat TextOutputFormat Hadoop Streaming をラップするフレームワークを作成 → 設定ファイルで挙動を一元管理、実行ログ出力、結果 出力、ジョブ成否判定
30.
Hadoop バッチの成否確認 ・ジョブの先行後続関係 → 出力ディレクトリの
_SUCCESS の存在を確認する hadoop fs -get $HDFS_OUT/_SUCCESS>>$JOBLOG 2>&1 test -f _SUCCESS && 成功時処理
31.
Hadoop バッチの連結 (入力) (出力) /user/who/job1
→ /user/who/job2 # job1 /user/who/job2 → /user/who/job3 # job2 /user/who/job3 → /user/who/out # job3 #!/bin/sh /home/who/job1/bin/run > /home/who/job1/log/job.log /home/who/job2/bin/run > /home/who/job2/log/job.log /home/who/job3/bin/run > /home/who/job3/log/job.log
32.
ワードカウント (単語を数える) ・最も基本的な MapReduce
ジョブ 「艦隊」という単語の登場数 2012/04 ~ 2012/08 … 338 2013/04 ~ 2013/08 … 2039 去年のおよそ 6 倍に!!! 一体何が起こったのか… (※ 艦これリリース = 2013/04)
33.
ワードカウント (単語を数える) 「駆逐」という単語の登場数 2012/04 ~
2012/08 … 427 2013/04 ~ 2013/08 … 1666 昨年のおよそ 4 倍に! 調査結果を勝手に送り付ける事例 →
34.
Fluentd + Hadoop
まじ便利 ・ひとつのツイートごとに特徴となる語彙を抽出 → 特徴ベクトルとして JSON に配列を付与 後続ジョブで特徴ベクトルから → 類似度を算出して似たユーザーを探す (クラスタリング) → ネガ・ポジを判定してある映画の評判を探る (ベイズ分類) → 特定の人の発言からメンタル病み具合を診断 (線形判別) いろんなことができる!!!!!べんり!!!!1
35.
みんな使ってみてね!
36.
おしまい ご清聴ありがとうございました
37.
おしまいじゃないです せっかくなのでまだ続きます 巨大なデータの収集 → 機械学習 みたいなのメチャクチャ流行ってる
38.
機械学習 (Google Trends)
39.
エンジニア護送船団の予感!?!? ©日本経済新聞
40.
急に協会ができた
41.
機械学習の普及要因 タスクと手法の分離 →各タスク固有の問題を抽象化 学習方法とタスクを分離可能となった 文書 信号 画像 行動履歴 …等等 特徴を抽象化したデータ (※分野に依存しない) 特徴ベクトル (0,0,0,0,0,0,1,0,0,0,3,0 …) (1,0,1,0,0,0,0,0,-1,0,0,0 …) (0,1,0,0,0,2,0,0,0,0,0,0
…) グラフィカルモデル (※ = 確率変数を頂点、変数間 の依存関係を枝としたグラフ構 造) +-|-+-+-+-+-+-+-+-+|+- |--+-+----+---------| 様々な手法や理論を適用 分類/回帰: SVM (サポートベクトルマシン), ナイーブベイズ, ロジスティック 回帰 … クラスタリング: K-means, MMC, LSI,LDA, GM, … 構造分析: HMM, MRF, CRF, …
42.
流行っているので作った http://newscloud.id774.net/newscloud
43.
ニュースクラウド 1) Automatic Ruby
でニュースを収集 2) Fluentd で JSON 形式に変換して蓄積 3) Web アプリ (Rails) から参照可能に ニュースランキング → 人気語彙の登場順にソート ニュースツリー → 似たニュースを近い位置に配置 ※ どのへんがクラウドなのかはよくわからない
44.
どのへんが機械学習なの ワードカウントの結 果(10 件以上) スコアとカテゴリを表示 ニュースとそのリンク ここ
45.
ナイーブベイズ カテゴリについてはナイーブベイズ分類器で判定 (例) 野球、サッカー、オリンピックの話題 → スポーツ 参院選、婚外子相続の話題
→ 政治 iPS 細胞の話題 → 科学 殺人事件、放火、家宅捜索など → 社会
46.
ナイーブベイズ分類器 ベイズの定理に基づいた教師あり学習 P(B) = 事象
B が発生する確率 (事前確率) P(B|A) = 事象 A 発生後の事象 B の確率 (事後確率) P(A) > 0 のとき以下の公式が成立する
47.
単独でも試せる http://classify.id774.net/classify/
48.
ライブラリ作ったのでよろしく
49.
ニュースツリー
50.
ニュースツリー(似たニュースを近くに) 原発関連 婚外子関連
51.
K 平均法クラスタリング 引用元 : 大阪府立大学大学院工学研究科
電気・情報系専攻知能情報工学分野 教授 本多克宏氏のホームページ http://www.cs.osakafu-u.ac.jp/hi/honda/k-means.htm
52.
階層型クラスタリング 引用元 : 大阪府立大学大学院工学研究科 電気・情報系専攻知能情報工学分野
教授 本多克宏氏のホームページ http://www.cs.osakafu-u.ac.jp/hi/honda/k-means.htm
53.
デンドログラム (樹状図) の描画 1)
ニュース内の特徴語彙を形態素解析にて抽出 2) 語彙全体内における語彙の分布マップを生成 3) 分布をベクトルとしたピアソン積率相関係数を算出 4) 類似度の近いニュースを階層型クラスタリング 5) 生成されたクラスタをもとにデンドログラムを生成 とってもかんたん!!!!1
54.
ライブラリ作ったのでよろしく
55.
まとめ だいぶ話がそれたので話を戻すと 1) Termtter や
Automatic Ruby から Fluentd を経由し てデータを収集するとあれこれ分析できてべんり 2) 機械学習はべんり 3) せっかく Hadoop にデータをためたのだから色々や りたいよね → 夢ひろがりまくりんぐ
56.
さいごに 今日紹介したライブラリ、ウェブサービスの類はすべて ホームページから辿れるので参照してみてください http://id774.net/ またブログの個別の記事にも詳しい説明があります
57.
おしまい 今度こそ本当におしまいです ご清聴ありがとうございました
Jetzt herunterladen