Suche senden
Hochladen
さくさくテキストマイニング入門セッション
•
21 gefällt mir
•
5,749 views
A
antibayesian 俺がS式だ
Folgen
Bildung
Melden
Teilen
Melden
Teilen
1 von 12
Jetzt herunterladen
Downloaden Sie, um offline zu lesen
Empfohlen
おとなのテキストマイニング
おとなのテキストマイニング
Munenori Sugimura
第三回さくさくテキストマイニング勉強会 入門セッション
第三回さくさくテキストマイニング勉強会 入門セッション
antibayesian 俺がS式だ
言語処理学会へ遊びに行ったよ
言語処理学会へ遊びに行ったよ
antibayesian 俺がS式だ
自然言語処理
自然言語処理
naoto moriyama
自然言語処理における意味解析と意味理解
自然言語処理における意味解析と意味理解
Kanji Takahashi
ゼロから始める自然言語処理 【FIT2016チュートリアル】
ゼロから始める自然言語処理 【FIT2016チュートリアル】
Yuki Arase
Dynamic Entity Representations in Neural Language Models
Dynamic Entity Representations in Neural Language Models
Shun Kiyono
最先端NLP勉強会 Context Gates for Neural Machine Translation
最先端NLP勉強会 Context Gates for Neural Machine Translation
Masahiro Yamamoto
Empfohlen
おとなのテキストマイニング
おとなのテキストマイニング
Munenori Sugimura
第三回さくさくテキストマイニング勉強会 入門セッション
第三回さくさくテキストマイニング勉強会 入門セッション
antibayesian 俺がS式だ
言語処理学会へ遊びに行ったよ
言語処理学会へ遊びに行ったよ
antibayesian 俺がS式だ
自然言語処理
自然言語処理
naoto moriyama
自然言語処理における意味解析と意味理解
自然言語処理における意味解析と意味理解
Kanji Takahashi
ゼロから始める自然言語処理 【FIT2016チュートリアル】
ゼロから始める自然言語処理 【FIT2016チュートリアル】
Yuki Arase
Dynamic Entity Representations in Neural Language Models
Dynamic Entity Representations in Neural Language Models
Shun Kiyono
最先端NLP勉強会 Context Gates for Neural Machine Translation
最先端NLP勉強会 Context Gates for Neural Machine Translation
Masahiro Yamamoto
Python nlp handson_20220225_v5
Python nlp handson_20220225_v5
博三 太田
20150702文章読解支援のための日本語の語彙平易化システム
20150702文章読解支援のための日本語の語彙平易化システム
Tomoyuki Kajiwara
2021年度 人工知能学会全国大会 第35回
2021年度 人工知能学会全国大会 第35回
博三 太田
Signl213
Signl213
Kei Uchiumi
社内勉強会 2014/10/08
社内勉強会 2014/10/08
Takaki Yoneyama
Dic 1707 ai_人工知能概論_鈴木悠一
Dic 1707 ai_人工知能概論_鈴木悠一
悠一 鈴木
DeepLearning 中心に見る最近の論文事情
DeepLearning 中心に見る最近の論文事情
Yuta Yamashita
nl-1. 形態素解析と構文解析
nl-1. 形態素解析と構文解析
kunihikokaneko1
複数の客観的手法を用いたテキスト含意認識評価セットの構築
複数の客観的手法を用いたテキスト含意認識評価セットの構築
長岡技術科学大学 自然言語処理研究室
次元の呪い
次元の呪い
Kosuke Tsujino
言語資源と付き合う
言語資源と付き合う
Yuya Unno
joint_seminar
joint_seminar
Tomoyuki Kajiwara
日本語の語彙平易化システムおよび評価セットの構築
日本語の語彙平易化システムおよび評価セットの構築
Tomoyuki Kajiwara
Nl220 Pitman-Yor Hidden Semi Markov Model
Nl220 Pitman-Yor Hidden Semi Markov Model
Kei Uchiumi
最先端NLP勉強会“Learning Language Games through Interaction”Sida I. Wang, Percy L...
最先端NLP勉強会“Learning Language Games through Interaction”Sida I. Wang, Percy L...
Yuya Unno
Emnlp読み会資料
Emnlp読み会資料
Jiro Nishitoba
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
Toshihiko Yamasaki
【Schoo web campus】「相手に伝わる」文章を書く技術
【Schoo web campus】「相手に伝わる」文章を書く技術
schoowebcampus
ニューラルチューリングマシン入門
ニューラルチューリングマシン入門
naoto moriyama
Rはいいぞ!むしろなぜ使わないのか!!
Rはいいぞ!むしろなぜ使わないのか!!
Shushi Namba
チームラボ忘年会
チームラボ忘年会
antibayesian 俺がS式だ
SPSSで簡単テキストマイニング
SPSSで簡単テキストマイニング
antibayesian 俺がS式だ
Weitere ähnliche Inhalte
Was ist angesagt?
Python nlp handson_20220225_v5
Python nlp handson_20220225_v5
博三 太田
20150702文章読解支援のための日本語の語彙平易化システム
20150702文章読解支援のための日本語の語彙平易化システム
Tomoyuki Kajiwara
2021年度 人工知能学会全国大会 第35回
2021年度 人工知能学会全国大会 第35回
博三 太田
Signl213
Signl213
Kei Uchiumi
社内勉強会 2014/10/08
社内勉強会 2014/10/08
Takaki Yoneyama
Dic 1707 ai_人工知能概論_鈴木悠一
Dic 1707 ai_人工知能概論_鈴木悠一
悠一 鈴木
DeepLearning 中心に見る最近の論文事情
DeepLearning 中心に見る最近の論文事情
Yuta Yamashita
nl-1. 形態素解析と構文解析
nl-1. 形態素解析と構文解析
kunihikokaneko1
複数の客観的手法を用いたテキスト含意認識評価セットの構築
複数の客観的手法を用いたテキスト含意認識評価セットの構築
長岡技術科学大学 自然言語処理研究室
次元の呪い
次元の呪い
Kosuke Tsujino
言語資源と付き合う
言語資源と付き合う
Yuya Unno
joint_seminar
joint_seminar
Tomoyuki Kajiwara
日本語の語彙平易化システムおよび評価セットの構築
日本語の語彙平易化システムおよび評価セットの構築
Tomoyuki Kajiwara
Nl220 Pitman-Yor Hidden Semi Markov Model
Nl220 Pitman-Yor Hidden Semi Markov Model
Kei Uchiumi
最先端NLP勉強会“Learning Language Games through Interaction”Sida I. Wang, Percy L...
最先端NLP勉強会“Learning Language Games through Interaction”Sida I. Wang, Percy L...
Yuya Unno
Emnlp読み会資料
Emnlp読み会資料
Jiro Nishitoba
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
Toshihiko Yamasaki
【Schoo web campus】「相手に伝わる」文章を書く技術
【Schoo web campus】「相手に伝わる」文章を書く技術
schoowebcampus
ニューラルチューリングマシン入門
ニューラルチューリングマシン入門
naoto moriyama
Rはいいぞ!むしろなぜ使わないのか!!
Rはいいぞ!むしろなぜ使わないのか!!
Shushi Namba
Was ist angesagt?
(20)
Python nlp handson_20220225_v5
Python nlp handson_20220225_v5
20150702文章読解支援のための日本語の語彙平易化システム
20150702文章読解支援のための日本語の語彙平易化システム
2021年度 人工知能学会全国大会 第35回
2021年度 人工知能学会全国大会 第35回
Signl213
Signl213
社内勉強会 2014/10/08
社内勉強会 2014/10/08
Dic 1707 ai_人工知能概論_鈴木悠一
Dic 1707 ai_人工知能概論_鈴木悠一
DeepLearning 中心に見る最近の論文事情
DeepLearning 中心に見る最近の論文事情
nl-1. 形態素解析と構文解析
nl-1. 形態素解析と構文解析
複数の客観的手法を用いたテキスト含意認識評価セットの構築
複数の客観的手法を用いたテキスト含意認識評価セットの構築
次元の呪い
次元の呪い
言語資源と付き合う
言語資源と付き合う
joint_seminar
joint_seminar
日本語の語彙平易化システムおよび評価セットの構築
日本語の語彙平易化システムおよび評価セットの構築
Nl220 Pitman-Yor Hidden Semi Markov Model
Nl220 Pitman-Yor Hidden Semi Markov Model
最先端NLP勉強会“Learning Language Games through Interaction”Sida I. Wang, Percy L...
最先端NLP勉強会“Learning Language Games through Interaction”Sida I. Wang, Percy L...
Emnlp読み会資料
Emnlp読み会資料
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
【Schoo web campus】「相手に伝わる」文章を書く技術
【Schoo web campus】「相手に伝わる」文章を書く技術
ニューラルチューリングマシン入門
ニューラルチューリングマシン入門
Rはいいぞ!むしろなぜ使わないのか!!
Rはいいぞ!むしろなぜ使わないのか!!
Andere mochten auch
チームラボ忘年会
チームラボ忘年会
antibayesian 俺がS式だ
SPSSで簡単テキストマイニング
SPSSで簡単テキストマイニング
antibayesian 俺がS式だ
Credential twittorebiew v1.3
Credential twittorebiew v1.3
Social Media Live!
第1回茶ッカソン in Tokyo プレゼンシート「チームNifty」
第1回茶ッカソン in Tokyo プレゼンシート「チームNifty」
kakusan40
第1回茶ッカソン in Tokyo プレゼンシート「FULLER」
第1回茶ッカソン in Tokyo プレゼンシート「FULLER」
kakusan40
神の言語による自然言語処理
神の言語による自然言語処理
antibayesian 俺がS式だ
ガチャとは心の所作
ガチャとは心の所作
antibayesian 俺がS式だ
テキストマイニングのイメージと実際
テキストマイニングのイメージと実際
antibayesian 俺がS式だ
Credential social media_live_v1_3
Credential social media_live_v1_3
Social Media Live!
全文検索入門
全文検索入門
antibayesian 俺がS式だ
Sakusaku svm
Sakusaku svm
antibayesian 俺がS式だ
企業における統計学入門
企業における統計学入門
antibayesian 俺がS式だ
Python東海Vol.5 IPythonをマスターしよう
Python東海Vol.5 IPythonをマスターしよう
Hiroshi Funai
Pythonで簡単ネットワーク分析
Pythonで簡単ネットワーク分析
antibayesian 俺がS式だ
Andere mochten auch
(14)
チームラボ忘年会
チームラボ忘年会
SPSSで簡単テキストマイニング
SPSSで簡単テキストマイニング
Credential twittorebiew v1.3
Credential twittorebiew v1.3
第1回茶ッカソン in Tokyo プレゼンシート「チームNifty」
第1回茶ッカソン in Tokyo プレゼンシート「チームNifty」
第1回茶ッカソン in Tokyo プレゼンシート「FULLER」
第1回茶ッカソン in Tokyo プレゼンシート「FULLER」
神の言語による自然言語処理
神の言語による自然言語処理
ガチャとは心の所作
ガチャとは心の所作
テキストマイニングのイメージと実際
テキストマイニングのイメージと実際
Credential social media_live_v1_3
Credential social media_live_v1_3
全文検索入門
全文検索入門
Sakusaku svm
Sakusaku svm
企業における統計学入門
企業における統計学入門
Python東海Vol.5 IPythonをマスターしよう
Python東海Vol.5 IPythonをマスターしよう
Pythonで簡単ネットワーク分析
Pythonで簡単ネットワーク分析
Ähnlich wie さくさくテキストマイニング入門セッション
Jacet2014ykondo_final
Jacet2014ykondo_final
早稲田大学
【Schoo web campus】「相手に伝わる」文章を書く技術 2限目
【Schoo web campus】「相手に伝わる」文章を書く技術 2限目
schoowebcampus
Building Evaluation Sets for Textual Entailment Recognition
Building Evaluation Sets for Textual Entailment Recognition
長岡技術科学大学 自然言語処理研究室
1 3-2
1 3-2
englishteacher_net
TAPL 勉強会(紹介編)
TAPL 勉強会(紹介編)
none_toka
20120731 ALC Eijiro User Meeting
20120731 ALC Eijiro User Meeting
akikom0819
科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency
科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency
Asahiko Matsuda
言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール
Yuya Unno
英語学習者のための発話自動採点システムの開発.
英語学習者のための発話自動採点システムの開発.
Yutaka Ishii
形態素解析
形態素解析
Works Applications
[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
Yuki Arase
Chainer with natural language processing hands on
Chainer with natural language processing hands on
Ogushi Masaya
大規模言語モデルとChatGPT
大規模言語モデルとChatGPT
nlab_utokyo
ブートストラップ手法を用いた学習不用語の除去(言語と統計2015)
ブートストラップ手法を用いた学習不用語の除去(言語と統計2015)
智文 中野
[旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
Yuki Arase
ナイーブベイズによる言語判定
ナイーブベイズによる言語判定
Shuyo Nakatani
Developing User-friendly and Customizable Text Analyzer
Developing User-friendly and Customizable Text Analyzer
長岡技術科学大学 自然言語処理研究室
深層学習を用いた文生成モデルの歴史と研究動向
深層学習を用いた文生成モデルの歴史と研究動向
Shunta Ito
Phrase Reading Worksheetと種々の副教材を使った授業設計 教室内学力格差への対応を目指して
Phrase Reading Worksheetと種々の副教材を使った授業設計 教室内学力格差への対応を目指して
Kenichi Kamiya
MAごころを、君に - #7 ChatGPT勉強会(2023-03-28)
MAごころを、君に - #7 ChatGPT勉強会(2023-03-28)
Webpla LLC.
Ähnlich wie さくさくテキストマイニング入門セッション
(20)
Jacet2014ykondo_final
Jacet2014ykondo_final
【Schoo web campus】「相手に伝わる」文章を書く技術 2限目
【Schoo web campus】「相手に伝わる」文章を書く技術 2限目
Building Evaluation Sets for Textual Entailment Recognition
Building Evaluation Sets for Textual Entailment Recognition
1 3-2
1 3-2
TAPL 勉強会(紹介編)
TAPL 勉強会(紹介編)
20120731 ALC Eijiro User Meeting
20120731 ALC Eijiro User Meeting
科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency
科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency
言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール
英語学習者のための発話自動採点システムの開発.
英語学習者のための発話自動採点システムの開発.
形態素解析
形態素解析
[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
Chainer with natural language processing hands on
Chainer with natural language processing hands on
大規模言語モデルとChatGPT
大規模言語モデルとChatGPT
ブートストラップ手法を用いた学習不用語の除去(言語と統計2015)
ブートストラップ手法を用いた学習不用語の除去(言語と統計2015)
[旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
ナイーブベイズによる言語判定
ナイーブベイズによる言語判定
Developing User-friendly and Customizable Text Analyzer
Developing User-friendly and Customizable Text Analyzer
深層学習を用いた文生成モデルの歴史と研究動向
深層学習を用いた文生成モデルの歴史と研究動向
Phrase Reading Worksheetと種々の副教材を使った授業設計 教室内学力格差への対応を目指して
Phrase Reading Worksheetと種々の副教材を使った授業設計 教室内学力格差への対応を目指して
MAごころを、君に - #7 ChatGPT勉強会(2023-03-28)
MAごころを、君に - #7 ChatGPT勉強会(2023-03-28)
Kürzlich hochgeladen
International Politics I - Lecture 1
International Politics I - Lecture 1
Toru Oga
KARAPATANG PANTAO.pptxhrhrhrhrhrhrhrhrhr
KARAPATANG PANTAO.pptxhrhrhrhrhrhrhrhrhr
RodolfFernandez1
Establishment and operation of medical corporations.pdf
Establishment and operation of medical corporations.pdf
oganekyokoi
3年前期 交通基盤工学 第一回 ガイダンス 交通基盤工学の概要 パワーポイント
3年前期 交通基盤工学 第一回 ガイダンス 交通基盤工学の概要 パワーポイント
shu1108hina1020
Divorce agreements in administrative work.pdf
Divorce agreements in administrative work.pdf
oganekyokoi
レポートの書き方講座 [大学生初年次向けに対する講義資料] Lecture on how to write a report [lecture mater...
レポートの書き方講座 [大学生初年次向けに対する講義資料] Lecture on how to write a report [lecture mater...
yutakashikano1984
Registration of travel agents - 'Explanation of the registration system under...
Registration of travel agents - 'Explanation of the registration system under...
oganekyokoi
What I did before opening my business..pdf
What I did before opening my business..pdf
oganekyokoi
Kürzlich hochgeladen
(8)
International Politics I - Lecture 1
International Politics I - Lecture 1
KARAPATANG PANTAO.pptxhrhrhrhrhrhrhrhrhr
KARAPATANG PANTAO.pptxhrhrhrhrhrhrhrhrhr
Establishment and operation of medical corporations.pdf
Establishment and operation of medical corporations.pdf
3年前期 交通基盤工学 第一回 ガイダンス 交通基盤工学の概要 パワーポイント
3年前期 交通基盤工学 第一回 ガイダンス 交通基盤工学の概要 パワーポイント
Divorce agreements in administrative work.pdf
Divorce agreements in administrative work.pdf
レポートの書き方講座 [大学生初年次向けに対する講義資料] Lecture on how to write a report [lecture mater...
レポートの書き方講座 [大学生初年次向けに対する講義資料] Lecture on how to write a report [lecture mater...
Registration of travel agents - 'Explanation of the registration system under...
Registration of travel agents - 'Explanation of the registration system under...
What I did before opening my business..pdf
What I did before opening my business..pdf
さくさくテキストマイニング入門セッション
1.
入門セッション ●
テキストマイニング必須用語を20分程度で紹介 ● 目的:初心者向け勉強会向けに、テキストマイニン グの基本用語から説明し、勉強会の発表を理解す るのに必要な前提知識を身につける ● セッション後、質問タイムを設けます。お気軽に御 質問下さい 1
2.
テキストマイニングの利用方法 1.
評判分析:強み弱みはどこか? 2. 需要抽出:どんな商品が求められているか? 3. インフルエンサーの特定 4. メール等の文書をDB化→知見の集積 5. 暗黙知→形式知 6. 自然言語処理:検索、本文要約、IME、翻訳 2
3.
言語処理特有の技術 1.形態素解析:絶対使う。精度95% 2.構文解析:よく使う。精度80% 3.意味解析:たまに使う。研究段階。精度60% 4.文脈解析:研究段階(今回は説明省略
3
4.
言語処理の技術 (1) 形態素解析 ●
形態素とは:意味を持つ最小の文字列の単位 ● 分かち書き:文を単語に分割すること ● 形態素解析:分かち書き+品詞付け+原形復元 ● 日本語の分かち書きは難しい ● 英語等と違って単語の切れ目がわからない – 「すもももももももものうち」→「李も桃も桃の内」○ – 「東京都」→「東, 京都」? ● MeCab:非常によく使われる形態素解析エンジン 4
5.
言語処理の技術 (2) 構文解析 ●
構文解析:文の構造(係り受け等)を明らかにする ● 係り受け:ある文節がどの文節に作用するか ● 例文:「黒い大きな瞳の男の娘」 ● (肌の)黒い、大きな瞳の、男の娘? ● 黒い大きな瞳の、男の娘? ● 黒い大きな瞳(さん)の男の娘? 5
6.
言語処理の技術 (3) 意味解析 ●
意味解析:評判分析等で使われる ● 「泣ける」という単語はポジティブ?ネガティブ? – 「映画」+泣ける⇒感動した!というポジティブ表現 – 「試験」+泣ける⇒結果が悪かった!というネガティブ表現 – 単語の意味は文脈によって変わる可能性がある ● 語義曖昧性解消:単語の複数の意味の中から、文 に応じた語義を特定すること ● 単語情報単体で自然言語の全てを理解できるわけ ではない 6
7.
テキストの統計処理(1) ●
「単語」とは何か:トークンとタイプ – “nurture or nature? nurture passes nature”は何単語? – 6(節)と答えるのがトークン – 4(種類)と答えるのがタイプ ● Nグラム:隣接するN単位の共起 – 単語2グラム[柴犬,が][が,私][私,を][を,噛ん][噛ん,だ] – 文字2グラム(柴,犬)(犬,が)(が,私)(私,を)(を,噛)(噛,ん)(ん,だ) – 単語Nグラムは形態素解析する必要がある – 大量のNグラム情報があれば、ある単語とそれに連なる単語 が文書に現れる確率が求められる→検索や予測変換で利用 7
8.
テキストの統計処理(2) ●
bag-of-words(BOW):文章の単語ベクトル表現 ● 「ある文書がどのような単語を含んでいるか」を表す ● 順序や構文など、ある程度元の文書の情報を捨ててい るが、扱いやすいため、実際の分析ではよく使われる ● 例:柴犬が私を噛んだ→{柴犬,が,私,を,噛ん,だ} ● 例:{柴犬,が,私,を,噛ん,だ} = {私,が,柴犬,を,噛ん,だ}
9.
機械学習 ●
人間の学習能力をコンピュータに持たせて、分類 や判別、予測などを行う分野 ● 教師有り学習:正解例に沿う様、分類などを行う – パーセプトロン、SVM – 応用:スパム判定や著者推定など ● 教師無し学習:入力値から特徴的なパターンを抽出 – クラスタリング、異常値検出 – 応用:消費者のカテゴライズなど 9
10.
自然言語処理 ●
人間が通常用いる自然言語をコンピュータに処理 させる分野 ● テキストマイニングでは、自然言語処理の技術(形態素 解析や構文解析など)を用いてテキストを解析する ● 自然言語処理は(形態素解析などの)「技術を作る」、テ キストマイニングは「技術を使う」のが主眼 ● 包丁に対する鍛冶屋と料理人の違い by 海野さん 10
11.
頻出専門用語(1) ●
コーパス:言語の分析用例データ ● 素性:文法的な情報を表す特徴量(単語頻度等) ● アノテーション:関連情報、メタ情報のこと。タスクに よって、品詞をつけることであったり、意味を付与す るものであったりする ● 辞書:形態素解析や構文解析を行う際に用いる教 師データ。辞書の整備が分析の精度を左右する 11
12.
頻出専門用語(2) ●
照応解析:代名詞や指示語が何を指しているかを 明らかしたり、省略された名詞句を補完する処理 ● チャンキング:文の意味的な塊(チャンク)を抽出 ● クローリング:Webからテキストなどのデータを自動 収集すること。Twitterやブログなど、APIが用意さ れている場合もある ● データクレンジング(クリーニング):収集したデータ に含まれる誤字脱字、表記揺れ、欠損などの汚損 を取り除く作業 12
Jetzt herunterladen