SlideShare ist ein Scribd-Unternehmen logo
1 von 12
Downloaden Sie, um offline zu lesen
入門セッション
●   テキストマイニング必須用語を20分程度で紹介
●   目的:初心者向け勉強会向けに、テキストマイニン
    グの基本用語から説明し、勉強会の発表を理解す
    るのに必要な前提知識を身につける
●   セッション後、質問タイムを設けます。お気軽に御
    質問下さい




                              1
テキストマイニングの利用方法
1.   評判分析:強み弱みはどこか?
2.   需要抽出:どんな商品が求められているか?
3.   インフルエンサーの特定
4.   メール等の文書をDB化→知見の集積
5.   暗黙知→形式知
6.   自然言語処理:検索、本文要約、IME、翻訳



                             2
言語処理特有の技術
1.形態素解析:絶対使う。精度95%
2.構文解析:よく使う。精度80%
3.意味解析:たまに使う。研究段階。精度60%
4.文脈解析:研究段階(今回は説明省略




                          3
言語処理の技術 (1) 形態素解析
●   形態素とは:意味を持つ最小の文字列の単位
●   分かち書き:文を単語に分割すること
●   形態素解析:分かち書き+品詞付け+原形復元
●   日本語の分かち書きは難しい
    ●   英語等と違って単語の切れ目がわからない
        –   「すもももももももものうち」→「李も桃も桃の内」○
        –   「東京都」→「東, 京都」?
●   MeCab:非常によく使われる形態素解析エンジン
                                        4
言語処理の技術 (2) 構文解析
●   構文解析:文の構造(係り受け等)を明らかにする
●   係り受け:ある文節がどの文節に作用するか
●   例文:「黒い大きな瞳の男の娘」
    ●   (肌の)黒い、大きな瞳の、男の娘?
    ●   黒い大きな瞳の、男の娘?
    ●   黒い大きな瞳(さん)の男の娘?




                              5
言語処理の技術 (3) 意味解析
●   意味解析:評判分析等で使われる
●   「泣ける」という単語はポジティブ?ネガティブ?
     –   「映画」+泣ける⇒感動した!というポジティブ表現
     –   「試験」+泣ける⇒結果が悪かった!というネガティブ表現
     –   単語の意味は文脈によって変わる可能性がある
●   語義曖昧性解消:単語の複数の意味の中から、文
    に応じた語義を特定すること
●   単語情報単体で自然言語の全てを理解できるわけ
    ではない
                                       6
テキストの統計処理(1)
●   「単語」とは何か:トークンとタイプ
     –   “nurture or nature? nurture passes nature”は何単語?
     –   6(節)と答えるのがトークン
     –   4(種類)と答えるのがタイプ
●   Nグラム:隣接するN単位の共起
     –   単語2グラム[柴犬,が][が,私][私,を][を,噛ん][噛ん,だ]
     –   文字2グラム(柴,犬)(犬,が)(が,私)(私,を)(を,噛)(噛,ん)(ん,だ)
     –   単語Nグラムは形態素解析する必要がある
     –   大量のNグラム情報があれば、ある単語とそれに連なる単語
         が文書に現れる確率が求められる→検索や予測変換で利用
                                                           7
テキストの統計処理(2)
●   bag-of-words(BOW):文章の単語ベクトル表現
    ●   「ある文書がどのような単語を含んでいるか」を表す
    ●   順序や構文など、ある程度元の文書の情報を捨ててい
        るが、扱いやすいため、実際の分析ではよく使われる
    ●   例:柴犬が私を噛んだ→{柴犬,が,私,を,噛ん,だ}
    ●   例:{柴犬,が,私,を,噛ん,だ} = {私,が,柴犬,を,噛ん,だ}
機械学習
●   人間の学習能力をコンピュータに持たせて、分類
    や判別、予測などを行う分野
    ●   教師有り学習:正解例に沿う様、分類などを行う
        –   パーセプトロン、SVM
        –   応用:スパム判定や著者推定など
    ●   教師無し学習:入力値から特徴的なパターンを抽出
        –   クラスタリング、異常値検出
        –   応用:消費者のカテゴライズなど




                                  9
自然言語処理
●   人間が通常用いる自然言語をコンピュータに処理
    させる分野
    ●   テキストマイニングでは、自然言語処理の技術(形態素
        解析や構文解析など)を用いてテキストを解析する
    ●   自然言語処理は(形態素解析などの)「技術を作る」、テ
        キストマイニングは「技術を使う」のが主眼
    ●   包丁に対する鍛冶屋と料理人の違い by 海野さん




                                   10
頻出専門用語(1)
●   コーパス:言語の分析用例データ
●   素性:文法的な情報を表す特徴量(単語頻度等)
●   アノテーション:関連情報、メタ情報のこと。タスクに
    よって、品詞をつけることであったり、意味を付与す
    るものであったりする
●   辞書:形態素解析や構文解析を行う際に用いる教
    師データ。辞書の整備が分析の精度を左右する



                             11
頻出専門用語(2)
●   照応解析:代名詞や指示語が何を指しているかを
    明らかしたり、省略された名詞句を補完する処理
●   チャンキング:文の意味的な塊(チャンク)を抽出
●   クローリング:Webからテキストなどのデータを自動
    収集すること。Twitterやブログなど、APIが用意さ
    れている場合もある
●   データクレンジング(クリーニング):収集したデータ
    に含まれる誤字脱字、表記揺れ、欠損などの汚損
    を取り除く作業

                               12

Weitere ähnliche Inhalte

Was ist angesagt?

Python nlp handson_20220225_v5
Python nlp handson_20220225_v5Python nlp handson_20220225_v5
Python nlp handson_20220225_v5博三 太田
 
20150702文章読解支援のための日本語の語彙平易化システム
20150702文章読解支援のための日本語の語彙平易化システム20150702文章読解支援のための日本語の語彙平易化システム
20150702文章読解支援のための日本語の語彙平易化システムTomoyuki Kajiwara
 
2021年度 人工知能学会全国大会 第35回
2021年度 人工知能学会全国大会 第35回2021年度 人工知能学会全国大会 第35回
2021年度 人工知能学会全国大会 第35回博三 太田
 
社内勉強会 2014/10/08
社内勉強会 2014/10/08社内勉強会 2014/10/08
社内勉強会 2014/10/08Takaki Yoneyama
 
Dic 1707 ai_人工知能概論_鈴木悠一
Dic 1707 ai_人工知能概論_鈴木悠一Dic 1707 ai_人工知能概論_鈴木悠一
Dic 1707 ai_人工知能概論_鈴木悠一悠一 鈴木
 
DeepLearning 中心に見る最近の論文事情
DeepLearning 中心に見る最近の論文事情DeepLearning 中心に見る最近の論文事情
DeepLearning 中心に見る最近の論文事情Yuta Yamashita
 
nl-1. 形態素解析と構文解析
nl-1. 形態素解析と構文解析nl-1. 形態素解析と構文解析
nl-1. 形態素解析と構文解析kunihikokaneko1
 
言語資源と付き合う
言語資源と付き合う言語資源と付き合う
言語資源と付き合うYuya Unno
 
日本語の語彙平易化システムおよび評価セットの構築
日本語の語彙平易化システムおよび評価セットの構築日本語の語彙平易化システムおよび評価セットの構築
日本語の語彙平易化システムおよび評価セットの構築Tomoyuki Kajiwara
 
Nl220 Pitman-Yor Hidden Semi Markov Model
Nl220 Pitman-Yor Hidden Semi Markov ModelNl220 Pitman-Yor Hidden Semi Markov Model
Nl220 Pitman-Yor Hidden Semi Markov ModelKei Uchiumi
 
最先端NLP勉強会 “Learning Language Games through Interaction” Sida I. Wang, Percy L...
最先端NLP勉強会“Learning Language Games through Interaction”Sida I. Wang, Percy L...最先端NLP勉強会“Learning Language Games through Interaction”Sida I. Wang, Percy L...
最先端NLP勉強会 “Learning Language Games through Interaction” Sida I. Wang, Percy L...Yuya Unno
 
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生Toshihiko Yamasaki
 
【Schoo web campus】「相手に伝わる」文章を書く技術
【Schoo web campus】「相手に伝わる」文章を書く技術【Schoo web campus】「相手に伝わる」文章を書く技術
【Schoo web campus】「相手に伝わる」文章を書く技術schoowebcampus
 
ニューラルチューリングマシン入門
ニューラルチューリングマシン入門ニューラルチューリングマシン入門
ニューラルチューリングマシン入門naoto moriyama
 
Rはいいぞ!むしろなぜ使わないのか!!
Rはいいぞ!むしろなぜ使わないのか!!Rはいいぞ!むしろなぜ使わないのか!!
Rはいいぞ!むしろなぜ使わないのか!!Shushi Namba
 

Was ist angesagt? (20)

Python nlp handson_20220225_v5
Python nlp handson_20220225_v5Python nlp handson_20220225_v5
Python nlp handson_20220225_v5
 
20150702文章読解支援のための日本語の語彙平易化システム
20150702文章読解支援のための日本語の語彙平易化システム20150702文章読解支援のための日本語の語彙平易化システム
20150702文章読解支援のための日本語の語彙平易化システム
 
2021年度 人工知能学会全国大会 第35回
2021年度 人工知能学会全国大会 第35回2021年度 人工知能学会全国大会 第35回
2021年度 人工知能学会全国大会 第35回
 
Signl213
Signl213 Signl213
Signl213
 
社内勉強会 2014/10/08
社内勉強会 2014/10/08社内勉強会 2014/10/08
社内勉強会 2014/10/08
 
Dic 1707 ai_人工知能概論_鈴木悠一
Dic 1707 ai_人工知能概論_鈴木悠一Dic 1707 ai_人工知能概論_鈴木悠一
Dic 1707 ai_人工知能概論_鈴木悠一
 
DeepLearning 中心に見る最近の論文事情
DeepLearning 中心に見る最近の論文事情DeepLearning 中心に見る最近の論文事情
DeepLearning 中心に見る最近の論文事情
 
nl-1. 形態素解析と構文解析
nl-1. 形態素解析と構文解析nl-1. 形態素解析と構文解析
nl-1. 形態素解析と構文解析
 
複数の客観的手法を用いたテキスト含意認識評価セットの構築
複数の客観的手法を用いたテキスト含意認識評価セットの構築複数の客観的手法を用いたテキスト含意認識評価セットの構築
複数の客観的手法を用いたテキスト含意認識評価セットの構築
 
次元の呪い
次元の呪い次元の呪い
次元の呪い
 
言語資源と付き合う
言語資源と付き合う言語資源と付き合う
言語資源と付き合う
 
joint_seminar
joint_seminarjoint_seminar
joint_seminar
 
日本語の語彙平易化システムおよび評価セットの構築
日本語の語彙平易化システムおよび評価セットの構築日本語の語彙平易化システムおよび評価セットの構築
日本語の語彙平易化システムおよび評価セットの構築
 
Nl220 Pitman-Yor Hidden Semi Markov Model
Nl220 Pitman-Yor Hidden Semi Markov ModelNl220 Pitman-Yor Hidden Semi Markov Model
Nl220 Pitman-Yor Hidden Semi Markov Model
 
最先端NLP勉強会 “Learning Language Games through Interaction” Sida I. Wang, Percy L...
最先端NLP勉強会“Learning Language Games through Interaction”Sida I. Wang, Percy L...最先端NLP勉強会“Learning Language Games through Interaction”Sida I. Wang, Percy L...
最先端NLP勉強会 “Learning Language Games through Interaction” Sida I. Wang, Percy L...
 
Emnlp読み会資料
Emnlp読み会資料Emnlp読み会資料
Emnlp読み会資料
 
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
 
【Schoo web campus】「相手に伝わる」文章を書く技術
【Schoo web campus】「相手に伝わる」文章を書く技術【Schoo web campus】「相手に伝わる」文章を書く技術
【Schoo web campus】「相手に伝わる」文章を書く技術
 
ニューラルチューリングマシン入門
ニューラルチューリングマシン入門ニューラルチューリングマシン入門
ニューラルチューリングマシン入門
 
Rはいいぞ!むしろなぜ使わないのか!!
Rはいいぞ!むしろなぜ使わないのか!!Rはいいぞ!むしろなぜ使わないのか!!
Rはいいぞ!むしろなぜ使わないのか!!
 

Andere mochten auch

第1回茶ッカソン in Tokyo プレゼンシート「チームNifty」
第1回茶ッカソン in Tokyo プレゼンシート「チームNifty」第1回茶ッカソン in Tokyo プレゼンシート「チームNifty」
第1回茶ッカソン in Tokyo プレゼンシート「チームNifty」kakusan40
 
第1回茶ッカソン in Tokyo プレゼンシート「FULLER」
第1回茶ッカソン in Tokyo プレゼンシート「FULLER」第1回茶ッカソン in Tokyo プレゼンシート「FULLER」
第1回茶ッカソン in Tokyo プレゼンシート「FULLER」kakusan40
 
テキストマイニングのイメージと実際
テキストマイニングのイメージと実際テキストマイニングのイメージと実際
テキストマイニングのイメージと実際antibayesian 俺がS式だ
 
Credential social media_live_v1_3
Credential social media_live_v1_3Credential social media_live_v1_3
Credential social media_live_v1_3Social Media Live!
 
Python東海Vol.5 IPythonをマスターしよう
Python東海Vol.5 IPythonをマスターしようPython東海Vol.5 IPythonをマスターしよう
Python東海Vol.5 IPythonをマスターしようHiroshi Funai
 

Andere mochten auch (14)

チームラボ忘年会
チームラボ忘年会チームラボ忘年会
チームラボ忘年会
 
SPSSで簡単テキストマイニング
SPSSで簡単テキストマイニングSPSSで簡単テキストマイニング
SPSSで簡単テキストマイニング
 
Credential twittorebiew v1.3
Credential twittorebiew v1.3Credential twittorebiew v1.3
Credential twittorebiew v1.3
 
第1回茶ッカソン in Tokyo プレゼンシート「チームNifty」
第1回茶ッカソン in Tokyo プレゼンシート「チームNifty」第1回茶ッカソン in Tokyo プレゼンシート「チームNifty」
第1回茶ッカソン in Tokyo プレゼンシート「チームNifty」
 
第1回茶ッカソン in Tokyo プレゼンシート「FULLER」
第1回茶ッカソン in Tokyo プレゼンシート「FULLER」第1回茶ッカソン in Tokyo プレゼンシート「FULLER」
第1回茶ッカソン in Tokyo プレゼンシート「FULLER」
 
神の言語による自然言語処理
神の言語による自然言語処理神の言語による自然言語処理
神の言語による自然言語処理
 
ガチャとは心の所作
ガチャとは心の所作ガチャとは心の所作
ガチャとは心の所作
 
テキストマイニングのイメージと実際
テキストマイニングのイメージと実際テキストマイニングのイメージと実際
テキストマイニングのイメージと実際
 
Credential social media_live_v1_3
Credential social media_live_v1_3Credential social media_live_v1_3
Credential social media_live_v1_3
 
全文検索入門
全文検索入門全文検索入門
全文検索入門
 
Sakusaku svm
Sakusaku svmSakusaku svm
Sakusaku svm
 
企業における統計学入門
企業における統計学入門企業における統計学入門
企業における統計学入門
 
Python東海Vol.5 IPythonをマスターしよう
Python東海Vol.5 IPythonをマスターしようPython東海Vol.5 IPythonをマスターしよう
Python東海Vol.5 IPythonをマスターしよう
 
Pythonで簡単ネットワーク分析
Pythonで簡単ネットワーク分析Pythonで簡単ネットワーク分析
Pythonで簡単ネットワーク分析
 

Ähnlich wie さくさくテキストマイニング入門セッション

【Schoo web campus】「相手に伝わる」文章を書く技術 2限目
【Schoo web campus】「相手に伝わる」文章を書く技術 2限目【Schoo web campus】「相手に伝わる」文章を書く技術 2限目
【Schoo web campus】「相手に伝わる」文章を書く技術 2限目schoowebcampus
 
TAPL 勉強会(紹介編)
TAPL 勉強会(紹介編)TAPL 勉強会(紹介編)
TAPL 勉強会(紹介編)none_toka
 
20120731 ALC Eijiro User Meeting
20120731 ALC Eijiro User Meeting20120731 ALC Eijiro User Meeting
20120731 ALC Eijiro User Meetingakikom0819
 
科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency
科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency
科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English ProficiencyAsahiko Matsuda
 
言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクールYuya Unno
 
英語学習者のための発話自動採点システムの開発.
英語学習者のための発話自動採点システムの開発.英語学習者のための発話自動採点システムの開発.
英語学習者のための発話自動採点システムの開発.Yutaka Ishii
 
[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」 [最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」 Yuki Arase
 
Chainer with natural language processing hands on
Chainer with natural language processing hands onChainer with natural language processing hands on
Chainer with natural language processing hands onOgushi Masaya
 
大規模言語モデルとChatGPT
大規模言語モデルとChatGPT大規模言語モデルとChatGPT
大規模言語モデルとChatGPTnlab_utokyo
 
ブートストラップ手法を用いた学習不用語の除去(言語と統計2015)
ブートストラップ手法を用いた学習不用語の除去(言語と統計2015)ブートストラップ手法を用いた学習不用語の除去(言語と統計2015)
ブートストラップ手法を用いた学習不用語の除去(言語と統計2015)智文 中野
 
[旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」 [旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」 Yuki Arase
 
ナイーブベイズによる言語判定
ナイーブベイズによる言語判定ナイーブベイズによる言語判定
ナイーブベイズによる言語判定Shuyo Nakatani
 
深層学習を用いた文生成モデルの歴史と研究動向
深層学習を用いた文生成モデルの歴史と研究動向深層学習を用いた文生成モデルの歴史と研究動向
深層学習を用いた文生成モデルの歴史と研究動向Shunta Ito
 
Phrase Reading Worksheetと種々の副教材を使った授業設計 教室内学力格差への対応を目指して
Phrase Reading Worksheetと種々の副教材を使った授業設計 教室内学力格差への対応を目指してPhrase Reading Worksheetと種々の副教材を使った授業設計 教室内学力格差への対応を目指して
Phrase Reading Worksheetと種々の副教材を使った授業設計 教室内学力格差への対応を目指してKenichi Kamiya
 
MAごころを、君に - #7 ChatGPT勉強会(2023-03-28)
MAごころを、君に - #7 ChatGPT勉強会(2023-03-28)MAごころを、君に - #7 ChatGPT勉強会(2023-03-28)
MAごころを、君に - #7 ChatGPT勉強会(2023-03-28)Webpla LLC.
 

Ähnlich wie さくさくテキストマイニング入門セッション (20)

Jacet2014ykondo_final
Jacet2014ykondo_finalJacet2014ykondo_final
Jacet2014ykondo_final
 
【Schoo web campus】「相手に伝わる」文章を書く技術 2限目
【Schoo web campus】「相手に伝わる」文章を書く技術 2限目【Schoo web campus】「相手に伝わる」文章を書く技術 2限目
【Schoo web campus】「相手に伝わる」文章を書く技術 2限目
 
Building Evaluation Sets for Textual Entailment Recognition
Building Evaluation Sets for Textual Entailment Recognition Building Evaluation Sets for Textual Entailment Recognition
Building Evaluation Sets for Textual Entailment Recognition
 
1 3-2
1 3-21 3-2
1 3-2
 
TAPL 勉強会(紹介編)
TAPL 勉強会(紹介編)TAPL 勉強会(紹介編)
TAPL 勉強会(紹介編)
 
20120731 ALC Eijiro User Meeting
20120731 ALC Eijiro User Meeting20120731 ALC Eijiro User Meeting
20120731 ALC Eijiro User Meeting
 
科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency
科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency
科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency
 
言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール
 
英語学習者のための発話自動採点システムの開発.
英語学習者のための発話自動採点システムの開発.英語学習者のための発話自動採点システムの開発.
英語学習者のための発話自動採点システムの開発.
 
形態素解析
形態素解析形態素解析
形態素解析
 
[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」 [最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
 
Chainer with natural language processing hands on
Chainer with natural language processing hands onChainer with natural language processing hands on
Chainer with natural language processing hands on
 
大規模言語モデルとChatGPT
大規模言語モデルとChatGPT大規模言語モデルとChatGPT
大規模言語モデルとChatGPT
 
ブートストラップ手法を用いた学習不用語の除去(言語と統計2015)
ブートストラップ手法を用いた学習不用語の除去(言語と統計2015)ブートストラップ手法を用いた学習不用語の除去(言語と統計2015)
ブートストラップ手法を用いた学習不用語の除去(言語と統計2015)
 
[旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」 [旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
 
ナイーブベイズによる言語判定
ナイーブベイズによる言語判定ナイーブベイズによる言語判定
ナイーブベイズによる言語判定
 
Developing User-friendly and Customizable Text Analyzer
Developing User-friendly and Customizable Text AnalyzerDeveloping User-friendly and Customizable Text Analyzer
Developing User-friendly and Customizable Text Analyzer
 
深層学習を用いた文生成モデルの歴史と研究動向
深層学習を用いた文生成モデルの歴史と研究動向深層学習を用いた文生成モデルの歴史と研究動向
深層学習を用いた文生成モデルの歴史と研究動向
 
Phrase Reading Worksheetと種々の副教材を使った授業設計 教室内学力格差への対応を目指して
Phrase Reading Worksheetと種々の副教材を使った授業設計 教室内学力格差への対応を目指してPhrase Reading Worksheetと種々の副教材を使った授業設計 教室内学力格差への対応を目指して
Phrase Reading Worksheetと種々の副教材を使った授業設計 教室内学力格差への対応を目指して
 
MAごころを、君に - #7 ChatGPT勉強会(2023-03-28)
MAごころを、君に - #7 ChatGPT勉強会(2023-03-28)MAごころを、君に - #7 ChatGPT勉強会(2023-03-28)
MAごころを、君に - #7 ChatGPT勉強会(2023-03-28)
 

Kürzlich hochgeladen

International Politics I - Lecture 1
International Politics I - Lecture 1International Politics I - Lecture 1
International Politics I - Lecture 1Toru Oga
 
KARAPATANG PANTAO.pptxhrhrhrhrhrhrhrhrhr
KARAPATANG PANTAO.pptxhrhrhrhrhrhrhrhrhrKARAPATANG PANTAO.pptxhrhrhrhrhrhrhrhrhr
KARAPATANG PANTAO.pptxhrhrhrhrhrhrhrhrhrRodolfFernandez1
 
Establishment and operation of medical corporations.pdf
Establishment and operation of medical corporations.pdfEstablishment and operation of medical corporations.pdf
Establishment and operation of medical corporations.pdfoganekyokoi
 
3年前期 交通基盤工学 第一回 ガイダンス 交通基盤工学の概要  パワーポイント
3年前期 交通基盤工学 第一回 ガイダンス 交通基盤工学の概要  パワーポイント3年前期 交通基盤工学 第一回 ガイダンス 交通基盤工学の概要  パワーポイント
3年前期 交通基盤工学 第一回 ガイダンス 交通基盤工学の概要  パワーポイントshu1108hina1020
 
Divorce agreements in administrative work.pdf
Divorce agreements in administrative work.pdfDivorce agreements in administrative work.pdf
Divorce agreements in administrative work.pdfoganekyokoi
 
レポートの書き方講座 [大学生初年次向けに対する講義資料] Lecture on how to write a report [lecture mater...
レポートの書き方講座 [大学生初年次向けに対する講義資料] Lecture on how to write a report [lecture mater...レポートの書き方講座 [大学生初年次向けに対する講義資料] Lecture on how to write a report [lecture mater...
レポートの書き方講座 [大学生初年次向けに対する講義資料] Lecture on how to write a report [lecture mater...yutakashikano1984
 
Registration of travel agents - 'Explanation of the registration system under...
Registration of travel agents - 'Explanation of the registration system under...Registration of travel agents - 'Explanation of the registration system under...
Registration of travel agents - 'Explanation of the registration system under...oganekyokoi
 
What I did before opening my business..pdf
What I did before opening my business..pdfWhat I did before opening my business..pdf
What I did before opening my business..pdfoganekyokoi
 

Kürzlich hochgeladen (8)

International Politics I - Lecture 1
International Politics I - Lecture 1International Politics I - Lecture 1
International Politics I - Lecture 1
 
KARAPATANG PANTAO.pptxhrhrhrhrhrhrhrhrhr
KARAPATANG PANTAO.pptxhrhrhrhrhrhrhrhrhrKARAPATANG PANTAO.pptxhrhrhrhrhrhrhrhrhr
KARAPATANG PANTAO.pptxhrhrhrhrhrhrhrhrhr
 
Establishment and operation of medical corporations.pdf
Establishment and operation of medical corporations.pdfEstablishment and operation of medical corporations.pdf
Establishment and operation of medical corporations.pdf
 
3年前期 交通基盤工学 第一回 ガイダンス 交通基盤工学の概要  パワーポイント
3年前期 交通基盤工学 第一回 ガイダンス 交通基盤工学の概要  パワーポイント3年前期 交通基盤工学 第一回 ガイダンス 交通基盤工学の概要  パワーポイント
3年前期 交通基盤工学 第一回 ガイダンス 交通基盤工学の概要  パワーポイント
 
Divorce agreements in administrative work.pdf
Divorce agreements in administrative work.pdfDivorce agreements in administrative work.pdf
Divorce agreements in administrative work.pdf
 
レポートの書き方講座 [大学生初年次向けに対する講義資料] Lecture on how to write a report [lecture mater...
レポートの書き方講座 [大学生初年次向けに対する講義資料] Lecture on how to write a report [lecture mater...レポートの書き方講座 [大学生初年次向けに対する講義資料] Lecture on how to write a report [lecture mater...
レポートの書き方講座 [大学生初年次向けに対する講義資料] Lecture on how to write a report [lecture mater...
 
Registration of travel agents - 'Explanation of the registration system under...
Registration of travel agents - 'Explanation of the registration system under...Registration of travel agents - 'Explanation of the registration system under...
Registration of travel agents - 'Explanation of the registration system under...
 
What I did before opening my business..pdf
What I did before opening my business..pdfWhat I did before opening my business..pdf
What I did before opening my business..pdf
 

さくさくテキストマイニング入門セッション

  • 1. 入門セッション ● テキストマイニング必須用語を20分程度で紹介 ● 目的:初心者向け勉強会向けに、テキストマイニン グの基本用語から説明し、勉強会の発表を理解す るのに必要な前提知識を身につける ● セッション後、質問タイムを設けます。お気軽に御 質問下さい 1
  • 2. テキストマイニングの利用方法 1. 評判分析:強み弱みはどこか? 2. 需要抽出:どんな商品が求められているか? 3. インフルエンサーの特定 4. メール等の文書をDB化→知見の集積 5. 暗黙知→形式知 6. 自然言語処理:検索、本文要約、IME、翻訳 2
  • 4. 言語処理の技術 (1) 形態素解析 ● 形態素とは:意味を持つ最小の文字列の単位 ● 分かち書き:文を単語に分割すること ● 形態素解析:分かち書き+品詞付け+原形復元 ● 日本語の分かち書きは難しい ● 英語等と違って単語の切れ目がわからない – 「すもももももももものうち」→「李も桃も桃の内」○ – 「東京都」→「東, 京都」? ● MeCab:非常によく使われる形態素解析エンジン 4
  • 5. 言語処理の技術 (2) 構文解析 ● 構文解析:文の構造(係り受け等)を明らかにする ● 係り受け:ある文節がどの文節に作用するか ● 例文:「黒い大きな瞳の男の娘」 ● (肌の)黒い、大きな瞳の、男の娘? ● 黒い大きな瞳の、男の娘? ● 黒い大きな瞳(さん)の男の娘? 5
  • 6. 言語処理の技術 (3) 意味解析 ● 意味解析:評判分析等で使われる ● 「泣ける」という単語はポジティブ?ネガティブ? – 「映画」+泣ける⇒感動した!というポジティブ表現 – 「試験」+泣ける⇒結果が悪かった!というネガティブ表現 – 単語の意味は文脈によって変わる可能性がある ● 語義曖昧性解消:単語の複数の意味の中から、文 に応じた語義を特定すること ● 単語情報単体で自然言語の全てを理解できるわけ ではない 6
  • 7. テキストの統計処理(1) ● 「単語」とは何か:トークンとタイプ – “nurture or nature? nurture passes nature”は何単語? – 6(節)と答えるのがトークン – 4(種類)と答えるのがタイプ ● Nグラム:隣接するN単位の共起 – 単語2グラム[柴犬,が][が,私][私,を][を,噛ん][噛ん,だ] – 文字2グラム(柴,犬)(犬,が)(が,私)(私,を)(を,噛)(噛,ん)(ん,だ) – 単語Nグラムは形態素解析する必要がある – 大量のNグラム情報があれば、ある単語とそれに連なる単語 が文書に現れる確率が求められる→検索や予測変換で利用 7
  • 8. テキストの統計処理(2) ● bag-of-words(BOW):文章の単語ベクトル表現 ● 「ある文書がどのような単語を含んでいるか」を表す ● 順序や構文など、ある程度元の文書の情報を捨ててい るが、扱いやすいため、実際の分析ではよく使われる ● 例:柴犬が私を噛んだ→{柴犬,が,私,を,噛ん,だ} ● 例:{柴犬,が,私,を,噛ん,だ} = {私,が,柴犬,を,噛ん,だ}
  • 9. 機械学習 ● 人間の学習能力をコンピュータに持たせて、分類 や判別、予測などを行う分野 ● 教師有り学習:正解例に沿う様、分類などを行う – パーセプトロン、SVM – 応用:スパム判定や著者推定など ● 教師無し学習:入力値から特徴的なパターンを抽出 – クラスタリング、異常値検出 – 応用:消費者のカテゴライズなど 9
  • 10. 自然言語処理 ● 人間が通常用いる自然言語をコンピュータに処理 させる分野 ● テキストマイニングでは、自然言語処理の技術(形態素 解析や構文解析など)を用いてテキストを解析する ● 自然言語処理は(形態素解析などの)「技術を作る」、テ キストマイニングは「技術を使う」のが主眼 ● 包丁に対する鍛冶屋と料理人の違い by 海野さん 10
  • 11. 頻出専門用語(1) ● コーパス:言語の分析用例データ ● 素性:文法的な情報を表す特徴量(単語頻度等) ● アノテーション:関連情報、メタ情報のこと。タスクに よって、品詞をつけることであったり、意味を付与す るものであったりする ● 辞書:形態素解析や構文解析を行う際に用いる教 師データ。辞書の整備が分析の精度を左右する 11
  • 12. 頻出専門用語(2) ● 照応解析:代名詞や指示語が何を指しているかを 明らかしたり、省略された名詞句を補完する処理 ● チャンキング:文の意味的な塊(チャンク)を抽出 ● クローリング:Webからテキストなどのデータを自動 収集すること。Twitterやブログなど、APIが用意さ れている場合もある ● データクレンジング(クリーニング):収集したデータ に含まれる誤字脱字、表記揺れ、欠損などの汚損 を取り除く作業 12