「IT / ICT Glossary」シリーズでは、主に国家資格「ITパスポート(iパス)」に関連した用語を解説致します。
iパスの学習範囲は「企業と法務」など、システム以外の分野も含まれていますので、業種・職種に関わらず、社会生活を送る上で、とても参考になると考えています。
今回のキーワードは「テキストマイニング」です。
目次
大まかに説明すると
テキストマイニングとは、自然言語処理を用いて膨大なテキストデータから有益な情報を抽出する手法です。
名詞や動詞を分割し、出現頻度や相関を分析して、マーケティングや課題発見に役立てます。
手法には、感情を分析するセンチメント分析、単語の共起頻度を調べる共起分析、散布図で関係性を示す対応分析、データ項目を縮小する主成分分析などがあります。
探索的解析や文書分類も行い、ビッグデータの活用にも適しています。
テキストマイニングとは
テキストマイニングは、英語で「text mining」と表記します。
miningは、採掘という意味を持つ英単語です。
つまり、テキストマイニングとは、膨大なテキストデータの中から、有益で価値のあるデータを発掘することを指しているのです。
自然言語処理を使用して、名詞や動詞などの単語や文節に分割して、出現頻度や相関関係などを分析したうえで、情報を取り出す分析方法をテイストマイニングと呼んでいます。
なお、テキストマイニングは、テキスト・データ・マイニングと呼ばれることもあるのです。
テキストマイニングによって発掘したデータは、マーケティング、品質の向上、課題の発見などのさまざまなシーンで利用されています。
さらに、テキストマイニングは、ビッグデータの分析にも活用されています。
テキストマイニングの種類
テキストマイニングには、探索的データ解析と文書分類の2種類があります。
探索的データ解析
探索的データ解析では、テキストデータを単語で区切り、データの性質や傾向などを分析します。
文書分類
文書分類では、機械学習アルゴリズムが用いられます。
データの特徴を抽出して、異なるカテゴリに自動で分類していきます。
テキストマイニングの手法
テキストマイニングには、センチメント分析、共起分析、対応分析、主成分分析などの手法があります。
センチメント分析
センチメント分析とは、人間の感情を分析する手法のことです。
SNSのコメント、Webサイトのレビュー、ブログの書き込みなどのテキスト情報から、個人の感情を分析し、肯定、否定、中立などの3つのパターンに分けて評価を行います。
ネガポジ判定と呼ばれることもあります。
共起分析
共起分析とは、特定の単語やフレーズなどが一緒に現れる頻度を分析する手法のことです。
マーケティング、文献調査、ソーシャルメディア分析などのシーンで多く活用されています。
対応分析
対応分析とは、散布図によってデータの項目の関係性を表して分析する手法のことです。
コレスポンデンス分析と呼ばれることもあります。
アンケート調査結果やクロス集計表などを視覚的にわかりやすくするために用いられています。
主成分分析
主成分分析とは、データの項目を少なく要約して分析する手法のことです。
ビッグデータのような膨大な量のデータには、たくさんの項目が含まれているため、一部のデータを少数の変数に縮小して分析を行います。
本キーワードの関連情報
今回のキーワードは、ITパスポート試験シラバスの、以下カテゴリに分類されています。
試験のご参考にもなれば幸いです。
カテゴリ:ストラテジ系 / 大分類1「企業と法務」 / 中分類1「企業活動」
2. 業務分析・データ利活用
目標「身近な業務を分析し、データの利活用によって問題を解決するための代表的な手法を理解し、活用する。業務を把握する際のビジュアル表現を理解し、活用する。」
説明「身近な業務を把握して分析する手法、代表的なビジュアル表現、データ利活用、OR(Operations Research)及びIE(Industrial Engineering)の手法を理解し、活用する。」
(3) データ利活用
・データを分析して利活用することによる、業務改善や問題解決
③ データサイエンス,ビッグデータ分析
・データの特徴を読み解くことでの,起きている事象の背景や意味合い
・データサイエンスにおける帰納的推論の重要性,及び利点と欠点
参考・引用元資料
【ITパスポート試験】試験内容・出題範囲
https://www3.jitec.ipa.go.jp/JitesCbt/html/about/range.html
ここまで読んで頂いて、誠にありがとうございます。今後ともどうぞよろしくお願い致します。