「IT / ICT Glossary」シリーズでは、主に国家資格「ITパスポート(iパス)」に関連した用語を解説致します。
iパスの学習範囲は「企業と法務」など、システム以外の分野も含まれていますので、業種・職種に関わらず、社会生活を送る上で、とても参考になると考えています。
今回のキーワードは「非構造化データ」です。
目次
大まかに説明すると
非構造化データとは、行や列で整理されていないデータのことです。
画像や動画、音声、文書などが例です。
これらのデータは検索や集計に向いておらず、処理が難しいため、前処理が必要です。
規則性のある非構造化データはXMLやJSONに変換し、規則性がない場合はAIを使ってパターンを見つけ出します。
また、検索性を保つために、データを整理整頓して保管することも大切です。
こうした対策により、非構造化データの活用が進みます。
非構造化データとは
非構造化データとは、行と列で構造化された構造化データとは異なり、構造化されていないデータのことです。
データベース化ができず、検索や集計、分析に向いていないデータと言えます。
世の中にあるデータの多くは非構造化データであり、ビッグデータの中でも構造化データは2割、非構造化データが8割と言われることがあります。
たとえば、画像や動画、音声データ、デザインデータやCADデータをはじめ、ワードなどで作成されたドキュメントやテキストデータ、eメール、センサーログなどは非構造化データです。
非構造化データの前処理
非構造化データは構造定義を有していないので、そのままでは処理が難しくなります。
高度なAIを使っても、そのデータはなんなのか、どんな関係性があるか等など認識できなければ、分析などはできません。
非構造化データを分析するためには、変換や加工といった前処理が必要です。
非構造化データの中にも規則性があるものと、規則性がないものがあり、それぞれ適切な処理の仕方が異なります。
規則性がある場合
規則性があり、表形式の構造化データに変換できる場合には、XMLやJSONの形で、テキスト形式のデータに変換を行います。
XMLは、データ内に規則性に関する区切りを設定する形式で、JSONは、一定のルールに従って記述される形式です。
規則性がない場合
規則性がなく、構造化データへの変換ができないか困難であるデータの場合はどうすればいいでしょうか。
管理も分析も難しい非構造化データにおいては、AIを用い、規則性がないデータから規則性を見つけるアプローチが行われるのが近年の傾向です。
AIによる画像認識や音声認識、自然言語処理などを用いて、一定のパターンや規則を見つけ出すというものです。
たとえば、画像認識を行うには、AIにあらかじめ大量のデータを学習させてパターンを発見させておきます。
そのAIを用い、非構造化データである大量の画像を認識させて、規則性を見つけ出す方法です。
音声や自然言語処理、センサーデータの場合は、波形や文脈といった特徴から分類をすることやなんらかの規則性を抽出させます。
データの検索性や更新性の維持
非構造化データは、構造化データのようにデータベースとして管理しにくく、簡単に検索ができません。
日々の業務や学習で、どんどん非構造化データも増えていきます。
そのため、タイトルの付け方を統一することやファイルやフォルダを使ってわかりやすく整理整頓するなど、検索性と更新性を維持しながら保管、管理しなくてはなりません。
本キーワードの関連情報
今回のキーワードは、ITパスポート試験シラバスの、以下カテゴリに分類されています。
試験のご参考にもなれば幸いです。
カテゴリ:ストラテジ系 / 大分類1「企業と法務」 / 中分類1「企業活動」
2. 業務分析・データ利活用
目標「身近な業務を分析し、データの利活用によって問題を解決するための代表的な手法を理解し、活用する。業務を把握する際のビジュアル表現を理解し、活用する。」
説明「身近な業務を把握して分析する手法、代表的なビジュアル表現、データ利活用、OR(Operations Research)及びIE(Industrial Engineering)の手法を理解し、活用する。」
(3) データ利活用
・データを分析して利活用することによる,業務改善や問題解決
① データの種類及び前処理
・データを集める目的,集めるデータの種類及び特徴
・データ利活用のための簡単な前処理
・機械判読可能なデータの作成、表記方法
参考・引用元資料
【ITパスポート試験】試験内容・出題範囲
https://www3.jitec.ipa.go.jp/JitesCbt/html/about/range.html
ここまで読んで頂いて、誠にありがとうございます。今後ともどうぞよろしくお願い致します。