《 iパス用語解説》構造化データとは何か。大まかな説明付き。IT / ICT Glossary「IT担当者からのファーストリポート」

「IT / ICT Glossary」シリーズでは、主に国家資格「ITパスポート(iパス)」に関連した用語を解説致します。

iパスの学習範囲は「企業と法務」など、システム以外の分野も含まれていますので、業種・職種に関わらず、社会生活を送る上で、とても参考になると考えています。

今回のキーワードは「構造化データ」です。

大まかに説明すると

構造化データとは、ExcelやCSVファイルのように「列」と「行」で整理されたデータのことです。

データ分析しやすく、検索や集計が簡単に行えます。

このデータを分析する前に、前処理として並べ替えや抽出、データ型変換、集計などを行います。

これによりデータの重複、欠損、異常値を処理し、必要な情報だけを結合します。

前処理をすることで、データの精度を高め、効率的なコンピューター処理や正確な分析を可能にします。

構造化データとは

構造化データとは、「列」と「行」の概念を持つ、構造化されたデータのことです。

ExcelやCSVファイルなどのデータが該当します。

構造化されているので、検索や比較、集計がしやすく、データ分析がしやすいデータです。

構造データの前処理

取得したデータには分析などを行うためにはデータの精度を高めるために、前処理を行う必要があります。

前処理とは、データの重複や欠損、不要なデータの混入、異常値や外れ値といったデータを抽出して確認したうえで、除去するなどの前処理が必要です。

以下で前処理の方法を確認していきましょう。

並べ替え

並べ替えはソートとも呼ばれ、テーブルのカラム別の昇順・降順にデータを並べ替えることです。

構造化データは行と列の2次元データなので、並べ替えが簡単にできます。

データを並べ替えることで、重複や欠損、異常値などを発見しやすくなります。

コンピューターで処理する前にも、事前に並べ替えを行っておけば、処理速度を上げることが可能です。

抽出

抽出とは、取得した大量のデータの中から、条件を指定してデータを取り出すことです。

大量のデータの中から、目的に応じて絞り込みを行ったうえで、変換、集計、結合を行います。

抽出作業により、データ量が減少するため、コンピューターによる処理速度も速くなります。

データ型変換

データ型には、数値として認識する数値データ、時間として認識する日時データ、テキストとして認識する文字データなど分類があります。

適切なデータ型が指定されていないと正しく認識されず、分析結果の取得ができなくなることや文字化けしてしまうおそれがあります。

前処理として適切なデータ型を設定するとともに、適していない場合にはデータ型の変換をしなくてはなりません。

集計

分析するには集計データが必要になります。

前処理としてレコード数やカラム数などデータ内容をチェックし、基本統計量を算出するほか、破損データや欠損がどのくらいあるかなどの集計をしなくてはなりません。

集計値をチェックすることで、データ内の不備や矛盾などを発見することにもつながります。

重複・欠損・異常値の処理

重複していても、場合によってはそのまま使用できるケースもあるため、目的に合わせて、どの範囲が重複と言えるのかを設定する必要があります。

重複と認められたものは削除や修正、補完などを行いましょう。

欠損があった場合には、レコードごと除くのが基本ですが、欠損値が多い場合には平均値や最頻値等の代表値で補完するケースもあります。

データの結合

データの結合とは、抽出条件でレコードを絞り込み、必要なレコードのみを結合する作業です。

結合を行うことで、コンピューター処理を行う際に、メモリや CPUなどのリソース消費を抑え、処理時間を早めることができます。

本キーワードの関連情報

今回のキーワードは、ITパスポート試験シラバスの、以下カテゴリに分類されています。
試験のご参考にもなれば幸いです。

カテゴリ:ストラテジ系 / 大分類1「企業と法務」 / 中分類1「企業活動」

2. 業務分析・データ利活用

目標「身近な業務を分析し、データの利活用によって問題を解決するための代表的な手法を理解し、活用する。業務を把握する際のビジュアル表現を理解し、活用する。」

説明「身近な業務を把握して分析する手法、代表的なビジュアル表現、データ利活用、OR(Operations Research)及びIE(Industrial Engineering)の手法を理解し、活用する。」

(2) 業務分析と業務計画

・業務を分析するための代表的な手法、データの可視化手法。

②図表、グラフによるデータ可視化

・目的に応じた適切な可視化手法の選択による、他者へのデータの説明。
・不適切に作成されたグラフにだまされないこと、及びそのようなグラフを作成しないこ
と。
・データを分析して問題解決や効率化を図るためのツール(ソフトウェアパッケージ)
の活用。

参考・引用元資料

【ITパスポート試験】試験内容・出題範囲
https://www3.jitec.ipa.go.jp/JitesCbt/html/about/range.html


ここまで読んで頂いて、誠にありがとうございます。今後ともどうぞよろしくお願い致します。

SystemTeams
おすすめの記事