「IT / ICT Glossary」シリーズでは、主に国家資格「ITパスポート(iパス)」に関連した用語を解説致します。
iパスの学習範囲は「企業と法務」など、システム以外の分野も含まれていますので、業種・職種に関わらず、社会生活を送る上で、とても参考になると考えています。
今回のキーワードは「散布図行列」です。
目次
大まかに説明すると
散布図行列は、複数のデータの相関関係を視覚的に捉えるためのグラフで、各変数の組み合わせで散布図を作成し、行列にまとめます。
これにより、どのデータ同士に相関があるかを一目で確認できます。
データの相関関係を示す際、グラフの点が直線状に並ぶと相関が強いことを示します。
ただし、相関関係は因果関係とは異なるため、注意が必要です。
散布図行列を作成する際は、適切なデータを選び、その根拠を明確に示すことが重要です。
画像出典:高等学校統計実践報告①「散布図・相関係数」 | 授業実践記録 | 数学 | 高等学校 | 知が啓く。教科書の啓林館(https://www.shinko-keirin.co.jp/keirinkan/kou/math/jissen_arch/202204/)
散布図行列とは
散布図行列とは、複数のデータについて、2つの変数同士の組み合わせで散布図を作成し、行列にまとめたグラフのことです。
どのデータとどのデータに相関があるのかを一目で確認しやすいのが特徴です。
複数のグループがあるデータについては、グループ分けをして階層別に表すこともできます。
複数の変数の相関関係を視覚的に捉えられるのがメリットです。
散布図が使われるシーン
散布図は2つのデータの関係を視覚的にわかりやすく示せる図です。
1つ目の要素を横軸に、2つ目の要素を縦軸にしてデータをグラフ上に並べていきます。
点のばらつきを見て、2つのデータの関係を把握することが可能です。
たとえば、年平均気温と年間日照時間のデータを並べた場合、グラフから年間日照時間が長いほど年平均気温が高いと、視覚的に確認することができます。
農作物の収量と温度の関係をグラフにして調べることや製造工場で比重と強度などのデータをグラフ化し、問題点や改善点を調べるのにも役立てることが可能です。
このように、2つのデータの散布図を並べてみて、一方の値が変化したのに応じて、もう一方の値も変化している場合、この関係を相関関係と呼びます。
相関関係が高くなるほど、散布図の点は直線状になるのが特徴です。
散布図行列を作成、比較するうえで気を付けたいこと
散布図行列を作成する場合、データ項目のポイント数が多いほど、データの傾向が分析しやすくなります。
少なくとも10つ以上はないと傾向が掴みにくいです。
行列を並べる際には、横軸は右に行くほど大きい値を並べ、縦軸は上に行くほど大きい値を並べるようにしましょう。
散布図行列で読み取れるのは、データ同士の関係性です。
ほかのグラフの場合、比較や偏りをどのように見せるかを意識して作成し、プレゼンをすることや資料として提供されます。
一方、散布図行列では、何を見せるかを意識してデータを選ぶのが重要です。
なぜその2つのデータを取り上げたのかの根拠がすぐに伝わるようなデータ同士を並べて関係性を示すことがポイントです。
因果関係とは異なる
散布図行列では、相関関係を示すことが基本ですが、因果関係と勘違いしないように注意しましょう。
因果関係とは、AとBがあった際に、いずれかが原因で、もう一方が結果となる状態です。
これに対して、相関関係は、AとBがあった場合にAとBの間になんらかの関係があるように見える状態です。
たとえば、Aが大きくなるほどBも大きくなるという関係性が見て取れます。
相関関係=因果関係ではないため、データの読み方に注意しましょう。
本キーワードの関連情報
今回のキーワードは、ITパスポート試験シラバスの、以下カテゴリに分類されています。
試験のご参考にもなれば幸いです。
カテゴリ:ストラテジ系 / 大分類1「企業と法務」 / 中分類1「企業活動」
2. 業務分析・データ利活用
目標「身近な業務を分析し、データの利活用によって問題を解決するための代表的な手法を理解し、活用する。業務を把握する際のビジュアル表現を理解し、活用する。」
説明「身近な業務を把握して分析する手法、代表的なビジュアル表現、データ利活用、OR(Operations Research)及びIE(Industrial Engineering)の手法を理解し、活用する。」
(2) 業務分析と業務計画
・業務を分析するための代表的な手法、データの可視化手法。
②図表、グラフによるデータ可視化
・目的に応じた適切な可視化手法の選択による、他者へのデータの説明。
・不適切に作成されたグラフにだまされないこと、及びそのようなグラフを作成しないこ
と。
・データを分析して問題解決や効率化を図るためのツール(ソフトウェアパッケージ)
の活用。
参考・引用元資料
【ITパスポート試験】試験内容・出題範囲
https://www3.jitec.ipa.go.jp/JitesCbt/html/about/range.html
ここまで読んで頂いて、誠にありがとうございます。今後ともどうぞよろしくお願い致します。