「IT / ICT Glossary」シリーズでは、主に国家資格「ITパスポート(iパス)」に関連した用語を解説致します。
iパスの学習範囲は「企業と法務」など、システム以外の分野も含まれていますので、業種・職種に関わらず、社会生活を送る上で、とても参考になると考えています。
今回のキーワードは「データサイエンスのサイクル」です。
目次
大まかに説明すると
データサイエンスのサイクルは、PPDACサイクル(問題設定、計画、データ収集、分析、結論)を繰り返して課題を解決するプロセスです。
まず、明確な課題と評価指標を設定し、解決に向けた仮説を立てます。
その後、データを収集・整理し、分析して可視化します。得られた知見を基に結論を導き、次の課題設定へ進むことで継続的な改善を図ります。
このサイクルの成功には計画性や信頼性のあるデータ収集が重要です。
データサイエンスのサイクルとは
データサイエンスを活用した業務を遂行するために繰り返されるプロセスのことを、データサイエンスのサイクルと言います。
5つのプロセスから成り立っており、以下のPPDACサイクルを繰り返すのが基本です。
- P(problem:問題) 問題解決のための課題の設定
- P(plan:計画) 調査方法の計画
- D(data:データ収集) データ収集
- A(analysis:分析) データの分析
- C(conclusion:結論) 分析結果から知見を導出
データサイエンスのサイクルを繰り返して課題を改善していく
PPDACサイクルを一巡させ、知見の導出が完了した段階で、当初の課題がどのくらい改善されたかに応じて、次の課題を設定します。
つまり、P(problem:問題) の段階に戻って、新たなサイクルを回していきます。
これを繰り返すことで、当初設定した問題の解決や改善が図られるというものです。
サイクルを回していくにあたっては、最初の段階である課題の設定と最後の段階である知見の導出との間に、データ収集とデータ分析のプロセスがあります。
データ収集とデータ分析を行うには、明確な課題の設定としっかりした計画の立案がないといけません。
膨大な量のビッグデータや調査対象の中から、どのようにデータを収集し、どのような方法で分析をするか、しっかり計画しておかないと問題解決へと導くことができません。
データサイエンスのサイクルの手順
データサイエンスのサイクルにおける5つのプロセスで、どのようなことをするか、手順を詳しく見ていきましょう。
P(problem:問題)
問題解決のための課題を設定するプロセスです。
テーマを設定し、解決すべき課題を考えて設定します。
課題から問題の構造、つまり原因と結果の因果関係を明確にします。
そのうえで、なんとなくの解決にならないよう、評価指標を設定しましょう。
具体的、かつ定量的な数値を評価指標にすることで、知見の段階で、設定した課題がどれくらいクリアできたかがわかります。
P(plan:計画)
調査方法を計画するプロセスです。
課題を解決に導く仮説を設定したうえで、調査分析の計画を立てましょう。
仮説の設定とは、前のプロセスで設定した評価指標の変動に影響を与える要因の指標を検討して設定することです。
そのために要となるデータや統計資料は何かを検討し、収集計画や調査計画を立てましょう。
そのうえで、仮説を検証するための分析の計画をしっかり立てることが大切です。
D(data:データ収集)
データや統計資料を実際に収集していくプロセスです。
前のプロセスで検討した収集法を実行するにあたっては、データの取得方法だけでなく、取得方法の正確性と信頼性を意識しなくてはなりません。
データを収集したら、分析に向けてカテゴリ化するなどデータの整理も行っておきましょう。
A(analysis:分析)
前のプロセスで収集、整理したデータを分析していくプロセスです。
分析した結果は表やグラフなどで可視化し、わかりやすい状態にしましょう。
主な分析の基準として、分布図などにより全体の傾向を分析することや条件の違いによる比較、時間の経過による変化、指標間の関連性などを確認します。
C(conclusion:結論)
分析結果を考察して解釈し、知見を導き出します。
最初の仮説に対してどういう結論が出るかを検討し、問題の解決策を提案しましょう。
本キーワードの関連情報
今回のキーワードは、ITパスポート試験シラバスの、以下カテゴリに分類されています。
試験のご参考にもなれば幸いです。
カテゴリ:ストラテジ系 / 大分類1「企業と法務」 / 中分類1「企業活動」
2. 業務分析・データ利活用
目標「身近な業務を分析し、データの利活用によって問題を解決するための代表的な手法を理解し、活用する。業務を把握する際のビジュアル表現を理解し、活用する。」
説明「身近な業務を把握して分析する手法、代表的なビジュアル表現、データ利活用、OR(Operations Research)及びIE(Industrial Engineering)の手法を理解し、活用する。」
(3) データ利活用
・データを分析して利活用することによる、業務改善や問題解決
③ データサイエンス,ビッグデータ分析
・データの特徴を読み解くことでの,起きている事象の背景や意味合い
・データサイエンスにおける帰納的推論の重要性,及び利点と欠点
参考・引用元資料
【ITパスポート試験】試験内容・出題範囲
https://www3.jitec.ipa.go.jp/JitesCbt/html/about/range.html
ここまで読んで頂いて、誠にありがとうございます。今後ともどうぞよろしくお願い致します。