スライドモード

データ分析・データ利活用 ITパスポート対策ストラテジ系-企業と法務編②

4 views

2023-10-122023-09-24

データの種類

量的データと質的データ

統計では、種類や順序が区別されるだけのデータを量的データ(質的変数)、間隔や比にも意味があるデータを量的データ(量的変数)といいます。

更に詳しくみるとと、質的データは、製品名、性別など違っていることだけに意味がある名義尺度と好きなものランキングなど順序にも意味がある順序尺度に、量的データは、気温、西暦など間隔には意味があるが比には意味がない間隔尺度と速度、値段など比にも意味がある比例尺度で分類されます。

データの種類(質的データ(名義尺度、順序尺度)、量的データ(間隔尺度、比例尺度))

1次データと2次データ

ある目的のために自社で新規に収集するデータを1次データといい、既に別の目的のために収集されているデータを2次データといいます。

1次データ製品の満足度を調べるため行う新規に行うアンケートのデータ
2次データ官公庁の統計データ、外部研究機関の公表済みデータ

2次データには低コストで利用できるというメリットがありますが、必要とするデータが存在していない場合もあるのでその際は自力で1次データを収集することになります。

構造化データ非と非構造化データ

構造化データとは、一定の構造となるように整形されたり、利用しやすいように意味付けされたデータのことで、非構造化データはその様な処理がされていない生のデータを意味します。

非構造化データを構造化するには、分類する、関連付ける、メタデータ(データの特徴を表す付加的なデータ)を付与するなどの前処理を行う必要があります。データに対して注釈を加えることをアノテーションともいいます。

調査データと実験データ

何らかの明確な意図をもって収集されたデータを調査データといい、計画された実験に基づき取得されたデータを実験データといいます。

マーケティングでよく使われる情報の収集方法には以下があります。

アンケート質問項目を予め決めておき質問票を配布するなどして解答を得ます。
インタビュー対象者と直接対話することで解答を得ます。事前に質問項目を決めておく構造化、ある程度質問項目を決めておくが、対象者の反応をみてさらに自由に質問をしていく半構造化、テーマだけ決めて質問項目を予め決めず対話を進めていく非構造化インタビューがあります。
フィールドワーク観察者が対象者と行動を共にすることによって知見を得る手法です。

ログデータ

ログデータとは、何らかの動作が時系列で記録された履歴データです。

機械の稼働履歴データやコンピューターの操作履歴データなどがこれに該当し、ログデータを分析することで、異常の発生やサイバー攻撃の証拠などを知ることができます。

時系列データ

時間の経過に沿って記録されたデータを時系列データといいます。例えば、気温、日々の売上、株価などです。

時系列データの特徴を調べる手法としては、移動平均がよく知られています。これは「直近3ヶ月」など区間を区切って平均値をとるもので、移動平均値をグラフ化するとデータの長期的な変化の傾向が捉えやすいという利点があります。

移動平均の求め方

データの種類によっては、季節によって大きく変動することがあります(例えば海岸を訪れる人の数は夏に多く、冬に少なくなることが考えられます)が、比較、分析しやすいようにこうした季節変動の影響を取り除く操作を季節調整といいます。

クロスセクションデータ

ある一定の時点において複数の対象の情報を横断的に集めたデータのことをクロスセクションデータといいます。

CSV

Comma Separated Valueの略で、カンマで区切ったデータを意味します。

例えば、値1,値2,値3,値4といったデータです。

データ分析と可視化手法

統計学的検定

全数調査と標本抽出

何かデータをとりたい時、その対象全てに対して調査を行うことを全数調査といいます。

国勢調査などがこれに該当し、そのデータは非常に信頼性が高くなりますが、対象数が膨大である場合、すべてに対して調査を行うのはコスト的に難しい場合が多く標本調査という手法もよく使われます。

標本調査では、対象となる集団全体(母集団)の中から単純無作為抽出、層別抽出、多段抽出などの方法により、標本(サンプル)を選び、その標本に対して調査を行います。

標本抽出のイメージ

仮説検定

母集団に関するある仮説が統計学的に成り立つか否かを、標本のデータを用いて判断することを仮説検定といい、仮説が正しいか間違っているかを判断する基準となる値を有意水準といいます。

また、仮説が正しいのに棄却してしまうことを第1種の誤り(第一種の過誤)、仮説が間違っているのに棄却できないことを第2種の誤り(第二種の過誤)といいます。

ヒストグラム

縦軸に度数、横軸に階級をとった棒グラフのことをヒストグラムといいます。

ヒストグラムはデータの分布(ばらつき)を把握するために用いることができ、例えば製造している同一部品のサイズデータを元にしたヒストグラムならその形は、ベル🔔の様な形(正規分布)になることが想定されますが、もしそうなっておらずいびつな形になっている場合、機械の故障など何等かの異常が発生していることが考えられます。

正規分布のヒストグラム

パレート図

各項目を度数の大きい順に並べた棒グラフとその累積構成比を表す折れ線グラフを組み合わせたグラフをパレート図といいます。

また、構成比率を基に各項目をA、B、Cのグループに分類し管理する手法をABC分析といいます(例えば、累積構成比70%以下はA群、71~90%以下はB群、下位91%以上はC群とします)。

パレート図とABC分析

特性要因図

特性とそれに影響を与える要因の関係を表した図を特性要因図といいます。魚の骨の様な形をしていることからフィッシュボーンチャートとも呼ばれます。

特性要因図のイメージ

管理図

管理図は、製品の品質管理等に使われるもので、横軸に時間をとり、中心線(CL)、上方管理限界線(ULC)、下方管理限界線(LCL)を引いて異常が発生していないかを素早く把握するための図です。

管理図のイメージ

系統図

概念を大きなものから小さなものへと枝別れさせながら展開していった図です。

機能別組織のイメージ

散布図

横軸と縦軸にそれぞれ別の量をとり、各データをプロットしていった図で、両者の間にある相関関係を明らかにすることができます。一方の値が増えるともう一方の値も増えるなら右肩上がりになり正の相関、一方の値が増えるともう一方の値がなら右肩下がりになり負の相関です。

また、最小二乗法などにより各データの関係を近似する回帰直線を求めことを回帰分析といいます。

散布図と相関

注意しなければならないのは、相関関係があるからといって必ずしも因果関係があるわけではないという点です。2つの事象に因果関係がないのに見えない要因によってあたかも因果関係があるように見えてしまうことを擬似相関といいます。

その他

マトリックス図データを行列形式で表した図表。
箱ひげ図データの分布を箱とひげで表した図。ひげの端が最大値、最小値を表し、箱は四分位範囲を表す。
ヒートマップ個々の値を色や濃淡として表現した図表。パソコン画面でどの部分がよく見られているかを表す際などに使われる。
レーダーチャート複数の項目の値を正多角形上にプロットして結んだグラフ。
モザイク図各属性の割合(構成比)を可視化したグラフ。
クロス集計表データを2つ以上の項目ので集計した表。
複合グラフ棒グラフと折れ線グラフなど複数の種類のグラフを組み合わせたグラフ。
ロジックツリー問題を木構造で表し、原因や解決法を論理的に探す手法。
コンセプトマップ概念間の関係を表した図。概念地図とも。
チャートジャンク過剰装飾などにより誤認を招く図表。意図的に誤解を招くよく作られたものも指す。
レーダーチャート・箱ひげ図・クロス集計表

データの活用

データの活用関連の出題用語には以下があります。

BIツールビジネスにおいて有益な情報(Business Intelligence)を収集、加工、分析、可視化し、意思決定に役立てるためのツール。
データウェアハウス大規模なデータを蓄積しておくためのデータベース。
データマイニング大量のデータを分析し知見を発見する営み。
テキストマイニングテキストデータを対象としたデータマイニング。自然言語処理により文章を単語レベルに分解してある単語と一緒に出現する確率の高い共起キーワードを調べるなどが行われる。
データサイエンス統計や機械学習などの手法を使いデータを分析して知見を得ることを目的とする学問。これを行う人をデータサイエンティストという。
A/BテストA、B、2つのパターンを用意しておき、どちらに対して反応がよいかを調べる手法。WEB広告でよく使われる。
GISGeographic Information System = 地理情報システム。位置に関する様々なデータを電子的な地図上で扱う情報システム。形状や位置。関連する属性情報を持ったGISで使われるファイル形式をシェープファイルという。

確認問題(過去問)

ITパスポート試験平成31年春問41

システムのテスト中に発見したバグを, 原因別に集計して発生頻度の高い順に並べ, 累積曲線を入れた図表はどれか。

ITパスポート試験平成28年春問32

品質管理において, 測定値の存在する範囲を幾つかの区間に分け, 各区間に入るデータの度数を棒グラフで表したものはどれか。

ITパスポート試験令和5年問38

システム開発プロジェクトの品質目標を検討するために, 複数の類似プロジェクトのプログラムステップ数と不良件数の関係性を示す図として、 適切なものはどれか。

ITパスポート試験平成28年秋問27

蓄積された販売データなどから, 天候と売れ筋商品の関連性などの規則性を見つけ出す手法を表す用語はどれか。

ITパスポート試験令和4年問34

あるオンラインサービスでは,新たに作成したデザインと従来のデザインの Web サイトを実験的に並行稼働し,どちらの Web サイトの利用者がより有料サービスの申込みに至りやすいかを比較,検証した。このとき用いた手法として,最も適切なものはどれか。

ITパスポート試験令和2年問7

蓄積されている会計,販売,購買,顧客などの様々なデータを、迅速かつ効果的に検索,分析する機能をもち,経営者などの意思決定を支援することを目的としたものはどれか。

基本情報技術者試験令和元年秋問63

企業がマーケティング活動に活用するビッグデータの特徴に沿った取扱いとして,適切なものはどれか。

これだけで受かるITパスポート

https://ja.mondder.com

link-image

IT・ICT

ユーザーアイコン

Official

このアカウントで公開されている過去問に解説をつけたいという方がおられましたら問題差し上げますのでご連絡下さい。。

TwitterLINEHatenaURL