統計学入門メモ
<概要>
現状、企業や組織には業務における大量のデータを保有しています。
今までは管理しきれないため見過ごされてきたデータ群を記録・保管して即座に解析することで、
ビジネスや社会に有用な知見を得て、これまでにないような新たな仕組みやシステムを産み出す可能性が高まります。
本研修ではデータの活用の礎となる、統計学の手法を理解し、数値の捉え方をケーススタディから学習します。
<対象>
企業内データを分析する方法を学びたい方、上流工程で業務の分析、改善を行う方。
<目標>
ビジネスにおける統計学の重要性を理解する。
代表的な統計手法の種類を理解する。
代表的な統計手法をビジネスで活用できる。
<メモ>
【第1章】ビジネスにおける統計学の重要性
目的)
規則性を発見し、将来を予測するため。
求められるスキル)
1.どの手法を適用すればよいか?- 統計学の手段を選ぶこと
手段を選ぶスキルが必要。
数学は不要。深掘りすれば必要かもくらい。研究職の仕事。
ビジネスでは優先度低い。
2.正しく結果(事実)を読み解く
分析の必要性)
客観的で説得力のある説明が求められている。
意思決定のための材料。
→成功確率が求められている。
例 受注データ ⇔ 年代の客層
欧米のMBA必須科目は統計学
データ分析の手順)
統計学は万能ではない。
1.目的設定
2.仮設づくり
3.データ収集
4,分析方法の決定
5.分析実施
6.結果解釈
データ分析は仮説検証型
目的設定-仮設づくり
誤解 → データ分析すれば何か出てくるのでは??
※狙いと仮説が必須
目的 顧客減少の原因は何故か
→仮説 商品満足度が落ち込んでいる?
→分析方法の決定 相関分析
→分析実施
→結果解釈 結論を導く or 再度検証
SW)
統計ソフトウェア
→SASという製品(大規模向け)
特徴 CUI中心
→ある程度ITリテラシー必要
→SPSS IBM社
中規模向け
→R言語
※注目されている
※OSS
大規模であるが手軽に使える
オラクルが採用。
→もともと学者が使っていたもの
敷居高い。CUIなので。
Excelで十分学べます。
【第2章】代表的な統計手法
記述統計学と推測統計学)
記述統計学 → 多くの情報を集約・要約する
1年間の受注実績データ
ヒストグラム、標準偏差
推測統計学 → 得られたデータから未知のデータを推測
一部のデータから全体を語る
視聴率(サンプルをもとに傾向をつかみ全体を語る)
なぜ2つ必要か?)
両方共組み合わせて使う
一般的な順番
1.記述統計
→2.推測統計
まずは記述統計学を行い、使用するデータを絞っていく
データの外観を捉えることが大切。
1で特徴あるデータを捉え、2で深掘りしていく。
記述統計学)
ヒストグラム
→データを一定の範囲に分けて視覚化
→可視化しないと出てこない発想
代表値
→平均値、中央値、最頻値
→どのデータが妥当か検討
分散と標準偏差
→標準偏差:人間が見た時に見やすくしたもの
例 ±3.8万円(標準偏差)
基本統計量:統計学で基本的な指標となるもの
(平均値、中央値、最頻値、分散、標準偏差)
散布図
右肩上がり(正の相関関係)
外れ値を最初から無視するのではなく、内容を吟味したほうがよい
→イレギュラーデータが明確になることでビジネスチャンスがあるかも
相関
相関係数:2変数の関係の強さを表す指標
→絶対値が1に近づくもの=相関が強い(すなわちゼロは相関なし)
→一般的に0.7以上だと相関関係ありと言える
→擬似相関には注意(直接的な相関なし)
推測統計学)
母集団と標本
母集団:語りたいこと(目的・ゴール)
標本 :手元のデータ
前提→基本的に正規分布に従う
単回帰分析
単回帰式→予測式 y=ax+b
説明変数 説明材料(例:最高気温)
目的変数 求めたいもの(例:売上)
y(目的)=ax(説明)+b
手順あり
重回帰分析
説明変数が2つ以上だと重回帰分析
y=a1x1+a2x2+a3x3+・・・
※考え方として、説明変数をなるべく小さくする
※説明変数が互いに相関関係があると誤った答えが導かれてしまう
例:駅からの距離、駅から徒歩時間
検定
F検定
t検定
x2検定
分散分析
0 件のコメント:
コメントを投稿