ビジネスにおけるデータの分析や活用がますます重視される中、ビジネスパーソンが身につけておきたい素養の1つが「統計」です。数式を使った複雑な計算をしなければならないと考えがちですが、必ずしもそんなことはありません。また基本的な考え方を知っておくだけでも、冷静な判断がしやすくなります。
そんな「統計」の基礎を身につけるための短期連載第7回は、「因子分析」について解説します。
この連載の記事一覧はこちら
■潜在的な価値観を「因子分析」で特定する
昨今、モノや情報があふれる環境にあり、消費者の価値観は多様化している。一般的には、性別や年代といった属性で分けて消費者の行動の傾向を把握することが多いが、それだけでは不十分だ。消費者をより正確に把握するには、その人の価値観や志向を理解する必要がある。
例えば、同じ40~50代男性でもお茶の選び方はさまざまあるだろう。健康に気をつけている人は特保系のお茶を購入しやすいだろうし、節約を心がけている人ならばプライベートブランドの安価な商品を選びやすいだろう。忙しくて仕事に集中したい人ならば、そもそもお茶ではなくコーヒーになるかもしれない。
別の例で考えると、同じ20代の女性であっても、流行志向の女性がInstagramのハッシュタグ検索で見つけたカフェに行く一方で、定番志向の女性は行きつけのいつものカフェに行くかもしれない。
このように、同じ属性の人であっても、志向性によってその行動が変わってくると容易に想像できる。しかし、課題は「高級志向」「流行志向」といった消費者の内面をどうやって把握するか、という点である。
そうした際に用いられるのが「因子分析」という統計手法である。因子分析は多くの変数を説明することができる少数の変数を探り出すための手法で、消費者の行動や考え方に関する項目を聴取したアンケートを分析して潜在的な価値観を特定する、という使い方をされることが多い。本記事ではこの因子分析を紹介していく。
因子分析は、もともとは心理学の分野で発展してきた統計的データ解析手法の1つである。マーケティングの現場では、先程の例に挙げた高級志向、流行志向のような「価値観」もしくは「潜在意識」や、価格力やブランド力といった「商品やサービスへの評価」などを把握するために使われる。
マーケティング以外にも、知能テストの各設問の得点から「論理的思考力」「発想力」「読解力」といった能力を見出すなど、直接測定することが難しいものを広く特定することができる手法である。
因子とは何かしらの結果を引き起こす要因を意味しており、各項目(変数)に共通した要因である「共通因子」をデータから見つけ出すのが因子分析の目的である(※)。
※正確には、各項目に共通して背後にある要因の「共通因子」と、ある項目独自の要因「独自因子」の2つによって、実際のアンケート結果が表されていると考える。本記事内で「因子」という場合、基本的には「共通因子」を指す
例えば、スーパーマーケット来店者1000人へのアンケートに「①脂肪・糖質・コレステロールに気を遣う」「②カロリーに気を遣う」「③栄養バランスを整えるようにしている」という3項目があったとしよう。
それぞれ「強くそう思う」5点、「そう思う」4点、「どちらともいえない」3点、「あまりそう思わない」2点、「まったくそう思わない」1点で回答してもらうとする。
■直接的な聞き方だと回答傾向がぶれる懸念
因子分析では、これらの項目の点数を左右する何らかの共通因子が背後にあると考える。例えばこの共通因子が「健康志向」というものだとして、これが強い人は①から③の得点が高くなるだろう、と考えるのである。
これを実際に明らかにするために、①~③のアンケート結果を統計モデルに当てはめて共通因子を特定する。
複数の項目を基に共通因子を特定するなど回りくどいことをせず、「健康志向が強いかどうかを直接聴取してしまえばいいのでは?」と考える方もいるかと思う。
しかし、そうした直接的な聞き方だと質問内容が漠然としており回答しづらいため、回答傾向がぶれてしまうという問題が発生してくる。より具体的で回答しやすい①~③のような複数の質問を聴取して、共通性のある質問から「まとまり」として価値観を数値化するほうが安定するのである。
因子分析は、大まかに3つのステップに分かれる。
第1ステップでは因子の個数を決定する。第2ステップでは「因子負荷量」を基に各因子の意味を解釈して名前を付ける。最終ステップでは「因子得点」を計算して1人ひとりの価値観の強さを確認する。
これらの数値の計算は「R」「Python」「SPSS」「SAS」などのソフトウェアで行うのが一般的だ。Excel上で分析したい場合は、関西学院大学の清水裕士教授が開発したHAD (フリーのExcel用統計分析ソフトウェア)をダウンロードして使用するとよい(HADを用いたExcel上での因子分析の進め方についてはこちら)。
■抽出する因子の数を決め、各因子に名前を付ける
第1ステップでは、データからいくつの因子を抽出するかを決定する。事前に因子の数や構成について仮説がある場合はそれに基づいて因子数を決めるが、そうでない場合は統計ソフトが計算した指標を使って決定する。
後者の場合、1つの決め方としては「固有値」という指標が1以上かどうかを基準(ガットマン基準)に、重要な因子が何個あるかを判断する。
第2ステップは「因子負荷量」という指標を用いて、見つけ出した各因子に名前を付ける。因子負荷量の計算にはいくつかの方法があり、「最尤(さいゆう)法」が最もメジャーである。
アンケートデータを使って因子分析を行うと、表1のように因子負荷量の表が出力される。因子負荷量は、各項目に対してそれぞれの因子がどれだけ影響を持っているかを意味する値である。この値が1または-1に近いほどその項目への影響が大きく、0に近ければ影響が小さいと捉える。
表1を例に、具体的な命名の流れを見てみよう。
●表1:アンケート項目の因子負荷量
質問項目
因子1
因子2
因子3
①脂質・糖質・コレステロールに気を遣う
0.95
0.08
0.12
②カロリーに気を遣う
0.90
0.13
0.18
③栄養バランスを整えるようにしている
0.84
0.11
0.09
④食事はコンビニで済ませることが多い
-0.26
0.92
-0.23
⑤ファストフード店をよく使う
-0.38
0.81
0.10
⑥サプリで体の調子を整える
0.35
0.52
0.08
⑦食費を抑えるようにしている
0.13
-0.08
0.92
⑧安い食材を選ぶようにしている
0.18
0.13
0.88
⑨外食は控えるようにしている
0.32
-0.43
0.75
(外部配信先では図や画像を全部閲覧できない場合があります。その際は東洋経済オンライン内でお読みください)
まず「①脂質・糖質・コレステロールに気を遣う」から「③栄養バランスを整えるようにしている」は因子1の因子負荷量が高いので、因子1から強い影響を受けていることがわかる。それを踏まえると、因子1は「健康志向」と命名できる。
同様に、「④食事はコンビニで済ませることが多い」から「⑥サプリで体の調子を整える」は因子2の因子負荷量が高いことから、因子2を名付けると「簡便志向」と言える。最後に「⑦食費を抑えるようにしている」から「⑨外食は控えるようにしている」は因子3による影響が強いため、因子3の名前は「節約志向」と名付けられる。
こうして各因子の内容を解釈して名前を付けたら第2ステップは完了である。解釈と命名については、分析者が因子負荷量の数値と自分の知識を基に、主観的に行わなくてはならない。
■最後に1人ひとりの各因子の強さを確認する
そして最終ステップで、1人ひとりの各因子の強さを確認する。具体的には、各因子の回答者ごとのスコアを表す「因子得点」を確認する。因子得点は、前述の因子負荷量とアンケート結果を用いて計算される。計算方法としてメジャーなのが「回帰法」だ。
先程の例を基にすると、「①脂肪・糖質・コレステロールに気を遣う」から「③栄養バランスを整えるようにしている」の点数が高い回答者は、因子1=「健康志向」の因子得点が高くなる。この因子得点の計算によって、表2のようなデータを得られる。
例えば、回答者Aは因子2の得点が高く、簡便性という価値観を重視していることがわかる。同様に回答者Bは因子1と因子3両方の得点が高いことから、健康と節約を重視している……といったように、価値観を数値化して扱うことができるようになった。
表2:各回答者の因子得点データ(例)
回答者
因子1
因子2
因子3
健康志向
簡便志向
節約志向
A
-0.45
1.60
0.37
B
1.89
0.11
3.11
C
2.31
0.24
0.69
D
0.89
2.87
-0.21
E
0.09
-0.32
2.02
F
0.54
0.66
0.24
こうして因子分析で価値観を数値化したことで、属性だけで見ていたときよりも消費者を細かく把握することができるようになる。
例えば、因子分析の結果と回答者の購買データを掛け合わせたとすると、価値観による購買傾向の違いを検証できる。
健康志向スコアの上位20%とそれ以外で、特保系飲料の平均購入本数を比較したとしよう。表3の例の場合、健康志向スコア上位20%の人はそれ以外の人の3倍以上特保系飲料を購入していると読み取れる。さらに表4の例からは、そうした健康志向スコア上位の人は40~60代女性の比率が高いと読み取れる。
実際にマーケティングの現場で因子分析を使うケースでも、価値観の因子だけではどんな人がその志向が強いか見えてこないため、属性と掛け合わせて消費者を把握することが多い。また、今回の例では健康志向のみ取り上げたが、複数の因子を使えば、特保系飲料のシェアが大きいのはどういった価値観の消費者なのか、といった分析も可能である。
●表3:健康志向スコア×特保系飲料の平均購入本数(月当たり)
価値観因子
特保系飲料購入本数
健康志向スコア上位20%
12.7
それ以外
4.1
●表4:健康志向スコア×性別・年代
■アンケート項目に関係ない価値観は発見できない
今回は、潜在的な価値観や考え方を数値化する因子分析を紹介した。因子分析によって、どのような価値観があるかを発見し、またそれを数値化することで、人ごとにどの価値観が強いかを知ることができる。
ちなみに、今回紹介した、複数の項目の中から因子を探しだす因子分析を、探索的因子分析という。探索的因子分析の場合、聴取時点では意図していなかった因子が結果的に見つかる、というパターンもある。
ただし、アンケート項目にまったく関係ないような価値観は発見できないので、事前にある程度の想定をして項目を作成するのが重要である。対して、今回は紹介しなかったが、因子の構成や名前を事前に全て決めて行う因子分析を確認的因子分析と呼ぶ。確認的因子分析は、事前に立てた仮説にデータが当てはまるか検証するために行う。
因子分析によって発見、数値化した因子は、回答者の属性や購買履歴など他のデータと繋げることで、消費者の理解を深めるのに大いに役立つ。今回は複数の因子を事例として挙げたが、これらの因子同士は無関係ではない。健康志向が強い人は、コンビニやファストフード店の利用が少ないため簡便志向は弱いと考えられるし、新しく「ブランド志向」という価値観が数値化されれば、節約志向とは相反する傾向になると推測される。
このような複数の指標の関係性を基に、似た者同士をまとめていくつかのグループに分ける分析手法をクラスタリングという。次回は、このクラスタリングについて解説していきたいと思う。
東洋経済オンライン
最終更新:6/25(土) 8:01
Copyright (C) 2022 Toyo Keizai, Inc., 記事の無断転用を禁じます。
Copyright (C) 2022 Yahoo Japan Corporation. All Rights Reserved.