Book

情報が溢れかえる時代の数式を使わないデータマイニング入門

統計分析は、情報が高コスト出会った時代に確立された学問体系です。一方、現代は巷に情報が溢れかえっています。その差が指し示すのは、分析対象が深度を増すことであり、従来は分析対象にしなかった/できなかった情報も対象にできる、すなわち、対象の幅が広がることでもあります。理系でない人にでもわかりやすく、数式を使わないでデータマイニングを解説した書籍。

ビジネスで使われるデータマイニング

例えば図2-2は、自分の店を取り巻く商圏の予想である。常識的には、自店舗を中心に円周を描くように商圏があると考えられるだろう。広報活動をするならば、この予想商圏にチラシをまいて強くアプローチしたいところである。しかし、アンケートをとって顧客の居住地域を確認してみたら、ほとんどの人が予想商圏のなかに住んでいなかった。店主としては頭をかかえてしまうところだ。これでは、いくら予想商圏にチラシをまいても無駄になってしまう。

このアンケート結果を踏まえて商圏を再設定しチラシを巻く地域を変更することだってできる。この例だと、自店舗に隣接してバイパス道路が通っていることが確認できる。バイパス道路へのアクセスは競合店舗よりも有利。加えてバイパスを少し下ったところには新興住宅地がありその住宅のほとんどは駐車場を備えていたとしたらどうだろう?駅まで遠く車を保有しているのであれば買い物などでも車を使うことは容易に想像できる。この新興住宅地から車でアクセスすることを考慮した場合、競合よりも自店舗の方が条件的によい。最初に設定した自店舗の周囲に円形に巡らせた予想商圏外からの顧客が多い事実への回答が導き出された。この分析が正しければ、チラシを巻く場所を新興住宅地に変更したり、店舗の駐車場を拡充したりといった対策を講じることができる。

データマイニングの欠点

なんども述べたように、データマイニングは、おびただしい情報のなかから規則や法則を見つけ出してくれるが、そのほとんどは役に立たない法則か、意味のない法則だと考えておいた方がよい。もとになるデータのみならず、見つけ出した法則のなかから役に立つものを選び出さなければならないのだ。

例えば、異性との交友をしないと誓い合った友達がいるとする。そのなかに裏切り者が一人いるとして、犯人をあぶり出すのにデータマイニングを使おうとする。

  • メールを出した回数
  • 化粧をしてきた回数
  • 落し物をした回数
  • 飲み会を断った回数
  • 洋服を買った回数
  • 映画館にいった回数
  • 警察に捕まった回数

以上のようなデータが手に入った時、メールを出した回数が多かったAくんが怪しいと推定してみよう。しかし宛先はみんな関係ないところで、しかも異性との交友をしないと誓いあう前から、Aくんはメールの送信量が多かった。見当はずれなデータだったことがわかる。

実際に、一回のトライでピタリとデータマイニングが成功することはあまりない。何回かのトライアンドエラーを経て、不必要な属性か判断したり、最大値か平均値かなどのチューニングを行なっていくのである。

効率的に判断するーー決定木

デートに誘ったものたちが残したデータ

名前     誘った場所     誘った方法     結果

Aくん     人気のない公園   会って誘った    成功した

Bくん     映画館       会って誘った    成功した

Cくん     映画館       電話で誘った    成功した

Dくん     人気のない公園   電話で誘った    失敗した

Eくん     メイドカフェ     BBSに書き込んだ  失敗した

Fくん     メイドカフェ     電話で誘った    失敗した

Gくん     人気のない公園    会って誘った    失敗した

Hくん     映画館        BBSに書き込んだ  失敗した

このようなデータから次のようなことがわかる。

  • 電話で誘おうが、BBSに書き込もうが、ともかくデートの場所にメイドカフェを選んではならない。
  • 映画館に誘うのは成功率が高いがBBSに書き込んで誘った場合、失敗することが予測されるので避けるべき。それだけBBSには負の力がある。
  • 人気のない公園に電話で誘うと失敗する。しかし会って誘った場合は、成功する可能性がある。現状のデータでは五分五分だ。どうしても人気のない公園でデートしてければ、会って誘うべき。その際も五分五分だということを頭に入れておく。

たとえそれが自分にとって本意ではなくても、確実に、デートを成立させたければ、映画に誘うべきという結果に。だが映画館をデート先に指定する際も油断は禁物。BBSに書き込むというミスをしてしまうとデート成立の可能性は一気に0%になる。

他にも、さんまが売れると17%の確率で一緒に大根も売れる。こういったデータから、売り場を工夫したりと日常にある些細なことを数式を使わずに捉え、体感できるような書籍になっています。データマイニングという言葉に引っかかったら読んでみると良いでしょう。

※この書籍はKindle Unlimited読み放題書籍です。月額980円で和書12万冊以上、洋書120万冊以上のKindle電子書籍が読み放題になるサービスが初回30日間無料となっております。PCの方はサイドバーのリンクより、スマホの方は下の方へスクロールしていただければリンクが貼ってありますので興味のある方はどうぞ。なお一部の書籍はキャンペーンなどで無料になっていて現在は有料となっている場合もありますのでその場合はあしからず。

【サブスク】 Kindle Unlimited

Kindle Unlimitedの詳細はこちら

僕が利用している読書コミュニティサイト

【本が好き】https://www.honzuki.jp/

【シミルボン】https://shimirubon.jp/

-Book
-, , ,

© 2024 51Blog Powered by AFFINGER5