IoTとセンサーによる情報収集、それにAIの存在。これらはビッグデータと呼ばれる膨大な情報をいかに処理するかが鍵となっています。また、データサイエンスも近年注目を浴びているジャンルでしょう。これらすべての基礎となるのが統計学なのです。本書は東大生が教養課程で学ぶ統計学の授業のエッセンスをまとめたもの。極力数式を排除し、文系の方でも概念を理解できるように編集しています。統計学の入門書として最適の一冊です。
概念の計量化
私たちはデータを読む際、たとえばGNPや知能指数など数値を読む際、それらの背後に一般的な概念を想定し、データはその代理と捉えていることがほとんどではないでしょうか。つまり、「経済活動の規模」や「知的能力」などが真の関心の対象としてあって、それらを数値で表現したものとしてDNPや知能指数などのデータがあるということです。このようにデータには概念を数値によって表現する働きがあります。データは数値で与えられるため客観性があります。ただし、数値そのものは客観性があります。ただし、数値そのものは客観的ですが、データと概念との対応は必ずしも一意ではなく、分析者の見方や主観に依存します。
データを読む際、注意しなければならないのが分析者によって主観がある程度入り込むこと。数値そのものには客観性があるだけに、誰が見ても同じであることが望まれますが、データを扱う上では注意すべき点かと思います。
予測
ビジネスでは未確定の数値を事前に予測することが必要となるケースがあります。その際、感覚的な予測ではなく、統計学的根拠を持った予測を行うことができれば、より望ましいと言えるでしょう。統計学の手法を用いれば、予測値が何を前提に得られたものであり、精度がどれほどかについて、事前に明らかにすることができます。たとえば、年齢と血圧、日最高気温と清涼飲料水の売り上げなどは、前者の値が大きくなればばるほど、総じて後者の値も大きくなるという関係があると言えそうです。このような未確定の数値予測に用いられる統計手法の代表例には、回帰分析と時系列解析があります。
変量データの要約法として最も基本的なものは度数分布表とヒストグラムです。度数分布表を用いると、数値だけでは見出しづらいデータの特徴を、容易につかむことができるようになります。度数分布表を柱状グラフで表して、データ分布の視認性を高めたものがヒストグラム。便利だが取り扱いには注意が必要。
データの尺度水準
データや変量は、測定に用いられる単位や尺度の性質によって4つの水準に分類できます。①名義尺度は分類や区分を表す変量の尺度で、性別などが典型です。分類や区分に順序や大小があると②順序尺度です。たとえば満足度を(不満:1、普通:2、満足:3)と表す場合がそうです。ここで「不満」と「普通」の差の1に意味はありませんが、この差に意味がある場合もあります。それが③間隔尺度で、温度や西暦などが該当します。④比尺度は間隔だけでなく比率にも意味のある変量の尺度で、速度や長さなどがそうです。一般に質的変量は名義尺度か順序尺度、量的変量は間隔尺度か比尺度の水準を持ちます。
メディアンはデータを大きさの順に並べ直した時、ちょうど中間の位置にある測定値と定義されます。平均と同様にデータの分布の中心を示す数値です。中央値や中位数とも呼ばれます。メディアンは極端な値の影響を受けにくいという特性を持っているので、データの性質に応じて使い分けたい。
加重平均
2つの会社の賃金を比較するため、両社から100人の社員を無作為に抽出して賃金の平均を計算したところ、A社は630万円、B社は600万円でした。それぞれの年齢分布と年齢別賃金は以下の通りであったとします。20代‥‥A社15人(300万円)、B社30人(400万円)、30代‥‥A社25人(500万円)、B社30人(600万円)、40代‥‥A社25人(700万円)、B社20人(700万円)、50代‥‥A社20人(900万円)、B社10人(900万円)、60代‥‥A社15人(700万円)、B社10人(700万円)。各年齢層についてみれば、B社の方が賃金が高い(もしくは等しい)ことがわかります。B社は若年層が厚いため、平均で見ればA社より賃金が低くなるのです。対処として両社の年齢分布を揃えて平均を計算する方法があります。A社の年齢分布ごとの人数を基準としてB社の平均を計算すると、各社の平均はA社が630万円、B社が670万円となり、B社の賃金のほうがA社よりも大となります。この平均を加重平均、特に「A社の年齢分布をウエイトに用いた加重平均」と言います。
散らばりが小さいデータの場合、少しの数値の違いで大きく平均から乖離することになる。
大学4年間の〇〇学が10時間でざっと学べるシリーズの統計学版。図版や表などもふんだんに使われており、極力数式などを使わないで解説されており、文系の僕でも比較的楽に読み進めることができた。これからは様々な分野で統計が役立つと思っているので入門編としては秀逸な作りとなっております。
【サブスク】 Kindle Unlimited
僕が利用している読書コミュニティサイト
【本が好き】https://www.honzuki.jp/
【シミルボン】https://shimirubon.jp/