51Blog

興味のあることや本の感想などを綴っていく雑記Blogです。

データ・サイエンティストが明かす巨大データ企業の秘密とは?

      2017/09/09

米Amazon 元チーフ・サイエンティスト。ジェフ・ベゾスとともに買い物の常識を変えた科学者が明かす巨大データ企業の秘密。インターネット検索やグーグルマップ、フェイスブックでの「いいね!」やインスタグラムへの写真の投稿など、意識的、無意識的に残すデジタル痕跡を通じて、あなたがいつ、どこに行ったのか、どんな人とどれくらい親密につきあい、何に関心を持っているかがデータ会社に把握されている。ただ、一人ひとりについて蓄積される膨大なデータは、われわれの日々の意思決定の質を高め、人生を豊かにする可能性も秘めている。

ソーシャルデータの量は18ヵ月ごとに倍増

一〇億人以上が日々、こんな具合にソーシャルデータを生みだし、共有している。「ソーシャルデータ」とは、あなたに関する情報だ。あなたの動き、行動、関心。それに場所、製品、さらには思想信条とのかかわりについての情報も含まれる。なかには、意識的に提供するデータもあるだろう。たとえばグーグルマップを開き、目的地を打ち込むのはそれにあたる。一方、インターネットやモバイル端末を便利に使うなかで、たいして考えもせず提供するデータもあるだろう。

無料アプリをインストールする際、様々な個人情報をデータ共有することが、サービスを受ける条件であることは多い。僕らの所在地を誤1m以内で示す正確性もあるが、不完全で大まかなことも多い。所在地の経度と緯度は正確に把握しているものの、グーグルが推測した僕らの行動はまるで的外れであることも。受動的か積極的か正確かそうでないかといった違いはあるにせよ、ソーシャルデータは日々蓄積され18ヵ月ごとに倍増するという。5年も経てばソーシャルデータの量は約10倍と一桁多くなる。インターネットを介し集められた情報量の増加はグーグルの翻訳精度が劇的に上がったことなどからも読み取れる。

ソーシャルデータが日々追加されていることを考えれば、あなたがファイスブックに投稿した愛犬の写真の金銭的価値はあなたが持つ感情的価値とは全く違う。おそらく興味を持つ人は100人もいないだろう。つまりフェイスブックユーザーの〇.〇〇〇〇一%のも満たない。つまり個人情報といっても大量の情報が溢れかえる現在では、大した価値を生み出していないということ。インフルエンサーならまだしも一般人が影響力を持つことは稀だろう。

グーグルは検索結果のランクをどう決めているか

グーグルは検索結果のランク付けを改善するため、Webページの言葉だけでなく、さまざまな情報源からページの有効性を評価している。まずは特定のページにリンクしている他のページの数をもとに、内容の妥当性を評価した。外部からのリンクの数は、そのページに対する関心の高さを測る指標となった。ただ検索結果をランク付けする上で外部からのリンクの数が重要であることがわかると、悪名高いリンクファーム(ハイパーリンクによってページを相互かつ大量にリンクしているサイト)を含めた「SEO(検索エンジン最適化)産業が登場した。

グーグルのアルゴリズムは日々進化しており、あるページに本当に興味を持って個人が貼ったリンクと、ページのオーナーが得をするため貼られたリンクを区別する方法を学習するなど、新たな対応も。ユーザーがクリックしてページを訪れたあと、ざっと見ただけで検索結果のページに戻って別のリンクをクリックするまでの時間なども把握し、検索ワードランキンづを下げられるといった対応も取られている。

ネットに投稿された写真からパーティー好きか孤独な冒険者かに分類される

写真の背景や状況を分析するためのソフトウエアの開発も進んでいる。被写体がいるのが混みあったバーなのか、モニュメントバレーの小高い丘に一人佇んでいるのか、といったことが識別できる。どちらかにいることが多ければ、アルゴリズムによってパーティー好きか孤独な冒険者かに分類されるかもしれない。

個人情報を特定されるのが嫌な人の中には、アップの写真しかSNSにはあげないで、背景をできるだけ写らないように心がけている人もいるようです。特に女性なんかだと、普段よく行くお店を特定されたりなんかすると、下心を持った輩がリアルな世界で湧いてくるなんてこともあるので注意が必要。

ウーバーやエアビーアンドビーにおける信頼の構築

イーベイの売り手、エアビーアンドビーのホスト、ウーバーの運転手など特定のプラットフォームを頻繁に使う人は、必ず豊富なデータの痕跡を残す。一方、取引の相手方となる買い手、ゲスト、乗客は、一度しかサービスを使わないかもしれない(あるいは二度目は別の名前で使うかもしれない)。信頼性のあるエコシステムを作るため、エアビーアンドビーはさまざまなデータをもとに、ユーザーの身元や信頼性を確認している。そこには検索、レビュー、他ユーザーとの交信履歴、その他のフィードバックなどユーザ0自身がサイト上で生み出すデータもあれば、外部のデータもある。

透明性を高めるには情報開示が不可欠だ。特定ユーザーの評価やコメント一覧を開示するのも選択肢の一つだ。

データサイエンティストから見た、現代のさまざまなサービスや蓄積されて行くデータの活用に至るまでが記された書籍。僕たちが日々垂れ流している情報がどんな風に活用されているのかがわかれば、便利になった世の中の裏側が見えてきます。

 - Book , , , ,