未踏ソフト創造事業の支援を受けて、現在開発中の「グーグル八分発見システム」ですが、まだ未完成&説明が不足しているということもあって、どのようなことを目指しているプロジェクトなのか良く分からないと思います。最近、初音ミクのグーグル八分が話題になっていることもありますし、若干関係ありそうな例をあげて、説明したいと思います。

まずは、以下のグラフを見てください。このグラフは、2006年11月16日から2007年9月30日にかけ、Googleで「亀田興毅」を検索した結果を、整理してグラフにしたものです(上にあるもの程、順位が上)。

拡大

整理条件

  1. 上位20件に、1度でも出現したURLのうち、
  2. 2007年10月18日の検索結果で、上位100件に入っているものを除外、
  3. さらに、幾つかのニュースサイトを除外(ニュースサイトは、記事の保存期間が短いため)

つまり、このグラフに表示されているのは、2007年10月18日現在「Googleで検索できないサイトの過去の順位変動」ということになります。

これを見て分かるのは、まず水色の線が全期間に渡って上位に表示されていることです。これだけ長期間、上位に表示されているにも関わらず、10月18日には消えているというのも不思議です。このページは、読売新聞社のサイトに掲載されていた亀田興毅の「ハジ」と「ハシ」というタイトルのコラムです。現在は消えていますが、WebArchiveで調べてみると、記事の日付が2006年10月6日となっていますから、保存期限が1年なのかもしれません。

次に特徴的なのは、上下振動していますが、ほぼ全期間に渡って表示されているピンク色の線です。これは、ブログ村の亀田興毅・亀田家 トラコミュというページです。info検索では表示されますから、明示的なグーグル八分にはなっていないようです。ここで、「明示的なグーグル八分」と書いたのは、順位を大幅に下げる形で行われる「明示的ではないグーグル八分」があるからです。

さらに、白い線が、2007年6月頃に、突然切れているのも気になります。上位に表示されているページが突然消えるのは、何らかの操作が行われた可能性があります。このページは、アキバblogの「チャンピオン亀田興毅セール」をしない理由というページです。これも、info検索で表示されますから、明示的なグーグル八分ではありません。

とまあ、何が分かるのか分からないのか、良く分からないと思いますが、一つ確実に言えることは、このような順位の履歴を一般利用者が手軽に見ることは不可能ということです。先ほど、WebArchiveというサイトを出しましたが、このサイトは「あるページの履歴を機械的にドンドン保存しているサイト」です。これにより、あるページで、どのような変更もしくは改竄が行われたか、すぐに分かるようになっています。悪徳会社のサイトが閉鎖されたとしても、過去のページを見ることができるため、すごく便利です。

しかし、検索結果のWebArchiveは存在しません。検索結果の履歴を保存しようとするとデータが膨大になりますし、そもそも「どのようなキーワードを設定すれば良いのか分からない」からです。

グーグル八分発見システムは、簡単に言うと、まずは分散コンピューティングによって「検索結果のWebArchiveを構築する」というプロジェクトです。さらに、そのデータを統計処理して「疑わしい動きをする順位変動をピックアップする」ソフトということになります。ピックアップが不完全でも、順位変動の「見える化」によって、人間の目で見て何か発見できるかもしれません。そして、監視するキーワードも、各利用者が自由に追加できるようにします。

なお、このグラフは、現在、私が運用している「グーグル八分発見システム・テスト版」にて得られた結果を、Excelでグラフにしたものです(9月30日までしかないのは、ディスクが満杯になっていたシステムにバグがあったためです(^^;)。他にも幾つかのキーワードを監視していますが、昨日、「初音ミク」を追加しました(^^)。

さて、「グーグル八分発見システム・未踏ソフト版」の完成予定は来年3月です。完成まで待ってもらっても良いのですが、既に、β版への参加を募集しています。精度および完成度を高めるために、どうぞインストールしてみてください。そして、掲示板に何か書き込んでみてください。諸君らの参戦を心より待っています。

グーグル八分発見システム Project ∞Eyes(エイト・アイズ)

参考:


Tags