未だに小学生レベルの陰謀論とか

イマドキの検索エンジンが持つ、日々裏でアップデートされる十重二十重のアルゴリズムと、何千何万というクラスタ構成を考えれば、検索結果に静的動的な揺らぎが存在することは容易に理解できる。
例えばgoogleは昔から、本命のbotとは異なる、blog界隈や特定サイトのみをクロールするbotを持っていて、そこから生成されたインデックスは最新ニュースに類するものとして、そのエントリのPageRankとは関係なく上位に設定される(出来たてのエントリに対してPageRankはまだ計算されていない)、ただしこのbotのクロール結果は数日〜数週間程度で消えてしまう。その後、本物のbotが再びやってくると、今度は正しくPageRank付けされ、(正当な位置である)遙か後方に再度インデックスされる。従って、ほぼ全てのblogのエントリは、あるキーワードで検索した場合、エントリ上梓後数日〜数週間は非常に上位に上がってくるが、その後全くヒットしなくなり、さらに0日〜数週間(クロールのタイミングによる)経つと、下位のページにひっそりと現れるようになる。海外でblogが流行りだし、「googleの更新が遅い」と批判が増えた時期から、こういう動作が顕著になった。
この数日とか数週間とかいうタイミングは、サーバ負荷と検索品質の間で、技術者が裏で毎日のようにチューニングしている。アルゴリズムの細部もだ。おそらくは上記のような動作も、今はもう少し穏やかな遷移を辿るだろう。多分本命botのクロールタイミングも、ガベージコレクションのように、洗練化されているはずだ。
それから、もっと巨大で泥臭いシステムがSPAM/SEO避けだ。これはもう、どの段階でどうやって弾いているのか全く分からない、最高機密の一つだ。構造上の特徴を抽出しているのだろうが、それ以外にも直感的なアルゴリズムが山盛りなんだろうと想像する。
googleの精度がPageRankで支えられていたのは過去の話だと思う。知っての通り、googleの殆どのコードは社内オープンソースによって全社員に公開されているが、google web検索アルゴリズムはclosedだ。情報漏洩によるSEOリスクや、「google八分」リスト管理の問題もあるだろうが、「エレガントで楽しいコードばかりのはずのgoogleの中枢にある意外な泥臭さに、社員がやる気を無くすのを防ぐ」という狙いもあるんじゃないかと疑ってみたりしている。
ちなみに、画像検索が機密扱いなのかどうかは知らない(´・ω・`)

つまり、真実は、google検索コードにcommit権を持つ一握りの社員の中にDKの熱烈なファンがいたって事なんだよ! ΣΩΩΩ