一義的な重要度

GooglePageRankページランクアルゴリズムはとても有名で、非常に実効性の高いアルゴリズムであることがよく知られている。
ただし、これは検索結果の順位づけに関する万能薬ではない。最終的に順位づけをするにあたっては、検索ワードがそのページ中のどこに出現したのか、あるいは他ページのアンカーテキストなのか、といったあたりが重要視されるのではないかと思う。この辺に関してはかなり細かいチューニングをしているだろう。
経験を踏まえて検索の純粋に技術的な面から考えると、ページランクのありがたみは、それが検索ワードに関わらない一義的な重要度を示す点にあると考えられる。
つまりこういうことだ。検索時にインデックスデータからひっかかった件数が非常に多い場合、全ページのスコアを計算して並べ替えるためには相当な処理コストを要する。計算量もさることながら、巨大な一時領域の確保が必要だ。
ところが、前もってページごとの一義的な重要度が与えられていれば、大幅に処理負担を軽減できる。つまり、ページランクが分かっていれば、検索時にインデックスデータからページをひっかけた時点で、ほとんど計算なしに捨てても良い情報かどうかを判断できるのだ。(もちろんヒット数が少ない場合は全てのページを使えば良い。)
あるいは、あらかじめインデックスデータ中でページの情報をページランクに応じて並べ替えておけば、必要な分だけ取ってくることができる。おそらく、人気の高いワードの場合、ページランクの低いページは最初から相手にもされないだろう。
膨大でゴミの多いデータをすばやく処理するためには、図書館の蔵書検索に代表されるような古典的な検索システムとは全く発想を切替えなければならないのだ。