Google 検索はどう動くのか — 検索エンジン・インデックス・ランキングの基本

読了 5分

Google の検索窓にいくつか単語を入れてエンターを押すと、1 秒もしないうちに数百万件の結果が並んで返ってきます。あまりに見慣れていて不思議とも思いませんが、その短い一瞬に検索エンジンはかなり多くのことをしています。

今回の記事では、検索エンジンがどうやってそれほど多くのページをあらかじめ集めておき、私たちが探す単語に合う結果をどんな基準で選んで見せるのかを、コードなしで解きほぐしていきます。クロール、インデックス、ランキングという三つの段階が大きな流れです。

検索はその瞬間にウェブを探し回るのではありません #

まず、もっともよくある誤解から解きほぐします。検索窓に単語を入れた瞬間に、検索エンジンがインターネット全体を調べると思いがちです。しかし、それでは 1 秒で答えを返せません。ウェブには数千億ものページがあるからです。

代わりに検索エンジンは、あらかじめ作っておいた一覧をめくります。図書館で本を探すとき、書架を端から端まで歩かずに、まず検索台の目録を確認するのと同じです。検索が速いのは、検索するその瞬間ではなく、ずっと前から準備をしておいたからです。その準備がクロールとインデックスです。

クローラーがウェブを前もって巡回します #

検索エンジンは、クローラーというプログラムを放ってウェブを絶えず巡回させます。クローラーは一つのページを読み、その中に張られたリンクをたどって次のページへ移る、という作業を繰り返します。リンクがリンクへとつながり、一つのページから始まった探索が、だんだんと広い範囲まで伸びていきます。

こうして巡回しながら、クローラーはページの内容を集めていきます。どんな単語が入っているか、タイトルは何か、どのページとつながっているかを一緒に記録します。新しい記事が公開されたり、既存の記事が変わったりすると、クローラーが再び立ち寄って更新するので、検索結果も時間とともに変わっていきます。

ここから一つ、重要な事実がついてきます。クローラーがたどり着けない、あるいは内容を読めないページは、検索にそもそも登場できません。検索に出てきてほしいなら、まずクローラーが入って読める状態であることが前提です。

インデックスは、本の巻末の索引です #

クローラーが集めてきた内容をそのまま積み上げるだけでは、速く見つけられません。そこで検索エンジンは、集めた内容をインデックスに整理します。

インデックスは、本の巻末にある索引に似ています。索引は「この単語が何ページに出てくるか」を単語ごとにまとめた表です。検索エンジンのインデックスも同じように、「この単語が入っているページはどこか」を単語を基準にして逆に整理しておきます。だから私たちが単語を入れると、検索エンジンはその単語につながったページの一覧をすぐに取り出せます。

数千億ものページをそのつど読む代わりに、あらかじめ整理したインデックスを取り出して見るので、検索があっという間に終わるのです。

何を先に見せるか、ランキング #

インデックスから単語に合うページを取り出すと、たいてい数十万件を超えます。残った問題は順番です。何を一番上に置くかを決める過程がランキングです。

検索エンジンはいくつもの信号を一緒に見ます。ページの内容が検索語とどれだけよく合うか、ほかのページがこのページをどれだけ多く指しているか、内容がどれだけ新しいか、人々がその結果を押してみて満足したか、といったものです。信頼できるところが多く薦めるほど信頼が上がる、と考えると近いです。最近は、単語がぴったり一致しなくても意味の通る結果を見つけてくれる AI の技術も、ランキングに深く使われています。

これらの信号の比重や計算のしかたは検索エンジンごとに違い、公開もされていません。ただ、大きな方向ははっきりしています。検索した人にもっとも役立つページを上に上げる、ということです。

だから、検索に強くするには #

検索の動き方がわかると、自分の文章や会社のサイトを検索に出やすくする仕事も方向がはっきりします。よく SEO と呼ばれる作業です。クローラーが入って読める状態であること、タイトルや本文に人々が実際に検索する単語が自然に入っていること、ほかのところが信頼してリンクするような内容であることです。

小手先で順位を無理に押し上げようとする試みもありますが、検索エンジンは結局、人に役立つかへ向かいます。よい内容を読みやすく整えておくことが、もっとも長もちする方法です。

なぜ非開発者が知っておくと仕事が楽になるのか #

  • 検索結果を批判的に見られます。 一番上に出たから最も正確とは限らず、いくつもの信号が合わさった結果だと知っていれば、より慎重に判断できます。
  • SEO の要望を理解できます。 マーケターや企画者が「タイトルにキーワードを入れよう」「クローラーが止められないようにしよう」と言うとき、その言葉が検索のどの段階に届くのかが見えます。
  • コンテンツの方向を定められます。 検索上位を狙うなら、結局は人に役立つ文章が答えだという点を、漠然とした掛け声ではなく構造として納得できます。

まとめ #

今日は、Google に代表される検索エンジンが、クロールでページを集め、インデックスに整理しておき、ランキングで順番を決めて見せるという流れを見てきました。検索が速いのは、その瞬間ではなく、ずっと前から準備しておいたからだという点が肝心です。

ランキングに使われる AI がどうやって意味を理解するのか気になればAI、機械学習、LLM の全体像を、検索が扱うウェブサイトがどんな部品からできているのかをもう一度見たければウェブサイトは何でできているのかを一緒に読んでみることをおすすめします。

X