かずきち。の日記

サーバサイドエンジニアのつぶやき

理系がどうやってウェブページが検索エンジンに登録される仕組みについて説明をしよう!

検索エンジンに登録される仕組みについて解説をしよう

多くの方が検索エンジンを利用していると思うが、検索エンジンはどうやって目的のページを探してきてくれるのだろうか?
検索エンジンで検索をすると、検索結果を表示してくれる。

f:id:kazukichi_0914:20210319111240p:plain

これは図書館の司書に使い役割をしていて、図書館で司書に「この本ありますか?」と聞くと本をたくさんの本の中から探して持ってきてくれる。
検索エンジンがやっていることは図書館の司書に近いのである。

本屋さんで店員さんが本の場所をわかるのはどこに本があるかのリストを持っているから

本屋さんで「この本を探しています」というと本の場所を教えてくれる。
これに近いことをGoogleはしているのである。

検索エンジンは人間が検索したときに初めて探しに行っているのではない。
あらかじめ人間がこんな言葉で検索するだろうと予測して「見出し」を作っているのである。
新しいページが生成されたときにあらかじめ見出し化(専門用語でインデックス化)しておけば、あとで探すのが楽である。

いつGoogleは自分のページを見に来てくれて、検索エンジンにインデックス登録をしているのか?

developers.google.com
引用:
https://developers.google.com/search/docs/advanced/crawling/googlebot?hl=ja

検索エンジンに登録されているということはあらかじめGoogle「下見」をしに来てくれているのだ。
小学校の遠足などでも先生があらかじめ山に登って危ない登山道などを調べるということがある。
これに近くて、Googleが夜中にこっそり自分のサイトを訪れて検索エンジンにインデックス登録するのである。

f:id:kazukichi_0914:20210319110631p:plain

「インデックス登録」という専門用語が出てしまったが、これから説明をしよう。

インデックス登録とは見出し語登録である。

f:id:kazukichi_0914:20210319112845j:plain
引用:
https://www.library.city.edogawa.tokyo.jp/toshow/child/study/html/bn_2/doctor2011_04.html

見出し語登録とは世界に新しいウェブページが誕生したら、検索エンジンは単語ごとの並び替え(検索結果の順位付け)をしなければいけない。
そんな操作を毎日行っていて、検索順位が決定されている。

SEOというのは検索エンジンの順位付けアルゴリズムを先読みして、故意に検索順位を上げることを言う

パンダアップデート・ペンギンアップデートという言葉は聞いたことがあるだろうか?
検索順位を大きく変動させるアルゴリズムの改訂が行われたときにつけられたアルゴリズム改訂の名前である。
HTMLのauthorは大事だよね。
被リンクのページランクは大事だよね。(ページランクは現在は更新なし)
みたいなことを裏で計算している。

ページランクは現在は廃止されているが、仕組みについて解説をしよう

f:id:kazukichi_0914:20210319113734p:plain
引用:
https://math-fun.net/20180809/1195/

数学で行列の内積を学習したことはあるだろうか?
大学生はさすがに知っていてほしい。
ページが持っている重要度をそこから伸びるリンクに分散しているのである。

上のリンク構造は簡単な模式であるが、実際の計算は兆のオーダーを軽く超えてくる。
大学1年生で習う線形代数はここで使われているのである。

基礎数学1線型代数入門

基礎数学1線型代数入門

やってることは大学一年生や高校生で習う。
この操作を大量に繰り返すことで検索エンジンの順位が決まっている。
高校で習っているめっちゃつまらない数学の基礎は毎日使っている検索結果の順位付けで使われているのである。