ツバサのメモ帳

クローラーとは?
検索エンジンがサイトを巡回する仕組みメモ

こんにちは、ツバサです。

ブログを始めて記事を公開しても、Googleで検索しても出てこない。「クローラーがまだ来ていない」と聞いて、クローラーが何なのか調べた。

クローラーとは

検索エンジンがWeb上のページを自動的に巡回してデータを収集するプログラムのことだ。Googleのクローラーは「Googlebot」という名前で、リンクを辿りながらページからページへと移動し、テキスト・画像・構造化データなどの情報を取得する。

取得されたデータは検索エンジンのインデックスに登録され、ユーザーの検索クエリに対して表示される候補になる。クロールされてもインデックスに登録されないケースもあり、その場合は検索結果に表示されない。

クロール頻度を上げる方法

サイトマップをGoogle Search Consoleに送信するのが基本だ。サイトマップがあるとクローラーがサイトの全ページを効率的に発見できる。インデックスされない原因と対策にも書いたが、内部リンクの整備と定期的なコンテンツ更新もクロール頻度の向上に寄与する。

robots.txtでの制御

robots.txtを使えば、クローラーに対して特定のページやディレクトリのクロールを許可・禁止できる。管理画面やテスト用ページなど、検索結果に出したくないページのクロールを止めるのに使う。ただし、robots.txtはあくまでクローラーへの「リクエスト」であり、悪意のあるボットが従うとは限らない。

ツバサ

ツバサ

EC関係の仕事をしています。このサイトは自分が調べたことの備忘録です。Photoshopは少し使えますが苦手で、ちょっとした画像補正はもっぱらスマホアプリ派。アプリで対応しきれない本格的なレタッチはプロに依頼しています。