こんにちは、ツバサです。
ブログを始めて記事を公開しても、Googleで検索しても出てこない。「クローラーがまだ来ていない」と聞いて、クローラーが何なのか調べた。
クローラーとは
検索エンジンがWeb上のページを自動的に巡回してデータを収集するプログラムのことだ。Googleのクローラーは「Googlebot」という名前で、リンクを辿りながらページからページへと移動し、テキスト・画像・構造化データなどの情報を取得する。
取得されたデータは検索エンジンのインデックスに登録され、ユーザーの検索クエリに対して表示される候補になる。クロールされてもインデックスに登録されないケースもあり、その場合は検索結果に表示されない。
クロール頻度を上げる方法
サイトマップをGoogle Search Consoleに送信するのが基本だ。サイトマップがあるとクローラーがサイトの全ページを効率的に発見できる。インデックスされない原因と対策にも書いたが、内部リンクの整備と定期的なコンテンツ更新もクロール頻度の向上に寄与する。
robots.txtでの制御
robots.txtを使えば、クローラーに対して特定のページやディレクトリのクロールを許可・禁止できる。管理画面やテスト用ページなど、検索結果に出したくないページのクロールを止めるのに使う。ただし、robots.txtはあくまでクローラーへの「リクエスト」であり、悪意のあるボットが従うとは限らない。