こんにちは、ツバサです。
ブログを作ったとき、AIに「robots.txtも設置しておきましょう」と言われた。名前からしてロボット関連だとは想像できたが、何をするファイルなのか調べた。
robots.txtとは
robots.txtは、Webサイトのルートディレクトリに置くテキストファイルで、検索エンジンのクローラー(自動巡回プログラム)に対して「このディレクトリは見に来なくていい」「ここは巡回してOK」と指示するものだ。
たとえば管理用のページや下書きフォルダをクローラーに見せたくない場合に使う。ただしrobots.txtはあくまで「お願い」であり、悪意のあるボットが従う保証はない。
このブログでの使い方
全ページ巡回OK + サイトマップ記載
このブログでは特に隠すページがないため、robots.txtにはクローラーの巡回を全許可する記述と、サイトマップのURLを記載している。クローラーがrobots.txtを最初に読み、そこからサイトマップを見つけるという流れになる。
覚えておきたいポイント
robots.txtでブロックしてもインデックスされることがある
robots.txtでクローラーのアクセスをブロックしても、他サイトからのリンクなどでURLを知ったGoogleがインデックスしてしまうことがある。確実にインデックスさせたくない場合はnoindexメタタグも併用する必要がある。
robots.txtの記述ミスに注意
Disallow(拒否)の記述を間違えると、サイト全体がクローラーから遮断されてしまう。Search Consoleの「robots.txtテスター」で記述が正しいか確認してから公開するのが安全だ。