ツバサのメモ帳

robots.txtとは?
クローラーに見せる範囲を指定する話

こんにちは、ツバサです。

ブログを作ったとき、AIに「robots.txtも設置しておきましょう」と言われた。名前からしてロボット関連だとは想像できたが、何をするファイルなのか調べた。

robots.txtとは

robots.txtは、Webサイトのルートディレクトリに置くテキストファイルで、検索エンジンのクローラー(自動巡回プログラム)に対して「このディレクトリは見に来なくていい」「ここは巡回してOK」と指示するものだ。

たとえば管理用のページや下書きフォルダをクローラーに見せたくない場合に使う。ただしrobots.txtはあくまで「お願い」であり、悪意のあるボットが従う保証はない。

このブログでの使い方

全ページ巡回OK + サイトマップ記載

このブログでは特に隠すページがないため、robots.txtにはクローラーの巡回を全許可する記述と、サイトマップのURLを記載している。クローラーがrobots.txtを最初に読み、そこからサイトマップを見つけるという流れになる。

覚えておきたいポイント

robots.txtでブロックしてもインデックスされることがある

robots.txtでクローラーのアクセスをブロックしても、他サイトからのリンクなどでURLを知ったGoogleがインデックスしてしまうことがある。確実にインデックスさせたくない場合はnoindexメタタグも併用する必要がある。

robots.txtの記述ミスに注意

Disallow(拒否)の記述を間違えると、サイト全体がクローラーから遮断されてしまう。Search Consoleの「robots.txtテスター」で記述が正しいか確認してから公開するのが安全だ。

ツバサ

ツバサ

EC関係の仕事をしています。このサイトは自分が調べたことの備忘録です。Photoshopは少し使えますが苦手で、ちょっとした画像補正はもっぱらスマホアプリ派。アプリで対応しきれない本格的なレタッチはプロに依頼しています。