ツバサのメモ帳
robots.txtとは?クローラーに見せる範囲を指定する話

robots.txtとは?
クローラーに見せる範囲を指定する話

robots.txtとは

robots.txtは、Webサイトのルートディレクトリに置くテキストファイルで、検索エンジンのクローラー(自動巡回プログラム)に対して「このディレクトリは見に来なくていい」「ここは巡回してOK」と指示するものだ。

たとえば管理用のページや下書きフォルダをクローラーに見せたくない場合に使う。ただしrobots.txtはあくまで「お願い」であり、悪意のあるボットが従う保証はない。

このブログでの使い方

全ページ巡回OK + サイトマップ記載

このブログでは特に隠すページがないため、robots.txtにはクローラーの巡回を全許可する記述と、サイトマップのURLを記載している。クローラーがrobots.txtを最初に読み、そこからサイトマップを見つけるという流れになる。

覚えておきたいポイント

robots.txtでブロックしてもインデックスされることがある

robots.txtでクローラーのアクセスをブロックしても、他サイトからのリンクなどでURLを知ったGoogleがインデックスしてしまうことがある。確実にインデックスさせたくない場合はnoindexメタタグも併用する必要がある。

robots.txtの記述ミスに注意

Disallow(拒否)の記述を間違えると、サイト全体がクローラーから遮断されてしまう。Search Consoleの「robots.txtテスター」で記述が正しいか確認してから公開するのが安全だ。

ツバサ

ツバサ

EC関連の会社で働いています。少人数の職場なので、ささげ業務の手配から画像の外注管理、ページ更新、バイトさんへの作業指示まで守備範囲は広めです。Photoshopは苦手なので本格的な画像加工は外注に出していますが、何社も試した分、業者選びや納品チェックには慣れました。このブログは仕事の中で身につけたことの記録です。