robots.txtとは?
robots.txt は、Webサイトのルート(https://yoursite.com/robots.txt)に配置されるテキストファイル。Webクローラー(Googlebot・Bingbot等)に対して、サイト内のどのパスをクロールして良いか、禁止するかを指定します。SEOとLLMOの両方に関わる最重要設定ファイルです。
基本フォーマット
User-agent: *
Allow: /
Disallow: /admin/
Disallow: /api/
Sitemap: https://yoursite.com/sitemap.xml
LLMO時代のrobots.txt
主要 AI 提供企業は、自社の AI 学習・AI 検索クローラーをそれぞれ独立した user-agent として公開し、robots.txt 上で個別に許可/拒否を制御できる仕組みを整備しています。代表的なボット:
| ボット | 所属 | 用途 | 公式ドキュメント |
|---|---|---|---|
| GPTBot | OpenAI | ChatGPT 学習用 | OpenAI: Overview of OpenAI Crawlers |
| OAI-SearchBot | OpenAI | ChatGPT Search 用 | 同上 |
| ChatGPT-User | OpenAI | ChatGPT がユーザー要求で URL を取得する際 | 同上 |
| ClaudeBot | Anthropic | Claude の学習・検索 | Anthropic Support: Does Anthropic crawl data from the web |
| PerplexityBot | Perplexity | Perplexity 検索 | Perplexity 公式: Perplexity Crawlers |
| Google-Extended | Gemini Apps・Vertex AI 生成系 API 用(Google 検索には影響しない/2023-09-28 導入) | Google for Developers: Google's common crawlers | |
| Applebot-Extended | Apple | Apple Intelligence 学習用 | Apple: About Applebot |
これらを明示的に許可 することで、AI 検索からの引用機会の前提条件を整えることができます(クロール許可は引用の必要条件であり、十分条件ではない点には注意)。
Tufe Companyのrobots.txt例
User-agent: *
Allow: /
Disallow: /api/
User-agent: GPTBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: PerplexityBot
Allow: /
Sitemap: https://tufecompany.co.jp/sitemap.xml
よくある質問
Q. AIに学習されたくない場合は?
各AIボットを Disallow: / で拒否できます。ただし、検索系ボット(OAI-SearchBot・PerplexityBot)まで禁止すると、AI検索でのブランド露出機会を失うので注意。
Q. robots.txtとllms.txtの違いは?
robots.txt は「どこをクロールして良いか」の指示。llms.txt は「サイトの要約と構造」の提示。両方セットで設置するのが現代のベストプラクティス。
Q. 自社のrobots.txt対応度を確認するには?
LLMO無料診断で、AI向け robots.txt の設定状況を5軸診断の1つとして採点します。
関連用語
Tufe Companyのソリューション
- LLMO無料診断
- AI検索統合パック(¥2,980) — AI向けrobots.txt完成版付き