robots.txtとは?

robots.txt は、Webサイトのルート(https://yoursite.com/robots.txt)に配置されるテキストファイル。Webクローラー(Googlebot・Bingbot等)に対して、サイト内のどのパスをクロールして良いか、禁止するかを指定します。SEOとLLMOの両方に関わる最重要設定ファイルです。

基本フォーマット

code
User-agent: *
Allow: /
Disallow: /admin/
Disallow: /api/

Sitemap: https://yoursite.com/sitemap.xml

LLMO時代のrobots.txt

主要 AI 提供企業は、自社の AI 学習・AI 検索クローラーをそれぞれ独立した user-agent として公開し、robots.txt 上で個別に許可/拒否を制御できる仕組みを整備しています。代表的なボット:

ボット所属用途公式ドキュメント
GPTBotOpenAIChatGPT 学習用OpenAI: Overview of OpenAI Crawlers
OAI-SearchBotOpenAIChatGPT Search 用同上
ChatGPT-UserOpenAIChatGPT がユーザー要求で URL を取得する際同上
ClaudeBotAnthropicClaude の学習・検索Anthropic Support: Does Anthropic crawl data from the web
PerplexityBotPerplexityPerplexity 検索Perplexity 公式: Perplexity Crawlers
Google-ExtendedGoogleGemini Apps・Vertex AI 生成系 API 用(Google 検索には影響しない/2023-09-28 導入)Google for Developers: Google's common crawlers
Applebot-ExtendedAppleApple Intelligence 学習用Apple: About Applebot

これらを明示的に許可 することで、AI 検索からの引用機会の前提条件を整えることができます(クロール許可は引用の必要条件であり、十分条件ではない点には注意)。

Tufe Companyのrobots.txt例

code
User-agent: *
Allow: /
Disallow: /api/

User-agent: GPTBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: PerplexityBot
Allow: /

Sitemap: https://tufecompany.co.jp/sitemap.xml

よくある質問

Q. AIに学習されたくない場合は?

各AIボットを Disallow: / で拒否できます。ただし、検索系ボット(OAI-SearchBot・PerplexityBot)まで禁止すると、AI検索でのブランド露出機会を失うので注意。

Q. robots.txtとllms.txtの違いは?

robots.txt は「どこをクロールして良いか」の指示。llms.txt は「サイトの要約と構造」の提示。両方セットで設置するのが現代のベストプラクティス。

Q. 自社のrobots.txt対応度を確認するには?

LLMO無料診断で、AI向け robots.txt の設定状況を5軸診断の1つとして採点します。

関連用語

Tufe Companyのソリューション