·7 min read

AI Crawler'lar ve robots.txt: Yapay Zeka Botlarını Yönetme Rehberi

GPTBot, ClaudeBot, PerplexityBot gibi AI tarayıcılarını robots.txt ile nasıl yönetirsiniz? Yapay zeka botlarına erişim kontrolü rehberi.

G

GEOAudit Ekibi

AI Hazırlık Uzmanları

AI crawlerrobots.txtGPTBotClaudeBotyapay zeka

Yapay Zeka Tarayıcıları: Yeni Bir Tarayıcı Nesli

Geleneksel arama motorları (Google, Bing) web'i Googlebot ve Bingbot gibi tarayıcılarla indeksler. Yapay zeka şirketleri de kendi tarayıcılarını kullanarak web içeriklerini tarar. Ancak bu tarayıcıların amacı farklıdır: geleneksel tarayıcılar sayfaları sıralamak için tarar, yapay zeka tarayıcıları ise içeriği okuyup anlamak ve yanıt üretmek için tarar.

Bu fark, web sitesi sahipleri için kritik bir soruyu gündeme getirir: Yapay zeka tarayıcılarına sitenize erişim izni veriyor musunuz?

Çoğu sitenin robots.txt dosyası, yapay zeka tarayıcıları düşünülmeden yazılmıştır. Bu da istemeden AI görünürlüğünüzü sıfırlayabilir. Örneğin genel bir Disallow: / kuralı, tüm AI tarayıcılarını da engeller.

Aktif Yapay Zeka Tarayıcıları

İşte 2026 itibarıyla aktif olan başlıca yapay zeka tarayıcıları:

OpenAI Tarayıcıları

TarayıcıUser-AgentAmaç
GPTBotGPTBotGenel web taraması, AI model eğitimi
ChatGPT-UserChatGPT-UserChatGPT browse modu, gerçek zamanlı sorgular
OAI-SearchBotOAI-SearchBotOpenAI arama özelliği

Google Tarayıcıları

TarayıcıUser-AgentAmaç
Google-ExtendedGoogle-ExtendedAI model eğitimi (Gemini)
GooglebotGooglebotGeleneksel arama dizinleme + AI Overviews

Not: Google AI Overviews, Googlebot tarafından zaten dizinlenmiş içeriği kullanır. Google-Extended'ı engellemek AI Overviews'i etkilemez, ancak Gemini model eğitimini etkiler.

Anthropic Tarayıcıları

TarayıcıUser-AgentAmaç
ClaudeBotClaudeBotClaude web erişimi
anthropic-aianthropic-aiGenel web taraması

Diğer Tarayıcılar

TarayıcıUser-AgentAmaç
PerplexityBotPerplexityBotPerplexity arama motoru
BytespiderBytespiderByteDance/TikTok AI
CCBotCCBotCommon Crawl (açık veri seti)
cohere-aicohere-aiCohere AI modelleri

robots.txt ile AI Tarayıcı Yönetimi

Temel Sözdizimi

robots.txt dosyası basit bir metin dosyasıdır ve sitenizin kök dizininde (https://siteniz.com/robots.txt) yer alır.

İzin verme:

User-agent: GPTBot
Allow: /

Engelleme:

User-agent: GPTBot
Disallow: /

Kısmi izin:

User-agent: GPTBot
Allow: /blog/
Allow: /hakkimizda/
Disallow: /admin/
Disallow: /ozel-icerik/

Tüm AI Tarayıcılarına İzin Veren Yapılandırma

Yapay zeka aramalarında maksimum görünürlük istiyorsanız:

# Geleneksel arama motorları
User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

# OpenAI tarayıcıları
User-agent: GPTBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: OAI-SearchBot
Allow: /

# Google AI
User-agent: Google-Extended
Allow: /

# Anthropic tarayıcıları
User-agent: ClaudeBot
Allow: /

User-agent: anthropic-ai
Allow: /

# Perplexity
User-agent: PerplexityBot
Allow: /

# Sitemap
Sitemap: https://siteniz.com/sitemap.xml

Seçici İzin Veren Yapılandırma

Belirli AI tarayıcılarına izin verip diğerlerini engellemek istiyorsanız:

# Arama motorlarına izin ver
User-agent: GPTBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: PerplexityBot
Allow: /

# Eğitim amaçlı tarayıcıları engelle
User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Bytespider
Disallow: /

Hassas İçerik Koruması

Belirli bölümleri AI tarayıcılarından korumak istiyorsanız:

User-agent: GPTBot
Allow: /blog/
Allow: /hakkimizda/
Allow: /hizmetler/
Disallow: /musteri-paneli/
Disallow: /premium-icerik/
Disallow: /api/

User-agent: ChatGPT-User
Allow: /blog/
Allow: /hakkimizda/
Disallow: /musteri-paneli/
Disallow: /premium-icerik/

Yapay Zeka Tarayıcılarına İzin Vermeli Misiniz?

Bu kararı verirken göz önünde bulundurmanız gereken faktörler:

İzin Vermenin Avantajları

  • AI arama görünürlüğü — ChatGPT, Perplexity, Google AI Overviews'de kaynak gösterilme
  • Trafik potansiyeli — AI arama platformlarından gelen referans trafiği
  • Marka bilinirliği — AI yanıtlarında markanızın anılması
  • Erken hareket avantajı — Rakipleriniz engellerken siz görünür olursunuz

İzin Vermenin Riskleri

  • İçerik kullanımı — İçeriğiniz AI model eğitiminde kullanılabilir
  • Telif kaygıları — Özellikle özgün araştırma ve yaratıcı içerik için
  • Trafik kaybı — Kullanıcılar yanıtı AI'dan alıp sitenizi ziyaret etmeyebilir
  • Sunucu yükü — AI tarayıcıları ek bant genişliği tüketir

Sektöre Göre Öneriler

SektörÖneriGerekçe
Blog ve içerik siteleriİzin verinAI referansı trafik getirir
E-ticaretİzin verinÜrün bilgisi paylaşımı faydalı
SaaSİzin verinMarka bilinirliği ve güven
Yerel işletmelerİzin verinAI asistanlardan müşteri yönlendirmesi
Haber siteleriSeçici izinHaber içeriği hassas, seçici olun
Premium içerikKısmi izinÜcretsiz içeriklere izin, premium'u koruyun
Akademik yayınlarDeğerlendirinTelif ve atıf politikalarına göre

Yaygın Hatalar ve Çözümleri

Hata 1: Genel Engellemelerin Farkında Olmamak

Birçok sitede şu tür genel kurallar bulunur:

User-agent: *
Disallow: /

Bu kural, adı ne olursa olsun tüm tarayıcıları engeller — AI tarayıcılar dahil. Eğer amacınız sadece belirli bölümleri korumaksa, daha spesifik kurallar yazın.

Hata 2: Crawl-delay Kullanmamak

Yoğun AI taraması sunucu performansınızı etkileyebilir. Crawl-delay direktifi ile tarama hızını sınırlayabilirsiniz:

User-agent: GPTBot
Allow: /
Crawl-delay: 10

User-agent: PerplexityBot
Allow: /
Crawl-delay: 5

Not: Tüm tarayıcılar Crawl-delay direktifini desteklemez, ancak belirtmek iyi bir uygulamadır.

Hata 3: robots.txt'yi Test Etmemek

robots.txt dosyanızdaki hataları tespit etmek için:

  • Google Search Console'da robots.txt test aracını kullanın
  • GEOAudit taraması çalıştırarak AI tarayıcı erişim durumunu kontrol edin
  • Dosyayı tarayıcıda doğrudan açarak (/robots.txt) sözdizimini kontrol edin

robots.txt Dışında AI Tarayıcı Yönetimi

Meta Robots Etiketi

Sayfa bazında AI tarayıcı kontrolü için meta etiketler kullanabilirsiniz:

<!-- Tüm botlar için dizinleme izni -->
<meta name="robots" content="index, follow">

<!-- Belirli bir AI botu için -->
<meta name="GPTBot" content="noindex">

HTTP Başlıkları

Sunucu düzeyinde kontrol için X-Robots-Tag HTTP başlığı kullanılabilir:

X-Robots-Tag: GPTBot: noindex

ai.txt (Gelişmekte Olan Standart)

ai.txt, yapay zeka tarayıcılarına özel bir kontrol mekanizması olarak geliştirilmektedir. robots.txt'den farklı olarak sadece AI tarayıcılarına yönelik kurallar içerir ve içerik kullanım izinlerini detaylı şekilde tanımlayabilir.

GEOAudit ile AI Tarayıcı Erişim Kontrolü

GEOAudit, AI Tarayıcı Erişimi kategorisinde şu kontrolleri gerçekleştirir:

  1. robots.txt varlığı — Dosyanın mevcut ve erişilebilir olup olmadığı
  2. AI tarayıcı kuralları — GPTBot, ClaudeBot, PerplexityBot için izin/engelleme durumu
  3. Genel engelleme tespitiUser-agent: * ile tüm tarayıcıların engellenip engellenmediği
  4. Sitemap referansı — robots.txt'de sitemap URL'sinin yer alıp almadığı

Tarama sonucunda her AI tarayıcı için erişim durumunu ve iyileştirme önerilerini görürsünüz. GEOAudit'in nasıl çalıştığını inceleyin.

Adım Adım Uygulama

1. Mevcut robots.txt'yi İnceleyin

Sitenizin https://siteniz.com/robots.txt adresine giderek mevcut kurallarınızı kontrol edin. AI tarayıcılarına özel kural var mı? Genel bir engelleme mevcut mu?

2. Strateji Belirleyin

Sitenizin türüne ve içerik politikanıza göre:

  • Tüm AI tarayıcılarına izin mi vereceksiniz?
  • Seçici izin mi vereceksiniz?
  • Belirli bölümleri mi koruyacaksınız?

3. robots.txt'yi Güncelleyin

Stratejinize uygun kuralları ekleyin. Bu rehberdeki örnekleri şablon olarak kullanabilirsiniz.

4. Test Edin

  • Google Search Console robots.txt test aracı ile doğrulayın
  • GEOAudit taraması ile AI tarayıcı erişim durumunu kontrol edin
  • Tarayıcıda /robots.txt adresini açarak dosyayı görsel olarak doğrulayın

5. İzleyin

  • Sunucu erişim günlüklerinde AI tarayıcı aktivitesini izleyin
  • AI arama platformlarında sitenizin referans gösterilip gösterilmediğini kontrol edin
  • Gerekirse kuralları güncelleyin

SSS

robots.txt AI tarayıcılarını gerçekten durdurur mu?

robots.txt bir "centilmenlik anlaşması"dır — yasal bir zorunluluk değildir. Ancak büyük AI şirketleri (OpenAI, Google, Anthropic) robots.txt kurallarına uymayı taahhüt etmiştir. GPTBot, ClaudeBot ve PerplexityBot robots.txt'yi saygı gösterir. Bununla birlikte küçük veya tanınmayan tarayıcılar kuralları görmezden gelebilir.

AI tarayıcılarını engellersem Google sıralamam etkilenir mi?

Hayır. GPTBot, ClaudeBot gibi AI tarayıcılarını engellemek Google arama sıralamalarınızı etkilemez. Ancak AI arama platformlarında (ChatGPT, Perplexity) görünürlüğünüzü kaybedersiniz. Google-Extended'ı engellemek de Google arama sıralamalarını etkilemez ancak Gemini model eğitimine katkı vermemenizi sağlar.

Tüm AI tarayıcılarını tek bir kuralla engelleyebilir miyim?

User-agent: * kuralı tüm tarayıcıları kapsar, ancak bu Google ve Bing dahil tüm arama motoru tarayıcılarını da engeller. AI tarayıcılarına özel tek bir üst grup tanımı henüz standart olarak kabul edilmemiştir. Her AI tarayıcısı için ayrı kural yazmanız gerekir.

robots.txt güncellemesi ne kadar sürede etkisini gösterir?

AI tarayıcıları genellikle robots.txt dosyanızı her ziyarette kontrol eder. Güncelleme sonrası birkaç gün ile birkaç hafta içinde değişiklikler etkisini göstermeye başlar. Google Search Console'dan robots.txt dosyanızın yeniden taranmasını isteyebilirsiniz.

llms.txt ve robots.txt arasındaki fark nedir?

robots.txt bir erişim kontrol mekanizmasıdır — tarayıcılara hangi sayfalara erişip erişemeyeceklerini söyler. llms.txt ise bir keşfedilebilirlik dosyasıdır — yapay zeka ajanlarına sitenizin ne hakkında olduğunu ve hangi sayfaların önemli olduğunu anlatır. İkisi birbirini tamamlar ve birlikte kullanılmalıdır.