AI Crawler'lar ve robots.txt: Yapay Zeka Botlarını Yönetme Rehberi
GPTBot, ClaudeBot, PerplexityBot gibi AI tarayıcılarını robots.txt ile nasıl yönetirsiniz? Yapay zeka botlarına erişim kontrolü rehberi.
GEOAudit Ekibi
AI Hazırlık Uzmanları
Yapay Zeka Tarayıcıları: Yeni Bir Tarayıcı Nesli
Geleneksel arama motorları (Google, Bing) web'i Googlebot ve Bingbot gibi tarayıcılarla indeksler. Yapay zeka şirketleri de kendi tarayıcılarını kullanarak web içeriklerini tarar. Ancak bu tarayıcıların amacı farklıdır: geleneksel tarayıcılar sayfaları sıralamak için tarar, yapay zeka tarayıcıları ise içeriği okuyup anlamak ve yanıt üretmek için tarar.
Bu fark, web sitesi sahipleri için kritik bir soruyu gündeme getirir: Yapay zeka tarayıcılarına sitenize erişim izni veriyor musunuz?
Çoğu sitenin robots.txt dosyası, yapay zeka tarayıcıları düşünülmeden yazılmıştır. Bu da istemeden AI görünürlüğünüzü sıfırlayabilir. Örneğin genel bir Disallow: / kuralı, tüm AI tarayıcılarını da engeller.
Aktif Yapay Zeka Tarayıcıları
İşte 2026 itibarıyla aktif olan başlıca yapay zeka tarayıcıları:
OpenAI Tarayıcıları
| Tarayıcı | User-Agent | Amaç |
|---|---|---|
| GPTBot | GPTBot | Genel web taraması, AI model eğitimi |
| ChatGPT-User | ChatGPT-User | ChatGPT browse modu, gerçek zamanlı sorgular |
| OAI-SearchBot | OAI-SearchBot | OpenAI arama özelliği |
Google Tarayıcıları
| Tarayıcı | User-Agent | Amaç |
|---|---|---|
| Google-Extended | Google-Extended | AI model eğitimi (Gemini) |
| Googlebot | Googlebot | Geleneksel arama dizinleme + AI Overviews |
Not: Google AI Overviews, Googlebot tarafından zaten dizinlenmiş içeriği kullanır. Google-Extended'ı engellemek AI Overviews'i etkilemez, ancak Gemini model eğitimini etkiler.
Anthropic Tarayıcıları
| Tarayıcı | User-Agent | Amaç |
|---|---|---|
| ClaudeBot | ClaudeBot | Claude web erişimi |
| anthropic-ai | anthropic-ai | Genel web taraması |
Diğer Tarayıcılar
| Tarayıcı | User-Agent | Amaç |
|---|---|---|
| PerplexityBot | PerplexityBot | Perplexity arama motoru |
| Bytespider | Bytespider | ByteDance/TikTok AI |
| CCBot | CCBot | Common Crawl (açık veri seti) |
| cohere-ai | cohere-ai | Cohere AI modelleri |
robots.txt ile AI Tarayıcı Yönetimi
Temel Sözdizimi
robots.txt dosyası basit bir metin dosyasıdır ve sitenizin kök dizininde (https://siteniz.com/robots.txt) yer alır.
İzin verme:
User-agent: GPTBot
Allow: /
Engelleme:
User-agent: GPTBot
Disallow: /
Kısmi izin:
User-agent: GPTBot
Allow: /blog/
Allow: /hakkimizda/
Disallow: /admin/
Disallow: /ozel-icerik/
Tüm AI Tarayıcılarına İzin Veren Yapılandırma
Yapay zeka aramalarında maksimum görünürlük istiyorsanız:
# Geleneksel arama motorları
User-agent: Googlebot
Allow: /
User-agent: Bingbot
Allow: /
# OpenAI tarayıcıları
User-agent: GPTBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: OAI-SearchBot
Allow: /
# Google AI
User-agent: Google-Extended
Allow: /
# Anthropic tarayıcıları
User-agent: ClaudeBot
Allow: /
User-agent: anthropic-ai
Allow: /
# Perplexity
User-agent: PerplexityBot
Allow: /
# Sitemap
Sitemap: https://siteniz.com/sitemap.xml
Seçici İzin Veren Yapılandırma
Belirli AI tarayıcılarına izin verip diğerlerini engellemek istiyorsanız:
# Arama motorlarına izin ver
User-agent: GPTBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: PerplexityBot
Allow: /
# Eğitim amaçlı tarayıcıları engelle
User-agent: Google-Extended
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: Bytespider
Disallow: /
Hassas İçerik Koruması
Belirli bölümleri AI tarayıcılarından korumak istiyorsanız:
User-agent: GPTBot
Allow: /blog/
Allow: /hakkimizda/
Allow: /hizmetler/
Disallow: /musteri-paneli/
Disallow: /premium-icerik/
Disallow: /api/
User-agent: ChatGPT-User
Allow: /blog/
Allow: /hakkimizda/
Disallow: /musteri-paneli/
Disallow: /premium-icerik/
Yapay Zeka Tarayıcılarına İzin Vermeli Misiniz?
Bu kararı verirken göz önünde bulundurmanız gereken faktörler:
İzin Vermenin Avantajları
- AI arama görünürlüğü — ChatGPT, Perplexity, Google AI Overviews'de kaynak gösterilme
- Trafik potansiyeli — AI arama platformlarından gelen referans trafiği
- Marka bilinirliği — AI yanıtlarında markanızın anılması
- Erken hareket avantajı — Rakipleriniz engellerken siz görünür olursunuz
İzin Vermenin Riskleri
- İçerik kullanımı — İçeriğiniz AI model eğitiminde kullanılabilir
- Telif kaygıları — Özellikle özgün araştırma ve yaratıcı içerik için
- Trafik kaybı — Kullanıcılar yanıtı AI'dan alıp sitenizi ziyaret etmeyebilir
- Sunucu yükü — AI tarayıcıları ek bant genişliği tüketir
Sektöre Göre Öneriler
| Sektör | Öneri | Gerekçe |
|---|---|---|
| Blog ve içerik siteleri | İzin verin | AI referansı trafik getirir |
| E-ticaret | İzin verin | Ürün bilgisi paylaşımı faydalı |
| SaaS | İzin verin | Marka bilinirliği ve güven |
| Yerel işletmeler | İzin verin | AI asistanlardan müşteri yönlendirmesi |
| Haber siteleri | Seçici izin | Haber içeriği hassas, seçici olun |
| Premium içerik | Kısmi izin | Ücretsiz içeriklere izin, premium'u koruyun |
| Akademik yayınlar | Değerlendirin | Telif ve atıf politikalarına göre |
Yaygın Hatalar ve Çözümleri
Hata 1: Genel Engellemelerin Farkında Olmamak
Birçok sitede şu tür genel kurallar bulunur:
User-agent: *
Disallow: /
Bu kural, adı ne olursa olsun tüm tarayıcıları engeller — AI tarayıcılar dahil. Eğer amacınız sadece belirli bölümleri korumaksa, daha spesifik kurallar yazın.
Hata 2: Crawl-delay Kullanmamak
Yoğun AI taraması sunucu performansınızı etkileyebilir. Crawl-delay direktifi ile tarama hızını sınırlayabilirsiniz:
User-agent: GPTBot
Allow: /
Crawl-delay: 10
User-agent: PerplexityBot
Allow: /
Crawl-delay: 5
Not: Tüm tarayıcılar Crawl-delay direktifini desteklemez, ancak belirtmek iyi bir uygulamadır.
Hata 3: robots.txt'yi Test Etmemek
robots.txt dosyanızdaki hataları tespit etmek için:
- Google Search Console'da robots.txt test aracını kullanın
- GEOAudit taraması çalıştırarak AI tarayıcı erişim durumunu kontrol edin
- Dosyayı tarayıcıda doğrudan açarak (
/robots.txt) sözdizimini kontrol edin
robots.txt Dışında AI Tarayıcı Yönetimi
Meta Robots Etiketi
Sayfa bazında AI tarayıcı kontrolü için meta etiketler kullanabilirsiniz:
<!-- Tüm botlar için dizinleme izni -->
<meta name="robots" content="index, follow">
<!-- Belirli bir AI botu için -->
<meta name="GPTBot" content="noindex">
HTTP Başlıkları
Sunucu düzeyinde kontrol için X-Robots-Tag HTTP başlığı kullanılabilir:
X-Robots-Tag: GPTBot: noindex
ai.txt (Gelişmekte Olan Standart)
ai.txt, yapay zeka tarayıcılarına özel bir kontrol mekanizması olarak geliştirilmektedir. robots.txt'den farklı olarak sadece AI tarayıcılarına yönelik kurallar içerir ve içerik kullanım izinlerini detaylı şekilde tanımlayabilir.
GEOAudit ile AI Tarayıcı Erişim Kontrolü
GEOAudit, AI Tarayıcı Erişimi kategorisinde şu kontrolleri gerçekleştirir:
- robots.txt varlığı — Dosyanın mevcut ve erişilebilir olup olmadığı
- AI tarayıcı kuralları — GPTBot, ClaudeBot, PerplexityBot için izin/engelleme durumu
- Genel engelleme tespiti —
User-agent: *ile tüm tarayıcıların engellenip engellenmediği - Sitemap referansı — robots.txt'de sitemap URL'sinin yer alıp almadığı
Tarama sonucunda her AI tarayıcı için erişim durumunu ve iyileştirme önerilerini görürsünüz. GEOAudit'in nasıl çalıştığını inceleyin.
Adım Adım Uygulama
1. Mevcut robots.txt'yi İnceleyin
Sitenizin https://siteniz.com/robots.txt adresine giderek mevcut kurallarınızı kontrol edin. AI tarayıcılarına özel kural var mı? Genel bir engelleme mevcut mu?
2. Strateji Belirleyin
Sitenizin türüne ve içerik politikanıza göre:
- Tüm AI tarayıcılarına izin mi vereceksiniz?
- Seçici izin mi vereceksiniz?
- Belirli bölümleri mi koruyacaksınız?
3. robots.txt'yi Güncelleyin
Stratejinize uygun kuralları ekleyin. Bu rehberdeki örnekleri şablon olarak kullanabilirsiniz.
4. Test Edin
- Google Search Console robots.txt test aracı ile doğrulayın
- GEOAudit taraması ile AI tarayıcı erişim durumunu kontrol edin
- Tarayıcıda
/robots.txtadresini açarak dosyayı görsel olarak doğrulayın
5. İzleyin
- Sunucu erişim günlüklerinde AI tarayıcı aktivitesini izleyin
- AI arama platformlarında sitenizin referans gösterilip gösterilmediğini kontrol edin
- Gerekirse kuralları güncelleyin
SSS
robots.txt AI tarayıcılarını gerçekten durdurur mu?
robots.txt bir "centilmenlik anlaşması"dır — yasal bir zorunluluk değildir. Ancak büyük AI şirketleri (OpenAI, Google, Anthropic) robots.txt kurallarına uymayı taahhüt etmiştir. GPTBot, ClaudeBot ve PerplexityBot robots.txt'yi saygı gösterir. Bununla birlikte küçük veya tanınmayan tarayıcılar kuralları görmezden gelebilir.
AI tarayıcılarını engellersem Google sıralamam etkilenir mi?
Hayır. GPTBot, ClaudeBot gibi AI tarayıcılarını engellemek Google arama sıralamalarınızı etkilemez. Ancak AI arama platformlarında (ChatGPT, Perplexity) görünürlüğünüzü kaybedersiniz. Google-Extended'ı engellemek de Google arama sıralamalarını etkilemez ancak Gemini model eğitimine katkı vermemenizi sağlar.
Tüm AI tarayıcılarını tek bir kuralla engelleyebilir miyim?
User-agent: * kuralı tüm tarayıcıları kapsar, ancak bu Google ve Bing dahil tüm arama motoru tarayıcılarını da engeller. AI tarayıcılarına özel tek bir üst grup tanımı henüz standart olarak kabul edilmemiştir. Her AI tarayıcısı için ayrı kural yazmanız gerekir.
robots.txt güncellemesi ne kadar sürede etkisini gösterir?
AI tarayıcıları genellikle robots.txt dosyanızı her ziyarette kontrol eder. Güncelleme sonrası birkaç gün ile birkaç hafta içinde değişiklikler etkisini göstermeye başlar. Google Search Console'dan robots.txt dosyanızın yeniden taranmasını isteyebilirsiniz.
llms.txt ve robots.txt arasındaki fark nedir?
robots.txt bir erişim kontrol mekanizmasıdır — tarayıcılara hangi sayfalara erişip erişemeyeceklerini söyler. llms.txt ise bir keşfedilebilirlik dosyasıdır — yapay zeka ajanlarına sitenizin ne hakkında olduğunu ve hangi sayfaların önemli olduğunu anlatır. İkisi birbirini tamamlar ve birlikte kullanılmalıdır.