robots txt nedir

Robots.txt Nedir, Nasıl Düzenlenir?

Arama motoru optimizasyonu (SEO) dendiğinde, içerik kalitesi, site yapısı ve backlinkler gibi kavramlar ilk akla gelen unsurlar olabilir. Ancak sitenizin arama motoru botlarına nasıl göründüğü ve hangi sayfaların taranabilir olduğunun belirlenmesi de bir o kadar önemlidir. Bu noktada karşımıza çıkan en temel dosyalardan biri robots.txt dosyasıdır. Peki, robots.txt tam olarak nedir, neden önemlidir ve nasıl düzenlenir? Bu kapsamlı içerikte tüm bu soruların yanıtlarını detaylı bir şekilde bulabilirsiniz.


1. Robots.txt Nedir?

Robots.txt, web sitenizin kök dizininde (örneğin: https://www.siteniz.com/robots.txt) bulunan basit bir metin dosyasıdır. Bu dosya, arama motoru botları (örneğin Googlebot, Bingbot) ve diğer tarayıcı (crawler) yazılımlara, sitenizde hangi sayfaları veya alanları tarayabileceklerini veya taramayacaklarını belirtmek için kullanılır.

Arama motorları, bir web sitesini ziyaret ettiklerinde öncelikle o sitenin kök dizinine giderek robots.txt dosyasını arar. Eğer bir robots.txt dosyası mevcutsa, içindeki talimatlara göre sitenin hangi bölümlerini taramaları gerektiğine karar verirler. Sitenizde robots.txt yoksa, varsayılan olarak arama motorları sitenizin tamamını taramaya çalışır (elbette diğer teknik ve güvenlik önlemleri devreye girmiyorsa).

1.1. Robots.txt’nin Amaçları

  1. Taranmasını İstemediğiniz Sayfaları Belirlemek: Bazı sayfalar veya klasörler hassas veri içeriyor olabilir veya kullanıcıya hiçbir katma değeri olmayan teknik dosyalar barındırabilir. Robots.txt sayesinde bu içeriklerin taranmasını ve arama sonuçlarında görünmesini engelleyebilirsiniz.
  2. Tarama Bütçesini Yönetmek: Özellikle geniş bir siteye sahipseniz, arama motorlarının tarama bütçesini boşa harcamamak için gereksiz veya tekrar eden sayfaların indekslenmesini istemeyebilirsiniz. Bu da tarama bütçesinin (crawl budget) daha verimli kullanılmasını sağlar.
  3. Yükü Azaltmak: Çok büyük sitelerde, arama motorlarının gereksiz binlerce sayfayı taraması sunucuya ek yük bindirebilir. Robots.txt ile botların neyi tarayacağını belirleyerek bu yükü hafifletebilirsiniz.

2. Robots.txt Neden Önemlidir?

Robots.txt dosyası, arama motoru botlarıyla siteniz arasındaki ilk iletişim noktasıdır. Yanlış yapılandırılmış bir robots.txt, sitenizin arama görünürlüğünü ciddi şekilde etkileyebilir. İşte önemini daha iyi anlatan bazı maddeler:

2.1. Gizli Bilgileri Koruma

Her ne kadar hassas ya da özel bilgileri sunucu tarafında korumanız gerekse de, bazen parolalı sayfalar veya yalnızca yönetici erişimine özel bölümler (örneğin wp-admin klasörü) yanlışlıkla indekslenebilir. Robots.txt, bu tür alanların arama motorları tarafından taranmasını engelleyerek güvenlik katmanına ek bir katkı sağlar. Ancak unutmayın ki robots.txt, gizlilik ve güvenlik için kesin bir çözüm değildir. Eğer bir URL arama motorlarına başka bir siteden bağlantı (backlink) şeklinde veriliyorsa, robots.txt’de engelli olsa da o URL arama sonuçlarında belirebilir. Tam gizlilik için şifre koruması veya noindex gibi ek yöntemler kullanmak gerekir.

2.2. Yinelenen İçerik ve Gereksiz Sayfaların İndekslenmesini Önleme

Büyük sitelerde, aynı ürün veya içeriğin farklı URL parametreleriyle (örneğin filtreleme, sıralama, kampanya parametreleri) yeniden yayınlanması veya benzer içerikli sayfalar oluşması sık rastlanan bir durumdur. Robots.txt yardımıyla gereksiz sayfa varyasyonlarının taranmasını engelleyebilir ve böylece yinelenen içerik (duplicate content) riskini azaltabilirsiniz. Bu da SEO performansınıza olumlu etki eder.

2.3. Tarama Bütçesi (Crawl Budget) Optimizasyonu

Arama motorlarının sitenizde harcayabileceği bir tarama bütçesi (crawl budget) vardır. Özellikle binlerce sayfaya sahip büyük sitelerde, arama motorlarının istenmeyen sayfaları da taraması, önemli sayfalarınızın geç indekslenmesine veya hiç indekslenmemesine neden olabilir. Robots.txt, taranmasını istemediğiniz sayfaları kapatarak arama motoru botlarının değerli zamanını önemli sayfalarınıza yönlendirmesini sağlar.


3. Robots.txt Dosyasının Temel Yapısı

Robots.txt dosyasında kullanılan başlıca direktifler şunlardır:

User-agent: Bu satır, talimatların hangi bot veya arama motoru için geçerli olduğunu belirtir. Örneğin:

  • User-agent: * => tüm botları temsil eder.
  • User-agent: Googlebot => sadece Google arama motoru botunu hedef alır.

Disallow: Botların bu satırda belirtilen URL veya klasörleri taramamasını ister.

  • Disallow: /admin/ => “admin” klasörünü tarama.
  • Disallow: /test.html => “test.html” dosyasını tarama.

Allow: Disallow ile engellenen bir klasör veya sayfa içinde, yine de bazı alt klasörlerin veya sayfaların taranmasına izin vermek için kullanılır.

  • Allow: /blog/public-posts/
  • Sitemap: https://www.siteniz.com/sitemap.xml

Sitemap (Opsiyonel fakat Önerilir): Robots.txt dosyasına site haritanızın (Sitemap.xml) yolunu ekleyerek arama motoru botlarına indekslenmesi gereken sayfalarınız hakkında yol gösterebilirsiniz.

    Örnek bir robots.txt yapısı:

    User-agent: *
    Disallow: /admin/
    Disallow: /temp/
    Allow: /admin/public/
    
    Sitemap: https://www.siteniz.com/sitemap.xml
    

    Bu örnekte:

    • Tüm botlara (User-agent: *) /admin/ ve /temp/ klasörünü taramamaları söyleniyor.
    • Ancak /admin/public/ klasörünün taranmasına izin veriliyor.
    • Son olarak, site haritasının adresi belirtiliyor.

    4. Robots.txt Nasıl Düzenlenir?

    4.1. Dosya Oluşturma ve Konum

    Robots.txt dosyası, sitenizin kök dizininde yer almalıdır. Örneğin:

    https://www.siteniz.com/robots.txt

    Dosyayı oluşturduktan sonra bir metin düzenleyici (Notepad, Sublime Text vb.) ile açıp direktiflerinizi ekleyebilirsiniz. Daha sonra FTP veya hosting kontrol paneli üzerinden sunucunuza yükleyebilirsiniz.

    4.2. Kullanım Senaryoları

    Tüm Botlara Tüm Siteyi Açmak

    User-agent: * Disallow: 

    Bu ayar, hiçbir sayfayı engellemez ve tüm botların tüm siteyi taramasına izin verir.

    Tüm Botlara Tüm Siteyi Engellemek

    User-agent: * Disallow: / 

    Bu satır, tüm siteyi tüm botlara kapatır. Sadece geçici test aşamalarında veya özel durumlarda kullanılabilir. Aksi halde siteniz arama motorlarında görünmez hale gelir.

    Belirli Klasörleri Engellemek

    User-agent: * 
    
    Disallow: /gizli-dosyalar/ 
    Disallow: /deneme/

    Burada, gizli-dosyalar ve deneme klasörleri tarama dışında bırakılır.

    Sadece Bir Botu Hedef Almak

    User-agent: Googlebot 
    Disallow: /test-googlebot/ 
    
    User-agent: Bingbot 
    Disallow: /test-bingbot/

    Farklı arama motoru botları için farklı talimatlar girebilirsiniz.

    Sitemap Direktifi Kullanımı

    User-agent: * 
    
    Disallow: 
    Sitemap: https://www.siteniz.com/sitemap.xml

    Bu örnekte, hiçbir alan engellenmez, tüm siteye tarama izni verilir ve site haritasının konumu belirtilir.

      4.3. Sık Yapılan Hatalar

      Robots.txt ile “Noindex” Yapma Yanılgısı: Robots.txt ile engellenen sayfalar taranmaz ama bu sayfaların arama sonuçlarında görünmeyeceği garantisi yoktur. Bir sayfaya başka sitelerden gelen linkler (backlink) varsa veya Google sayfanın varlığından haberdarsa, bazen başlığı veya yalnızca URL’sini arama sonuçlarına yansıtabilir. “Noindex” için sayfaya meta etiketleri eklemek (örneğin <meta name="robots" content="noindex">) veya HTTP başlıkları düzeyinde direktif vermek gerekir.

      Yanlış Konum veya Dosya Adı: Robots.txt mutlaka kök dizinde olmalıdır. https://www.siteniz.com/dizin/robots.txt şeklinde bir konum geçerli değildir.

      Engelleme Yolları (Path) Yanlışlığı: “/gizli-dosyalar” ile “/gizli-dosyalar/” arasında fark vardır. Küçük detaylar yüzünden engelleme veya izin direktifleri çalışmayabilir.

      Büyük-Küçük Harf Duyarlılığı: Robots.txt talimatlarında yol (path) adları genellikle büyük-küçük harfe duyarlıdır. Sunucunuzun yapılandırmasına göre “/Admin/” ile “/admin/” farklı klasörler olabilir.


      5. Robots.txt Test ve Doğrulama Araçları

      5.1. Google Search Console

      Google Search Console, robots.txt dosyanızı test edebileceğiniz ve sitenizin hangi sayfalarının engellendiğini görebileceğiniz bir test aracı sunar.

      • Google Search Console hesabınıza girin.
      • Sitenizi seçin.
      • “Ayarlar” veya “Legacy tools and reports” içinde “Robots.txt Tester” (Robots.txt Test Aracı) adında bir bölüm bulunmaktadır. Burada dosyanızı düzenleyebilir veya var olan dosyayı doğrulayabilirsiniz.

      5.2. Üçüncü Parti Araçlar

      Pek çok ücretsiz veya ücretli SEO aracı (SEMrush, Ahrefs, Screaming Frog vb.) sitenizin robots.txt dosyasını tarayarak hangi sayfaların engellendiğini raporlayabilir. Özellikle Screaming Frog gibi tarama (crawl) araçları, site yapınızı derinlemesine inceleyerek engellenen URL’leri net bir şekilde listeler ve muhtemel hataları gösterir.


      6. Robots.txt ile İlgili İpuçları ve İleri Seviye Öneriler

      Zorunlu Değil, Ama Önerilir: Robots.txt dosyası sitenizin çalışması için bir zorunluluk değildir. Sitenizde robots.txt yoksa, arama motorları sitenizi taramaya devam eder. Ancak kontrol ve yönetim için bu dosyayı oluşturmanız büyük avantaj sağlar.

      Alt Alan Adları (Subdomain): Her alt alan adı için ayrı bir robots.txt dosyası bulunması gerekir. Örneğin, “subdomain.siteniz.com” için “subdomain.siteniz.com/robots.txt” yolunu kullanmalısınız.

      Site Haritaları (Sitemaps): Robots.txt dosyanıza birden çok site haritası (Sitemap) ekleyebilirsiniz. Büyük sitelerde birden fazla site haritası kullanmak yaygındır. Örneğin:

      Sitemap: https://www.siteniz.com/sitemap1.xml

      Sitemap: https://www.siteniz.com/sitemap2.xml

      Dikkatli Yönetim: Yanlış bir satır eklemeniz, kritik sayfaların taranmasını engelleyip sıralamanızı düşürebilir. Özellikle e-ticaret sitelerinde ürün sayfalarını veya blog sitelerinde önemli makaleleri yanlışlıkla devre dışı bırakmak ciddi trafik kaybına neden olabilir.

      Özel Botlar ve Servisler: Arama motorlarının dışında başka botlar (örneğin sosyal medya önizleme botları, güvenlik tarama botları) da robots.txt direktiflerinden etkilenebilir. Her zaman istediğiniz ve istemediğiniz botları göz önünde bulundurun.

      Zaman Zaman Güncelleme: Site yapısında büyük bir değişiklik yaparsanız (örneğin yeni bir klasör eklerseniz veya parametreli URL yapısı değişirse), robots.txt dosyanızı güncelleyerek düzenli hale getirdiğinizden emin olun.


        7. Sonuç

        Robots.txt, basit ama etkili bir araçtır. Sitenizin hangi alanlarının arama motorları tarafından taranacağını yönetebilmeniz, uzun vadede SEO performansınızı ve site yönetiminizi ciddi biçimde kolaylaştırır. Ancak robots.txt ile sadece “tarama” kısıtlaması yapabileceğinizi, “indekslenme” veya “gizlilik” gibi ihtiyaçlar için ek yöntemler kullanmanız gerektiğini unutmamak önemlidir.

        Özetle:

        Robots.txt dosyası, web sitenizin kök dizininde bulunan bir metin dosyasıdır ve arama motoru botlarına sitenizi nasıl tarayacaklarına dair talimatlar verir.

        Düzgün yapılandırıldığında arama motoru botlarının tarama bütçesini sitenizin en önemli sayfalarına yönlendirerek, tekrar eden veya gereksiz içerikleri arama sonuçlarından uzak tutmanıza yardımcı olur.

        Yanlış ayarlar, sitenizi gereksiz yere kapatarak büyük trafik kayıplarına neden olabilir. Bu nedenle dosyayı hazırlarken ve güncellerken çok dikkatli olmanız gerekir.

        Arama motoru botları sitenize geldiğinde, “kök dizindeki” robots.txt dosyanızı kontrol ederek hangi talimatlara uyacaklarını öğrenirler. Dolayısıyla bu dosyanın doğru konum ve doğru isim altında sunulduğundan emin olmalısınız.

        Kısa vadede büyük bir fark yaratmadığı düşünülebilir, ancak uzun vadeli SEO stratejilerinde robots.txt, tarama verimliliği ve site yönetimi açısından hayati bir rol oynar. Özellikle büyük sitelerde veya e-ticaret platformlarında, doğru yapılandırılmış bir robots.txt dosyası arama motoru görünürlüğünü ve indeksleme hızını önemli ölçüde iyileştirebilir. Bu yüzden, sitenizi yönetirken robots.txt dosyasını göz ardı etmek yerine, düzenli olarak kontrol etmenizi ve güncellemeyi ihmal etmemenizi öneririz.

        Son Yazılar

        Elif Naz Karakoç

        SEO Executive @ZeoAgency

        Sosyal Medya