Robots TXT Nedir?

robotstxt nedir
İçindekiler

Arama motoru botlarının web sitelerinin hangi bölümlerini ne şekilde tarayacağını direktiflerle aktarmaya yarayan txt dokümanına robots.txt denilir. Robots.txt dosyasının verimli bir şekilde kullanıldığı durumlarda web sitesinin alt klasörleri, alt klasörler içerisinde bulunmakta olan URL’lerden herhangi biri ya da herhangi bir alt kırılım içeren URL bloğu arama motoru botlarının taramasına tamamen açılabilir ya da kapatılabilir. 

Robots.txt dosyası web sitelerinin ana domain dizininde barındırılır. Günümüzde tüm arama motorları robots.txt dosyalarını takip etmektedir. Diğer bir deyişle robots.txt dosyasında oluşturulacak olan komut direktifleri arama motoru botları tarafından takip edilmekte, kullanıcının yönlendirmeleri doğrultusunda web sitesinin taranması işlemleri gerçekleştirilmektedir. Büyük arama motorlarının büyük kısmı robots.txt dosyasının komut direktiflerine uyumluluk göstermekle birikte robots.txt dosyasını pas geçen bazı bot tipleri de varlığını korumaya devam etmektedir. Bu durum nedeniyle Google robots.txt yönlendirmelerine ilaveten sayfa kaynak kodlarından meta robots işaretlemelerinin kullanılması tavsiyesinde bulunmaktadır. 

Öncelikli amacı tarama bütçesinin en verimli şekilde tahsis edimesi için sayfaların ve kaynak dosyalarının taranmasını önlemek olan robots.txt dosyası; web sitesi ziyaretçilerine herhangi bir fayda sağlamayacak ve SERP sıralamalarını etkilemeyecek olan bilgileri gizleme görevini üstlenmektedir. Aynı zamanda botları özel klasörlerden uzak tutmak, kaynakları kontrol altında tutmak, site haritasının konumunu belirlemek ve yinelenen içeriği SERP’lerden uzak tutmak da robots.txt dosyasının sağladığı avantajlar arasında sayılabilmektedir. Robots.txt dosyası kullanılarak kişisel veriler içeren sayfalar, yalnızca belirli kullanıcı eylemlerinin ardından görüntülenebilen yardımcı sayfalar, yönetici kontrol paneli ve sistem dosyaları, arama ve kategori sıralama sayfaları ile belirli bir formattaki dosyalar engellenebilmektedir.

Robots.txt Dosyası Nerede Bulunur?

Robots.txt dosyaları web sitelerine özel olarak oluşturulmakta olup sitenin ana dizini üzerinde yer alır. Herhangi bir sub folder yani alt klasör eklenmeksizin doğrudan web sitesinin ana dizini içindeki diğer dokümanlarla birlikte yalın olarak yani herhangi bir işleme tabi tutulmaksızın barındırılmaktadır.

Robots.txt Dosyası Nasıl Çalışır?

İçerisinde herhangi bir HTML işaretleme barındırmayan bir web dokümanı olan .txt dosyası oldukça kolay bir şekilde oluşturulabilmektedir. Robots.txt dosyası ana dizine eklendikten sonra web sitesinin URL uzantısı bölümüne /robots.txt yazılarak görüntülenebilmektedir. Robots.txt dosyaları birçok kullanıcı açısından herhangi bir önem taşımasa da robots.txt dosyasının yer aldığı URL arama motoru botlarının web sitesine gerçekleştirdiği ziyaretlerde uğradığı mutlak adres olma özelliğine sahiptir.

Arama motoru botları web sitelerini ziyaret ettiklerinde tarama işlemine başlamadan önce ilk olarak robots.txt dosyasını ziyaret ederler. Böylece web sitesinin taramaya açık olan bölümleri ile ilgili direktifleri kontrol ederler. Bu açıdan robots.txt dosyaları arama motoru botlarının tarama biçimlerinin yönetilmesinde bir rehber görevini üstlenirler. Ancak robots.txt dosyaları arama motoru botları için bağlayıcı bir yapı olma özelliği taşımaz. Diğer bir deyişle arama motoru botlarının tamamının robots.txt dosyasında bulunan direktiflere uyma gibi bir yükümlülüğü bulunmaz. Google, Bing gibi arama motoru botları robots.txt dosyasındaki direktifleri takip etmekle birlikte harici botların çoğu serbest tarama yaparlar. 

Robots.txt dosyası ile ilgili olarak dikkate alınması gelen konuların başında; subdomainin bir alt domain yapısı içinde ayrıca bir robots.txt dosyası oluşturulması gerektiği gelir. Subdomain üzerinde bulunmakta olan URL adresleriyle ilgili tarama direktifleri subdomain içinde oluşturulacak farklı bir robots.txt dosyası ile yönetilmektedir.

Robots.txt Dosyasının Oluşturulması ve Kullanılması

Robots.txt dosyası herhangi bir text editörü kullanılarak kolayca oluşturulabilmektedir. Robots.txt dosyasının oluşturulması sırasında çeşitli protokol formatları kullanılmakta ve arama motoru robotları için web sitesini tarama direktifleri oluşturulmaktadır. Direktifler protokol formatlarının kullanılmasıyla arama motoru botlarının anlayacağı bir şekilde iletilmektedir. Arama motoru botları için kullanılan protokole Robots Exclusion Protocol adı verilmektedir.

Robots.txt dosyası içinde kullanılan protokollerden bir diğeri sitemap protokolü olarak adlandırılır. Sitemap protokolü, arama motoru botlarına web sitesinin haritasının iletilmesiyle site içindeki URL’ler ile ilgili arama motoru botlarının takip edebileceği bir site haritası sunulmaktadır.

User-Agent Nedir? Nasıl Kullanılır?

Robots.txt içinde yer alan user-agent bölümü arama motoru botlarının doğrudan hedeflendiği, internette dolaşmakta olan her bir kullanıcı ve program için oluşturulmakta olan bilgilendirici bir string/kod dizisi olarak tanımlanabilir. User-agent bölümü web üzerinde gezinen kullanıcılar ve programlar için oluşturulmakta olup ziyaret edilen sunuculara ziyeret eden kişiyle ya da programla ilgili bilgilendirme yapar.

Bot olmayan kullanıcılar için tipik bir user-agent içinde bağlantı yapılan bilgisayarın işletim sistemi, bağlantının yapıldığı tarayıcının ismi gibi bilgiler yer almaktadır.

Robots.txt dosyası içinde user-agent kullanımıyla dosya içinde bulunan protokollerin ve direktiflerin hangi user-agent’a sahip olan bot için oluşturulduğu bilgisine ulaşılabilmektedir.

Allow ve Disallow Nedir? Nasıl Kullanılır?

Robots.txt içinde kullanılmakta olan allow ve disallow direktifleri web sitesi içinde bulunan hangi sayfaların arama motoru botlarının taramasına açılıp kapanacağını belirten protokoller olarak tanımlanabilir. Allow protokolü kullanılarak web sitesi içerisindeki herhangi bir dizin, URL yolu tümüyle ya da kısmen taramalara açılabilir. Disallow protokolü kullanılarak herhangi bir dizin, URL yolu tümüyle ya da kısmen taramalara kapatılabilir.

Robots.txt Özel Direktifleri

Robots.txt üzerinden arama motoru botlarına sağlanacak olan direktiflerin yoğunluğu ve ihtiyaçlar web sitesinin yapısının derinliğine ve web sitesinin büyüklüğüne göre değişiklik gösterebilmektedir.

Robots.txt dosyası içerisinde “*” direktifi sıklıkla kullanılmaktadır. User-agent içinde ve dizinlerle alakalı direktiflerde tümü anlamına gelmektedir. Herhangi bir protokol içerisinde “-“ ifadesinin kullanılması durumunda robots.txt dosyasını görüntüleyen arama motoru botlarına tümünün kastedildiği bilgisi verilmektedir.

Robots.txt dosyası içerisinde sıklıkla kullanılan özel direktiflerin bir diğeri “$” dir. Robots.txt üzerinde belirtilen herhangi bir URL ya da uzantı için “$” ifadesinin kullanılması durumunda arama motoru botları ilgili işlemin belirtilen string ile sınırlı olduğunu anlamaktadır.

Robots.txt dosyasında user-agent, allow ve disallow dışında kullanılabilecek farklı komutlar da bulunmaktadır:

Crawl-delay: Sadece Yandex’te kullanılmakta olup sunucuda aşırı yük olduğu ve indirme isteklerini işlemeye yetişilemediği durumlarda kullanılan bir yönergedir. Bir sayfayı indirme işleminin birmesiyle sonraki sayfayı indirmeye başlanması arasında geçmesi gereken en az süreyi saniye bazında arama motoruna belirtme görevini üstlenir.

Clean-param: Web sitesinin sayfa adresleri içeriklerini etkilemeyen dinamik parametreler içerdiği durumlarda yalnızca Yandex’te kullanılan Clean-param yönergesinden yararlanılabilir.

Sitemap: Web sitesinde XML formatında sitemap kullanıldığı ve arama motoru robotlarının bunu bilmesinin istendiği durumlarda sitemap yönergesi ile dosya yolu belirtilebilmektedir.

Robots.txt Kullanırken Nelere Dikkat Edilmelidir?

Robots.txt kullanılırken hedeflenilen botlara özel olarak oluşturulan direktiflere ve user-agent isimlerine dikkat edilmesi gerekmektedir. Herhangi bir bot için taramaya kapatılmak istenilen sayfanın yanlışlıkla tüm botlar için kapatılmaması konusunda dikkatli olunmalıdır.

Web sitelerinde kullanılan robots.txt dosyaları düzgün yapılandırılmış olmalıdır. Hatalı formata sahip olan orbots.txt dosyaları direktiflerin geçersiz olmasına neden olabilmektedir.

Robots.txt içinde mutlaka Sitemap protokolü kullanılmalı ve sitenin site haritası robots.txt dosyalarında belirtilmelidir.

Web sitesinin önemsiz ya da taranması istenmeyen alanları robots.txt kullanılarak engellenmelidir. Robots.txt dosyasının tarama bütçesinin optimize edilmesinde son derece kritik bir görev üstlendiği göz ardı edilmemelidir.

Subdomain ve ana domain için ayrı robots.txt dosyaları oluşturulmalıdır. Ana domainde oluşturulan robots.txt dosyası subdomaini kapsamadığı gibi, subdomainde oluşturulan direktifler de ana domaini etkilememektedir.

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

SEO Teklifi Alın
Size özel hazırlayacağımız SEO çözümleri ile sektörünüzde rakiplerinizi geride bırakın, işletmenizi başka bir seviyeye taşıyın.