Googlebot Nedir? Nasıl Çalışır?

Googlebot, web sitelerine dair bilgileri derleyen ve Google üzerinde dizinler oluşturan bir sistemdir. Web tarayıcısı olarak Google’ın aranabilir bir web dizini oluşturmak için sitelere gönderdiği Googlebot, içerikleri belirli bir sisteme bağlı olarak düzenleyen bir tarayıcı sistemi olarak çalışır. Çok sayıda cihaz üzerinden çalışan Googlebot sistemi, internet üzerinde yer alan bilgilerin hangi hızda ve hangi başlıklar altında taranacağını belirlemektedir.

Googlerobot ve Google Spider (Google Örümceği) olarak da adlandırılan Googlebot, webde paylaşılan linkleri takip ederek sayfalarda paylaşılan bilgileri arama motorunda sistematik olarak gruplandırır. Dizine eklenen içerikler bu sayede internet kullanıcılarının hizmetine açık hale gelir. Bu sistem mobil ortamlarda ve masaüstü tarayıcılar üzerinde yer almaktadır. Ayrıca resim, video ve haberler için özel tarayıcılara da sahip olan Googlebot, web sitelerinin arama motorlarında dizine eklenmesi görevini üstlenir. Her tarayıcı “kullanıcı aracısı” şeklinde ifade edilebilecek bir işleve sahiptir. Bu yazımda “Googlebot nedir ve nasıl çalışır?” gibi sorulara dair merak edilen bütün detayları irdeleyeceğim.

Googlebot Sistemi Nasıl İşler?

Googlebot, her biri farklı bir işleve sahip olan tarayıcılar yardımıyla web sitelerinde yer alan bilgi ve belgeleri kullanıcıların erişimine açık halde dizinlere ayırır. Bu işlem, verilen linkler üzerinden sayfaları ziyaret ederek içerikleri sınıflara ayıran bot sistemi ile sağlanır.

Web dünyasında yer alan içeriklerin linkleri, Googlebot tarafından takip edilir. Bu sayede yeni siteler ve yeni oluşturulan içerikler, kullanıcıların erişimi için dizinde yerini alır. Arama motorlarında yer alan içeriklerin taranma hızını ve üst sıralarda konumlanmasını bu sistem denetler.

Mobil tarayıcılar ve masaüstü tarayıcılar aynı user-agentları kullanmasına rağmen içerikleri sınıflandırma yöntemleri farklıdır. Googlebot yardımıyla web sitelerini keşfeden ve dizine ekleyen arama motoru dizini (index), mevcut sayfalarda gerçekleşen güncellemeleri de tarayıcı üzerinde yeniden işler. Googlebotun dizin oluşturma süreci aşağıdaki gibi sıralanabilir:

Googlebot, keşfedilen sayfaların içeriklerini ilgili bot yardımıyla indirir.
Web sitesini ziyaret edecek olan botların kullanımı için bu içerikler cachelenir.
Cache içinde derlenen site kaynakları, sayfayı ziyaret edecek olan botlar tarafından sınıflandırma için kullanılır.
Sınıflandırılan sayfalar ilgili başlık ve etiketlere göre dizine alınır.
Googlebotun tarama yapması için sayfaya HTML isteği iletilir.
Sayfa sunucusundan HTML yanıt kodu alınır.
Alınan koda göre sayfa kaynakları taranır.
HTML yanıt kodu 200”OK” olarak alınırsa sayfanın kodları Googlebot’a iletilir.
User-agent Googlebot olarak belirlenir.
Erişim, sunucu tarafından Server Access Log olarak erişim kayıtlarına işlenir.

Googlebotun Web’i Taraması ve Dizine Eklemesi Süreci

Google, site haritaları, sayfalar RSS beslemeleri ve Dizine Ekleme API üzerinde iletilen URL kaynaklarından derlenen URL’ler listelenir. Tarayıcı üzerinde öncelik verilecek olan sayfaların kopyaları saklanır. Dizine alınacak olan sayfalar, CSS, JavaScript ve API istekleri gibi araçlar daha çok bağlantı oluşturmak üzere işlenir. Ek istekler, Google önbelleğine dahil edilir. Googlebot bu noktada verileri kullanıcı gözünden değerlendirerek gruplandırır.

Bu işlemlerden sonra Googlebot verileri tekrar işler ve sayfalarda yeni değişiklikler varsa onları günceller. Yeni oluşturulan ya da güncellenen sayfaların içerikleri Google dizininde saklanır ve arama için hazır hale gelir. Bu sırada bulunan yeni bağlantılar ise tarama için URL’ler grubu içerisinde yeniden işlenir.

Googlebot Nasıl Kontrol Edilir?

Googlebot, dizine eklenecek olan şeylerin sınıflandırmasını yaparak hangi içeriklerin taranacağını ve dizine eklenmesi gerektiğini belirler. Taramalar, farklı yöntemlerle kontrol edilebilir. Web sayfaları üzerinde sürekli olarak ziyaret gerçekleştiren Googlebot, bu sayede sayfaların güncelliğini korur. Bu tekrarlı ziyaretlerin sağlanması, web sitelerinde gerçekleştirilen güncellemelerin takibini kolaylaştırır. Dolayısıyla sayfaların arama motorunda doğru içeriklerle yer alması sağlanır.

Arama sırasında yapılan sıralamalar hatalı olduğu takdirde aramanın seyrini değiştireceğinden sayfa güncelliği büyük önem taşımaktadır. Özellikle de günlük olarak işlenen ve sürekli güncellenen haber siteleri gibi alanlar, tekrarlı ziyaretlere daha açık bir pozisyondadır.

Googlebot Site Haritalarını Kullanır

Web siteleri, içerisinde bulunan sayfalara dair detayları site haritaları üzerinden açık ve bulunabilir bir şekilde içinde barındırır. URL’lerin kolay bulunması için site haritaları oldukça işlevsel ve önemlidir. Bu sebeple Googlebot site haritasını yoğun olarak kullanmaktadır. Google Search Console aracılığı ile ön plana alınarak Googlebota bildirilen site haritası, sayfaların rahatlıkla keşfedilmesini sağlamaktadır.

Web sitesi içinde yer alan link kullanımları ne kadar doğru konumlandırılırsa sayfanın bulunması da o kadar kolaylaşır. Site haritası düzgün konumlandırılsa da hatalı olsa da aktif olarak dizinlere girecektir. Ancak bu alanların düzenlenmesi sıralamayı ve tarama hızını belirleyecektir.

Daha önce Google’da dizine eklenmiş olan sayfalarda güncelleme gerekliliğinde site haritaları ile ilgili URL’ler son güncelleme tarihine göre yeniden dizine alınır. Bu durumda Googlebot, siteyi ziyaret ederek URL taramaları yapar.

Googlebot Robots.txt Komutlarını İşler

Googlebot, web sitelerinin taranmasına dair tarayıcılar üzeride çeşitli düzenlemeler yapar. Uygulama, bu komutları, robots.txt dosyasındaki komutlar ile beraber işleme alır ve web sitesinin dizine eklenmesini sağlar. Googlebot, dizine eklemesinin istenmediği durumlarda ise sayfayı robot.txt üzerinde disallow komutu ile engelleyebilir.

Googlebot, site üzerinde gerçekleştirilen ziyaretler sırasında robot.txt komutlarına göre inceleme yapar. Bu yolla sayfalar üzerinde herhangi bir kısıtlama varsa ortaya çıkarılır. Sayfada disallow ibaresi varsa bu o sayfa taranmayacaktır. Robots.txt raporunun oluşturulmasında disallow komutunun doğru değerlendirilmesi gerekir. Hatalı oluşturulan robots.txt dosyası tarama sonuçlarını olumsuz etkileyebilir.

Googlebot İndeksleme ve Taramada Meta Etiketleri

Googlebot, robots.txt komutu ile inceleme gerçekleştirirken üzerinde kısıtlama bulunmayan sayfaları ziyaret eder. Ziyaret edilen bu sayfalar dizine eklenmeden önce kaynak kodu HTML içerisinde bulunan meta etiketlerinde kontrolü sağlanır. Meta name = Googlebot şeklinde bilinen etiketlendirmelerde contex=noindex yansıması varsa tarama yapar ancak işlemi dizine eklemez.

Googlebot taraması sırasında HTML bölümünde <head> </head>satırları içerisinde yer alan meta etiketi ile bu kısımda bulunan komutlar dâhilinde dizine ekler.

Meta Etiketi ve Robots.txt ile Engellenen Sayfalar İndeksleme

Uygulamasında robots.txt dosyasında disallow komutu barındıran URL’ler, meta etiketi bulunsa da harici olarak alınan bir link varsa Google bu içeriği indeksleyebilir. Disallow uygulanmış olan bir belgenin Googlebot ile algılanması mümkün olmadığı için içerikteki meta etiketinin görünmesi olanaksızdır. Bu nedenle farklı yollardan alınan dış bağlantılarla indeksleme yapılabilir.

Google Search Console üzerinden alınan raporlarda engelli olmasına rağmen dizine eklendiği belirlenen URL’lerin engellenmesi için sayfalar taramaya açık olmalı ve noindex etiketi görünür olmalıdır. Ayrıca URL kaldırma aracı üzerinden de aramanın silinmesi mümkündür ancak kalıcı olmayacağından tekrar edilmesi gerekmektedir.

Googlebot Çeşitleri

Birbirinden farklı görevler için farklı tarama işlemleri sağlayan Googlebot türleri bulunmaktadır. Hepsi için genel olarak Googlebot adı kullanılsa da işlevlerine göre büyük farklılık gösterirler. Özellikle masaüstü ve mobil çözümler için farklı türleri bulunan botlar, arama alanlarına göre çeşitlendirilir. Googlebot türlerinden bazılarını aşağıdaki gibi sıralayabiliriz:

Googlebot Videos: Google üzerinde yapılan video aramaları için kullanılır.
Googlebot News: Haberler üzerinde kullanılan bir bot türüdür.
Googlebot Image: Resim aramalarında kullanılan botlardır.
Googlebot Favicon: Küçük resim olarak da bilinen ikonların taramasında kullanılır.
Googlebot Feedfetcher: Web sitelerinin feedlerini taramak için kullanılır. Bu sayede sayfa üzerindeki bütün faaliyetler Google’a bildirilir.

Sahte Googlebotlar

Googlebot gibi davranabilen kötü niyetli yazılımlar, korunmaya çalışan sayfalara erişim izni alabilmektedir. Bu gibi durumların yaşanmaması için daha önce kullanılan DNS aramasının yerine Google botlarını algılayabilen IP’ler kullanılabilmektedir. Bu IP’ler liste halinde bulunurken kötü niyetli yazılımlar bu sayede kolayca ayırt edilebilmektedir. Bunun yanı sıra Google Search Console üzerinden “Tarama İstatistikleri” bölümünde yer alan raporlardan tarama süreçlerini denetleyebilirsiniz.

Googlebotlar, büyük bir veri havuzu oluşturan internet dünyasının karmaşık yapısını düzenlemek için kullanılan aygıtlardır. Bu aygıtlar sayesinde internet kategorilere ayrılarak Google üzerinden kullanıcı erişimine hazır hale getirmektedir.