Arama Motorları Teknikleri


ARAMA MOTORLARI
TEKNİKLERİ GENEL



Dmoz.org Nestcape firmasının Open Directory Projesidir. Toplam
4.600.000.000 site veritabanı bulunmaktadır.

Site kayıtları , editörler tarafından yapılmaktadır.Editör olmak
ücretsiz ve herkese açıktır.



İpucu:
Tüm arama motorları , Google firmasının arama sonuç
tekniğini kullanmaktadır.

Arama motorları arasındaki hiyarşi tablosu;



ARAMA MOTORLARI



GOOGLE

YAHOO

AOL

ALTAVİSTA



Sonuç: Yapılan tüm sitelerin , Dmoz.org ‘da doğru kategoriye
kaydedilmesi gerekir.



Soru: Arama motorları nasıl sitelerde arama yapıyorlar?



Dmoz.org veritabanında kayıtlı tüm domainleri SPIDER programı ile
gezerek ,belli kriterlerdeki "cache" dediğimiz önbellek bilgilerini
alıyor.Arama motorları bu önbellek dosyaları üzerinde arama yapıyor.



Dmoz.org ‘un SPIDER ‘ı ÇARŞAMBA günü (genellikle böyle , coğrafya
dağılımına göre değişiklik gösteriyor) siteleri gezerek bu dosyaları
alıyor.



Alınan dosyalar genellikle sitenin hersayfası için 25K büyüklüğünde
oluyor.



İpucu :Sitedeki tekstleri , önbellek ediyor.



SPIDER , sitedeki linkleri takip ederek ilerliyor.

Sitenizin içerisindeki linklere göre iki türlü inceleme yapıyor.
İleri ve Geri linkler.

İleri linkleri takip ederken ,kendi veritabanında kayıtlı domain ise
doğrulama yaparak ilerliyor.

Geri linkleri takip ederken , kısır döngüye düşmemek için , iki site
arasında karşılaştırma yapıyor ve sonucu bir olarak alıyor.Büyük
site kazanır diyor ve çıkıyor.





0 - 0 = 0

1 - 0 = 0

1 - 1 = 1



Sonuç: Büyük siteler,küçük sitelerden beslenir.En çok link
verilen site ,enbüyük olur.Bu açıdan diğer domainlerin linklerini
sitenize koyarken ,o sitelerin büyklükleri sizinkinden küçük olmalı.



Soru: Dmoz.org , sitedeki hangi dosyaları alacağını nereden
biliyor?





Dmoz.org sitesinin SPIDER"ı siteye geldiğinde sitenizin root"unda "robots.txt"
dosyasına bakar.Eğer yoksa ,zaman kısıtlı bulabildiği herşeyi
indekslemeye çalışır.





Robots.txt dosyasının içerisinde Disallow ve allow imleri
bulunmaktadır.Bunlar SPIDER"a nereye bakıp bakmaması gerektiğini
söyler.Bu sayede örneğin /admin klasörünüzün indekslenmesini
engellemiş olursunuz yada asıl indesklenmesini istediğiniz bölüm
için SPIDER"ın işini kolaylaştırarak yardımcı olmuş olursunuz.



Robots.txt dosyasının içeriği;

(örnektir)



User-Agent: *



# Disallow all crawlers access to certain pages.Disallow: /trDisallow:
/xcart/adminDisallow: /aboneformDisallow: /adminDisallow: /aprilDisallow:
/testDisallow: /topDisallow: /upgradeAllow: /



Ve bu ayarlamadan sonra sitenizin taglarının arasına ,

satırınıda eklemekte fayda vardır.



Soru: Bu ayarlamaları yaptım, sitemizin daha çok
indekslenmesi için ne yapmam gerekir.

Öncelikle , sitenizdeki sayfa çokluğu arama motorları için daha çok
indekslenecek sayfa demektir ve bu iyi birşeydir.

Eğer dinamik bir siteniz varsa ve siteniz somut olarak 5-6 sayfadan
oluşuyorsa ama çalıştırdığınızda dinamik olarak sanal sayfalar
oluşturuyorsa , SPIDER genellikle bu sayfaları yakalayamaz. SPIDER
düz sayfaları alır. (.html .php .asp vs..)

Sorgulu sayfalar SPIDER için çoğu zaman kısır döngü olduğu için
Arama motorları teknik olarak bu sayfaları CACHE ‘e alamazlar.



Örneğin:



Makale.php?makale=1 => SPIDER buraya geldiğinde Diğer makaleler gibi
veya dinamik bir navigasyon varsa tekrar geri dönüp , tekrar bu
sayfaya gelmesi gerekir.Buda bir kısır dögüdür.



Çözüm:



Sitelerinizin ,özel bir teknik kullanmıyorsanız (Satırları
parçalamak , HTML"e dönüştürmek vs..)

Yapmanız gereken anasayfanızda yada genel navigasyon çubuğunuzda
elle yazılmış sabit linklerin olmasıdır.

Bunu bir nehir örneği gibi düşünecek olursak , nehrin yoluna göre
hareket edileceğini hesap etmek gerekir.



Örneğin:



İndex.php

Anasayfa / Kitaplar / Videolar bu bir navigasyon çubuğu
olsun.Kitaplara bastığımızda



Kitaplar.php

Anasayfa / Kitaplar / Videolar kitaplar.php gelsin burdaki
navigasyon tuşunda Kitaplar bölümünde link olmamalı.



Soru :Site arama sonuçları nasıl değerlendiriliyor?



Arama sonuçları arama kelimesini esas alarak cache ler üzerindeki
incelemeler olarak değerlendiriliyor.Belli kriterlere göre sıralama
yapılıyor.





1. Site isminde aranan kelime olması öncelik için önemlidir.

2. Site içerisinde aranan kelimenin tekrarı önemlidir.





İpucu: Sitedeki sayfada 20den fazla kelime tekrarı SPAM
olarak kabul edilebilir ve siteniz sürekli olarak arama motorları
kayıtlarından çıkartılabilir.



3. Sitenize diğer link vermiş sitelerin çokluğu , sıralamadaki
önceliğinizi belirleyecektir.

4. Site ismi Title ve Description ‘da bulunanacak aranan kelime
öncelik sağlayacaktır.



İpucu: Sitenizin Title ve Descrption bölümü dinamik yada
farklı olmalıdır.Çünkü Arama motorları bu sayfaları cache lemesine
rağmen sitelerde benzerlikler var sebebi ile Ommited Results*
diyerek her sonucu göstermeyecektir.





Sitenizin her sayfasına ayrı ayrı Title ve Description koymak
indekslenme ve bulunma açısından büyük önem taşımaktadır.

Soru: Alexa.com - Google - Amazon ve diğer siteler
hiyerarşisi ve sitemiz üzerindeki etkileri nelerdir?



Bu tarz siteler birbirlerine organik bağlıdır ve birlikte iş
geliştirirler , birlike veri değerlendirirler. Google bulur , Alexa
istatistiğini ve yorumları gösterir , Amazon satar gibi.



İpucu:Alexa , bir amazon.com kuruluşudur ve Windows XP
explorer içerisine gömülü bir istatistik altyapısıdır.Sizin
gezdiğiniz sayfaları sayar. Görmek Inter Explorer"ınızda Tools
bölümünden Related ‘ı açarsanız Alexa bilgilerini görebilirsiniz.

Alexa.com da sitenizle ilgili sıralamaları ve genel bilgileri
görebilirsiniz.Kullanıcılar buraya girerek yorumlarda
bulunabilirler. Buradaki yorumlar ,sitenizde sizi incelemek
isteyecek kullanıcılar için oldukça bilgilerdir.Bu açıdan kendi
sitelerinizin bilglerine suni yorumlar eklemek yararlı olacaktır.

Alexa.com"da sitenizin altında "Bu siteyi inceleyenler ,bu
siteleride incelediler" diye bir ibare bulunmaktadır.Bu bölüm
manualdir.Herkes başvurabilir. Sitenizin altında yeralacak site
önerileri sitenizden daha büyük sitelerse ,arama kriterlerinizden
,günlük girişlerinize kadar herşeyi kötü olarak etkileyecektir.

Bu açıdan ,Alexa.com"da sitenizin altına özellikle daha küçük
siteleri önermek gerekmektedir.



GENEL İPUÇLARI:



Arama motorları flash dosyalarını 12framset maksimum 100K olarak
belirlemiştir ve sadece bu kritere uyan animasyonları CACHE ler.
Sitenizdeki imaj isimleri , Arama motorları tarafından aynı mantıkla
imaj bankalarına kaydedilir.Bu açıdan imaj isimleri önemlidir. Zemin
rengi ile aynı renkte olan kelimeler CACHE lenir. Resimlerdeki ALT
Tekst ‘ler tekst olarak CACHE lerir.Maksimum uzunluk 255
karakterdir. Site Title"ları maksimum 255 karakter olarak CACHE
lenir. Genel olarak dinamik bir site yapıyorsanız , olması gereken
yerler haricindeki bölümlerin HTML yapılması önemlidir. Sitenizde
tekrarlanan (Ommited) içerik sebebi ile aynı meta tagları ve
description ları hersayfanızda kullanmanız yanlış bir methotdur.
FLASH yada GRAFİK ağırlıklı siteler arama motorları tekniklerine
ters oldukları için arama motorları tarafından bir getirisi olmayan
sitelerdir. Yahoo ,Google ‘ın arama motoru tekniğini kullanmaktan
önümüzdeki dönemde vazgeçecek ve kendi sisteminini uygulamaya
başlayacak.Büyük bir ihtimallede Yahoo source edilen sayfalarıda
CACHE eden bir sistem geliştiriyor. (makale.php?makale=1 gibi.)



Hanci.org sizlere daha iyi hizmet sunmak için çerezleri kullanıyor.
Hanci.org sitesini kullanarak çerez politikamızı kabul etmiş olacaksınız.
Detaylı bilgi almak için Gizlilik ve Çerez Politikası metnimizi inceleyebilirsiniz.