Favorime Ekle l Ana Sayfam Yap

r10noktanet seo yarışması

R10noktanet Seo Yarışması

yatay1yatay2

Menü

 


R10noktanet Seo Yarışması Arama Motoru Ajanları

   Merhaba;

   Arama Motoru Ajanları (Search Engine Spiders)

   Özet:
Internet günden güne büyüyor, milyonlarca dosya ve resim barındırıyor. Bununla birlikte insanlar bilgilere ulaşabilmek için çevrimiçi servislere bel bağlıyorlar. Tabi ki bu bilgilere en sağlıklı ulaşabilecekleri servisleri tercih ediyorlar. Bu nedenle “Arama Motorları” büyük önem kazanıyor. Arama motorları dediğimizde ilk akla gelen internet tarayıcımızda gördüğümüz sayfa olsa da, aslında işin arka tarafında birçok servis çalışmakta. Bu servisler kullanıcıların ulaşacağı verilerin sağlıklı, taze ve mantıklı olmasını sağlıyor. Arama Motoru Ajanları (Search Engine Agents) da bu servislerin bel kemiğini oluşturuyor. Temel olarak aranacak olan bilgileri tarayıp, düzgün ve belirli bir mantık çerçevesinde kaydediyorlar. Bu yazıda Arama Motoru Ajanlarının çıkış nedenleri ve mimarisi hakkında bilgiler bulunmaktadır.

   Giriş
Bizim arama motorlarında arama yapmamızdan önce o dosya ve belgelerin bir şekilde bulunup kaydedilmesi gerekiyor. Bunlar için Ajanlar veya örümcekler isminde özel yazılımlar geliştiriliyor. Bu yazılımlar internet adreslerini ve içeriklerini kaydediyorlar. Bu kayıtların yapıldığı sayfalardaki linkleri takip ederek sayfadan sayfaya geçiyorlar. Böylelikle milyonlarca siteye ulaşabiliyorlar. Bu programlar otomatik olarak her bulduğu linkleri gezmektedirler.(Çapraz link değişimleri bu sebeple yapılmaktadır.)

   Bu ajanların bulduğu web adreslerinin içeriğini kaydeden başka ajanlarda mevcut. Bu ajanlarda kaydettikleri verileri belirli mantıkta sıkıştırıp saklamaktadır.

   Bu ajanların dışında siteler için öncelik sırası belirlemek amacıyla çeşitli ajanlar çalışmaktadır. Bunlar o siteye ne kadar link verildiği, bu linklerin karşılığının olup olmadığını karşılaştırarak o site için bir önem puanı vermektedir. Bu sayede önemli görülen siteler aramalarda üst sıralarda yer alabilmektedir.

   Ajanlar Nasıl Çalışır?

Ajanlar arama motorlarının birer parçası olarak arka planda çalışmaktadır. Performans ve güvenilirlik en önemli noktalar. Ajanların çalışma performansı internet bağlantısının hızına ve bağlandığı sitenin hızına göre değişmektedir. Temel olarak ajanlar aşağıdaki adımları takip etmektedir:

   Sayfayı tamamen kaydet.
Kaydedilen sayfayı parçalara ayırarak içerisindeki tüm linkleri al.
Alınan tüm linkler için işlemi tekrar et.
Ajan herhangi bir internet veya Intranet adresinden başlayarak sayfaları kaydeder. Her kaydettiği sayfada yeni adresler ile karşılaştığı için sürekli olarak kayıt işlemine devam edecektir.

   Problemler

   İnternetin büyüme hızı ve web sayfalarının sayının artması altında örümceklerimiz ezildi.Büyük çapta hizmet gösteren ajanlar yüksek sayıda web adresi (URL) olması sebebiyle çeşitli problemlerle karşılaşmaya başladılar. Hazır olan tüm sitelerini gezip, taramak ve bunları hafızaya almak çok zor olmaya başladı. Diğer bir yandan bu toplanan verileri diskte yazmakta performans açısından çok da verimli olmamaya başladı. Milyarlarca web sitesini kaydedebilmek için terabytelarca iyi yönetilen disk alanı gerekiyor.

   Evre Takası

   Sağladıkları avantajlar ile birlikte ajanlarımızın yol açtığı sorunlarda meydana gelmeye başladı. Aynı anda birçok sayfası kaydedilen bir sunucuda fazladan bir yük binmeye ve yavaşlamalara yol açmaya başladı. Bu nedenle daha kibar ajanların hazırlanması gerekti, aynı anda sunucudan fazla veri çekmemeleri için.

   Ajanların aynı sunucu üzerinden aynı anda veri çekmesini düzenlemek amacıyla “Evre Takası (Phase Swapping)” metodunu kullanıyoruz.Takas etmek problemin tek çözümü olmasa da başarılı çözümlerden bir tanesi.

   Aşağıdaki şekildeki gibi aynı sunuculardaki verileri parçalara ayırıyoruz. Daha sonra aynı satırda olan adreslerden sadece bir tanesine gidip, diğer satıra gidiyoruz. Zamanımız arttığı için sütun sayımızı da artıyoruz. Bunun neticesinde aşağıda ki şekilde görülen çapraz şekilde giden bir yapı oluşuyor. Bu yapıyla birlikte aynı anda aynı sunucu üzerinden veri çekmemiş oluyoruz.

   Site Adresi Sıkıştırma (URL Compression)

   Ajanlarımız tüm adresleri kaydetmek durumundalar. Bunun için bu adresleri saklarken bir sıkıştırma algoritması kullanmamız gerekiyor, bu algoritma hem hızlı saklanabilmeli, aranabilmeli aynı zaman hızlı geri dönüşüm sağlayabilmeli.

   Kullanacağımız algoritma sunucuların birbirleriyle bağlanma ilkelerine benziyor. Algoritmamız da site adresleri kök (root) ve kuyruk (tail) olmak üzere ikiye ayrılıyor. Bir kök dizinin altında ağaç yapısı şeklinde kuyruklar sıralanıyorlar, bu kuyruklar sıralanırken çeşitli köklere bağlanabiliyorlar. Aynı site için birden fazla adres olabileceği içinde yansılar ayrıca belirtiliyor, böylece farklı adreste yayın yapan iki farklı site 2 kez kaydedilmemişte oluyor.


   Anahtar Kelimeler

   Örümcek (Spider), İndeksleyici (Indexer), Depolama (Repository), Doküman İndeksleyici (Document indexer), Robot, r10noktanet, seo, yarışması

   Kaynaklar

* High Performance Large Scale Web Spider Architecture, Kasom Koht-arsa ve Surasak Sanguanpong
* A Bandwidth Friendly Search Engine, Clare Bradford ve Ian.W.Marshall
* Exploiting a Search Engine to Develop More Flexible Web Agents, Shou-de Lin ve Craig A. Knoblock
* How search engine work and a web crawler application, Monica Peshave

   Bu makale alıntıdır.Hasan Yaşar’a çok teşekkür ederiz.Orijinal makaleyi aşağıdaki linkten edinebilirsiniz:
   Arama Motoru Ajanları (Search Engine Spiders)
   hasanyasar.com/2006/06/arama-motoru-ajanlari-search-engine.html

   Arama motorları ve örümcekleri hakkında okuduğunuz bu makale için, makale sahibine buradan teşekkür ediyoruz. Birde ek olarak şunu belirtmeliyim ki sizler robotlara iyi ve kaliteli siteler sunarsanız, onlarda sizi daha sık ziyaret edecektir. Buradan kastımda özgün içerik, spam yapmamak, doğru kodlama yapısı ve tasarım (bir önceki sayfada açıklanmıştı.), metaların doğru kullanılması ve diğer detaylar (alt taglarının kullanılması gibi)... Eğer bunları sağladı iseniz endişelenmeyin, er yada geç istediğiniz konuma geleceksiniz.

-1- -2- -3- -4- -5- -6- -7- -8- -9- -10- -11- -12- -13- -14- -15- 16- -17- -18- -19- -20- -21- -22- -23- -24- -25- -26-

-27- -28- -29- -30-



Anasayfa Anasayfa
Yarışma Başlangıcı Yarışma Başlangıcı
Sitemiz İndexlenmemiş Sitemiz İndexlenmemiş
Seo Yarışması 3üncü Gün Seo Yarışması 3. Gün
Backlink Oluşturmaya Başladım Backlink Oluşturuyorum
Pagerank5 Ve Teorilerim Teoriler Ve Link İnşası
Sıralamada Kaybolduk Sıralamada Kaybolduk
Değişik Font Denemesi Değişik Font Denemesi
Metataglar Ve Anlamları Metataglar Ve Anlamları
Biraz Eğlence Biraz Eğlence
İlk Yardım Hakkında İlk Yardım Hakkında
Sıralamaya Geri Döndük Sıralamaya Geri Döndük
2inci Sıradayız 2inci Sıraya Ulaştık
3üncü Sıradayız 3üncü Sıradayız
Bayılmalar Ve Yapılacaklar Bayılmalar, Yapılacaklar
Blok Seo Yarışması Siteleri Blok Yarışma Siteleri
HTML Tarihçesi Html Tarihçesi
27 Eylül 2006 Seo Yarışması 17. Gün
Pc Güvenliği Ve Virüsler Pc Güvenliği Ve Virüsler
Göz Sağlığı Ve Alınacak Önlemler Göz Sağlığı Ve Önlemler
Uydu Telefonları Satellite Phone Tekno.
Temel'in Babası Vefat Eder Temel'in Babası
Seni Seviyorumlar Seni Seviyorumlar
Türkçe'mize Sahip Çıkalım Türkçe'ye Sahip Çık
Atasözlerindeki Tezatlar Atasözlerindeki Tezatlar
30/Kasım/2006 30/Kasım/2006
Liste Devamı Devamı
 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Webmaster, Yani Ben:)
En Büyük Türkiye
www.r10.net küresel ısınmaya hayır seo yarışması