anthem's milan

Kamis, 29 Maret 2012

WEB CRAWLING

 Web Crawler adalah sebuah mesin robot yang berwujud script berfungsi untuk mencari suatu website yang baru muncul. Sedangkan untuk suatu tekniknya disebut dengan web crawling.

search engines meng-crawl website untuk melihat apa yang ada dihalaman website. Tugas ini dilakukan oleh software kecil yang disebut crawler atau spider (atau googlebot, yang dipakai Google). Spider ini mengikuti link dari satu halaman ke halalman lainnya dan meng-index (menyusun) semua link yang ditemukan. Ingat, jumlah halaman-halaman website lebih dari 20 miliar, jadi tidak mungkin untuk spider mengunjungi suatu website setiap hari hanya untuk melihat apakah websitenya tampil atau sudah dimodifikasi. Kadang crawler tidak mengunjungi website anda sampai sebulan bahkan lebih.

Sedangkan teknik crawling yang biasanya dilakukan adalah untuk mengindetifikasikan hyperlink dan melakukan proses kunjungan secara rekursif.

khusus untuk proses perulangan pengunjung hyperlink, dapat terjadi spider trap, yaitu proses berulang tanpa akhir karena web crawler terperangkap untuk terus melakukan pencarian dalam jumlah tak terbatas. Hal ini dapat terjadi secara sengaja maupun tidak sengaja. dan apabila kita ingin mencoba-coba web crawling, tinggal download dan install dengan searching. lalu gunakan untuk mencobanya.

Tidak ada komentar:

Posting Komentar