Cara Kerja Web Crawler

Web crawler tak serta merta mengindeks semua yang ada di internet. Ia menentukan halaman mana yang perlu crawling, berdasarkan jumlah halaman lain yang menaruh link ke halaman tersebut dan jumlah pengunjung ke sana.

Jadi, apabila suatu halaman muncul di banyak halaman lain dan mendapatkan pengunjung yang tak sedikit, kemungkinan besar halaman itu memang penting.

Halaman penting ini biasanya berisi konten atau informasi yang dibutuhkan oleh banyak orang, sehingga mesin pencari pasti akan memasukkannya ke indeks agar orang-orang lebih mudah mengaksesnya.

Web crawler juga menentukan halaman mana yang perlu crawling berdasarkan keinginan robots.txt. Jadi sebelum crawling ke suatu website, ia akan mengecek robots.txt dari website itu terlebih dahulu.

Robots.txt ini merupakan file di sebuah website yang berisi informasi mengenai halaman mana yang boleh diindeks dan halaman mana yang tak boleh.