Kepentingan Robot Untuk Search Engines

Hari ini aku hendak share korang dengan satu benda yang banyak membantu dalam indexes untuk engin carian. Aku akan terangkan secara ringkas apa itu robot dan bahasa yang aku gunakan adalah bahasa melayu dan bukan bahasa robot. Pemilik laman web menggunakan fail /robots.txt untuk memberikan arahan tentang web site mereka kepada ‘web robots‘,yang dipanggil The Robots Exclusion Protocol. Robot ini dapat membantu mengelakkan dari robot-robot jahat yang selalu yang digunakan untuk spamming manakala robot-robot baik seperti Google membantu promote website kita. Macam cerita Transfromers pula.

Fungsinya seperti ini: robot ingin melawat url sebuah laman web, contohnya http://www.example.com/welcome.html. Sebelum melakukannya, pertama kali ia perlu memeriksa http://www.example.com/robots.txt, dan mencari:

User-agent: *
Disallow: /

“User-agent: *” bermaksud bahagian ini digunakan untuk semua robot.
“disallow: /” memberikan arahan supaya robot supaya tidak melawat page lain dalam website ini.

Dua perkara perlu diambil kira sebelum menggunakan / robots.txt:

  • Robot boleh mengabaikan /robots.txt anda. Terutama malware robot yang mengimbas web untuk kelemahan keselamatan web site anda dan pencarian alamat e-mel untuk digunakan oleh spammer. Sebab itu apabila sekali sahaja anda memaparkan alamat email maka penuhlah inbox anda dengan spam
  • File robots.txt boleh dilihat oleh semua pelawat dengan menaip alamat url /robot.txt dan boleh melihat bahagian mana yang hendak dihalang.
    Jadi jangan cuba untuk menggunakan / robots.txt untuk menyembunyikan maklumat.

Untuk membenarkan semua robot akses

User-agent: *
Disallow:

(Atau hanya membuat fail kosong “/ robots.txt” , atau tidak menggunakan salah satu sama sekali)

Untuk mengecualikan semua robot dari bahagian dari pelayan

User-agent: *
Disallow: / cgi-bin /
Disallow: / tmp /
Disallow: / junk /

Untuk mengecualikan hanya satu robot

User-agent: BadBot
Disallow: /

Untuk membenarkan satu robot

User-agent: Google
Disallow:

User-agent: *
Disallow: /

Untuk mengecualikan semua fail kecuali satu

Ini part paling mencabar sedikit kerana tidak ada “Allow” dalam coding. Cara mudah adalah dengan meletakkan semua fail yang akan dilarang ke dalam direktori berasingan, mengatakan “stuff”, dan meninggalkan satu fail di luar direktori ini :

User-agent: *
Disallow: / ~ joe / stuff /

Atau anda boleh menyenaraikan fail yang hendak dihalang jika rajin:

User-agent: *
Disallow: / ~ joe / junk.html
Disallow: / ~ joe / foo.html
Disallow: / ~ joe / bar.html

Perhatian : Pengubahsuaian ini akan membantu search engine dan mengelakkan spam dalam comment atau email jika betul settings tetapi jika sebaliknya website anda tidak akan dijumpai dalam search engines

About Emi

Emi atau nama sebenar Mohamad Zulhelmi berasal dari Sitiawan, Perak dan sekarang menetap di Shah Alam. Seorang programmer di sebuah organisasi yang terpaksa di rahsiakan atas sebab-sebab keselamatan. Mula aktif berblog pada akhir tahun 2008.

8 thoughts on “Kepentingan Robot Untuk Search Engines

Leave a Reply

This site uses Akismet to reduce spam. Learn how your comment data is processed.