Hari ini aku hendak share korang dengan satu benda yang banyak membantu dalam indexes untuk engin carian. Aku akan terangkan secara ringkas apa itu robot dan bahasa yang aku gunakan adalah bahasa melayu dan bukan bahasa robot. Pemilik laman web menggunakan fail /robots.txt untuk memberikan arahan tentang web site mereka kepada ‘web robots‘,yang dipanggil The Robots Exclusion Protocol. Robot ini dapat membantu mengelakkan dari robot-robot jahat yang selalu yang digunakan untuk spamming manakala robot-robot baik seperti Google membantu promote website kita. Macam cerita Transfromers pula.
Fungsinya seperti ini: robot ingin melawat url sebuah laman web, contohnya http://www.example.com/welcome.html. Sebelum melakukannya, pertama kali ia perlu memeriksa http://www.example.com/robots.txt, dan mencari:
User-agent: *
Disallow: /
“User-agent: *” bermaksud bahagian ini digunakan untuk semua robot.
“disallow: /” memberikan arahan supaya robot supaya tidak melawat page lain dalam website ini.
Dua perkara perlu diambil kira sebelum menggunakan / robots.txt:
- Robot boleh mengabaikan /robots.txt anda. Terutama malware robot yang mengimbas web untuk kelemahan keselamatan web site anda dan pencarian alamat e-mel untuk digunakan oleh spammer. Sebab itu apabila sekali sahaja anda memaparkan alamat email maka penuhlah inbox anda dengan spam
- File robots.txt boleh dilihat oleh semua pelawat dengan menaip alamat url /robot.txt dan boleh melihat bahagian mana yang hendak dihalang.
Jadi jangan cuba untuk menggunakan / robots.txt untuk menyembunyikan maklumat.
Untuk membenarkan semua robot akses
User-agent: *
Disallow:
(Atau hanya membuat fail kosong “/ robots.txt” , atau tidak menggunakan salah satu sama sekali)
Untuk mengecualikan semua robot dari bahagian dari pelayan
User-agent: *
Disallow: / cgi-bin /
Disallow: / tmp /
Disallow: / junk /
Untuk mengecualikan hanya satu robot
User-agent: BadBot
Disallow: /
Untuk membenarkan satu robot
User-agent: Google
Disallow:User-agent: *
Disallow: /
Untuk mengecualikan semua fail kecuali satu
Ini part paling mencabar sedikit kerana tidak ada “Allow” dalam coding. Cara mudah adalah dengan meletakkan semua fail yang akan dilarang ke dalam direktori berasingan, mengatakan “stuff”, dan meninggalkan satu fail di luar direktori ini :
User-agent: *
Disallow: / ~ joe / stuff /
Atau anda boleh menyenaraikan fail yang hendak dihalang jika rajin:
User-agent: *
Disallow: / ~ joe / junk.html
Disallow: / ~ joe / foo.html
Disallow: / ~ joe / bar.html
Perhatian : Pengubahsuaian ini akan membantu search engine dan mengelakkan spam dalam comment atau email jika betul settings tetapi jika sebaliknya website anda tidak akan dijumpai dalam search engines
wah nice la!
memang tak faham..kena duduk depan akak baru akak faham :wink:
bro… kalau tak de robots.txt page kita list tak dalam google… tq
@kak ina kl: memang susah ckt nk paham benda ni akak :)
@tak tau tanya: yup x terlist dlm apa jua search engine
Perkongsian yg menarik.. kadang2 pening gak nak faham bahasa robot ni..
wahh. nice info. dpt gak tau sket2 psl robot neyh
aku baca sikit punye teliti.tak paham jugak! T__T