Mengenal robots.txt dan Bagaimana Cara Kerjanya

Sebagai seorang blogger, Anda mungkin sudah pernah mendengar kata “robots.txt”. Pada saat pertama kali mendengarnya, Anda pasti bingung file apa itu. Di artikel kali ini saya ingin sharing mengenai cara kerja dan apa isi dari file robots.txt

Apa Itu Robots.txt

Robots.txt merupakan sebuah file text (.txt) yang wajib dimiliki setiap situs di internet yang didaftarkan pada mesin pencari seperti Google, Yahoo, dan Bing. File robots.txt ini sangat erat hubungannya dengan SEO. Fungsi dari file robots.txt yaitu untuk mengontrol dan mengatur halaman atau direktori mana yang boleh ditampilkan / diindex mesin pencari.

Cara Kerja Robots.txt

Pertama-tama Anda sudah memiliki sebuah website dengan domain "namadomain.com" kemudian didaftarkan pada mesin pencari seperti Google, maka secara otomatis Anda memperbolehkan atau menyuruh robot perayap mesin pencari tersebut untuk mengunjungi dan merayapi situs "namadomain.com". Pada saat robot perayap (bot crawler) mesin pencari itu mengunjungi situs Anda, file yang pertama kali mereka rayapi adalah robots.txt yang terdapat pada website. Jadi, file robots.txt harus diletakan pada direktori utama atau di folder public_html. File robots.txt berisi perintah-perintah pada bot crawler mengenai halaman mana saja yang boleh diindex atau ditampilkan di mesin pencari.

Hal ini tentu saja untuk melindungi halaman sistem Anda utuk diketahui oleh orang-orang. Misal halaman Administrator website yang merupakan halaman yang pantang untuk diketahui oleh umum atau diindex oleh mesin pencari. Nah, disitulah robots.txt melakukan tugasnya. Selain di website, blog juga memiliki file robots.txt hanya saja biasanya telah ditetapkan sebagai standar oleh penyedia layanan blognya. Untuk Blogspot, default robots.txt diatur seperti ini :

User-agent: Mediapartners-Google
disallow:
User-agent: *
disallow: /search
allow: /
sitemap: http://blogURL/feed/posts/default?orderby=UPDATED

1. "User-agent: Mediapartners-Google" - Berarti bahwa kode yang ditempatkan di bawahnya hanya berlaku untuk Bot Crawler / robot perayap Mediapartner-Google. Mediapartners-Google adalah Bot Crawler untuk google adsense.

2. "disallow" - Berarti bahwa tidak ada batasan halaman merangkak oleh crawler. Dengan kata lain, memungkinkan crawler merangkak semua halaman di situs.

3. "User-agent: *" - Berarti kode / perintah yang ditempatkan di bawahnya berlaku pada semua robot crawler (kode * / asterik).

4. "disallow: /search" - Melarang crawler untuk menjelajah url yang memiliki "namadomain.com/search"/

5. "allow: /" - Membiarkan crawler merayapi semua halaman kecuali yang dicantumkan pada perintah disallow.

6. "Sitemap: " - Sitemap dari situs Anda yang diberitahukan kepada crawler agar mudah ketika menjelajahi lagi. Sitemap berisi semua link yang ada disitus untuk dirayapi crawler.

Jadi intinya file robots.txt memperbolehkan crawler Google Adsense (User-agent: Mediapartners-Google) untuk menjelajahi semua halaman situs Anda. Selain itu, file robots.txt juga mengijinkan semua crawler dari mesin pencari manapun (User-agent: *) menjelajahi semua halaman blog Anda kecuali halaman dengan url yang memiliki awalan "namadomain.com/search". Karena halaman dengan url awalan itu merupakan halaman arsip dan label.

Cara Mengatur Robots.txt

Jika ingin memodifikasi atau mengatur file robots.txt, Anda harus berhati-hati dan paham betul apa saja fungsi dari perintah di dalam file robots.txt karena kesalahan pengaturan bisa membuat website Anda tidak diindex search engine.

A. Memblokir URL

Tidak hanya kode yang saya jelaskan di atas yang dapat digunakan dalam robots.txt. Contoh kasus, misalnya Anda ingin memblokir posting tertentu agar tidak diindeks oleh semua mesin pencari, Anda dapat melakukannya dengan menempatkan kode :

user-agent:*
disallow:/2018/7/my-url.html

URL yang berwarna menunjukan contoh struktur url permalink posting blogspot yang di blokir tanpa menuliskan nama domain web di depannya.

B. Memblokir Direktori

Untuk memblokir direktori (termasuk isinya) Anda dapat melakukannya dengan cara berikut :

user-agent: *
disallow: /cgi-bin/
disallow: /wp-admin/
disallow: /wp-content/plugins/

Kode diatas merupakan contoh direktori pada web dengan wordpress self hosted. Tujuannya yaitu melarang bot crawler untuk merayapi semua file web yang ada di dalam folder cg-bin, wp-admin, serta plugins yang terdapat di direktori wp-content.

C. Memblokir URL Yang Mengandung Karakter

Dengan robots.txt kita juga dapat memblokir url yang memiliki karakter tertentu agar tidak diindex mesin pencari. Misal saya menggunakan karakter tanda tanya (?) yang biasanya dipakai pada url untuk query string atau pencarian pada web tertentu yang menyebabkan duplikat.

user-agent:*
disallow: /*?*

Untuk memblok semua url yang mengandung "?".

allow: /*?$

Untuk membolehkan akses pada semua url yang memiliki akhiran "?".

D. Memblokir Akses Pada Format File Tertentu

Kita juga dapat mengatur robots.txt untuk memblokir file dalam situs Anda dengan format tertentu. Misalnya, kita akan memblokir file dengan format .php, .css dan .javascript.

user-agent: *
disallow: /*.php$
disallow: /*.js$
disallow: /*.css$

User Agent

Saat mengatur robots.txt, Anda dapat mengatur mana saja bot crawler yang diperbolehkan atau dilarang untuk mengakses atau merayapi web anda secara spesifik. Oleh karena itu, Anda harus mengetahui nama beberapa bot crawler dari mesin pencari paling terkenal.

Google Adsense : Mediapartners-google
Google Search Engine : Googlebot
Altavista : Scooter
Lycos : Lycos_Spider_ (T-Rex)
Alltheweb : FAST-WebCrawler /
Inktomi : Slurp
Yahoo : Yahoo Slurp
MSN : msnbot

Bagaimana sudah paham apa itu file robots.txt ? File ini sangat berguna bagi kalian yang berfokus pada SEO. Jika masih bingung tanya aja dengan menuliskan pertanyaan di kolom komentar. Semoga bermanfaat.