Memahami Setting (Pengaturan) Robots.Txt

Melanjutkan postingan sebelumnya tentang auto redirect broken link di blogspot, kali ini sekalian saja aku buat posting tentang robots.txt. Seperti sudah disebutkan di postingan sebelumnya, blogger/blogspot kini makin ramah dengan search engine, hal ini bisa kita temui jikalau menggunakan penampilan gres blogger dimana terdapat fitur gres yakni Search Engine Preferences.

Salah satu fitur yang paling hot menurut aku yakni diperbolehkannya pengguna blogspot untuk mengubah atau mengedit robots.txt yang mana sebelum ada fitur ini gampang kita tidak dapat menjalankan pergantian apapun terhadap robots.txt ini. Sebelum mengulas tentang apa itu robots beserta fungsinya ada baiknya jikalau kita berkenalan dahulu dengan si robots ini.

Apa Itu Robots?


Robots atau robots.txt yakni kumpulan perintah yang ditujukan terhadap mesin penelusuran sebelum mesin penelusuran mulai menelusuri isi dari sebuah web atau blog. Misal, robot (crawler) dari sebuah mesin mencari ingin menelusuri salah satu halaman blog ini yakni blogedek.blogspot.com/p/sitemap-blog.html, maka sebelum si crawler ini menelusuri lebih jauh beliau akan menyaksikan isi robots.txt dahulu yang dapat didapatkan di blogedek.blogspot.com/robots.txt dan hasilnya menjumpai instruksi seprti ini
User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: /search
Allow: / ini salah, crawler tidak memedulikan Allow sebab intinya beliau meng-crawl semua index
Sitemap: https://kirikuadagadget.blogspot.com//feeds/posts/default?orderby=updated

Kode di atas yakni instruksi pengaturan default robots.txt yang digunakan oleh blogspot, untuk mengenali arti dari perintah tersebut nanti diterangkan di bawah.
Melanjutkan postingan sebelumnya tentang  Memahami Setting (Pengaturan) Robots.txt
File robots.txt juga mesti ditaruh di main root (jika teman dekat menggunakan self hosting)

Memahami Pengaturan Robots.txt


Seelah mengenali fungsi dari robots, semestinya kita juga mengetahui fungsi perintah-perintah yang ada di dalam robots.txt tersebut. Kode User-agent: * mengumumkan terhadap crawler bahwa pengaturan ini untuk semua jenis bot. Tanda bintang (*) di sini tujuannya yakni apa pun jenis User-agent nya.

Jika kita ingin memamerkan parameter bagi crawler tertentu, maka kita bisa menuliskannya dengan merubah tanda bintang (*) tersebut, amati rujukan berikut:
User-agent: * #targets all spiders
Disallow:

User-agent: Googlebot
Disallow: /search #untuk crawler google, dihentikan meng-indeks halaman dengan awalan search, crwaler lain silahkan mengindeks)

User-agent: insert name of agent here
Kode Disallow: / artinya yakni tidak mengizinkan crawler untuk mengindeks semua yang ada di web atau blog kita.

Jika kita ingin supaya crawler mengindeks semuanya caranya cukup kosongkan saja, menjadi Disallow:. Keslahan lazim yang sering terjadi yakni memamerkan parameter Allow :. Parameter atau perintah ini salah sebab intinya crawler itu tugasnya menelusuri, jadi kiprah kita hanya memberi batas-batas apa yang tidak boleh ditelusuri.

Apa teman dekat pernah menjumpai blog auto generate (blog yang isinya memperlihatkan hasil pencarian)? Nah, blog auto generate tersebut juga menjalankan setting / pengaturan robots.txt dengan mengizinkan halaman search mudah-mudahan di indeks oleh crawler. Itulah mengapa blog auto generate lazimnya berbasis wordpress, ya sebab dahulu blogspot tidak dapat menjalankan pergantian di robots.txt sehingga tidak sesuai untuk blog auto generate.

Setelah mengetahui tentang

pengaturan robots.txt

, teman dekat juga bisa menjalankan mengembangkan secara optimal pada robots.txt ini, tepatnya di pecahan sitemap. Secara default, sitemap di robots.txt blogspot yakni seumpama ini
Sitemap: https://kirikuadagadget.blogspot.com//feeds/posts/default?orderby=updated
Nah, menurut agan alkatro, feeds di atas kurang maksimal. Kenapa? sebab eh sebab feeds dari blogspot cuma "mampu" memuat 26 postingan modern saja. Solusinya? Kita tambahkan parameter max-result sehingga menjadi seumpama ini:
Sitemap: https://kirikuadagadget.blogspot.com//feeds/posts/default?orderby=updated&max-results=999
Robots.txt yang sudah kita rubah tadi selengkapnya menjadi seumpama ini
User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: /search
Allow: / ini salah, robots ga kenal allow, cuma kenal disaalow
Sitemap: https://kirikuadagadget.blogspot.com//feeds/posts/default?orderby=updated&max-results=999
Sitemap: https://kirikuadagadget.blogspot.com//atom.xml?redirect=false&start-index=1&max-results=500
Sitemap: https://kirikuadagadget.blogspot.com//atom.xml?redirect=false&start-index=501&max-results=500
Mungkin itu saja tentang pengaturan robots.txt yang aku ketahui, jikalau teman dekat lebih mengenali tentang robots.txt silahkan disertakan :)

Ref : http://www.robotstxt.org/robotstxt.html dan Google

0 Response to "Memahami Setting (Pengaturan) Robots.Txt"

Post a Comment

Iklan Atas Artikel

Iklan Tengah Artikel 1

Iklan Tengah Artikel 2

Iklan Bawah Artikel