Cum sa imblanzesti un bot de cautare


Courage


O mica recapitulare a cunostiintelor despre cum sa "imblanzesti" in bot care isi baga nasul pe unde nu ti-ai dori.

Bot Obedience: Herding Googlebot

QUOTE

I noticed a useful session at the upcoming Search Engine Strategies conference in San Jose. In exactly a month there will be a Bot Obedience class. People sometimes ask me about how to “sculpt” where Googlebot visits, and my only other post about this was pretty technical, so I’ll take a stab at a shorter, clearer post.


At a site or directory level, I recommend an .htaccess file to add password protection to part of a domain. I wrote a quick example of setting up an .htaccess file about this time last year. I’m not aware of any bot (including Googlebot) that guesses passwords, so this is quite effective at keeping content out of search engines.


At a site or directory level, I also recommend a robots.txt file. Google provides a simple robots.txt checking tool to test out files before putting them live.


At a page level, use meta tags at the top of your html page. The noindex meta tag will keep a page from showing up in Google’s index at all. This tag is great on any page that’s confidential. The nofollow meta tag will prevent Googlebot from following any outgoing links from a page. This page shows the proper syntax.


At a link level, you can add a nofollow tag on the granularity of individual links to prevent Googlebot from crawling individual links (you could also make the link redirect through a page that is forbidden by robots.txt). Bear in mind that if other pages link to a url, Googlebot may find the url through those other paths. If you can, I’d recommend using .htaccess or robots.txt (at a directory level) or meta tags (at a page level) to be safe. I’ve seen people try to sculpt Googlebot visits at the link level, and they always seem to forget and miss a few links.


If the content has already been crawled, you can use our url removal tool. This should be your last resort; it’s much easier to prevent us from crawling than to remove content afterwards (plus the content will be removed for six months). This help page discusses how to remove other types of content from Google.


Update: Vanessa Fox pointed out this Googlebot help page which covers a ton of other Googlebot questions.



Sursa: Matt Cutts
Expertu
Sa inteleg ca urmaresti frecvent site-ul wink.gif
 
Krumel
Mai degraba, ca impartasesti cunostintele si informatiile cu membrii comunitatii.
WeaselMan
"Hearding" s-ar traduce maidegraba prin "a indruma, a conduce, a manipula, a manevra" - daca stiti de la cow & chicken episodul in care cow vroia sa se duca cu celelalte cows ca sa "heard", numai ca pana la urma se plictiseste si revine acasa pentru ca celelalte cows erau prea plictisitoare. Iar "imblanzire" se traduce prin "taint"; ex: "Tainted Love".

Anyway, eu am folosit destul de mult "meta robots=noindex" pentru paginile in care aveam lucruri duplicate, de exemplu cautari, filtre, etc., sau un sitemap gigantic cu o multime de link-uri, dar fara continut. Dar daca ma gandesc acuma, nu stiu sigur daca a fost asa de bine, pentru ca vad mereu site-uri cu gramada de continut duplicat, cu indexari de sute de mii de pagini

Dar nu stiu ceva. De ex. la o pagina de genul asta http://archive.softpedia.com/ daca pui "meta robots=noindex,follow" va urma google link-urile pe pagina? Si daca le urmeaza si ai noindex, va reveni pe pagina asta data viitoare (a se revedea: noindex)?

Ca de exemplu eu nu vreau sa-mi indexeze continutul de pe pagina, nu ma intereseaza sa ajunga vizitatorii pe pagina aia. DAR vreau ca pagina respectiva sa aiba PR mare, sa o indexeze google frecvent ca sa pun eu link-urile noi care au aparut pe site ca sa fie indexate repede.

Intelege cineva ceva din ce am scris?
Expertu
QUOTE(WeaselMan @ Jul 13 2006, 14:31) *
Dar nu stiu ceva. De ex. la o pagina de genul asta http://archive.softpedia.com/ daca pui "meta robots=noindex,follow" va urma google link-urile pe pagina? Si daca le urmeaza si ai noindex, va reveni pe pagina asta data viitoare (a se revedea: noindex)?


Da. Va reveni. Doar ca nu o va indexa.

Daca te vei uita in log-uri vei vedea ca GoogleBot te va vizita foarte frecvent, pentru a face spidering la link-urile de acolo, insa nu pt. a o indexa.
WeaselMan
QUOTE(Expertu @ Jul 13 2006, 20:52) *
Da. Va reveni. Doar ca nu o va indexa.
Care este si ideea...

Danke. peacefingers.gif
Dever
Continuare imblanzire GoogleBot http://googleblog.blogspot.com/2007/02/rob...n-protocol.html
 
TociTox
Pui o parola in .htacces pe folderele/subfolderele peste care nu vrei sa treaca crawlerii, daca totusi nu esti sigur folosesti meta-tag-uri gen "nofollow", "noindex" si un robots.txt costumizat.
DarkAngelBv
QUOTE (TociTox @ Dec 4 2008, 21:36) *
Pui o parola in .htacces pe folderele/subfolderele peste care nu vrei sa treaca crawlerii, daca totusi nu esti sigur folosesti meta-tag-uri gen "nofollow", "noindex" si un robots.txt costumizat.

Mai bine taceai. Pe viitor ti-am fi recunoscatori sa nu mai dai sfaturi acolo unde nu te pricepi.
lord_ice


QUOTE (TociTox @ Dec 4 2008, 21:36) *
Pui o parola in .htacces pe folderele/subfolderele peste care nu vrei sa treaca crawlerii, daca totusi nu esti sigur folosesti meta-tag-uri gen "nofollow", "noindex" si un robots.txt costumizat.


Cum naiba sa parolezi folderele? pana si curl si alte cereri php de incluziune fisiere vor fi blocate laugh.gif
http://www.robotstxt.org/
Aceasta este o versiune simplificatã a paginii originale. Pentru a vizita versiunea originala click aici.