robots.txt je textový súbor, ktorý sa primárne používa na “komunikáciu” s indexovacím robotom vyhľadávačov, ako napríklad Google. Pod komunikáciou sú však myslené zákazy, ktoré určujú robotom, ktoré časti webu majú nechať “na pokoji”.
Takto sa je možné vyhnúť problémom s indexovaním citlivých údajov, o ktorým som písal pred niekoľkými rokmi v článku “Čo všetko môžete získať pomocou googlu“. Google sa rozhodol proces vytvárania
tohoto súboru zjednodušiť a vytvoril generátor, ktorý súbor vygeneruje po zadaní niekoľkých jednoduchých informácií. Generátor robots.txt nájdete v balíčku nástrojov v Google’s Webmaster Tools, do ktorého sa môžte prihlásiť s vašim Google účtom. Generátor je “oblečený” do štandardného Google dizajnu. Ovláda sa v skutku veľmi jednoducho, jednotlivé časti webu je možné povoliť, či zamietnuť jednoduchým pridaním linky a vybraním patričnej akcie. Samozrejme generátor umožňuje zakázať indexovanie stránky, či jej časti aj jednotlivým vyhľadávačom, ktoré považujete za neprijateľné na vašom webe. Google v tom istom balíčku služieb ponúka aj analyzátor súborov robots.txt, vďaka čomu si môžete ten váš skontrolovať a veľmi jednoducho upraviť.
Pekným príkladom zlého pochopenia využitia súboru robots.txt je stránka whitehouse.gov, na ktorej autori webu zapísali do robots.txt všetky citlivé zložky, ktoré nechceli mať indexované a chceli ich tak utajiť pred zrakmi verejnosti.
Disallow: /911/911day/text
Disallow: /911/heroes/text
Disallow: /911/messages/text
Disallow: /911/patriotism/text
Disallow: /911/patriotism2/text
Disallow: /911/progress/text
Disallow: /911/remembrance/text
Disallow: /911/response/text
Disallow: /911/sept112002/text
Disallow: /911/text
Aj tento generátor bol vytvorený v rámci 20% projektu. Zdá sa, že sa Googlu darí dostatočne motivovať svojich zamestnancov, ktorí tvoria jeden projekt za druhým, ako na bežiacom páse.
(via)



V Bielom dome majú šikovných adminov-demokratov :) . Niečo také spraviť, ale inšpirovalo ma to a zistil som, že hzds.sk má brutálne nechutný banner a na stránkach mesta Trenčín sú vítaný všetci roboti http://www.trencin.sk/robots.txt .
mne sa paci na tom webe trencina ta ankete: ze si mozes zakliknut obidve odpovede :)
Lubos:
Presne tak, ale na druhej strane vo svete informacii a dezinformacii by som sa necudoval, keby to bol cieleny zamerny krok upriamenia falosnej pozornosti zo strany Bieleho domu, hoci jeho presny [politicky] ucel mi nie je jasny. Dokazuje to najma fakt, ze pri zadani nasledujuceho retazca do prehliadaca Google [(inurl:"robot.txt" | inurl:"robots.txt" ) intext:disallow filetype:txt], ktory ma za ucel vyhladavat subory typu robots.txt [metoda tzv Google hackingu], je tento odkaz na prvom mieste vyhladanych vysledkov. Taktiez ani Sme.sk zrejme nepriklada konfiguracii suboru robots.txt patricnu pozornost [vid. http://sme.sk/robots.txt, cim sa stava tento subor dvojsecnou zbranou, ktora hra do karat skor ciernej strane mince.
tak tragicky by som to nevidel, napr u seba na nnp mam robots len na to aby mi google nehlasoval za prednasky. inak absolutne na nic. nemam pred nim co skryvat. citlive data je vidno len ked sa niekto logne ako administrator, subory su pomocou htaccess oddelene od struktury webu a vsetko ine tiez :)
ako sa uz povedalo, robots je fakt najlepsie pouzivat len na ankety a pod, na zakazanie pristupu k citlivim zlozkam by ho pouzival len idiot. (kedze to zakaze pristup len vyhladavacu, a upriami to zbytocne pozornost na ten subor)