robots.txt
- By Marek Inferior
- Published 02/29/2008
Plik robots.txt umożliwia blokowanie robotów wyszukiwarek przemierzających sieć. Zanim roboty pobiorą strony witryny, sprawdzają, czy w witrynie jest plik robots.txt i czy blokuje on im dostęp do niektórych stron.
Plik robots.txt jest potrzebny tylko w przypadku, gdy witryna zawiera treść, której wyszukiwarki nie mają indeksować. Jeśli wyszukiwarki mają indeksować całą witrynę, plik robots.txt jest całkowicie zbędny (nawet pusty).
Gdzie umieścić plik robots.txt?
Plik robots.txt musi znajdować się w katalogu głównym domeny i mieć nazwę ,,robots.txt". Plik robots.txt znajdujący się w podkatalogu jest ignorowany, ponieważ roboty szukają go jedynie w katalogu głównym domeny. Lokalizacja http://www.example.com/robots.txt jest zatem prawidłowa. Ale http://www.example.com/mysite/robots.txt już nie. Jeśli nie masz dostępu do katalogu głównego domeny, możesz blokować dostęp do stron za pomocą tagu META robots.
Jak utworzyć plik robots.txt?
Plik ten można utworzyć w każdym edytorze tekstów. Musi to być plik tekstowy o kodowaniu ASCII. Nie może to być plik HTML. Nazwa pliku nie może zawierać wielkich liter.
Składnia
W najprostszym pliku robots.txt stosowane są dwie reguły:
- User-agent: określa robota, którego dotyczy dana reguła
- Disallow: blokowane strony
Te dwa wiersze stanowią jeden wpis pliku. Plik może zawierać dowolną liczbę wpisów. W jednym wpisie można podać wiele wierszy Disallow i wiele wierszy User-agent.
Jaką treść musi mieć wiersz User-agent?
Wiersz User-agent określa robota wyszukiwarki. Baza danych robotów sieciowych
zawiera nazwy wielu robotów. Aby zastosować wpis do konkretnego robota,
należy podać jego nazwę. Aby zastosować go do wszystkich robotów,
należy zamiast nazwy wpisać gwiazdkę. Wpis dotyczący wszystkich robotów
wygląda następująco:
User-Agent: *
Google używa kilka robotów (user-agents). Robot indeksujący naszej wyszukiwarki sieciowej to Googlebot. Inne nasze roboty, takie jak Googlebot-Mobile i Googlebot-Image, stosują się do reguł dotyczących narzędzia Googlebot, ale można również utworzyć dla nich oddzielne, dodatkowe reguły.
Jaką treść musi mieć wiersz Disallow?
Wiersz Disallow zawiera listę blokowanych stron. Można określić
konkretny adres URL lub wzorzec. Wpis musi się zaczynać od ukośnika (/).
- Aby zablokować całą witrynę, należy użyć ukośnika.
Disallow: /
- Aby zablokować katalog i całą jego zawartość, po nazwie katalogu należy wpisać ukośnik.
Disallow: /katalog_prywatny/
- Aby zablokować stronę, należy wpisać jej nazwę.
Disallow: /plik_prywatny.html
W adresach URL uwzględniana jest wielkość znaków. Na przykład wpis Disallow: /private_file.html blokuje http://www.example.com/private_file.html, ale dopuszcza http://www.example.com/Private_File.html.
Jak zablokować Googlebota?
Blokowanie Googlebota
Google używa kilku agentów użytkownika (user-agents). Każdemu z nich
można zablokować dostęp, podając nazwę bota w wierszu User-agent wpisu.
Wskutek zablokowania Googlebota zablokowane zostaną wszystkie roboty,
których nazwa zaczyna się od Googlebot.
- Googlebot: przemierza strony uwzględniane w indeksie witryn internetowych oraz Google News
- Googlebot-Mobile: przemierza strony uwzględniane w indeksie witryn komórkowych
- Googlebot-Image: przemierza strony uwzględniane w indeksie grafiki
- Mediapartners-Google: przemierza strony w celu ustalenia treści AdSense. Ten robot jest używany tylko do przemierzania witryn, w których wyświetlane są reklamy AdSense.
- Adsbot-Google: przemierza strony w celu oceny jakości strony docelowej AdWords. Ten robot jest stosowany tylko do przemierzania witryn reklamowanych w programie Google AdWords. Dodatkowe informacje o tym robocie i sposobach blokowania mu dostępu do części witryny.
Aby całkowicie zablokować Googlebota, można użyć następującej składni:
User-agent: Googlebot
Disallow: /
Zezwalanie Googlebotowi na dostęp
Aby zablokować dostęp wszystkim robotom oprócz Googlebota, można użyć następującej składni:
User-agent: *
Disallow: /
User-agent: Googlebot
Disallow:
Googlebot wykonuje instrukcje z wiersza skierowanego do niego, a nie z wiersza skierowanego do wszystkich robotów.
Rozszerzenie Allow
Googlebot rozpoznaje rozszerzenie standardu robots.txt zwane Allow.
Rozszerzenie to nie jest rozpoznawane przez niektóre inne roboty
wyszukiwarek. Wiersz Allow działa w taki sam sposób jak wiersz
Disallow. Należy po prostu podać katalog lub stronę, do której ma być
umożliwiony dostęp.
Wierszy Disallow i Allow można używać łącznie. Na przykład aby zablokować dostęp do wszystkich stron w podkatalogu oprócz jednej, należy podać następujące wpisy:
User-agent: Googlebot
Disallow: /folder1/
Allow: /folder1/mojplik.html
Wpisy te zablokują dostęp do wszystkich stron znajdujących się w katalogu folder1 oprócz pliku mojplik.html.
W celu zablokowania Googlebota i umożliwienia dostępu innym robotom Google (takim jak Googlebot-Mobile) można posłużyć się regułą Allow. Na przykład:
User-agent: Googlebot
Disallow: /
User-agent: Googlebot-Mobile
Allow: /
Blokowanie lub usuwanie stron przy użyciu pliku robots.txt.
Aby uniemożliwić Googlebotowi przemierzanie stron witryny, należy użyć pliku robots.txt. Jeśli nie chcesz tworzyć pliku robots.txt od podstaw, możesz skorzystać z narzędzia generującego pliki robots.txt , aby szybko i sprawnie utworzyć plik robots.txt, który można następnie zapisać na serwerze.
W przypadku ręcznego generowania pliku robots.txt, aby na przykład uniemożliwić Googlebotowi przemierzanie wszystkich stron w określonym katalogu (np. lemury), można użyć następującego wpisu w pliku robots.txt:
User-agent: Googlebot
Disallow: /lemury
Aby uniemożliwić Googlebotowi przemierzanie wszystkich plików określonego typu (na przykład w formacie .gif), można użyć następującego wpisu w pliku robots.txt:
User-agent: Googlebot
Disallow: /*.gif$
Aby uniemożliwić Googlebotowi przeszukiwanie adresów URL zawierających znak ? (a konkretnie, jakikolwiek adres URL zaczynający się od nazwy domeny, po której następuje dowolny ciąg, a za nim znak zapytania oraz następny dowolny ciąg):
User-agent: Googlebot
Disallow: /*?
Nie będziemy przeszukiwać ani indeksować treści stron zablokowanych w pliku robots.txt, ale możemy przeszukiwać i indeksować te adresy URL znalezione na innych stronach w sieci. W związku z tym adres URL takiej strony oraz prawdopodobnie również inne powszechnie dostępne informacje, np. teksty linków do witryny lub tytuł z Open Directory Project (www.dmoz.org), zostaną wyświetlone w wynikach wyszukiwania Google. Treść strony nie będzie jednak przemierzana, indeksowana ani wyświetlana.
Aby całkowicie uniemożliwić dodanie strony do indeksu Google, nawet jeśli prowadzą do niej linki z innych witryn, należy użyć metatagu noindex i sprawdzić, czy strona nie jest umieszczona w pliku robots.txt. W trakcie indeksowania strony Googlebot odczyta metatag noindex i usunie adres URL z indeksu.
Spread The Word
1 Response to "robots.txt" 
|
said this on 07 Dec 2008 8:46:41 PM CEST
Witam
Napisałem plik robots,który napewno każdemu się przyda.
Blokuje aż dwieści (200) zagranicznych i tutejszych spamerów.
Plik jest napisany w całości co tylko w nim trzeba zmienić to tylko które chcesz katalogi wybrać żeby po nich nie buszowano.A ogólnie główny katalog jest wybrany tylko wrzucić ten plik na serwer.
Link do pobrania: http://www.wrzuta.pl/pliki/ijeCh0PHUo/
|
Author)