W SEO nie ma małych rzeczy. Czasami tylko jeden mały plik, Robots.txt, może wpłynąć na promocję witryny.Jeśli chcesz, aby Twoja witryna była indeksowana, aby roboty wyszukiwarek omijały potrzebne strony, musisz napisać dla nich rekomendacje.

"Czy to możliwe?", - ty pytasz.Może. Aby to zrobić, Twoja witryna musi mieć plik robots.txt.Jak zrobić plik roboty, skonfiguruj i dodaj do strony - rozumiemy w tym artykule.

Co to jest robots.txt i do czego służy

Robots.txt jest zwykłym plik tekstowy , która zawiera zalecenia dla robotów wyszukiwania: które strony powinny być indeksowane, a które nie.

Ważne: plik musi być zakodowany w UTF-8, w przeciwnym razie roboty wyszukiwania mogą go nie zaakceptować.

Czy witryna, która nie ma tego pliku, zostanie umieszczona w indeksie?Będzie, ale roboty mogą „chwycić” te strony, których obecność w wynikach wyszukiwania jest niepożądana: na przykład strony logowania, panel administracyjny, osobiste strony użytkowników, witryny lustrzane itp. Wszystko to jest uważane za "śmieci wyszukiwania":

Jeśli w wynikach wyszukiwania zostaną uwzględnione dane osobowe, zarówno Ty, jak i witryna może ucierpieć. Kolejna kwestia - bez tego pliku indeksowanie witryny potrwa dłużej.

W pliku Robots.txt można określić trzy typy poleceń dla pająków wyszukiwania:

  • skanowanie jest zabronione;
  • skanowanie jest dozwolone;
  • skanowanie jest częściowo dozwolone.

Wszystko to jest napisane za pomocą dyrektyw.

Jak utworzyć prawidłowy plik Robots.txt dla witryny internetowej

Plik Robots.txt można utworzyć w prosty sposób w programie Notatnik, który jest domyślnie dostępny na dowolnym komputerze. Przepisanie pliku zajmie nawet początkującemu maksymalnie pół godziny (jeśli znasz polecenia).

Możesz także użyć innych programów - na przykład Notatnika. Istnieją również usługi online, które mogą automatycznie wygenerować plik. Na przykład takie jakCYPR.com lub Mediasowa.

Musisz tylko podać adres swojej witryny, dla której wyszukiwarek musisz ustawić reguły, główny mirror (z www lub bez). Wtedy usługa zrobi wszystko sama.

Osobiście wolę stary "dziadkowy" sposób - ręcznie zarejestrować plik w notatniku. Jest też „leniwy sposób” - aby zagadać z tym swojego programistę 🙂 Ale nawet w tym przypadku powinieneś sprawdzić, czy wszystko jest tam napisane poprawnie. Dlatego zastanówmy się, jak skompilować ten plik i gdzie powinien się znajdować.

Gotowy plik Robots.txt musi znajdować się w folderze głównym witryny. Tylko plik, bez folderu:

Chcesz sprawdzić, czy jest na Twojej stronie? Wbić pasek adresu adres zamieszkania: site.ru/robots.txt. Zobaczysz następującą stronę (jeśli plik istnieje):

Plik składa się z kilku bloków oddzielonych wcięciem. Każdy blok zawiera rekomendacje dla robotów wyszukiwania różnych wyszukiwarek (plus blok z Główne zasady dla wszystkich) oraz osobny blok z linkami do mapy strony - Mapa strony.

Nie ma potrzeby wcinania się wewnątrz bloku z regułami dla jednego robota wyszukującego.

Każdy blok zaczyna się od dyrektywy User-agent.

Po każdej dyrektywie następuje znak ":" (dwukropek), spacja, po której wskazana jest wartość (na przykład, którą stronę zamknąć z indeksowania).

Musisz określić względne adresy stron, a nie bezwzględne. Względny - to bez „www.site.ru”. Na przykład musisz wyłączyć indeksowanie stronywww.site.ru/sklep. Czyli po dwukropku wstawiamy spację, ukośnik i „sklep”:

Odrzuć: /sklep.

Gwiazdka (*) oznacza dowolny zestaw znaków.

Znak dolara ($) to koniec wiersza.

Możesz zdecydować - po co pisać plik od zera, skoro możesz go otworzyć w dowolnej witrynie i po prostu skopiować do siebie?

Dla każdej witryny musisz przepisać unikalne zasady. Należy wziąć pod uwagę cechy CMS. Na przykład ten sam panel administracyjny znajduje się w /wp-admin w silniku WordPress, pod innym adresem będzie inaczej. To samo z adresami poszczególnych stron, z mapą serwisu i tak dalej.

Konfiguracja pliku Robots.txt: indeksowanie, główny serwer lustrzany, dyrektywy

Jak już widzieliście na zrzucie ekranu, dyrektywa User-agent jest na pierwszym miejscu. Wskazuje, dla którego robota wyszukującego będą obowiązywać poniższe reguły.

User-agent: * - reguły dla wszystkich robotów wyszukiwania, czyli dowolnych wyszukiwarka(Google, Yandex, Bing, Rambler itp.).

User-agent: Googlebot — wskazuje reguły dla pająka wyszukiwarki Google.

User-agent: Yandex - zasady robota wyszukiwania Yandex.

Dla którego robota wyszukiwania najpierw przepisać zasady, nie ma różnicy. Ale zwykle najpierw pisane są zalecenia dla wszystkich robotów.

Disallow: Zabroń indeksowania

Aby wyłączyć indeksowanie witryny jako całości lub pojedynczych stron, użyj dyrektywy Disallow.

Na przykład możesz całkowicie zamknąć witrynę z indeksowania (jeśli zasób jest finalizowany i nie chcesz, aby w tym stanie znalazł się w wynikach wyszukiwania). Aby to zrobić, napisz:

Agent użytkownika: *

uniemożliwić: /

W związku z tym wszystkie roboty wyszukiwania nie mogą indeksować treści w witrynie.

A tak możesz otworzyć witrynę do indeksowania:

Agent użytkownika: *

Uniemożliwić:

Dlatego sprawdź, czy po dyrektywie Disallow znajduje się ukośnik, jeśli chcesz zamknąć witrynę. Jeśli chcesz go później otworzyć - nie zapomnij usunąć reguły (a to się często zdarza).

Aby zamknąć poszczególne strony z indeksowania, musisz podać ich adres. Napisałem już jak to się robi:

Agent użytkownika: *

Nie zezwalaj: /wp-admin

W ten sposób panel administracyjny został zamknięty na stronie z widoków osób trzecich.

Co musisz zamknąć z indeksowania bezbłędnie:

  • panel administracyjny;
  • osobiste strony użytkowników;
  • kosze;
  • wyniki wyszukiwania w witrynie;
  • logowanie, rejestracja, autoryzacja stron.

Możesz zamknąć z indeksowania i niektórych typów plików. Załóżmy, że masz w swojej witrynie pliki .pdf, których nie chcesz indeksować. Roboty wyszukujące bardzo łatwo skanują pliki przesłane do serwisu. Możesz je zamknąć z indeksowania w następujący sposób:

Agent użytkownika: *

Uniemożliwić: /*. pdf$

Jak otworzyć witrynę do indeksowania

Nawet jeśli witryna jest całkowicie zamknięta z indeksowania, możesz otworzyć ścieżkę do niektórych plików lub stron dla robotów. Załóżmy, że zmieniasz projekt witryny, ale katalog usług pozostaje nienaruszony. Możesz tam skierować roboty wyszukiwania, aby kontynuowały indeksowanie sekcji. W tym celu używana jest dyrektywa Allow:

Agent użytkownika: *

Zezwól: /usługi

uniemożliwić: /

Główna strona lustrzana

Do 20 marca 2018 r. w pliku robots.txt dla robota wyszukującego Yandex konieczne było określenie kopii lustrzanej strony głównej poprzez dyrektywę Host. Teraz nie musisz tego robić - wystarczy skonfigurować przekierowanie 301 strona po stronie .

Co to jest lustro główne? To jest główny adres Twojej witryny - z www lub bez. Jeśli nie skonfigurujesz przekierowania, obie witryny zostaną zaindeksowane, czyli będą duplikaty wszystkich stron.

Mapa witryny: mapa witryny robots.txt

Po napisaniu wszystkich dyrektyw dla robotów należy określić ścieżkę do mapy witryny. Mapa witryny pokazuje robotom, że wszystkie adresy URL, które należy zindeksować, znajdują się pod określonym adresem. Na przykład:

Mapa witryny: site.ru/sitemap.xml

Gdy robot indeksuje witrynę, zobaczy, jakie zmiany zostały wprowadzone w tym pliku. Dzięki temu nowe strony będą indeksowane szybciej.

Dyrektywa dotycząca czystych parametrów

W 2009 roku Yandex wprowadził nową dyrektywę - Clean-param. Może służyć do opisu parametrów dynamicznych, które nie wpływają na zawartość stron. Najczęściej ta dyrektywa jest używana na forach. Jest tu sporo śmieci, na przykład identyfikator sesji, parametry sortowania. Jeśli zarejestrujesz tę dyrektywę, robot wyszukiwania Yandex nie będzie wielokrotnie pobierał zduplikowanych informacji.

Tę dyrektywę można zapisać w dowolnym miejscu w pliku robots.txt.

Parametry, których robot nie musi brać pod uwagę, są wymienione w pierwszej części wartości za pomocą znaku &:

Clean-param: sid&sort /forum/viewforum.php

Ta dyrektywa pozwala uniknąć duplikatów stron z dynamicznymi adresami URL (zawierającymi znak zapytania).

Dyrektywa o opóźnieniu indeksowania

Ta dyrektywa przyjdzie z pomocą tym, którzy mają słaby serwer.

Pojawienie się robota wyszukującego to dodatkowe obciążenie serwera. Jeśli masz duży ruch w witrynie, zasób może po prostu nie wytrzymać i „położyć się”. W rezultacie robot otrzyma komunikat o błędzie 5xx. Jeśli taka sytuacja będzie się powtarzać, witryna może zostać uznana przez wyszukiwarkę za niedziałającą.

Wyobraź sobie, że pracujesz, a jednocześnie musisz ciągle odbierać telefony. Twoja produktywność spada.

Podobnie z serwerem.

Wróćmy do dyrektywy. Crawl-delay pozwala ustawić opóźnienie skanowania stron internetowych w celu zmniejszenia obciążenia serwera. Innymi słowy, ustawiasz okres, po którym strony witryny zostaną załadowane. Ten parametr jest podawany w sekundach, jako liczba całkowita:

Każdy blog daje na to własną odpowiedź. Dlatego nowicjusze promocja w wyszukiwarce często mylone w ten sposób:

Jakie roboty ti ex ti?

Plik robots.txt lub plik indeksu- zwykły Dokument tekstowy w kodowaniu UTF-8, ważne dla protokołów http, https i FTP. Plik zawiera zalecenia dla robotów wyszukiwania: które strony / pliki powinny być indeksowane. Jeśli plik zawiera znaki nie w UTF-8, ale w innym kodowaniu, roboty wyszukiwania mogą nie przetwarzać ich poprawnie. Reguły wymienione w pliku robots.txt dotyczą tylko hosta, protokołu i numeru portu, w którym znajduje się plik.

Plik musi znajdować się w katalogu głównym jako dokument tekstowy i być dostępny pod adresem: https://site.com.ua/robots.txt.

W innych plikach zwyczajowo oznacza się BOM (Byte Order Mark). Jest to znak Unicode używany do określenia kolejności w bajtach podczas odczytywania informacji. Jego symbol kodu to U+FEFF. Na początku pliku robots.txt znak sekwencji bajtów jest ignorowany.

Google ustalił limit rozmiaru pliku robots.txt – nie powinien on ważyć więcej niż 500 KB.

OK, jeśli interesują Cię szczegóły techniczne, plik robots.txt to opis formularza Backus-Naur (BNF). Wykorzystuje to zasady RFC 822 .

Podczas przetwarzania reguł w pliku robots.txt roboty wyszukujące otrzymują jedną z trzech instrukcji:

  • dostęp częściowy: możliwe jest skanowanie poszczególnych elementów strony;
  • pełny dostęp: możesz zeskanować wszystko;
  • całkowity zakaz: robot nie może niczego skanować.

Podczas skanowania pliku robots.txt roboty otrzymują następujące odpowiedzi:

  • 2xx- skanowanie się powiodło;
  • 3xx- robot indeksujący śledzi przekierowanie, dopóki nie otrzyma kolejnej odpowiedzi. Najczęściej robot podejmuje pięć prób uzyskania odpowiedzi innej niż odpowiedź 3xx, następnie rejestrowany jest błąd 404;
  • 4xx- robot wyszukiwania uważa, że ​​możliwe jest zindeksowanie całej zawartości witryny;
  • 5xx- są oceniane jako tymczasowe błędy serwera, skanowanie jest całkowicie wyłączone. Robot będzie miał dostęp do pliku do czasu otrzymania kolejnej odpowiedzi.Robot wyszukiwarki Google może określić, czy jest poprawnie lub niepoprawnie skonfigurowany do zwracania odpowiedzi na brakujące strony witryny, czyli czy zamiast błędu 404 strona zwróci odpowiedź 5xx , w tym przypadku strona zostanie przetworzona z kodem odpowiedzi 404.

Nie wiadomo jeszcze, jak przetwarzany jest plik robots.txt, który nie jest dostępny ze względu na problemy serwera z dostępem do Internetu.

Dlaczego potrzebujesz pliku robots.txt

Na przykład czasami roboty nie powinny odwiedzać:

  • strony z danymi osobowymi użytkowników w serwisie;
  • strony z różnymi formami przesyłania informacji;
  • witryny lustrzane;
  • strony wyników wyszukiwania.

Ważne: nawet jeśli strona znajduje się w pliku robots.txt, istnieje szansa, że ​​pojawi się w wynikach wyszukiwania, jeśli link do niej został znaleziony w witrynie lub gdzieś w zasobie zewnętrznym.

W ten sposób roboty wyszukiwarek widzą witrynę z plikiem robots.txt i bez niego:

Bez robots.txt informacje, które powinny być ukryte przed wścibskimi oczami, mogą dostać się do wyników wyszukiwania, a Ty i strona ucierpicie z tego powodu.

W ten sposób robot wyszukiwarki widzi plik robots.txt:

Google znalazł plik robots.txt w witrynie i znalazł zasady, według których strony witryny powinny być indeksowane

Jak utworzyć plik robots.txt

Z Notatnikiem, Notatnikiem, Sublime lub dowolnym innym edytorem tekstu.

User-agent - wizytówka dla robotów

User-agent — reguła określająca, które roboty muszą widzieć instrukcje opisane w pliku robots.txt. Na ten moment Znanych jest 302 robotów wyszukujących

Mówi, że określamy reguły w pliku robots.txt dla wszystkich robotów wyszukujących.

Dla Google głównym robotem jest Googlebot. Jeśli chcemy brać pod uwagę tylko to, wpis w pliku będzie wyglądał tak:

W takim przypadku wszystkie inne roboty będą indeksować zawartość na podstawie swoich dyrektyw, aby przetworzyć pusty plik robots.txt.

Dla Yandex głównym robotem jest... Yandex:

Inne roboty specjalne:

  • Partnerzy medialni – Google- za usługę AdSense;
  • AdsBot-Google— sprawdzenie jakości strony docelowej;
  • YandexImages— indeksator Yandex.Pictures;
  • Obraz Googlebota- do zdjęć;
  • YandexMetrika— robot Yandex.Metrica;
  • YandexMedia- robot indeksujący dane multimedialne;
  • YaDirectFetcher— Robot Yandex.Direct;
  • Wideo Googlebota- do wideo;
  • Mobilny Googlebot- dla wersji mobilnej;
  • YandexDirectDyn— robot do dynamicznego generowania banerów;
  • YandexBlogi- robot do wyszukiwania blogów, który indeksuje posty i komentarze;
  • YandexMarket— robot Yandex.Market;
  • YandexWiadomości— Robot Yandex.News;
  • YandexDirect— pobiera informacje o treści stron partnerskich Sieci Reklamowej w celu wyjaśnienia ich przedmiotu dla wyboru odpowiedniej reklamy;
  • YandexPagechecker— walidator mikrodanych;
  • YandexKalendarz— Robot Yandex.Calendar.

Disallow - umieszczamy "cegły"

Powinien być używany, jeśli witryna jest w trakcie ulepszania, a nie chcesz, aby pojawiała się w wynikach wyszukiwania w jej obecnym stanie.

Ważne jest, aby usunąć tę regułę, gdy tylko witryna będzie gotowa, aby użytkownicy mogli ją zobaczyć. Niestety wielu webmasterów o tym zapomina.

Przykład. Jak napisać regułę Disallow, która doradzi robotom, aby nie przeglądały zawartości folderu? /teczka/:

Ta linia zapobiega indeksowaniu wszystkich plików z rozszerzeniem .gif

Zezwól - bezpośrednie roboty

Zezwól pozwala na skanowanie dowolnego pliku/dyrektywy/strony. Załóżmy, że konieczne jest, aby roboty mogły przeglądać tylko strony rozpoczynające się od /catalog i zamykać wszystkie inne treści. W takim przypadku zalecana jest następująca kombinacja:

Reguły Zezwól i Nie zezwalaj są sortowane według długości prefiksu adresu URL (od najniższego do najdłuższego) i stosowane sekwencyjnie. Jeśli do strony pasuje więcej niż jedna reguła, robot wybiera ostatnią regułę z posortowanej listy.

Host — wybierz serwer lustrzany witryny

Host jest jedną z obowiązkowych reguł dla pliku robots.txt i informuje robota Yandex, które z serwerów lustrzanych mają być brane pod uwagę podczas indeksowania.

Lustro strony - dokładna lub prawie dokładna kopia strony, dostępna pod różnymi adresami.

Robot nie pomyli się podczas wyszukiwania serwerów lustrzanych witryn i zrozumie, że główny serwer lustrzany jest określony w pliku robots.txt. Adres witryny jest określony bez prefiksu „http://”, ale jeśli witryna działa na HTTPS, należy określić prefiks „https://”.

Jak napisać tę zasadę:

Przykład pliku robots.txt, jeśli witryna działa na protokole HTTPS:

Mapa witryny - mapa witryny medycznej

Mapa witryny informuje roboty, że wszystkie adresy URL witryn wymagane do indeksowania znajdują się w http://site.ua/sitemap.xml. Przy każdym indeksowaniu robot będzie sprawdzał, jakie zmiany zostały wprowadzone w tym pliku i szybko odświeży informacje o witrynie w bazach danych wyszukiwarek.

Crawl-delay – stoper dla słabych serwerów

Crawl-delay - parametr, za pomocą którego możesz ustawić okres, po jakim strony serwisu zostaną załadowane. Ta zasada ma zastosowanie, jeśli masz słaby serwer. W takim przypadku jest to możliwe duże opóźnienia gdy roboty wyszukiwania uzyskują dostęp do stron witryny. Ten parametr jest mierzony w sekundach.

Clean-param - Łowca duplikatów treści

Clean-param pomaga radzić sobie z parametrami pobierania, aby uniknąć duplikatów treści, które mogą być dostępne pod różnymi dynamicznymi adresami URL (ze znakami zapytania). Takie adresy pojawiają się, jeśli witryna ma inne sortowanie, identyfikatory sesji i tak dalej.

Załóżmy, że strona jest dostępna pod adresami:

www.site.com/catalog/get_phone.ua?ref=page_1&phone_id=1

www.site.com/catalog/get_phone.ua?ref=page_2&phone_id=1

www.site.com/catalog/get_phone.ua?ref=page_3&phone_id=1

W takim przypadku plik robots.txt będzie wyglądał tak:

Tutaj ref wskazuje, skąd pochodzi link, więc jest napisany na samym początku, a dopiero potem wskazana jest reszta adresu.

Ale zanim przejdziesz do pliku referencyjnego, jest jeszcze kilka znaków, o których musisz wiedzieć podczas pisania pliku robots.txt.

Symbole w robots.txt

Głównymi znakami pliku są "/, *, $, #".

Używając ukośnik „/” pokazujemy, co chcemy ukryć przed wykryciem przez roboty. Na przykład, jeśli w regule Disallow jest jeden ukośnik, zabraniamy indeksowania całej witryny. Za pomocą dwóch ukośników możesz wyłączyć skanowanie dowolnego konkretnego katalogu, na przykład: /catalog/.

Taki wpis mówi, że zabraniamy skanowania całej zawartości katalogu katalogu, ale jeśli piszemy /catalog, to zabraniamy wszystkich linków na stronie, które zaczynają się od /catalog.

Gwiazdka „*” oznacza dowolną sekwencję znaków w pliku. Jest umieszczany po każdej regule.

Ten wpis mówi, że wszystkie roboty nie powinny indeksować żadnych plików .gif w folderze /catalog/

znak dolara «$» ogranicza zakres znaku gwiazdki. Jeśli chcesz zabronić całej zawartości folderu katalogu, ale nie możesz zabronić adresów URL zawierających /catalog, wpis w pliku indeksu będzie wyglądał następująco:

Skrót „#” używane do komentarzy, które webmaster zostawia dla siebie lub innych webmasterów. Robot nie weźmie ich pod uwagę podczas skanowania witryny.

Na przykład:

Jak wygląda idealny plik robots.txt?

Plik otwiera zawartość witryny do indeksowania, host jest zarejestrowany i określona jest mapa witryny, co pozwoli wyszukiwarkom zawsze zobaczyć adresy, które powinny być indeksowane. Zasady Yandex są napisane osobno, ponieważ nie wszystkie roboty rozumieją instrukcję hosta.

Ale nie spiesz się, aby skopiować zawartość pliku do siebie - dla każdej witryny muszą być napisane unikalne zasady, które zależą od typu witryny i CMS. dlatego podczas wypełniania pliku robots.txt warto pamiętać o wszystkich zasadach.

Jak sprawdzić plik robots.txt

Jeśli chcesz wiedzieć, czy poprawnie wypełniłeś plik robots.txt, sprawdź go w narzędziach dla webmasterów Google i Yandex. Wystarczy wejść źródło robots.txt do formularza obok linku i określ witrynę do sprawdzenia.

Jak nie wypełniać pliku robots.txt

Często podczas wypełniania pliku indeksu popełniane są irytujące błędy, które wiążą się ze zwykłą nieuwagą lub pośpiechem. Nieco niżej znajduje się wykres błędów, które spotkałem w praktyce.

2. Zapisywanie wielu folderów/katalogów w jednej instrukcji Disallow:

Taki wpis może zmylić roboty wyszukiwania, mogą nie rozumieć, czego dokładnie nie powinny indeksować: albo pierwszego folderu, albo ostatniego, więc każdą regułę trzeba napisać osobno.

3. Sam plik musi być wywołany tylko robots.txt, nie Robots.txt, ROBOTS.TXT lub w inny sposób.

4. Nie możesz pozostawić pustej reguły User-agent - musisz powiedzieć, który robot powinien brać pod uwagę reguły określone w pliku.

5. Dodatkowe znaki w pliku (ukośniki, gwiazdki).

6. Dodawanie stron do pliku, które nie powinny znajdować się w indeksie.

Niestandardowe użycie robots.txt

Oprócz funkcji bezpośrednich plik indeksu może stać się platformą kreatywności i sposobem na znalezienie nowych pracowników.

Oto witryna, w której sam plik robots.txt jest małą witryną zawierającą elementy robocze, a nawet jednostkę reklamową.

Jako platforma do wyszukiwania specjalistów plik jest wykorzystywany głównie przez agencje SEO. A kto jeszcze może wiedzieć o jego istnieniu? :)

A Google ma plik specjalny ludzie.txt, żeby nie dopuścić do myśli o dyskryminacji specjalistów od skóry i mięsa.

wnioski

Za pomocą Robots.txt możesz ustawić instrukcje dla robotów wyszukiwania, reklamować siebie, swoją markę, szukać specjalistów. To świetne pole do eksperymentów. Najważniejsze to pamiętać o poprawnym wypełnieniu pliku i typowych błędach.

Reguły, to dyrektywy, to też instrukcje pliku robots.txt:

  1. User-agent — reguła określająca, które roboty muszą przeglądać instrukcje opisane w pliku robots.txt.
  2. Disallow przedstawia zalecenie, jakiego rodzaju informacje nie powinny być skanowane.
  3. Mapa witryny informuje roboty, że wszystkie adresy URL witryn wymagane do indeksowania znajdują się pod adresem http://site.ua/sitemap.xml.
  4. Host informuje robota Yandex, które z serwerów lustrzanych witryny powinny być brane pod uwagę podczas indeksowania.
  5. Zezwól pozwala na skanowanie dowolnego pliku/dyrektywy/strony.

Znaki podczas kompilowania robots.txt:

  1. Znak dolara „$” ogranicza zakres znaku gwiazdki.
  2. Za pomocą ukośnika „/” wskazujemy, że chcemy ukryć się przed wykryciem przez roboty.
  3. Gwiazdka „*” oznacza dowolną sekwencję znaków w pliku. Jest umieszczany po każdej regule.
  4. Znak krzyża „#” jest używany do oznaczenia komentarzy, które webmaster pisze dla siebie lub innych webmasterów.

Korzystaj z pliku indeksu mądrze - a strona zawsze będzie w wynikach wyszukiwania.

Pierwszą rzeczą, jaką robi bot wyszukiwania, jeśli chodzi o Twoją witrynę, jest przeszukanie i odczytanie pliku robots.txt. Co to za plik? to zestaw instrukcji dla wyszukiwarki.

Jest to plik tekstowy z rozszerzeniem txt, który znajduje się w katalogu głównym serwisu. Ten zestaw instrukcji informuje robota wyszukiwania, które strony i pliki witryny mają indeksować, a które nie. Wskazuje również główne lustro witryny i gdzie szukać mapy witryny.

Do czego służy plik robots.txt? Do prawidłowego indeksowania Twojej witryny. Aby nie było zduplikowanych stron w wyszukiwaniu, różnych stron serwisowych i dokumentów. Po prawidłowym skonfigurowaniu dyrektyw w robotach uratujesz swoją witrynę przed wieloma problemami z indeksowaniem i dublowaniem witryn.

Jak skomponować poprawny plik robots.txt

Kompilacja robots.txt jest dość prosta, dokument tekstowy tworzymy w standardowym notatniku Windows. W tym pliku piszemy dyrektywy dla wyszukiwarek. Następnie zapisz ten plik pod nazwą „robots” i rozszerzeniem tekstowym „txt”. Wszystko można teraz wgrać na hosting, w Folder główny strona. Należy pamiętać, że w jednej witrynie można utworzyć tylko jeden dokument dotyczący robotów. Jeśli na stronie brakuje tego pliku, bot automatycznie „decyduje”, że wszystko można zindeksować.

Ponieważ jest jednym, zawiera instrukcje dla wszystkich wyszukiwarek. Co więcej, możesz zapisać zarówno oddzielne instrukcje dla każdego PS, jak i ogólną natychmiast dla wszystkiego. Rozdzielenie instrukcji dla różnych robotów wyszukujących odbywa się za pomocą dyrektywy User-agent. Porozmawiamy o tym poniżej.

dyrektywy robots.txt

Plik „robota” może zawierać następujące dyrektywy indeksowania: User-agent, Disallow, Allow, Sitemap, Host, Crawl-delay, Clean-param. Przyjrzyjmy się bardziej szczegółowo każdej instrukcji.

Dyrektywa agenta użytkownika

Dyrektywa agenta użytkownika- wskazuje, dla której wyszukiwarki będą instrukcje (dokładniej, dla jakiego konkretnego bota). Jeśli jest to „*”, instrukcje dotyczą wszystkich robotów. Jeśli na liście znajduje się określony bot, taki jak Googlebot, instrukcje dotyczą tylko głównego bota indeksującego Google. Co więcej, jeśli istnieją instrukcje osobno dla Googlebota i wszystkich innych PS, Google przeczyta tylko własne instrukcje i zignoruje ogólną. Bot Yandex zrobi to samo. Spójrzmy na przykład wpisu dyrektywy.

User-agent: YandexBot - instrukcje tylko dla głównego bota indeksującego Yandex
User-agent: Yandex - instrukcje dla wszystkich botów Yandex
User-agent: * - instrukcje dla wszystkich botów

Dyrektywy Zabroń i Zezwól

Dyrektywy Zabroń i Zezwól- wydawaj komendy co indeksować a co nie. Disallow daje polecenie, aby nie indeksować strony lub całej sekcji witryny. Wręcz przeciwnie, Zezwól wskazuje, co należy zindeksować.

Disallow: / - zabrania indeksowania całej witryny
Disallow: /papka/ - zabrania indeksowania całej zawartości folderu
Disallow: /files.php - zabrania indeksowania pliku files.php

Allow: /cgi-bin - umożliwia indeksowanie stron cgi-bin

Możliwe i często konieczne jest użycie znaków specjalnych w dyrektywach Disallow i Allow. Są potrzebne do definiowania wyrażeń regularnych.

Znak specjalny * - zastępuje dowolny ciąg znaków. Jest on domyślnie dołączany na końcu każdej reguły. Nawet jeśli go nie zarejestrowałeś, PS umieści go na sobie. Przykład użycia:

Disallow: /cgi-bin/*.aspx — zabrania indeksowania wszystkich plików z rozszerzeniem .aspx
Disallow: /*foto – zabrania indeksowania plików i folderów zawierających słowo foto

Znak specjalny $ - anuluje efekt znaku specjalnego "*" na końcu reguły. Na przykład:

Disallow: /example$ — zabrania indeksowania „/example”, ale nie zabrania „/example.html”

A jeśli napiszesz bez znaku specjalnego $, instrukcja będzie działać inaczej:

Disallow: /przykład — nie zezwala zarówno na „/przykład” jak i „/przykład.html”

Dyrektywa mapy witryny

Dyrektywa mapy witryny- ma na celu wskazanie robotowi wyszukiwarki, gdzie znajduje się mapa serwisu na hostingu. Format mapy witryny to sitemaps.xml. Mapa witryny jest potrzebna do szybszego i pełniejszego indeksowania witryny. Co więcej, mapa witryny to niekoniecznie jeden plik, może być ich kilka. Format wpisu dyrektywy:

Mapa witryny: http://site/sitemaps1.xml
Mapa witryny: http://site/sitemaps2.xml

Dyrektywa przyjmująca

Dyrektywa przyjmująca- wskazuje robotowi główne lustro witryny. Niezależnie od tego, co znajduje się w indeksie lustrzanym witryny, należy zawsze określić tę dyrektywę. Jeśli nie zostanie określony, robot Yandex zindeksuje co najmniej dwie wersje witryny z i bez www. Dopóki lustrzany robot nie sklei ich razem. Przykład nagrywania:

Host: www.site
gospodarz: witryna

W pierwszym przypadku robot zaindeksuje wersję z www, w drugim bez. W pliku robots.txt dozwolona jest tylko jedna dyrektywa hosta. Jeśli napiszesz kilka z nich, bot przetworzy i weźmie pod uwagę tylko pierwszą.

Poprawna dyrektywa hosta powinna zawierać następujące dane:
— wskazać protokół połączenia (HTTP lub HTTPS);
- poprawnie napisane Nazwa domeny(nie możesz zarejestrować adresu IP);
- numer portu, jeśli to konieczne (na przykład Host: site.com:8080).

Niewłaściwie wykonane dyrektywy zostaną po prostu zignorowane.

Dyrektywa o opóźnieniu indeksowania

Dyrektywa o opóźnieniu indeksowania pozwala na zmniejszenie obciążenia serwera. Jest to potrzebne na wypadek, gdyby Twoja witryna zaczęła paść ofiarą różnych botów. Dyrektywa Crawl-delay nakazuje robotowi wyszukiwania czekać między końcem pobierania jednej strony a rozpoczęciem pobierania kolejnej strony witryny. Dyrektywa musi pojawić się bezpośrednio po wpisach dyrektywy „Disallow” i/lub „Allow”. Robot wyszukiwania Yandex potrafi odczytywać wartości ułamkowe. Na przykład: 1,5 (półtorej sekundy).

Dyrektywa dotycząca czystych parametrów

Dyrektywa dotycząca czystych parametrów potrzebne witrynom, których strony zawierają parametry dynamiczne. Mówimy o tych, które nie wpływają na zawartość stron. Są to różne informacje o usługach: identyfikatory sesji, użytkownicy, osoby polecające itp. Tak więc, aby uniknąć duplikatów tych stron, stosuje się tę dyrektywę. Poinformuje PS, aby nie przesyłał ponownie informacji o ponownym dojeździe. Zmniejszy się również obciążenie serwera i czas potrzebny robotowi na indeksowanie witryny.

Clean-param: s /forum/showthread.php

Ten wpis mówi PS, że parametr s będzie uważany za nieistotny dla wszystkich adresów URL zaczynających się od /forum/showthread.php. Maksymalna długość rekordu to 500 znaków.

Ustaliliśmy dyrektywy, przejdźmy do konfiguracji naszych robotów.

Ustawianie robots.txt

Przechodzimy bezpośrednio do konfiguracji pliku robots.txt. Musi zawierać co najmniej dwa wpisy:

agent użytkownika:- wskazuje, dla której wyszukiwarki będą poniższe instrukcje.
Uniemożliwić:— Określa, która część witryny nie ma być indeksowana. Może zamknąć indeksowanie zarówno oddzielnej strony witryny, jak i całych sekcji.

Co więcej, możesz określić, że te dyrektywy są przeznaczone dla wszystkich wyszukiwarek lub tylko dla jednej. Jest to określone w dyrektywie User-agent. Jeśli chcesz, aby wszystkie boty przeczytały instrukcje, umieść gwiazdkę

Jeśli chcesz napisać instrukcje dla konkretnego robota, ale musisz podać jego nazwę.

Agent użytkownika: YandexBot

Uproszczonym przykładem poprawnie skomponowanego pliku robots byłoby:

Agent użytkownika: *
Zabroń: /files.php
Nie zezwalaj: /sekcja/
gospodarz: witryna

Gdzie, * mówi, że instrukcje są przeznaczone dla wszystkich PS;
Zabroń: /files.php- daje zakaz indeksowania pliku file.php;
Nie zezwalaj: /foto/- zabrania indeksowania całej sekcji „foto” ze wszystkimi załączonymi plikami;
gospodarz: witryna- mówi robotom, które lustro mają indeksować.

Jeśli Twoja witryna nie zawiera stron, które należy zamknąć przed indeksowaniem, plik robots.txt powinien wyglądać tak:

Agent użytkownika: *
Uniemożliwić:
gospodarz: witryna

Robots.txt dla Yandex (Yandex)

Aby wskazać, że te instrukcje są przeznaczone dla wyszukiwarki Yandex, należy określić w dyrektywie User-agent: Yandex. Co więcej, jeśli napiszemy „Yandex”, witryna zostanie zaindeksowana przez wszystkie roboty Yandex, a jeśli określimy „YandexBot”, będzie to polecenie tylko dla głównego robota indeksującego.

Niezbędne jest również zarejestrowanie dyrektywy „Host”, gdzie określić główny mirror witryny. Jak napisałem powyżej, ma to na celu zapobieganie duplikowaniu stron. Twój poprawny plik robots.txt dla Yandex będzie taki.

Większość robotów jest dobrze zaprojektowana i nie sprawia żadnych problemów właścicielom witryn. Ale jeśli bot został napisany przez amatora lub „coś poszło nie tak”, może spowodować znaczne obciążenie witryny, którą omija. Nawiasem mówiąc, pająki wcale nie wchodzą na serwer jak wirusy - po prostu żądają stron, których potrzebują zdalnie (w rzeczywistości są to odpowiedniki przeglądarek, ale bez funkcji przeglądania stron).

Robots.txt - dyrektywa użytkownika i boty wyszukiwarek

Robots.txt ma bardzo prostą składnię, która jest bardzo szczegółowo opisana, na przykład w Pomóż Yandexowi oraz Pomoc Google. Zwykle określa, dla którego bota wyszukującego przeznaczone są następujące dyrektywy: nazwa bota (" agent użytkownika"), pozwalać (" umożliwić") i zabrania (" Uniemożliwić”), a „Mapa witryny” jest również aktywnie używana do wskazywania wyszukiwarkom dokładnej lokalizacji pliku mapy.

Standard powstał dość dawno temu, a później coś dodano. Istnieją dyrektywy i zasady projektowania, które zrozumieją tylko roboty niektórych wyszukiwarek. W RuNet interesują się tylko Yandex i Google, co oznacza, że ​​\u200b\u200bz ich pomocą w kompilacji robots.txt należy zapoznać się szczególnie szczegółowo (podałem linki w poprzednim akapicie).

Na przykład wcześniej dla wyszukiwarki Yandex przydatne było wskazanie, że twój projekt internetowy jest głównym w specjalnej dyrektywie „Host”, którą rozumie tylko ta wyszukiwarka (no, także Mail.ru, ponieważ mają wyszukiwanie z Yandex). To prawda, na początku 2018 r. Yandex nadal anulował Host a teraz jego funkcje, podobnie jak inne wyszukiwarki, są wykonywane przez przekierowanie 301.

Nawet jeśli twój zasób nie ma luster, warto wskazać, która z pisowni jest najważniejsza - .

Porozmawiajmy teraz trochę o składni tego pliku. Dyrektywy w robots.txt wyglądają tak:

<поле>:<пробел><значение><пробел> <поле>:<пробел><значение><пробел>

Prawidłowy kod powinien zawierać co najmniej jedna dyrektywa „Disallow” po każdym wpisie „User-agent”. Pusty plik zakłada uprawnienia do indeksowania całej witryny.

agent użytkownika

Dyrektywa „User-agent” musi zawierać nazwę bota wyszukiwania. Dzięki niemu możesz ustawić zasady postępowania dla każdej konkretnej wyszukiwarki (na przykład utwórz zakaz indeksowania osobnego folderu tylko dla Yandex). Przykład napisania „User-agenta”, adresowanego do wszystkich botów, które trafiają do Twojego zasobu, wygląda tak:

Agent użytkownika: *

Jeśli chcesz ustawić "User-agent" określone warunki tylko dla jednego bota, na przykład Yandex, musisz napisać tak:

Agent użytkownika: Yandex

Nazwa robotów wyszukiwarek i ich rola w pliku robots.txt

Bot każdej wyszukiwarki ma własną nazwę (na przykład dla ramblera jest to StackRambler). Tutaj wymienię najsłynniejsze z nich:

Google http://www.google.com Googlebot Yandex http://www.ya.ru Yandex Bing http://www.bing.com/ bingbot

W przypadku głównych wyszukiwarek czasami z wyjątkiem głównych botów, istnieją również oddzielne instancje do indeksowania blogów, wiadomości, obrazów i nie tylko. Możesz uzyskać wiele informacji na temat rodzajów botów (dla Yandex) i (dla Google).

Jak być w tym przypadku? Jeśli musisz napisać regułę braku indeksowania, której muszą przestrzegać wszystkie typy Googlebotów, użyj nazwy Googlebot, a wszystkie inne roboty-pająki tej wyszukiwarki również będą przestrzegać. Możesz jednak zabronić na przykład indeksowania obrazów, określając bota Googlebota-Image jako klienta użytkownika. Teraz nie jest to bardzo jasne, ale z przykładami myślę, że będzie łatwiej.

Przykłady użycia dyrektyw Disallow i Allow w robots.txt

Pozwól, że dam ci kilka prostych przykłady użycia dyrektyw wyjaśniając swoje działania.

  1. Poniższy kod pozwala wszystkim botom (oznaczonym gwiazdką w agencie użytkownika) indeksować całą zawartość bez żadnych wyjątków. To jest dane pusta dyrektywa Disallow. Klient użytkownika: * Nie zezwalaj:
  2. Wręcz przeciwnie, poniższy kod całkowicie zabrania wszystkim wyszukiwarkom dodawania stron tego zasobu do indeksu. Ustawia to na Disallow z "/" w polu wartości. Klient użytkownika: * Nie zezwalaj: /
  3. W takim przypadku wszystkie boty nie będą mogły przeglądać zawartości katalogu /image/ (http://mysite.ru/image/ to bezwzględna ścieżka do tego katalogu) User-agent: * Disallow: /image/
  4. Aby zablokować jeden plik, wystarczy zarejestrować jego bezwzględną ścieżkę do niego (czytaj): User-agent: * Disallow: /katalog1//katalog2/private_file.html

    Patrząc trochę w przyszłość powiem, że łatwiej jest użyć znaku gwiazdki (*), aby nie pisać pełnej ścieżki:

    Disallow: /*plik_prywatny.html

  5. W poniższym przykładzie katalog "image" będzie zabroniony, a także wszystkie pliki i katalogi zaczynające się od znaków "image", tj. pliki: "image.htm", "images.htm", katalogi: "image" , " images1", "image34" itp.): User-agent: * Disallow: /image Faktem jest, że domyślnie na końcu wpisu umieszczana jest gwiazdka, która zastępuje wszelkie znaki, w tym ich brak. Przeczytaj o tym poniżej.
  6. Używając zezwalaj na dyrektywy umożliwiamy dostęp. Dobre uzupełnienie Disallow. Na przykład w tym warunku zabraniamy robotowi wyszukiwania Yandex pobierania (indeksowania) wszystkiego oprócz stron internetowych, których adres zaczyna się od /cgi-bin: User-agent: Yandex Allow: /cgi-bin Disallow: /

    Cóż, albo jest to oczywisty przykład użycia pakietu Zezwól i Zabroń:

    User-agent: * Disallow: /catalog Allow: /catalog/auto

  7. Opisując ścieżki dla dyrektyw Allow-Disallow, możesz użyć symboli „*” i „$”, ustalając w ten sposób pewne wyrażenia logiczne.
    1. Symbol "*"(gwiazda) oznacza dowolną (w tym pustą) sekwencję znaków. Poniższy przykład uniemożliwia wszystkim wyszukiwarkom indeksowanie plików z rozszerzeniem ".php": User-agent: * Disallow: *.php$
    2. Dlaczego jest to potrzebne na końcu? Znak $ (dolara)? Faktem jest, że zgodnie z logiką kompilacji pliku robots.txt na końcu każdej dyrektywy dodawana jest domyślna gwiazdka (nie istnieje, ale wydaje się, że tam jest). Na przykład piszemy: Disallow: /images

      Zakładając, że to to samo, co:

      Nie zezwalaj: /obrazy*

      Tych. ta reguła zabrania indeksowania wszystkich plików (stron internetowych, obrazów i innych typów plików), których adres zaczyna się od /images i wszystkiego innego (patrz przykład powyżej). Więc oto jest? Symbol $ po prostu zastępuje tę domyślną (nieokreśloną) gwiazdkę na końcu. Na przykład:

      Odrzuć: /obrazy$

      Wyłącza tylko indeksowanie pliku /images, a nie /images.html lub /images/primer.html. Otóż ​​w pierwszym przykładzie zabroniliśmy indeksowania tylko plików kończących się na .php (posiadających takie rozszerzenie), aby nie wyłapać niczego ekstra:

      Nie zezwalaj: *.php$

  • W wielu wyszukiwarkach użytkownicy (adresy URL czytelne dla człowieka), podczas gdy adresy URL generowane przez system mają znak zapytania „?” w adresie. Możesz użyć tego i napisać taką regułę w robots.txt: User-agent: * Disallow: /*?

    Gwiazdka po pytajniku sama się sugeruje, ale jak dowiedzieliśmy się nieco wyżej, jest już sugerowana na końcu. W związku z tym zabronimy indeksowania stron wyszukiwania i innych stron usług tworzonych przez wyszukiwarkę, do których może dotrzeć robot wyszukiwania. Nie będzie to zbyteczne, ponieważ znak zapytania jest najczęściej używany przez CMS jako identyfikator sesji, co może prowadzić do dostania się zduplikowanych stron do indeksu.

  • Dyrektywy mapy witryny i hosta (dla Yandex) w pliku Robots.txt

    Aby uniknąć nieprzyjemnych problemów z serwerami lustrzanymi witryn, wcześniej zalecano dodanie dyrektywy Host do pliku robots.txt, która wskazywała bota Yandex na główny serwer lustrzany.

    Dyrektywa hosta - określa główny serwer lustrzany dla Yandex

    Na przykład wcześniej, jeśli nie przełączyłeś się jeszcze na bezpieczny protokół, konieczne było wskazanie w Hostie nie pełnego adresu URL, ale nazwę domeny (bez http://, czyli .ru). Jeśli już przełączyłeś się na https, musisz podać pełny adres URL (np. https://myhost.ru).

    Wspaniałe narzędzie do zwalczania duplikatów treści - wyszukiwarka po prostu nie zaindeksuje strony, jeśli w Canonical zarejestrowany jest inny adres URL. Na przykład dla takiej strony mojego bloga (strona z paginacją) Canonical wskazuje na https://site i nie powinno być problemów z duplikowaniem tytułów.

    Ale dygresja...

    Jeśli Twój projekt jest oparty na dowolnym silniku, to wystąpi zduplikowana treść z dużym prawdopodobieństwem, co oznacza, że ​​trzeba z nim walczyć, m.in. za pomocą bana w robots.txt, a zwłaszcza w metatagu, bo w pierwszym przypadku Google może zignorować bana, ale nie może już dać cholera o metatagu (w ten sposób wychowany).

    Na przykład w Strony WordPress o bardzo podobnej zawartości może dostać się do indeksu wyszukiwarek, jeśli indeksowanie jest dozwolone zarówno dla zawartości kategorii, zawartości archiwum tagów, jak i zawartości archiwów tymczasowych. Ale jeśli użyjesz opisanego powyżej metatagu Robots, aby utworzyć blokadę dla archiwum tagów i archiwum tymczasowego (możesz zostawić tagi, ale zabroń indeksowania zawartości kategorii), duplikacja zawartości nie nastąpi. Jak to zrobić, opisuje link podany powyżej (do wtyczki OlInSeoPak)

    Podsumowując, powiem, że plik Robots ma na celu ustalenie globalnych reguł odmawiania dostępu do całych katalogów witryny lub do plików i folderów, które zawierają podane symbole(przez maskę). Możesz zobaczyć przykłady ustawiania takich zakazów nieco wyżej.

    Zastanówmy się teraz konkretne przykłady roboty zaprojektowane dla różnych silników - Joomla, WordPress i SMF. Oczywiście wszystkie trzy opcje stworzone dla różnych CMS będą się znacznie (jeśli nie kardynalnie) różnić od siebie. To prawda, że ​​wszyscy będą mieli jeden wspólny moment, a ten moment jest związany z wyszukiwarką Yandex.

    Dlatego Yandex ma dość dużą wagę w Runecie, więc musisz wziąć pod uwagę wszystkie niuanse jego pracy, a tutaj my Pomoże dyrektywa hosta. Wyraźnie wskaże tej wyszukiwarce główne lustro Twojej witryny.

    Dla niej zaleca się korzystanie z osobnego bloga User-Agent, przeznaczonego tylko dla Yandex (User-agent: Yandex). Wynika to z faktu, że inne wyszukiwarki mogą nie rozumieć Hosta i w związku z tym umieszczenie go w rekordzie User-agent przeznaczonym dla wszystkich wyszukiwarek (User-agent: *) może prowadzić do negatywnych konsekwencji i nieprawidłowego indeksowania.

    Trudno powiedzieć, jak naprawdę jest, ponieważ algorytmy wyszukiwania są rzeczą samą w sobie, więc lepiej zrobić to, co radzą. Ale w tym przypadku będziesz musiał powielić w dyrektywie User-agent: Yandex wszystkie reguły, które ustawiliśmy User-agent: * . Jeśli opuścisz User-agent: Yandex z pustym Disallow: , w ten sposób pozwolisz Yandexowi przejść w dowolne miejsce i przeciągnąć wszystko do indeksu.

    Roboty dla WordPressa

    Nie podam przykładu pliku polecanego przez programistów. Możesz to obejrzeć sam. Wielu blogerów w ogóle nie ogranicza botów Yandex i Google w swoich spacerach po zawartości silnika WordPress. Najczęściej na blogach można znaleźć roboty automatycznie wypełnione wtyczką.

    Ale moim zdaniem nadal należy pomagać w poszukiwaniach w trudnym zadaniu odsiewania pszenicy od plew. Po pierwsze, indeksowanie tych śmieci zajmie dużo czasu, a boty Yandex i Google mogą nie mieć czasu na dodawanie stron internetowych z nowymi artykułami do indeksu. Po drugie, boty przeszukujące niepotrzebne pliki silnika spowodują dodatkowe obciążenie serwera hosta, co nie jest dobre.

    Możesz zobaczyć moją wersję tego pliku dla siebie. Jest stara, od dawna się nie zmienia, ale staram się kierować zasadą „nie naprawiaj tego, co się nie zepsuło” i to do Ciebie należy decyzja: użyj go, zrób sobie lub podglądaj od kogoś innego . Jeszcze do niedawna miałem tam zakaz indeksowania stron z paginacją (Disallow: */page/), ale ostatnio usunąłem go, opierając się na Canonicalu, o którym pisałem powyżej.

    Ale generalnie, jedyny poprawny plik dla WordPressa prawdopodobnie nie istnieje. Można oczywiście zaimplementować w nim jakiekolwiek przesłanki, ale kto powiedział, że będą poprawne. Istnieje wiele opcji tworzenia idealnego pliku robots.txt w Internecie.

    Podam dwie skrajności:

    1. możesz znaleźć megaplik ze szczegółowymi objaśnieniami (symbol # oddziela komentarze, które lepiej byłoby usunąć w prawdziwym pliku): User-agent: * # Główne zasady dla robotów, z wyjątkiem Yandex i Google, # ponieważ reguły dla nich są poniżej Disallow: /cgi-bin # folder hostingu Disallow: /? # wszystkie opcje zapytań na stronie głównej Disallow: /wp- # wszystkie pliki WP: /wp-json/, /wp-includes, /wp-content/plugins Disallow: /wp/ # jeśli istnieje podkatalog /wp/, gdzie CMS jest zainstalowany (jeśli nie, # reguła może zostać usunięta) Disallow: *?s= # wyszukaj Disallow: *&s= # wyszukaj Disallow: /szukaj/ # wyszukaj Disallow: /autor/ # archiwum autora Disallow: /users/ # archiwum autorów Disallow: */ trackback # trackbacki, powiadomienia w komentarzach, gdy pojawi się link do # otwartego artykułu Disallow: */feed # wszystkie kanały Disallow: */rss # kanał rss Disallow: */embed # wszystkie embedy Disallow: */wlwmanifest .xml # plik manifestu xml Program Windows Live Writer (jeśli nie jest używany, # można go usunąć) Disallow: /xmlrpc.php # Plik API WordPress Disallow: *utm= # linki z tagami utm Disallow: *openstat= # linki z tagami openstat Zezwalaj : */uploads # otwórz folder z przesłanymi plikami Klient użytkownika: GoogleBot # reguły dla Google (nie duplikuj komentarzy) Disallow: /cgi-bin Disallow: /? Disallow: /wp- Disallow: /wp/ Disallow: *?s= Disallow: *&s= Disallow: /szukaj/ Disallow: /autor/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */ rss Disallow: */embed Disallow: */wlwmanifest.xml Disallow: /xmlrpc.php Disallow: *utm= Disallow: *openstat= Allow: */uploads Allow: /*/*.js # otwórz skrypty js w /wp - (/*/ - dla priorytetu) Zezwól: /*/*.css # otwórz pliki css w /wp- (/*/ - dla priorytetu) Zezwól: /wp-*.png # zdjęcia we wtyczkach, folderze pamięci podręcznej itp. Zezwól: /wp-*.jpg # obrazy w wtyczkach, folderze pamięci podręcznej itp. Zezwól: /wp-*.jpeg # obrazy w wtyczkach, folderze pamięci podręcznej itp. Zezwalaj na: /wp-*.gif # zdjęcia w wtyczkach, folderze pamięci podręcznej itp. Zezwól: /wp-admin/admin-ajax.php # używane przez wtyczki, aby uniknąć blokowania JS i CSS User-agent: Yandex # reguły dla Yandex (nie duplikuj komentarzy) Disallow: /cgi-bin Disallow: /? Disallow: /wp- Disallow: /wp/ Disallow: *?s= Disallow: *&s= Disallow: /szukaj/ Disallow: /autor/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */ rss Disallow: */embed Disallow: */wlwmanifest.xml Disallow: /xmlrpc.php Zezwalaj: */uploads Zezwalaj: /*/*.js Zezwalaj: /*/*.css Zezwalaj: /wp-*.png Zezwalaj: /wp-*.jpg Zezwalaj: /wp-*.jpeg Zezwalaj: /wp-*.gif Zezwalaj: /wp-admin/admin-ajax.php Clean-Param: utm_source&utm_medium&utm_campaign # Yandex zaleca nie zamykanie # przed indeksowaniem, ale usuwanie parametry tagu, # Google nie obsługuje takich reguł Clean-Param: openstat # similar # Określ jeden lub więcej plików mapy witryny (nie ma potrzeby duplikowania dla każdego klienta użytkownika #). Google XML Sitemap tworzy 2 mapy witryn, jak w poniższym przykładzie. Mapa witryny: http://site.ru/sitemap.xml Mapa witryny: http://site.ru/sitemap.xml.gz # Określ główne lustro witryny, jak w poniższym przykładzie (z WWW / bez WWW, jeśli HTTPS # następnie napisz protokół, jeśli musisz określić port, podaj). Komenda hosta rozumie # Yandex i Mail.RU, Google nie bierze pod uwagę. Gospodarz: www.site.ru
    2. Oto przykład minimalizmu: User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php Host: https://site.ru Mapa witryny: https://site.ru/ sitemap.xml

    Prawda prawdopodobnie leży gdzieś pośrodku. Nie zapomnij również zarejestrować metatagu Robots dla "dodatkowych" stron, na przykład za pomocą wspaniałej wtyczki - . Pomoże również założyć firmę Canonical.

    Popraw plik robots.txt dla Joomla

    User-agent: * Disallow: /administrator/ Disallow: /bin/ Disallow: /cache/ Disallow: /cli/ Disallow: /komponenty/ Disallow: /includes/ Disallow: /instalacja/ Disallow: /język/ Disallow: /układy/ Disallow: /biblioteki/ Disallow: /logs/ Disallow: /moduły/ Disallow: /plugins/ Disallow: /tmp/

    W zasadzie prawie wszystko jest tutaj brane pod uwagę i działa dobrze. Jedyną rzeczą jest to, że powinieneś dodać do niego osobną regułę User-agent: Yandex, aby wstawić dyrektywę Host definiującą główny serwer lustrzany Yandex, a także określić ścieżkę do pliku Sitemap.

    Dlatego w ostatecznej formie poprawne roboty dla Joomla, moim zdaniem, powinny wyglądać tak:

    Klient użytkownika: Yandex Disallow: /administrator/ Disallow: /cache/ Disallow: /includes/ Disallow: /instalacja/ Disallow: /język/ Disallow: /biblioteki/ Disallow: /modules/ Disallow: /plugins/ Disallow: /tmp/ Disallow: /układy/ Disallow: /cli/ Disallow: /bin/ Disallow: /logs/ Disallow: /komponenty/ Disallow: /komponent/ Disallow: /komponent/tagi* Disallow: /*mailto/ Disallow: /*.pdf Disallow : /*% Disallow: /index.php Host: vash_sait.ru (lub www.vash_sait.ru) User-agent: * Allow: /*.css?*$ Allow: /*.js?*$ Allow: /* .jpg?*$ Allow: /*.png?*$ Disallow: /administrator/ Disallow: /cache/ Disallow: /includes/ Disallow: /instalacja/ Disallow: /język/ Disallow: /biblioteki/ Disallow: /moduły/ Disallow : /plugins/ Disallow: /tmp/ Disallow: /układy/ Disallow: /cli/ Disallow: /bin/ Disallow: /logs/ Disallow: /komponenty/ Disallow: /komponent/ Disallow: /*mailto/ Disallow: /*. pdf Disallow: /*% Disallow: /index.php Mapa witryny: http://ścieżka do Twojej mapy Format XML

    Tak, zwróć też uwagę, że w drugiej opcji są dyrektywy Zezwól, umożliwiając indeksowanie stylów, skryptów i obrazów. Zostało to napisane specjalnie dla Google, ponieważ jego Googlebot czasami przysięga, że ​​indeksowanie tych plików jest zabronione w robotach, na przykład z folderu z użytym motywem. Grozi nawet, że obniży za to rankingi.

    Dlatego zezwalamy na wcześniejsze indeksowanie tego wszystkiego za pomocą Zezwalaj. Nawiasem mówiąc, to samo wydarzyło się w przykładowym pliku dla WordPressa.

    Powodzenia! Do zobaczenia wkrótce na stronie bloga

    Możesz być zainteresowany

    Domeny z www i bez - historia ich pojawienia się, wykorzystanie przekierowań 301 do ich sklejenia
    Mirrory, duplikaty stron i adresy URL - audyt Twojej witryny lub co może być przyczyną awarii podczas promocji SEO SEO dla początkujących: 10 podstaw do technicznego audytu strony internetowej
    Bing webmaster - centrum dla webmasterów z wyszukiwarki Bing
    Google Webmaster – Narzędzia Search Console (Google Webmaster)
    Jak uniknąć typowych błędów podczas promowania strony internetowej?
    Jak samemu promować witrynę, poprawiając wewnętrzną optymalizację dla słowa kluczowe i usuwanie duplikatów treści
    Yandex Webmaster - indeksowanie, linki, widoczność witryny, wybór regionu, autorstwo i kontrola wirusów w Yandex Webmaster

    Plik sitemap.xml i poprawny plik robots.txt dla witryny to dwa obowiązkowe dokumenty, które przyczyniają się do szybkiego i pełnego indeksowania wszystkich niezbędnych stron zasobu internetowego przez roboty wyszukiwania. Właściwe indeksowanie witryn w Yandex i Google jest kluczem do udanej promocji bloga w wyszukiwarkach.

    Jak zrobić mapę witryny Format XML i dlaczego go potrzebuję, już pisałem. A teraz porozmawiajmy o tym, jak utworzyć odpowiedni plik robots.txt dla witryny WordPress i dlaczego w ogóle jest potrzebny. Dokładna informacja o tym pliku można uzyskać odpowiednio od Yandex i Google, oraz. Dotknę samej istoty i dotknę głównych ustawień robots.txt dla WordPressa na przykładzie mojego pliku.

    Dlaczego potrzebujesz pliku robots.txt dla witryny?

    Standard robots.txt został wprowadzony w styczniu 1994 roku. Podczas indeksowania zasobu internetowego roboty wyszukiwania najpierw szukają pliku tekstowego robots.txt znajdującego się w folderze głównym witryny lub bloga. Za jego pomocą możemy określić pewne zasady dla robotów różnych wyszukiwarek, według których będą indeksować witrynę.

    Prawidłowe ustawienie robots.txt pozwoli:

    • wyklucz z indeksu duplikaty i różne strony śmieci;
    • nałożyć zakaz indeksowania stron, plików i folderów, które chcemy ukryć;
    • generalnie odmawiają indeksowania niektórym robotom wyszukiwania (na przykład Yahoo, aby ukryć informacje o linkach przychodzących od konkurencji);
    • wskazać główne lustro witryny (z www lub bez www);
    • określ ścieżkę do mapy witryny sitemap.xml.

    Jak utworzyć prawidłowy plik robots.txt dla witryny internetowej

    W tym celu istnieją specjalne generatory i wtyczki, ale lepiej zrobić to ręcznie.

    Wystarczy utworzyć zwykły plik tekstowy o nazwie robots.txt za pomocą dowolnego Edytor tekstu(na przykład Notatnik lub Notatnik ++) i prześlij go na hosting w folderze głównym bloga. W tym pliku musisz wpisać określone dyrektywy, tj. zasady indeksowania dla robotów Yandex, Google itp.

    Jeśli jesteś zbyt leniwy, aby zawracać sobie tym głowę, poniżej podam przykład, z mojego punktu widzenia, poprawnego pliku robots.txt dla WordPressa z mojego bloga. Możesz z niego skorzystać, podmieniając nazwę domeny w trzech miejscach.

    Zasady i dyrektywy dotyczące tworzenia robots.txt

    Za sukces optymalizacja wyszukiwarki blogu, musisz znać kilka zasad tworzenia robots.txt:

    • Brak lub pusty plik robots.txt oznacza, że ​​wyszukiwarki mogą indeksować całą zawartość zasobu internetowego.
    • plik robots.txt powinien otworzyć się w witrynie site.ru/robots.txt , dając robotowi kod odpowiedzi 200 OK i nie większy niż 32 KB. Plik, którego nie można otworzyć (na przykład z powodu błędu 404) lub jest większy, zostanie uznany za dozwolony.
    • Liczba dyrektyw w pliku nie powinna przekraczać 1024. Długość jednej linii nie powinna przekraczać 1024 znaków.
    • Prawidłowy plik robots.txt może zawierać wiele instrukcji, z których każda musi zaczynać się od dyrektywy klienta użytkownika i musi zawierać co najmniej jedną dyrektywę Disallow. Zwykle piszą instrukcje w robots.txt dla Google i wszystkich innych robotów oraz osobno dla Yandex.

    Główne dyrektywy robots.txt:

    User-agent – ​​wskazuje, do którego robota jest adresowana instrukcja.

    Symbol „*” oznacza, że ​​dotyczy to wszystkich robotów, na przykład:

    Agent użytkownika: *

    Jeśli musimy utworzyć regułę w robots.txt dla Yandex, piszemy:

    Agent użytkownika: Yandex

    Jeśli dyrektywa jest określona dla konkretnego robota, dyrektywa User-agent: * jest przez niego ignorowana.

    Zabroń i Zezwól - odpowiednio zabroń i zezwól robotom na indeksowanie określonych stron. Wszystkie adresy muszą być określone z katalogu głównego witryny, tj. zaczynając od trzeciego ukośnika. Na przykład:

    • Zakaz indeksowania całej witryny dla wszystkich robotów:

      Agent użytkownika: *
      uniemożliwić: /

    • Yandex nie może indeksować wszystkich stron zaczynających się od /wp-admin:

      Agent użytkownika: Yandex
      Nie zezwalaj: /wp-admin

    • Pusta dyrektywa Disallow pozwala na indeksowanie wszystkiego i jest podobna do Allow. Na przykład zezwalam Yandexowi na indeksowanie całej witryny:

      Agent użytkownika: Yandex
      Uniemożliwić:

    • I odwrotnie, zabraniam indeksowania wszystkich stron przez wszystkie roboty wyszukiwania:

      Agent użytkownika: *
      umożliwić:

    • Dyrektywy Allow i Disallow z tego samego bloku agenta użytkownika są sortowane według długości prefiksu adresu URL i wykonywane sekwencyjnie. Jeśli kilka dyrektyw jest odpowiednich dla jednej strony witryny, wykonywana jest ostatnia z listy. Teraz kolejność ich pisania nie ma znaczenia dla użycia dyrektyw przez robota. Jeśli dyrektywy mają przedrostki o tej samej długości, najpierw wykonywane jest polecenie Allow. Niniejsze zasady weszły w życie 8 marca 2012 r. Na przykład umożliwia indeksowanie tylko stron zaczynających się od /wp-includes:

      Agent użytkownika: Yandex
      uniemożliwić: /
      Zezwól: /wp-zawiera

    Mapa witryny — określa adres URL mapy witryny XML. Jedna witryna może mieć kilka dyrektywy dotyczące map witryn, które można zagnieżdżać. Wszystkie adresy plików map witryn muszą być określone w pliku robots.txt, aby przyspieszyć indeksowanie witryn:

    Mapa witryny: http://site/sitemap.xml.gz
    Mapa witryny: http://site/sitemap.xml

    Host - informuje robota lustrzanego, które lustro witryny jest uważane za główne.

    Jeśli witryna jest dostępna pod kilkoma adresami (na przykład z www i bez www), tworzy to pełne zduplikowane strony, dla których można przejść pod filtr. Również w tym przypadku nie można zaindeksować strony głównej, ale przeciwnie, strona główna zostanie wykluczona z indeksu wyszukiwarki. Aby temu zapobiec, używana jest dyrektywa Host, która jest przeznaczona w pliku robots.txt tylko dla Yandex i może być tylko jedna. Jest napisany po Disallow i Allow i wygląda tak:

    gospodarz: witryna

    Crawl-delay — ustawia opóźnienie między pobraniami strony w sekundach. Jest używany, gdy występuje duże obciążenie, a serwer nie ma czasu na przetwarzanie żądań. W młodych witrynach lepiej nie używać dyrektywy Crawl-delay. Pisze tak:

    Agent użytkownika: Yandex
    Opóźnienie indeksowania: 4

    Clean-param - obsługiwany tylko przez Yandex i używany do eliminowania duplikatów stron ze zmiennymi, sklejania ich w jedną. Tym samym robot Yandex nie będzie wielokrotnie pobierał podobnych stron, na przykład tych powiązanych z linkami polecającymi. Jeszcze nie korzystałem z tej dyrektywy, ale w pomocy robots.txt dla Yandex, pod linkiem na początku artykułu, możesz przeczytać tę dyrektywę szczegółowo.

    Znaki specjalne * i $ są używane w pliku robots.txt do określenia ścieżek dyrektyw Disallow i Allow:

    • Znak specjalny „*” oznacza dowolną sekwencję znaków. Na przykład Disallow: /*?* oznacza blokadę stron, na których w adresie występuje „?”, niezależnie od tego, jakie znaki pojawiają się przed i po tym znaku. Domyślnie na końcu każdej reguły dodawany jest znak specjalny „*”, nawet jeśli nie jest napisany specjalnie.
    • Znak „$” anuluje „*” na końcu reguły i oznacza ścisłe dopasowanie. Na przykład dyrektywa Disallow: /*?$ zabroni indeksowania stron kończących się znakiem „?”.

    Przykład pliku robots.txt WordPress

    Oto przykład mojego pliku robots.txt dla bloga WordPress:

    User-agent: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: / trackback Disallow: */trackback Disallow: */*/trackback Disallow: /feed/ Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Disallow: /?s= Klient użytkownika: Yandex Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: */ trackback Disallow: */*/trackback Disallow: /feed/ Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Disallow: /?.ru/sitemap.xml..xml

    User-agent: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: / trackback Disallow: */trackback Disallow: */*/trackback Disallow: /feed/ Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Disallow: /?s= Klient użytkownika: Yandex Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: */ trackback Disallow: */*/trackback Disallow: /feed/ Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Disallow: /?.ru/sitemap.xml..xml

    Aby nie oszukiwać się przy tworzeniu poprawnego pliku robots.txt dla WordPressa, możesz użyć tego pliku. Nie ma problemów z indeksowaniem. Mam skrypt ochrony przed kopiowaniem, więc wygodniej będzie pobrać gotowy plik robots.txt i przesłać go na swój hosting. Tylko nie zapomnij zastąpić nazwy mojej witryny swoją w dyrektywach Host i Sitemap.

    Przydatne dodatki do poprawnej konfiguracji pliku robots.txt dla WordPress

    Jeśli na Twoim blogu WordPress są zainstalowane komentarze w postaci drzew, tworzą zduplikowane strony, takie jak ?replytocom= . W robots.txt takie strony są zamykane dyrektywą Disallow: /*?*. Ale to nie jest wyjście i lepiej znieść zakazy, ale poradzić sobie z answertocom w inny sposób. Co, .

    Tak więc obecny plik robots.txt z lipca 2014 r. wygląda tak:

    Agent użytkownika: * Disallow: /wp-includes Disallow: /wp-feed Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Agent użytkownika: Yandex Disallow: /wp -includes Disallow: /wp-feed Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Host: site.ru Klient użytkownika: Googlebot-Image Allow: /wp-content /uploads/ User-agent: YandexImages Allow: /wp-content/uploads/ Mapa witryny: http://site.ru/sitemap.xml

    Agent użytkownika: * Disallow: /wp-includes Disallow: /wp-feed Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Agent użytkownika: Yandex Disallow: /wp -includes Disallow: /wp-feed Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Host: site.ru Klient użytkownika: Googlebot-Image Allow: /wp-content /uploads/ User-agent: YandexImages Allow: /wp-content/uploads/ Mapa witryny: http://site.ru/sitemap.xml

    Zawiera dodatkowo zasady dotyczące robotów indeksujących obrazy.

    Klient użytkownika: Mediapartners-Google
    Uniemożliwić:

    Jeśli planujesz promować strony kategorii lub tagów, powinieneś otworzyć je dla robotów. Na przykład w serwisie blogowym sekcje nie są zamykane przed indeksowaniem, ponieważ publikowane są w nich jedynie drobne ogłoszenia artykułów, co jest dość nieistotne z punktu widzenia duplikowania treści. A jeśli użyjesz wyników cytatów w kanale bloga, które są wypełnione unikalnymi ogłoszeniami, nie będzie w ogóle duplikatów.

    Jeśli nie korzystasz z powyższej wtyczki, możesz określić w pliku robots.txt zakaz indeksowania tagów, kategorii i archiwów. Na przykład, dodając te wiersze:

    Nie zezwalaj: /autor/
    Nie zezwalaj: /tag
    Nie zezwalaj: /kategoria/*/*
    Odrzuć: /20*

    Nie zapomnij sprawdzić pliku robots.txt w panelu Yandex.Webmaster, a następnie ponownie przesłać go na hosting.

    Jeśli masz jakieś dodatki do ustawienia robots.txt, napisz o tym w komentarzach. A teraz obejrzyj film o tym, co to jest i jak utworzyć prawidłowy plik robots.txt dla witryny, jak wyłączyć indeksowanie w pliku robots.txt i naprawić błędy.