Dom Ciekawe Kod źródłowy pliku txt robots. Roboty Yandex. Crawl-delay – stoper dla słabych serwerów

Kod źródłowy pliku txt robots. Roboty Yandex. Crawl-delay – stoper dla słabych serwerów

W przypadku większości witryn wymagany jest plik robot.txt.

Każdy optymalizator SEO powinien rozumieć znaczenie tego pliku, a także być w stanie przepisać najbardziej pożądane dyrektywy.

Odpowiednio skomponowane roboty poprawiają pozycję strony w wynikach wyszukiwania i są m.in. skutecznym narzędziem SEO.

Aby zrozumieć, czym jest robot.txt i jak działa, pamiętajmy, jak działają wyszukiwarki.

Aby to sprawdzić, wprowadź domenę główną w pasku adresu, a następnie dodaj /robots.txt na końcu adresu URL.

Na przykład plik robota Moz znajduje się pod adresem: moz.com/robots.txt. Wchodzimy i otrzymujemy stronę:

Instrukcje dla „robota”

Jak utworzyć plik robots.txt?

3 rodzaje instrukcji dla robots.txt.

Jeśli okaże się, że brakuje pliku robots.txt, utworzenie go jest łatwe.

Jak już wspomniano na początku artykułu, jest to zwykły plik tekstowy w katalogu głównym witryny.

Można to zrobić za pośrednictwem panelu administratora lub menedżera plików, za pomocą którego programista pracuje z plikami w serwisie.

W trakcie artykułu dowiemy się, jak i co tam przepisać.

Wyszukiwarki otrzymują z tego pliku trzy rodzaje instrukcji:

zeskanuj wszystko, czyli pełny dostęp(Umożliwić);
nic nie może być zeskanowane - całkowity zakaz (Disallow);
brak możliwości skanowania poszczególnych elementów (które są wskazane) - dostęp częściowy.

W praktyce wygląda to tak:

Należy pamiętać, że strona nadal może dostać się do SERP, jeśli ma łącze zainstalowane na tej stronie lub poza nią.

Aby lepiej to zrozumieć, przestudiujmy składnię tego pliku.

Składnia Robots.Txt

Robots.txt: jak to wygląda?

Ważne punkty: o czym zawsze należy pamiętać o robotach.

Siedem popularnych terminów, które często można znaleźć na stronach internetowych.

W najprostszej postaci robot wygląda tak:

Klient użytkownika: [nazwa systemu, dla którego piszemy dyrektywy] Disallow: Mapa witryny: [wskaż, gdzie mamy mapę witryny] # Reguła 1 Klient użytkownika: Googlebot Disallow: /prim1/ Mapa witryny: http://www.nashsite.com/ sitemap.xml

Razem te trzy wiersze są uważane za najprostszy plik robots.txt.

Tutaj uniemożliwiliśmy botowi indeksowanie adresu URL: http://www.nashsite.com/prim1/ i wskazaliśmy, gdzie znajduje się mapa witryny.

Uwaga: w pliku robots zestaw dyrektyw dla jednego agenta użytkownika (wyszukiwarki) jest oddzielony od zestawu dyrektyw dla innego przez podział wiersza.

W pliku z kilkoma dyrektywami wyszukiwarek każdy zakaz lub zezwolenie dotyczy tylko wyszukiwarki określonej w tym konkretnym bloku wierszy.

to ważny punkt i nie wolno o tym zapomnieć.

Jeśli plik zawiera reguły, które mają zastosowanie do wielu programów użytkownika, system nada priorytet dyrektywom, które są specyficzne dla określonej wyszukiwarki.

Oto przykład:

Na powyższej ilustracji MSNbot, discobot i Slurp mają indywidualne reguły, które będą działać tylko dla tych wyszukiwarek.

Wszystkie inne programy użytkownika stosują się do ogólnych dyrektyw w agencie użytkownika: * group.

Składnia pliku robots.txt jest absolutnie prosta.

Istnieje siedem ogólnych terminów, które często można znaleźć na stronach internetowych.

Klient użytkownika: konkretna wyszukiwarka internetowa (bot wyszukiwarki), którą instruujesz do indeksowania. Listę większości programów użytkownika można znaleźć tutaj. W sumie ma 302 systemy, z których dwa są najbardziej odpowiednie - Google i Yandex.
Disallow: polecenie disallow, które informuje agenta, aby nie odwiedzał adresu URL. W każdym adresie URL dozwolony jest tylko jeden wiersz „nie zezwalaj”.
Zezwól (dotyczy tylko Googlebota): polecenie informuje bota, że może uzyskać dostęp do strony lub podfolderu, nawet jeśli jego strona lub podfolder nadrzędny został zamknięty.
Opóźnienie indeksowania: ile milisekund powinna odczekać wyszukiwarka przed załadowaniem i zindeksowaniem treści strony.

Uwaga – Googlebot nie obsługuje tego polecenia, ale szybkość indeksowania można ustawić ręcznie w Google Search Console.

Mapa witryny: służy do wywoływania lokalizacji wszelkich map XML powiązanych z tym adresem URL. To polecenie jest obsługiwane tylko przez Google, Ask, Bing i Yahoo.
Host: ta dyrektywa określa główne lustro witryny, które należy wziąć pod uwagę podczas indeksowania. Można go napisać tylko raz.
Clean-param: To polecenie służy do radzenia sobie ze zduplikowaną treścią w adresowaniu dynamicznym.

Wyrażenia regularne

Wyrażenia regularne: jak wyglądają i co oznaczają.

Jak włączyć i wyłączyć indeksowanie w pliku robots.txt.

W praktyce pliki robots.txt mogą się rozrastać i stać się dość złożone i nieporęczne.

System umożliwia korzystanie wyrażenia regularne zapewnienie wymaganej funkcjonalności pliku, czyli elastycznej pracy ze stronami i podfolderami.

* to symbol wieloznaczny, co oznacza, że dyrektywa działa dla wszystkich botów wyszukiwania;
$ pasuje do końca adresu URL lub ciągu;
# używane do komentarzy programistów i optymalizatorów.

Oto kilka przykładów pliku robots.txt dla witryny http://www.nashsite.com

Adres URL pliku robots.txt: www.nashsite.com/robots.txt

User-agent: * (tj. dla wszystkich wyszukiwarek) Disallow: / (ukośnik oznacza katalog główny witryny)

Właśnie zakazaliśmy wszystkim wyszukiwarkom przeszukiwania i indeksowania całej witryny.

Jak często wymagane jest to działanie?

Rzadko, ale zdarzają się sytuacje, w których zasób nie musi brać udziału w wyniki wyszukiwania, a wizyty odbywały się za pośrednictwem specjalnych linków lub autoryzacji korporacyjnej.

Tak działają wewnętrzne strony niektórych firm.

Ponadto taka dyrektywa jest wymagana, jeśli obiekt jest w trakcie rozbudowy lub modernizacji.

Jeśli chcesz zezwolić wyszukiwarce na indeksowanie wszystkiego w witrynie, musisz wpisać następujące polecenia w pliku robots.txt:

Klient użytkownika: * Nie zezwalaj:

Nie ma nic w zakazie (nie zezwalaj), co oznacza, że wszystko jest możliwe.

Użycie tej składni w pliku robots.txt umożliwia robotom indeksowanie wszystkich stron w witrynie http://www.nashsite.com, w tym strona główna, administrator i kontakty.

Blokowanie określonych botów wyszukiwania i poszczególnych folderów

Składnia wyszukiwarki Google (Googlebot).

Składnia dla innych agentów wyszukiwania.

Klient użytkownika: Googlebot Disallow: /example-subfolder/

Ta składnia określa tylko Wyszukiwarka Google(Googlebot), że nie musisz indeksować adresu: www.nashsite.com/example-subfolder/.

Blokowanie poszczególnych stron dla określonych botów:

User-agent: Bingbot Disallow: /example-subfolder/blocked-page.html

Ta składnia mówi, że tylko Bingbot (nazwa robota Bing) nie powinien odwiedzać strony pod adresem: www.nashsite.com /example-subfolder/blocked-page.

W rzeczywistości to wszystko.

Jeśli opanujesz te siedem poleceń i trzy symbole oraz zrozumiesz logikę aplikacji, możesz napisać poprawny plik robots.txt.

Dlaczego to nie działa i co robić

Główny algorytm działania.

Inne metody.

Problemem jest nieprawidłowy plik robots.txt.

W końcu identyfikacja błędu, a następnie jego rozwiązanie zajmie trochę czasu.

Przeczytaj ponownie plik, upewnij się, że nie zablokowałeś niczego dodatkowego.

Jeśli po chwili okaże się, że strona nadal zawiesza się w wynikach wyszukiwania, zajrzyj do Google Webmastera, czy witryna została ponownie zindeksowana przez wyszukiwarkę i sprawdź, czy są jakieś zewnętrzne linki do zamkniętej strony.

Bo jeśli tak, to trudniej będzie to ukryć przed wynikami wyszukiwania, wymagane będą inne metody.

Cóż, przed użyciem sprawdź ten plik za pomocą bezpłatnego testera od Google.

Analiza na czas pomaga uniknąć kłopotów i oszczędza czas.

Wydaliśmy nową książkę „Content Marketing in w sieciach społecznościowych: Jak dostać się do głowy subskrybentów i zakochać się w swojej marce.

Robots.txt to plik tekstowy zawierający informacje dla przeszukiwaczy, które pomagają indeksować strony portalu.

Więcej filmów na naszym kanale - poznaj marketing internetowy z SEMANTICA

Wyobraź sobie, że szukasz skarbu na wyspie. Masz mapę. Trasa jest tam wskazana: „Podejdź do dużego pniaka. Stamtąd przejdź 10 kroków na wschód, a następnie dojdź do klifu. Skręć w prawo, znajdź jaskinię.

To są wskazówki. Podążając za nimi, podążasz trasą i znajdujesz skarb. Robot wyszukiwania działa również mniej więcej w ten sam sposób, gdy zaczyna indeksować witrynę lub stronę. Znajduje plik robots.txt. Odczytuje, które strony powinny być indeksowane, a które nie. Postępując zgodnie z tymi poleceniami, omija portal i dodaje swoje strony do indeksu.

Do czego służy plik robots.txt?

Zaczynają odwiedzać witryny i indeksować strony po przesłaniu witryny do hostingu i zarejestrowaniu DNS. Wykonują swoją pracę niezależnie od tego, czy masz jakieś pliki techniczne albo nie. Roboty wskazują wyszukiwarkom, że indeksując stronę internetową, muszą wziąć pod uwagę parametry, które się w niej znajdują.

Brak pliku robots.txt może prowadzić do problemów z szybkością indeksowania witryny i obecnością śmieci w indeksie. Nieprawidłowa konfiguracja pliku obarczona jest wykluczeniem ważnych części zasobu z indeksu oraz obecnością zbędnych stron w wynikach wyszukiwania.

Wszystko to w efekcie prowadzi do problemów z promocją.

Przyjrzyjmy się bliżej, jakie instrukcje są zawarte w tym pliku i jak wpływają one na zachowanie bota w Twojej witrynie.

Jak zrobić robots.txt

Najpierw sprawdź, czy masz ten plik.

Wpisz pasek adresu adres przeglądarki witryny i poprzez ukośnik nazwę pliku, na przykład https://www.xxxxx.ru/robots.txt

Jeśli plik jest obecny, na ekranie pojawi się lista jego parametrów.

Jeśli plik nie istnieje:

Plik jest tworzony w edytorze zwykłego tekstu, takim jak Notatnik lub Notepad ++.
Musisz ustawić nazwę robota rozszerzenie.txt. Wprowadź dane zgodnie z przyjętymi standardami formatowania.
Możesz sprawdzić błędy, korzystając z usług takich jak webmaster Yandex.Tam musisz wybrać element „Analizuj robots.txt” w sekcji „Narzędzia” i postępować zgodnie z instrukcjami.
Gdy plik będzie gotowy, prześlij go do katalogu głównego witryny.

Zasady dostosowywania

Wyszukiwarki mają więcej niż jednego robota. Niektóre boty tylko indeksują treść tekstu, niektóre - tylko graficzne. A same wyszukiwarki mogą mieć różne schematy działania robotów. Należy to wziąć pod uwagę podczas kompilacji pliku.

Niektóre z nich mogą ignorować niektóre reguły, na przykład GoogleBot nie odpowiada na informacje o tym, który mirror witryny jest uważany za główny. Ale na ogół postrzegają plik i kierują się nim.

Składnia pliku

Parametry dokumentu: nazwa robota (bota) „User-agent”, dyrektywy: zezwalające „Zezwól” i zabraniające „Nie zezwalaj”.

Obecnie istnieją dwie kluczowe wyszukiwarki: odpowiednio Yandex i Google, ważne jest, aby podczas kompilowania witryny wziąć pod uwagę wymagania obu.

Format tworzenia wpisów jest następujący, zwróć uwagę na wymagane spacje i puste wiersze.

Dyrektywa agenta użytkownika

Robot wyszukuje wpisy zaczynające się od User-agent, muszą one zawierać wskazania nazwy robota wyszukującego. Jeśli nie jest określony, dostęp bota jest uważany za nieograniczony.

Dyrektywy Zabroń i Zezwól

Jeśli musisz wyłączyć indeksowanie w robots.txt, użyj Disallow. Z jego pomocą ograniczają botowi dostęp do strony lub niektórych sekcji.

Jeśli plik robots.txt nie zawiera ani jednej dyrektywy „Disallow”, uważa się, że indeksowanie całej witryny jest dozwolone. Zazwyczaj bany są pisane po każdym bocie osobno.

Wszystkie informacje po znaku # są komentarzem i nie nadają się do odczytu maszynowego.

Zezwól służy do zezwalania na dostęp.

Symbol gwiazdki oznacza, że dotyczy wszystkich: User-agent: *.

Ta opcja, wręcz przeciwnie, oznacza całkowity zakaz indeksowania dla wszystkich.

Zapobiegaj przeglądaniu całej zawartości określonego folderu katalogu

Aby zablokować pojedynczy plik, musisz podać jego bezwzględną ścieżkę

Dyrektywy Mapa strony, Host

W przypadku Yandex zwyczajowo wskazuje się, które lustro chcesz wyznaczyć jako główne. A Google, jak pamiętamy, ignoruje to. Jeśli nie ma serwerów lustrzanych, po prostu popraw sposób, w jaki uważasz, że należy wpisać nazwę witryny z lub bez www.

Dyrektywa dotycząca czystych parametrów

Może być stosowany, jeśli adresy URL stron serwisu zawierają zmienne parametry, które nie mają wpływu na ich zawartość (mogą to być identyfikatory użytkowników, odsyłacze).

Na przykład w adresie strony „ref” określa źródło ruchu, czyli wskazuje, skąd odwiedzający trafił na witrynę. Strona będzie taka sama dla wszystkich użytkowników.

Robota można na to wskazać i nie będzie on pobierał zduplikowanych informacji. Zmniejszy to obciążenie serwera.

Dyrektywa o opóźnieniu indeksowania

Za jego pomocą możesz określić, z jaką częstotliwością bot będzie ładował strony do analizy. To polecenie jest używane, gdy serwer jest przeciążony i wskazuje, że proces obejścia wymaga przyspieszenia.

Błędy w pliku robots.txt

Plik nie znajduje się w katalogu głównym. Robot nie będzie go szukał głębiej i nie weźmie tego pod uwagę.
Litery w tytule muszą być pisane małą łaciną.
Błąd w nazwie, czasami brakuje im litery S na końcu i piszą robot.
W pliku robots.txt nie można używać znaków cyrylicy. Jeśli chcesz określić domenę w języku rosyjskim, użyj formatu w specjalnym kodowaniu Punycode.
Jest to metoda konwersji nazw domen na sekwencję znaków ASCII. Aby to zrobić, możesz użyć specjalnych konwerterów.

To kodowanie wygląda tak:
witryna.rf = xn--80aswg.xn--p1ai

Dodatkowe informacje o tym, co zamknąć w robots txt oraz o ustawieniach zgodnych z wymaganiami wyszukiwarek Google i Yandex, można znaleźć w dokumentach referencyjnych. Różne cms mogą mieć również swoje własne cechy, należy to wziąć pod uwagę.

Robots.txt- jest to plik tekstowy, który znajduje się w katalogu głównym witryny - http://site.ru/robots.txt. Jego głównym celem jest nadanie wyszukiwarkom określonych dyrektyw - co i kiedy robić na stronie.

Najprostszy Robots.txt

Najprostszy plik robots.txt , który pozwala wszystkim wyszukiwarkom indeksować wszystko, wygląda tak:

Agent użytkownika : *
Uniemożliwić :

Jeśli dyrektywa Disallow nie ma ukośnika na końcu, wszystkie strony mogą być indeksowane.

Niniejsza dyrektywa całkowicie zabrania indeksowania witryny:

Agent użytkownika : *
Uniemożliwić: /

User-agent - wskazuje, dla kogo przeznaczone są dyrektywy, gwiazdka wskazuje, że dla wszystkich PS, dla Yandex wskaż User-agent: Yandex.

Pomoc Yandex mówi, że jej roboty przetwarzają User-agent: * , ale jeśli User-agent: Yandex jest obecny, User-agent: * jest ignorowany.

Dyrektywy Zabroń i Zezwól

Istnieją dwie główne dyrektywy:

Odrzuć - zabroń

Zezwól - zezwól

Przykład: Na blogu zabroniliśmy indeksowania folderu /wp-content/, w którym znajdują się pliki wtyczek, szablon itp. Ale są też obrazy, które muszą być zindeksowane przez PS, aby wziąć udział w wyszukiwaniu obrazów. Aby to zrobić, musisz użyć następującego schematu:

Agent użytkownika : *
Zezwól: /wp-content/uploads/ # Zezwalaj na indeksowanie obrazów w folderze przesyłania
Nie zezwalaj : /wp-content/

Kolejność używania dyrektyw jest ważna dla Yandex, jeśli dotyczą tych samych stron lub folderów. Jeśli określisz w ten sposób:

Agent użytkownika : *
Nie zezwalaj : /wp-content/
Zezwól: /wp-content/uploads/

Obrazy nie będą ładowane przez robota Yandex z katalogu /uploads/, ponieważ wykonywana jest pierwsza dyrektywa, która odmawia dostępu do folderu wp-content.

Google nie przejmuje się tym i przestrzega wszystkich dyrektyw pliku robots.txt, niezależnie od ich lokalizacji.

Nie zapominaj też, że dyrektywy z ukośnikiem i bez niego pełnią inną rolę:

Odrzuć: / około Odmawia dostępu do całego katalogu site.ru/about/, a strony zawierające about - site.ru/about.html , site.ru/aboutlive.html itp. nie będą indeksowane.

Nie zezwalaj: /o/ Zabroni robotom indeksowania stron w katalogu site.ru/about/ oraz stron takich jak site.ru/about.html itp. będą dostępne do indeksowania.

Wyrażenia regularne w robots.txt

Obsługiwane są dwa znaki, są to:

* - implikuje dowolną kolejność znaków.

Przykład:

Nie zezwalaj: /informacje* odmówi dostępu do wszystkich stron zawierających informacje o, w zasadzie taka dyrektywa będzie działać również bez gwiazdki. Ale w niektórych przypadkach tego wyrażenia nie można zastąpić. Na przykład w jednej kategorii są strony z końcówką .html i bez, aby zamknąć z indeksowania wszystkie strony zawierające html piszemy następującą dyrektywę:

Zabroń : /about/*.html

Teraz strona site.ru/about/live.html jest zamknięta z indeksowania, a strona site.ru/about/live jest otwarta.

Inny przykład analogii:

Klient użytkownika: Yandex
Zezwól : /about/*.html #zezwalaj na indeksowanie
Nie zezwalaj : /o/

Wszystkie strony zostaną zamknięte, z wyjątkiem stron kończących się na .html

$ - odcina resztę i zaznacza koniec linii.

Przykład:

Odrzuć: / około- Ta dyrektywa robots.txt zabrania indeksowania wszystkich stron zaczynających się od about , a także stron w katalogu /about/.

Dodając na końcu znak dolara - Disallow: /about$ poinformujemy roboty, że nie można zaindeksować tylko strony /about, ale katalog /about/, strony /aboutlive itd. mogą być indeksowane.

Dyrektywa mapy witryny

Ta dyrektywa określa ścieżkę do mapy witryny w następujący sposób:

Mapa witryny: http://site.ru/sitemap.xml

Dyrektywa gospodarza

Określone w tym formularzu:

Host: site.ru

Bez http:// , ukośników itp. Jeśli masz główną stronę lustrzaną z www, napisz:

Przykład pliku robots.txt dla Bitrix

Agent użytkownika: *
Nie zezwalaj: /*index.php$
Nie zezwalaj: /bitrix/
Nie zezwalaj: /auth/
Odrzuć: /osobiste/
Nie zezwalaj: /prześlij/
Nie zezwalaj: /szukaj/
Nie zezwalaj: /*/szukaj/
Zabroń: /*/pokaz_slajdów/
Disallow: /*/galeria/*zamówienie=*
Uniemożliwić: /*?*
Nie zezwalaj: /*&drukuj=
Nie zezwalaj: /*rejestr=
Disallow: /*forgot_password=
Nie zezwalaj: /*zmień_hasło=
Nie zezwalaj: /*logowanie=
Nie zezwalaj: /*wyloguj=
Nie zezwalaj: /*auth=
Zabroń: /*działanie=*
Nie zezwalaj: /*bitrix_*=
Nie zezwalaj: /*backurl=*
Nie zezwalaj: /*BACKURL=*
Disallow: /*back_url=*
Nie zezwalaj: /*BACK_URL=*
Disallow: /*back_url_admin=*
Disallow: /*print_course=Y
Disallow: /*ID_KURSU=
Nie zezwalaj: /*PAGEN_*
Nie zezwalaj: /*PAGE_*
Nie zezwalaj: /*POKAŻ
Nie zezwalaj: /*pokaż_wszystko=
Host: nazwa_strony.ru
Mapa strony: https://www.sitename.ru/sitemap.xml

Przykład pliku robots.txt WordPress

Po dodaniu wszystkich niezbędnych dyrektyw opisanych powyżej. Powinieneś otrzymać taki plik robots:

To jest, że tak powiem, podstawowa wersja robots.txt dla wordpress. W tym miejscu znajdują się dwa klienty użytkownika - jeden dla wszystkich, a drugi dla Yandex, gdzie określona jest dyrektywa Host.

metatagi robotów

Możliwe jest zamknięcie strony lub witryny z indeksowania nie tylko za pomocą pliku robots.txt, można to zrobić za pomocą metatagu.

Musisz zarejestrować go w tagu, a ten metatag uniemożliwi indeksowanie witryny. W WordPressie są wtyczki, które pozwalają ustawić takie metatagi, na przykład - Platinum Seo Pack. Dzięki niemu możesz zamknąć dowolną stronę z indeksowania, używa metatagów.

Dyrektywa o opóźnieniu indeksowania

Za pomocą tej dyrektywy możesz ustawić czas, w którym bot wyszukiwania powinien być przerywany między pobieraniem stron witryny.

Agent użytkownika : *
Opóźnienie indeksowania: 5

Limit czasu między dwoma wczytaniami stron wyniesie 5 sekund. Aby zmniejszyć obciążenie serwera, zwykle ustawiają je na 15-20 sekund. Ta dyrektywa jest potrzebna w przypadku dużych, często aktualizowanych witryn, w których boty wyszukujące po prostu „żyją”.

W przypadku zwykłych witryn/blogów ta dyrektywa nie jest potrzebna, ale można w ten sposób ograniczyć zachowanie innych nieistotnych robotów wyszukiwania (Rambler, Yahoo, Bing) itp. W końcu odwiedzają również witrynę i indeksują ją, tworząc w ten sposób obciążenie serwera.

Cześć wszystkim! Dzisiaj chciałabym Wam opowiedzieć plik robots.txt. Tak, dużo o nim pisze się w Internecie, ale szczerze mówiąc, sam jestem bardzo przez długi czas Nie mogłem wymyślić, jak utworzyć poprawny plik robots.txt. Skończyło się na tym, że stworzyłem jeden i jest na wszystkich moich blogach. Nie widzę żadnych problemów z robots.txt, działa dobrze.

Robots.txt dla WordPress

I dlaczego tak naprawdę potrzebujemy robots.txt? Odpowiedź jest wciąż taka sama -. Oznacza to, że kompilacja robots.txt jest jedną z części optymalizacja wyszukiwarki strona (nawiasem mówiąc, już niedługo będzie lekcja poświęcona całej wewnętrznej optymalizacji witryny WordPress. Dlatego nie zapomnij zasubskrybować RSS, aby nie przegapić interesujących materiałów.).

Jedna z funkcji podany plik – zakaz indeksowania niepotrzebne strony serwisu. Ustawia również adres i określa główne lustro witryny(strona z www lub bez www).

Uwaga: w przypadku wyszukiwarek ta sama witryna z www i bez www to zupełnie różne witryny. Ale zdając sobie sprawę, że zawartość tych witryn jest taka sama, wyszukiwarki „sklejają” je ze sobą. Dlatego ważne jest, aby zarejestrować główny serwer lustrzany w pliku robots.txt. Aby dowiedzieć się, która jest główna (z www czy bez www), po prostu wpisz adres swojej witryny w przeglądarce, na przykład z www, jeśli zostaniesz automatycznie przekierowany do tej samej witryny bez www, to główne lustro Twoja witryna bez www. Mam nadzieję, że dobrze wyjaśniłem.

Tak więc, moim zdaniem, ceniony poprawny plik robots.txt dla wordpress Możesz zobaczyć poniżej.

Popraw plik Robots.txt dla WordPress

Agent użytkownika: *
Odrzuć: /cgi-bin
Nie zezwalaj: /wp-admin
Odrzuć: /wp-zawiera
Nie zezwalaj: / wp-content/cache
Disallow: /wp-content/themes
Nie zezwalaj: /trackback
Nie zezwalaj: */trackback
Nie zezwalaj: */*/trackback
Nie zezwalaj: */*/plik/*/
Odrzuć: */kanał
Uniemożliwić: /*?*
Nie zezwalaj: /tag

Agent użytkownika: Yandex
Odrzuć: /cgi-bin
Nie zezwalaj: /wp-admin
Odrzuć: /wp-zawiera
Disallow: /wp-content/plugins
Nie zezwalaj: / wp-content/cache
Disallow: /wp-content/themes
Nie zezwalaj: /trackback
Nie zezwalaj: */trackback
Nie zezwalaj: */*/trackback
Nie zezwalaj: */*/plik/*/
Odrzuć: */kanał
Uniemożliwić: /*?*
Nie zezwalaj: /tag
gospodarz: witryna
.gz
Mapa witryny: https://site/sitemap.xml

Wszystko, co jest podane powyżej, musisz skopiować do dokument tekstowy z rozszerzeniem .txt, czyli nazwą pliku powinna być robots.txt. Możesz stworzyć ten dokument tekstowy, na przykład za pomocą programu. Tylko proszę nie zapomnij zmiana w ostatnich trzech wierszach adres na adres Twojej strony internetowej. Plik robots.txt musi znajdować się w katalogu głównym bloga, czyli w tym samym folderze co foldery wp-content, wp-admin itd.

Ci, którzy są zbyt leniwi, żeby to stworzyć plik tekstowy, możesz po prostu pobrać robots.txt, a także poprawić tam 3 wiersze.

Chcę zauważyć, że w częściach technicznych, które zostaną omówione poniżej, nie musisz się mocno obciążać. Przytaczam je jako „wiedzę”, by tak rzec, ogólny pogląd, żeby wiedzieli, co jest potrzebne i dlaczego.

Tak więc linia:

agent użytkownika

ustawia reguły dla niektórych wyszukiwarek: na przykład „*” (gwiazdka) oznacza, że reguły dotyczą wszystkich wyszukiwarek, a co poniżej

Agent użytkownika: Yandex

oznacza, że te zasady dotyczą tylko Yandex.

Uniemożliwić
Tutaj „przesuwasz” sekcje, które NIE muszą być indeksowane przez wyszukiwarki. Na przykład na stronie https://site/tag/seo mam zduplikowane artykuły (powtórzenia) ze zwykłymi artykułami, a powielanie stron negatywnie wpływa promocja w wyszukiwarce, dlatego bardzo pożądane jest, aby te sektory zostały zamknięte przed indeksowaniem, co robimy, stosując tę zasadę:

Nie zezwalaj: /tag

Tak więc w pliku robots.txt podanym powyżej prawie wszystkie niepotrzebne sekcje witryny WordPress są zamknięte przed indeksowaniem, to znaczy po prostu zostaw wszystko tak, jak jest.

Gospodarz

Tutaj ustawiliśmy główne lustro witryny, o którym mówiłem nieco wyżej.

Mapa strony

W ostatnich dwóch wierszach podajemy adres maksymalnie dwóch map witryn utworzonych za pomocą .

Możliwe problemy

Ale z powodu tego wiersza w pliku robots.txt moje posty w witrynie nie były już indeksowane:

Uniemożliwić: /*?*

Jak widać, ta sama linijka w robots.txt zabrania indeksowania artykułów, czego oczywiście w ogóle nie potrzebujemy. Aby to naprawić, wystarczy usunąć te 2 wiersze (w regułach dla wszystkich wyszukiwarek i Yandex), a ostateczny poprawny plik robots.txt dla witryny WordPress bez CNC będzie wyglądał tak:

Agent użytkownika: *
Odrzuć: /cgi-bin
Nie zezwalaj: /wp-admin
Odrzuć: /wp-zawiera
Disallow: /wp-content/plugins
Nie zezwalaj: / wp-content/cache
Disallow: /wp-content/themes
Nie zezwalaj: /trackback
Nie zezwalaj: */trackback
Nie zezwalaj: */*/trackback
Nie zezwalaj: */*/plik/*/
Odrzuć: */kanał
Nie zezwalaj: /tag

Agent użytkownika: Yandex
Odrzuć: /cgi-bin
Nie zezwalaj: /wp-admin
Odrzuć: /wp-zawiera
Disallow: /wp-content/plugins
Nie zezwalaj: / wp-content/cache
Disallow: /wp-content/themes
Nie zezwalaj: /trackback
Nie zezwalaj: */trackback
Nie zezwalaj: */*/trackback
Nie zezwalaj: */*/plik/*/
Odrzuć: */kanał
Nie zezwalaj: /tag
gospodarz: witryna
Mapa witryny: https://site/sitemap.xml

Aby sprawdzić, czy poprawnie skompilowaliśmy plik robots.txt, polecam skorzystać z usługi Yandex Webmaster (powiedziałem ci, jak zarejestrować się w tej usłudze).

Idziemy do sekcji Ustawienia indeksowania –> Analiza Robots.txt:

Już tam kliknij przycisk „Pobierz robots.txt ze strony”, a następnie kliknij przycisk „Sprawdź”:

Jeśli zobaczysz coś takiego jak następujący komunikat, oznacza to, że masz poprawny plik robots.txt dla Yandex:

Najpierw powiem Ci, czym jest robots.txt.

Robots.txt- plik znajdujący się w głównym folderze serwisu, gdzie Specjalne instrukcje dla robotów wyszukiwania. Instrukcje te są niezbędne, aby wchodząc na stronę robot nie brał pod uwagę strony/sekcji, innymi słowy zamykamy stronę z indeksowania.

Dlaczego plik robots.txt jest potrzebny

Plik robots.txt jest uważany za kluczowy wymóg optymalizacji SEO absolutnie każdej witryny. Brak tego pliku może negatywnie wpłynąć na obciążenie przez roboty i powolne indeksowanie, a co więcej, strona nie zostanie całkowicie zindeksowana. W związku z tym użytkownicy nie będą mogli przechodzić do stron za pośrednictwem Yandex i Google.

Wpływ pliku robots.txt na wyszukiwarki?

Wyszukiwarki(zwłaszcza Google) zindeksuje witrynę, ale jeśli nie ma pliku robots.txt, to, jak powiedziałem, nie wszystkie strony. Jeśli istnieje taki plik, roboty kierują się zasadami określonymi w tym pliku. Co więcej, istnieje kilka rodzajów robotów wyszukujących, jeśli jedni mogą wziąć pod uwagę regułę, to inni ją ignorują. W szczególności robot GoogleBot nie uwzględnia dyrektyw Host i Crawl-Delay, robot YandexNews ostatnio przestał uwzględniać dyrektywę Crawl-Delay, a roboty YandexDirect i YandexVideoParser ignorują ogólnie przyjęte dyrektywy w pliku robots.txt (ale weź pod uwagę te, które są napisane specjalnie dla nich).

Witryna jest najczęściej ładowana przez roboty, które ładują treści z Twojej witryny. Odpowiednio, jeśli powiemy robotowi, które strony indeksować, a które zignorować, a także w jakich odstępach czasu ma ładować treści ze stron (jest to ważniejsze w przypadku dużych witryn, które mają ponad 100 000 stron w indeksie wyszukiwarki). Ułatwi to robotowi indeksowanie i ładowanie treści ze strony.

Pliki powiązane z CMS, na przykład w Wordpressie - /wp-admin/, mogą zostać sklasyfikowane jako niepotrzebne dla wyszukiwarek. Ponadto ajax, skrypty json odpowiedzialne za formularze wyskakujące, banery, wyjście captcha i tak dalej.

W przypadku większości robotów zalecam również zamknięcie wszystkich plików JavaScript i CSS przed indeksowaniem. Ale w przypadku GoogleBot i Yandex lepiej jest indeksować takie pliki, ponieważ są one używane przez wyszukiwarki do analizy wygody witryny i jej rankingu.

Co to jest dyrektywa robots.txt?

dyrektywy- to są zasady robotów wyszukiwania. Pierwsze standardy pisania robots.txt i odpowiednio pojawiły się w 1994 roku, a rozszerzony standard w 1996 roku. Jednak, jak już wiesz, nie wszystkie roboty obsługują określone dyrektywy. Dlatego poniżej opisałem czym kierują się główne roboty podczas indeksowania stron serwisu.

Co oznacza klient użytkownika?

Jest to najważniejsza dyrektywa, która określa, dla których robotów wyszukujących będą miały zastosowanie dalsze zasady.

Dla wszystkich robotów:

Dla konkretnego bota:

Klient użytkownika: Googlebot

Wielkość liter w robots.txt nie jest ważna, możesz napisać zarówno Googlebota, jak i googlebota

Roboty Google

Roboty wyszukujące Yandex


	Główny robot indeksujący Yandex
	Używane w usłudze Yandex.Images
	Używany w usłudze Yandex.Video
	dane multimedialne
	Wyszukiwanie blogów
	Robot uzyskujący dostęp do strony dodanej za pomocą formularza „Dodaj adres URL”
	robot indeksujący ikony witryn (favicons)
	Yandex.Direct
	Yandex.Metrica
	Używany w usłudze Yandex.Catalog
	Używane w serwisie Yandex.News
YandexImageResizer	Robot wyszukiwania usług mobilnych

Roboty wyszukiwania Bing, Yahoo, Mail.ru, Rambler

Dyrektywy Zabroń i Zezwól

Nie zezwalaj na zamykanie sekcji i stron Twojej witryny z indeksowania. W związku z tym Pozwól, wręcz przeciwnie, otwiera je.

Istnieje kilka funkcji.

Po pierwsze, dodatkowymi operatorami są *, $ i #. Do czego są używane?

“*” to dowolna liczba znaków i ich brak. Domyślnie jest już na końcu linii, więc nie ma sensu wstawiać go ponownie.

“$” - wskazuje, że postać przed nią musi być ostatnia.

“#” - komentarz, wszystko, co nastąpi po tej postaci, jest ignorowane przez robota.

Przykłady użycia Disallow:

Nie zezwalaj: *?s=

Nie zezwalaj: /kategoria/

W związku z tym robot wyszukiwania zamknie strony takie jak:

Ale strony formularza będą otwarte do indeksowania:

Teraz musisz zrozumieć, jak wykonywane są zagnieżdżone reguły. Bardzo ważna jest kolejność pisania dyrektyw. Dziedziczenie reguł jest określane przez to, które katalogi są określone, czyli jeśli chcemy zamknąć stronę/dokument z indeksowania, wystarczy napisać dyrektywę. Spójrzmy na przykład

To jest nasz plik robots.txt

Nie zezwalaj: /szablon/

Ta dyrektywa jest również wskazana w dowolnym miejscu i możesz zarejestrować kilka plików map witryn.

Dyrektywa hosta w pliku robots.txt

Ta dyrektywa jest wymagana do określenia głównego serwera lustrzanego witryny (często z lub bez www). zauważ, że dyrektywa hosta określony bez protokołu http://, ale z protokołem https://. Dyrektywa jest brana pod uwagę tylko przez roboty wyszukujące Yandex i Mail.ru, podczas gdy inne roboty, w tym GoogleBot, nie uwzględnią reguły. Host do zarejestrowania 1 raz w pliku robots.txt

Przykład z http://

Gospodarz: www.website.ru

Przykład z https://

Dyrektywa o opóźnieniu indeksowania

Ustawia interwał czasowy indeksowania stron witryny przez robota wyszukiwania. Wartość jest podawana w sekundach i milisekundach.

Przykład:

Stosowany jest głównie w dużych sklepach internetowych, serwisach informacyjnych, portalach, gdzie ruch na stronie wynosi od 5000 dziennie. Konieczne jest, aby robot wyszukiwania wysłał żądanie indeksowania w określonym czasie. Jeśli nie określisz tej dyrektywy, może to spowodować poważne obciążenie serwera.

Optymalna wartość opóźnienia indeksowania dla każdej witryny jest inna. W przypadku wyszukiwarek Mail, Bing, Yahoo wartość można ustawić minimalna wartość 0,25, 0,3, ponieważ te roboty wyszukiwarek mogą indeksować Twoją witrynę raz w miesiącu, 2 miesiące i tak dalej (bardzo rzadko). W przypadku Yandex lepiej ustawić większą wartość.

Jeśli obciążenie Twojej witryny jest minimalne, nie ma sensu określać tej dyrektywy.

Dyrektywa dotycząca czystych parametrów

Reguła jest interesująca, ponieważ mówi robotowi indeksującemu, że strony o określonych parametrach nie muszą być indeksowane. Zapisywane są 2 argumenty: adres URL strony i parametr. Ta dyrektywa jest obsługiwana wyszukiwarka Yandex.

Przykład:

Nie zezwalaj: /admin/

Nie zezwalaj: /wtyczki/

Nie zezwalaj: /szukaj/

Nie zezwalaj: /koszyk/

Nie zezwalaj: *sortuj=

Nie zezwalaj: *widok=

Klient użytkownika: GoogleBot

Nie zezwalaj: /admin/

Nie zezwalaj: /wtyczki/

Nie zezwalaj: /szukaj/

Nie zezwalaj: /koszyk/

Nie zezwalaj: *sortuj=

Nie zezwalaj: *widok=

Zezwól: /plugins/*.css

Zezwól: /plugins/*.js

Zezwól: /plugins/*.png

Zezwól: /plugins/*.jpg

Zezwól: /plugins/*.gif

Agent użytkownika: Yandex

Nie zezwalaj: /admin/

Nie zezwalaj: /wtyczki/

Nie zezwalaj: /szukaj/

Nie zezwalaj: /koszyk/

Nie zezwalaj: *sortuj=

Nie zezwalaj: *widok=

Zezwól: /plugins/*.css

Zezwól: /plugins/*.js

Zezwól: /plugins/*.png

Zezwól: /plugins/*.jpg

Zezwól: /plugins/*.gif

Clean-Param: utm_source&utm_medium&utm_campaign

W przykładzie napisaliśmy zasady dla 3 różnych botów.

Gdzie dodać robots.txt?

Dodano do Folder główny strona. Dodatkowo, aby można było za nim podążać link:

Jak sprawdzić robots.txt?

Yandex Webmaster

Na karcie Narzędzia wybierz Analizuj plik robots.txt, a następnie kliknij Sprawdź

Konsola wyszukiwania Google

Na karcie Łów wybierać Narzędzie do inspekcji plików robots.txt a następnie kliknij sprawdź.

Wniosek:

Plik robots.txt musi być obowiązkowy na każdej promowanej witrynie, a tylko jego prawidłowa konfiguracja pozwoli uzyskać niezbędne indeksowanie.

I na koniec, jeśli masz jakieś pytania, zadaj je w komentarzach pod artykułem i też zastanawiam się, jak piszesz robots.txt?

Tylko o kompleksie. Programy. Żelazo. Internet. Okna

Kod źródłowy pliku txt robots. Roboty Yandex. Crawl-delay – stoper dla słabych serwerów

Instrukcje dla „robota”

Składnia Robots.Txt

Wyrażenia regularne

Blokowanie określonych botów wyszukiwania i poszczególnych folderów

Dlaczego to nie działa i co robić

Do czego służy plik robots.txt?

Jak zrobić robots.txt

Zasady dostosowywania

Składnia pliku

Dyrektywa agenta użytkownika

Dyrektywy Zabroń i Zezwól

Dyrektywy Mapa strony, Host

Dyrektywa dotycząca czystych parametrów

Dyrektywa o opóźnieniu indeksowania

Błędy w pliku robots.txt

Najprostszy Robots.txt

Dyrektywy Zabroń i Zezwól

Wyrażenia regularne w robots.txt

Przykład:

Przykład:

Dyrektywa mapy witryny

Dyrektywa gospodarza

Przykład pliku robots.txt dla Bitrix

Przykład pliku robots.txt WordPress

metatagi robotów

Dyrektywa o opóźnieniu indeksowania

Robots.txt dla WordPress

Popraw plik Robots.txt dla WordPress

Możliwe problemy

Dlaczego plik robots.txt jest potrzebny

Wpływ pliku robots.txt na wyszukiwarki?

Co to jest dyrektywa robots.txt?

Co oznacza klient użytkownika?

Roboty Google

Roboty wyszukujące Yandex

Roboty wyszukiwania Bing, Yahoo, Mail.ru, Rambler

Dyrektywy Zabroń i Zezwól

Dyrektywa hosta w pliku robots.txt

Dyrektywa o opóźnieniu indeksowania

Dyrektywa dotycząca czystych parametrów

Jak sprawdzić robots.txt?

Wniosek: