Domov Otázky txt soubor robots. Jak upravit txt robots. Použití speciálních znaků * a $

txt soubor robots. Jak upravit txt robots. Použití speciálních znaků * a $

V SEO nejsou žádné maličkosti. Někdy může propagaci webu ovlivnit pouze jeden malý soubor, Robots.txt.Pokud chcete, aby byl váš web indexován, aby vyhledávací roboti obcházeli stránky, které potřebujete, musíte pro ně napsat doporučení.

"Je to možné?", - ptáš se.Možná. K tomu musí mít váš web soubor robots.txt.Jak vytvořit soubor robotů, nakonfigurovat a přidat na web - rozumíme v tomto článku.

Co je robots.txt a k čemu slouží

Robots.txt je obvyklý textový soubor , který obsahuje doporučení pro vyhledávací roboty: které stránky by se měly procházet a které ne.

Důležité: soubor musí být zakódován v UTF-8, jinak jej vyhledávací roboti nemusí přijmout.

Přejde web, který tento soubor nemá, do indexu?Bude, ale roboti mohou „chytit“ stránky, které jsou ve výsledcích vyhledávání nežádoucí: například přihlašovací stránky, panel administrátora, stránky osobních uživatelů, zrcadlové stránky atd. To vše je považováno za „zbytečné hledání“:

Pokud jsou ve výsledcích vyhledávání zahrnuty osobní údaje, můžete trpět vy i web. Další bod - bez tohoto souboru bude indexování webu trvat déle.

V souboru Robots.txt lze zadat tři typy příkazů pro vyhledávací pavouky:

skenování je zakázáno;
skenování je povoleno;
skenování je částečně povoleno.

To vše je napsáno pomocí direktiv.

Jak vytvořit správný soubor Robots.txt pro web

Soubor Robots.txt lze vytvořit jednoduše v programu Poznámkový blok, který je standardně dostupný na každém počítači. Předepsání souboru zabere i začátečníkovi maximálně půl hodiny času (pokud znáte příkazy).

Můžete použít i jiné programy – například Poznámkový blok. Existují také online služby, které dokážou vygenerovat soubor automaticky. Například jako napřCYPR.com nebo Mediasova.

Stačí zadat adresu vašeho webu, pro které vyhledávače musíte nastavit pravidla, hlavní zrcadlo (s www nebo bez). Poté služba udělá vše sama.

Osobně preferuji starý "dědovský" způsob - registrovat soubor ručně v poznámkovém bloku. Existuje také „líný způsob“ - zmást tím svého vývojáře 🙂 Ale i v tomto případě byste měli zkontrolovat, zda je tam vše napsáno správně. Pojďme proto zjistit, jak zkompilovat tento soubor a kde by měl být umístěn.

Hotový soubor Robots.txt musí být umístěn v kořenové složce webu. Pouze soubor, žádná složka:

Chcete zkontrolovat, zda je na vašem webu? Vjíždět adresní řádek adresa: site.ru/robots.txt. Zobrazí se následující stránka (pokud soubor existuje):

Soubor se skládá z několika bloků oddělených odrážkou. Každý blok obsahuje doporučení pro vyhledávací roboty různých vyhledávačů (plus blok s hlavní pravidla pro každého) a samostatný blok s odkazy na mapu webu – Sitemap.

Uvnitř bloku není potřeba odsazovat pravidla pro jednoho vyhledávacího robota.

Každý blok začíná direktivou User-agent.

Za každou direktivou následuje znak ":" (dvojtečka), mezera, za kterou je uvedena hodnota (například, která stránka se má zavřít z indexování).

Musíte zadat relativní adresy stránek, nikoli absolutní. Relativní - toto je bez "www.site.ru". Například musíte zakázat indexování stránkywww.site.ru/shop. Za dvojtečku tedy dáme mezeru, lomítko a „obchod“:

Disallow: /shop.

Hvězdička (*) označuje libovolnou sadu znaků.

Znak dolaru ($) je konec řádku.

Můžete se rozhodnout – proč psát soubor od začátku, když ho můžete otevřít na libovolném webu a zkopírovat si ho pro sebe?

Pro každý web musíte předepsat jedinečná pravidla. Je nutné vzít v úvahu vlastnosti CMS. Například stejný admin panel se nachází na /wp-admin na enginu WordPress, na jiné adrese to bude jiné. To samé s adresami jednotlivých stránek, s mapou webu a tak dále.

Nastavení souboru Robots.txt: indexování, hlavní zrcadlo, direktivy

Jak jste již viděli na snímku obrazovky, na prvním místě je direktiva User-agent. Označuje, pro kterého vyhledávacího robota budou platit níže uvedená pravidla.

User-agent: * - pravidla pro všechny vyhledávací roboty, tedy libovolné vyhledávač(Google, Yandex, Bing, Rambler atd.).

User-agent: Googlebot – Označuje pravidla pro vyhledávač Google.

User-agent: Yandex - pravidla pro vyhledávacího robota Yandex.

U kterého vyhledávacího robota předepíše pravidla jako první, není rozdíl. Obvykle se ale nejprve píší doporučení pro všechny roboty.

Disallow: Zakázat indexování

Chcete-li zakázat indexování webu jako celku nebo jednotlivých stránek, použijte direktivu Disallow.

Můžete například úplně zavřít web z indexování (pokud se zdroj dokončuje a nechcete, aby se v tomto stavu dostal do výsledků vyhledávání). Chcete-li to provést, napište následující:

User-agent: *

zakázat: /

Všem vyhledávacím robotům je tedy zakázáno indexovat obsah na webu.

A takto můžete otevřít web pro indexování:

User-agent: *

Zakázat:

Pokud chcete web zavřít, zkontrolujte, zda za direktivou Disallow není lomítko. Pokud jej chcete otevřít později - nezapomeňte pravidlo odstranit (a to se často stává).

Chcete-li zavřít jednotlivé stránky z indexování, musíte zadat jejich adresu. Už jsem psal, jak se to dělá:

User-agent: *

Disallow: /wp-admin

Panel správce byl tedy na webu uzavřen z pohledu třetích stran.

Co potřebujete bez selhání zavřít z indexování:

administrativní panel;
osobní stránky uživatelů;
košíky;
výsledky vyhledávání na stránkách;
přihlašovací, registrační, autorizační stránky.

Můžete zavřít indexování a určité typy souborů. Řekněme, že máte na svém webu nějaké soubory .pdf, které nechcete indexovat. A vyhledávací roboti velmi snadno skenují soubory nahrané na web. Můžete je zavřít z indexování takto:

User-agent: *

Disallow: /*. pdf $

Jak otevřít web pro indexování

I když je web zcela uzavřen z indexování, můžete robotům otevřít cestu k určitým souborům nebo stránkám. Řekněme, že předěláváte web, ale adresář služeb zůstane nedotčen. Můžete tam nasměrovat vyhledávací roboty, aby pokračovali v indexování sekce. K tomu se používá direktiva Allow:

User-agent: *

Povolit: /services

zakázat: /

Hlavní zrcadlo webu

Do 20. března 2018 bylo v souboru robots.txt pro vyhledávacího robota Yandex nutné specifikovat hlavní zrcadlo webu prostřednictvím směrnice Host. Nyní to nemusíte dělat - stačí nastavit přesměrování 301 stránku po stránce .

Jaké je hlavní zrcadlo? Toto je adresa vašeho webu hlavní – s www nebo bez. Pokud nenastavíte přesměrování, budou indexovány oba weby, to znamená, že budou duplikáty všech stránek.

Sitemap: soubor sitemap robots.txt

Po napsání všech direktiv pro roboty musíte zadat cestu k souboru Sitemap. Sitemap ukazuje robotům, že všechny adresy URL, které je třeba indexovat, se nacházejí na určité adrese. Například:

Sitemap: site.ru/sitemap.xml

Když robot prochází web, uvidí, jaké změny byly v tomto souboru provedeny. Díky tomu budou nové stránky indexovány rychleji.

Směrnice o čistých parametrech

V roce 2009 představil Yandex novou směrnici – Clean-param. Lze jej použít k popisu dynamických parametrů, které nemají vliv na obsah stránek. Nejčastěji se tato směrnice používá na fórech. Je zde spousta smetí, například ID relace, parametry řazení. Pokud zaregistrujete tuto direktivu, vyhledávací robot Yandex nebude opakovaně stahovat informace, které jsou duplicitní.

Tuto direktivu můžete zapsat kamkoli do souboru robots.txt.

Parametry, které robot nemusí brát v úvahu, jsou uvedeny v první části hodnoty prostřednictvím znaménka &:

Clean-param: sid&sort /forum/viewforum.php

Tato směrnice zabraňuje duplicitním stránkám s dynamickými adresami URL (které obsahují otazník).

Direktiva Crawl-delay

Tato směrnice přijde na pomoc těm, kteří mají slabý server.

Příchod vyhledávacího robota je další zátěží serveru. Pokud máte vysokou návštěvnost webu, pak zdroj prostě nemusí vydržet a "lehnout". V důsledku toho robot obdrží chybovou zprávu 5xx. Pokud se tato situace neustále opakuje, může být web rozpoznán vyhledávačem jako nefunkční.

Představte si, že pracujete a zároveň musíte neustále přijímat hovory. Vaše produktivita pak klesá.

Stejně tak se serverem.

Vraťme se ke směrnici. Crawl-delay umožňuje nastavit zpoždění při skenování webových stránek, aby se snížilo zatížení serveru. Jinými slovy, nastavíte dobu, po které se budou stránky webu načítat. Tento parametr je zadán v sekundách jako celé číslo:

Každý blog na to dává svou vlastní odpověď. Proto nováčci propagace vyhledáváníčasto zmatený takto:

Jaký druh robotů ti ex ti?

Soubor robots.txt nebo indexový soubor- obyčejný Textový dokument v kódování UTF-8, platné pro protokoly http, https a FTP. Soubor poskytuje vyhledávacím robotům doporučení: které stránky/soubory by se měly procházet. Pokud soubor obsahuje znaky, které nejsou v UTF-8, ale v jiném kódování, vyhledávací roboti je nemusí zpracovat správně. Pravidla uvedená v souboru robots.txt jsou platná pouze pro hostitele, protokol a číslo portu, kde je soubor umístěn.

Soubor musí být umístěn v kořenovém adresáři jako prostý textový dokument a musí být dostupný na adrese: https://site.com.ua/robots.txt.

V jiných souborech je zvykem označovat BOM (Byte Order Mark). Toto je znak Unicode, který se používá k určení sekvence v bajtech při čtení informací. Jeho kódový symbol je U+FEFF. Na začátku souboru robots.txt je značka sekvence bajtů ignorována.

Google nastavil limit na velikost souboru robots.txt – neměl by vážit více než 500 KB.

Dobře, pokud vás zajímají technické podrobnosti, soubor robots.txt je popis formuláře Backus-Naur (BNF). Toto používá pravidla RFC 822.

Při zpracování pravidel v souboru robots.txt obdrží vyhledávací roboti jednu ze tří instrukcí:

částečný přístup: je k dispozici skenování jednotlivých prvků webu;
plný přístup: můžete skenovat vše;
úplný zákaz: robot nemůže nic skenovat.

Při skenování souboru robots.txt obdrží roboti následující odpovědi:

2xx- skenování bylo úspěšné;
3xx- prohledávač sleduje přesměrování, dokud neobdrží další odpověď. Nejčastěji existuje pět pokusů, aby robot dostal jinou odpověď než odpověď 3xx, pak je zaznamenána chyba 404;
4xx- vyhledávací robot věří, že je možné procházet veškerý obsah webu;
5xx- jsou vyhodnoceny jako dočasné chyby serveru, skenování je zcela zakázáno. Robot bude k souboru přistupovat, dokud neobdrží další odpověď. Vyhledávací robot Google může určit, zda je správně nebo nesprávně nakonfigurován, aby reagoval na chybějící stránky webu, to znamená, že pokud stránka namísto chyby 404 vrátí odpověď 5xx, v tomto případě bude stránka zpracována s kódem odpovědi 404.

Zatím není známo, jak je zpracováván soubor robots.txt, který není dostupný kvůli problémům serveru s přístupem k internetu.

Proč potřebujete soubor robots.txt

Někdy by například roboti neměli navštívit:

stránky s osobními údaji uživatelů na webu;
stránky s různými formami zasílání informací;
zrcadlová místa;
stránky s výsledky vyhledávání.

Důležité: i když je stránka v souboru robots.txt, existuje šance, že se objeví ve výsledcích vyhledávání, pokud byl odkaz na ni nalezen na webu nebo někde na externím zdroji.

Takto vidí roboti vyhledávačů web se souborem robots.txt a bez něj:

Bez robots.txt se do výsledků vyhledávání mohou dostat informace, které by měly být skryty před zvědavýma očima, a tím utrpíte vy i web.

Takto vidí robot vyhledávače soubor robots.txt:

Google na webu našel soubor robots.txt a našel pravidla, podle kterých by se měly stránky webu procházet

Jak vytvořit soubor robots.txt

S Poznámkový blok, Poznámkový blok, Sublime nebo jakýkoli jiný textový editor.

User-agent - vizitka pro roboty

User-agent – pravidlo o tom, kteří roboti potřebují vidět pokyny popsané v souboru robots.txt. Na tento moment Je známo 302 vyhledávacích robotů

Říká, že v souboru robots.txt specifikujeme pravidla pro všechny vyhledávací roboty.

Pro Google je hlavním robotem Googlebot. Pokud chceme vzít v úvahu pouze to, bude záznam v souboru vypadat takto:

V tomto případě budou všichni ostatní roboti procházet obsah na základě svých pokynů, aby zpracovali prázdný soubor robots.txt.

Pro Yandex je hlavním robotem... Yandex:

Další speciální roboti:

Mediální partneři – Google- pro službu AdSense;
AdsBot-Google— zkontrolovat kvalitu vstupní stránky;
Obrázky Yandex— Indexátor Yandex.Pictures;
Obrázek Googlebota- pro obrázky;
YandexMetrika— robot Yandex.Metrica;
YandexMedia- robot, který indexuje multimediální data;
YaDirectFetcher— robot Yandex.Direct;
Googlebot Video- pro video;
Googlebot pro mobily- pro mobilní verzi;
YandexDirectDyn— robot pro vytváření dynamických bannerů;
YandexBlogs- robot pro vyhledávání blogů, který indexuje příspěvky a komentáře;
YandexMarket— robot Yandex.Market;
YandexNews— robot Yandex.News;
YandexDirect— stahuje informace o obsahu partnerských stránek Reklamní sítě za účelem objasnění jejich předmětu pro výběr relevantní reklamy;
YandexPagechecker— validátor mikrodat;
YandexCalendar— Robot Yandex.Calendar.

Disallow - umístíme "cihly"

Mělo by se použít, pokud je web v procesu vylepšování a nechcete, aby se ve výsledcích vyhledávání zobrazoval v aktuálním stavu.

Je důležité toto pravidlo odstranit, jakmile bude web připraven k zobrazení uživatelům. Bohužel na to mnoho webmasterů zapomíná.

Příklad. Jak napsat pravidlo Disallow, které robotům poradí, aby nezobrazovali obsah složky /složka/:

Tento řádek zabraňuje indexování všech souborů s příponou .gif

Povolit - přímé roboty

Povolit umožňuje skenovat jakýkoli soubor/směrnici/stránku. Řekněme, že je nutné, aby roboti mohli prohlížet pouze stránky, které začínají /catalog, a zavírat veškerý ostatní obsah. V tomto případě je předepsána následující kombinace:

Pravidla Povolit a Zakázat jsou seřazeny podle délky předpony URL (od nejnižší po nejdelší) a aplikována postupně. Pokud stránce odpovídá více než jedno pravidlo, robot vybere poslední pravidlo v seřazeném seznamu.

Host – vyberte zrcadlo webu

Host je jedním z povinných pravidel pro soubor robots.txt; říká robotovi Yandex, které ze zrcadel stránek by se mělo vzít v úvahu pro indexování.

Site mirror – přesná nebo téměř přesná kopie webu, dostupná na různých adresách.

Robot nebude zmaten při hledání zrcadel stránek a pochopí, že hlavní zrcadlo je specifikováno v souboru robots.txt. Adresa webu je uvedena bez předpony „http://“, ale pokud web funguje na protokolu HTTPS, musí být uvedena předpona „https://“.

Jak napsat toto pravidlo:

Příklad souboru robots.txt, pokud web funguje na protokolu HTTPS:

Sitemap - lékařská mapa stránek

Sitemap říká robotům, že všechny adresy URL webu potřebné pro indexování jsou umístěny na http://site.ua/sitemap.xml. Při každém procházení se robot podívá, jaké změny byly v tomto souboru provedeny, a rychle obnoví informace o webu v databázích vyhledávačů.

Crawl-delay - stopky pro slabé servery

Crawl-delay - parametr, pomocí kterého můžete nastavit období, po kterém se budou stránky webu načítat. Toto pravidlo je relevantní, pokud máte slabý server. V tomto případě je to možné velká zpoždění když vyhledávací roboti přistupují na stránky webu. Tento parametr se měří v sekundách.

Clean-param - Duplicate Content Hunter

Clean-param pomáhá vypořádat se s parametry get, aby se zabránilo duplicitnímu obsahu, který může být dostupný na různých dynamických adresách URL (s otazníky). Takové adresy se objeví, pokud má web různé řazení, ID relací a tak dále.

Řekněme, že stránka je dostupná na adresách:

www.site.com/catalog/get_phone.ua?ref=page_1&phone_id=1

www.site.com/catalog/get_phone.ua?ref=page_2&phone_id=1

www.site.com/catalog/get_phone.ua?ref=page_3&phone_id=1

V tomto případě bude soubor robots.txt vypadat takto:

Tady ref označuje, odkud odkaz pochází, takže se píše hned na začátku a teprve potom se uvádí zbytek adresy.

Než však přejdeme k referenčnímu souboru, existuje několik dalších znaků, o kterých byste při psaní souboru robots.txt měli vědět.

Symboly v souboru robots.txt

Hlavní znaky souboru jsou "/, *, $, #".

Používáním rozřezat "/" ukazujeme, co chceme skrýt před odhalením roboty. Pokud je například v pravidle Disallow jedno lomítko, zakážeme procházení celého webu. Pomocí dvou lomítek můžete zakázat skenování libovolného konkrétního adresáře, například: /catalog/.

Takový záznam říká, že zakazujeme skenovat celý obsah složky katalogu, ale pokud napíšeme /catalog, zakážeme všechny odkazy na webu, které začínají /catalog.

hvězdička "*" znamená jakoukoli sekvenci znaků v souboru. Je umístěn za každým pravidlem.

Tento záznam říká, že všichni roboti by neměli indexovat žádné soubory .gif ve složce /catalog/

znak dolaru «$» omezuje rozsah znaku hvězdičky. Pokud chcete zakázat celý obsah složky katalogu, ale nemůžete zakázat adresy URL obsahující /catalog, záznam v souboru indexu bude:

hash "#" používá se pro komentáře, které webmaster zanechá sobě nebo jiným webmasterům. Robot je nebude brát v úvahu při skenování webu.

Například:

Jak vypadá ideální soubor robots.txt?

Soubor otevře obsah webu pro indexování, zaregistruje se hostitel a zadá se mapa webu, což vyhledávačům umožní vždy vidět adresy, které by měly být indexovány. Pravidla pro Yandex jsou psána samostatně, protože ne všichni roboti rozumí instrukci hostitele.

S kopírováním obsahu souboru však nespěchejte – pro každý web musí být napsána jedinečná pravidla, která závisí na typu webu a CMS. proto se vyplatí pamatovat na všechna pravidla při vyplňování souboru robots.txt.

Jak zkontrolovat soubor robots.txt

Pokud chcete vědět, zda jste správně vyplnili soubor robots.txt, zkontrolujte jej v nástrojích pro webmastery Google a Yandex. Stačí zadat zdroj robots.txt do formuláře pomocí odkazu a specifikujte web, který chcete zkontrolovat.

Jak nevyplňovat soubor robots.txt

Často dochází k nepříjemným chybám při vyplňování indexového souboru a jsou spojeny s obyčejnou nepozorností nebo zbrklostí. O něco níže je tabulka chyb, se kterými jsem se v praxi setkal.

2. Zápis více složek/adresářů v jednom příkazu Disallow:

Taková položka může zmást vyhledávací roboty, nemusí rozumět tomu, co přesně by neměli indexovat: buď první složku, nebo poslední, takže každé pravidlo musíte napsat zvlášť.

3. Je třeba zavolat samotný soubor pouze robots.txt, ne Robots.txt, ROBOTS.TXT nebo jiné.

4. Pravidlo User-agent nemůžete nechat prázdné – musíte říci, který robot by měl brát v úvahu pravidla uvedená v souboru.

5. Znaky navíc v souboru (lomítka, hvězdičky).

6. Přidání stránek do souboru, které by neměly být v indexu.

Nestandardní použití souboru robots.txt

Kromě přímých funkcí se indexový soubor může stát platformou pro kreativitu a způsobem, jak najít nové zaměstnance.

Zde je web, kde samotný robots.txt je malý web s pracovními prvky a dokonce i reklamní jednotkou.

Jako platformu pro vyhledávání specialistů soubor využívají především SEO agentury. A kdo další může vědět o jeho existenci? :)

A Google má speciální soubor humans.txt, abyste si nedovolili pomyšlení na diskriminaci specialistů z kůže a masa.

závěry

Pomocí Robots.txt můžete nastavit pokyny pro vyhledávací roboty, inzerovat sebe, svou značku, hledat specialisty. Toto je skvělé pole pro experimentování. Hlavní věc je pamatovat na správné vyplnění souboru a typické chyby.

Pravidla, to jsou směrnice, jsou to také instrukce souboru robots.txt:

User-agent – pravidlo o tom, kteří roboti potřebují zobrazit pokyny popsané v robots.txt.
Disallow dává doporučení ohledně toho, jaké informace by se neměly skenovat.
Sitemap informuje roboty, že všechny adresy URL stránek potřebné pro indexování se nacházejí na adrese http://site.ua/sitemap.xml.
Host říká robotu Yandex, které ze zrcadel webu by se mělo vzít v úvahu pro indexování.
Povolit umožňuje skenovat jakýkoli soubor/směrnici/stránku.

Znaky při kompilaci robots.txt:

Znak dolaru "$" omezuje rozsah znaku hvězdičky.
Pomocí lomítka „/“ označujeme, že se chceme skrýt před odhalením roboty.
Hvězdička "*" znamená libovolnou sekvenci znaků v souboru. Je umístěn za každým pravidlem.
Hash "#" se používá k označení komentářů, které webmaster píše pro sebe nebo pro jiné webmastery.

Používejte indexový soubor moudře – a web bude vždy ve výsledcích vyhledávání.

První věc, kterou vyhledávací robot udělá, když přijde na váš web, je vyhledat a přečíst soubor robots.txt. Co je to za soubor? je sada instrukcí pro vyhledávač.

Jedná se o textový soubor s příponou txt, který se nachází v kořenovém adresáři webu. Tato sada instrukcí říká vyhledávacímu robotu, které stránky a soubory webu má indexovat a které ne. Označuje také hlavní zrcadlo webu a místo, kde hledat mapu webu.

K čemu je soubor robots.txt? Pro správné indexování vašeho webu. Aby ve vyhledávání nebyly duplicitní stránky, různé servisní stránky a dokumenty. Jakmile správně nastavíte direktivy v robotech, ušetříte svůj web mnoha problémům s indexováním a zrcadlením webu.

Jak vytvořit správný soubor robots.txt

Kompilace robots.txt je dostatečně snadná, textový dokument vytvoříme ve standardním poznámkovém bloku Windows. Do tohoto souboru zapisujeme direktivy pro vyhledávače. Dále tento soubor uložte s názvem „robots“ a textovou příponou „txt“. Vše lze nyní nahrát na hosting, in kořenový adresář místo. Upozorňujeme, že na jednom webu lze vytvořit pouze jeden dokument o robotech. Pokud tento soubor na webu chybí, pak bot automaticky „rozhodne“, že vše lze indexovat.

Jelikož je jeden, obsahuje pokyny pro všechny vyhledávače. Navíc si můžete zapsat jak samostatné instrukce pro každý PS, tak obecný ihned pro vše. Oddělení instrukcí pro různé vyhledávací roboty se provádí pomocí direktivy User-agent. Více si o tom povíme níže.

příkazy robots.txt

Soubor „robot“ může obsahovat následující příkazy pro indexování: User-agent, Disallow, Allow, Sitemap, Host, Crawl-delay, Clean-param. Podívejme se na každý pokyn podrobněji.

Direktiva uživatelského agenta

Direktiva uživatelského agenta- označuje, pro který vyhledávač budou pokyny (přesněji pro kterého konkrétního robota). Pokud je "*", jsou pokyny pro všechny roboty. Pokud je uveden konkrétní robot, například Googlebot, pak jsou pokyny určeny pouze pro hlavního indexovacího robota Google. Navíc, pokud existují pokyny zvlášť pro Googlebota a pro všechny ostatní PS, pak Google bude číst pouze své vlastní pokyny a bude ignorovat ten obecný. Bot Yandex udělá totéž. Podívejme se na příklad zadání direktivy.

User-agent: YandexBot - pokyny pouze pro hlavního indexovacího bota Yandex
User-agent: Yandex - pokyny pro všechny roboty Yandex
User-agent: * - pokyny pro všechny roboty

Direktivy zakázat a povolit

Direktivy zakázat a povolit- dávat příkazy, co indexovat a co ne. Disallow dává příkazu neindexovat stránku nebo celou sekci webu. A Povolit naopak označuje, co je třeba indexovat.

Disallow: / - zakáže indexování celého webu
Disallow: /papka/ - zakáže indexování celého obsahu složky
Disallow: /files.php - zakáže indexování souboru files.php

Allow: /cgi-bin - umožňuje indexování stránek cgi-bin

V direktivách Disallow a Allow je možné a často nutné použít speciální znaky. Jsou potřebné k definování regulárních výrazů.

Speciální znak * - nahrazuje libovolnou sekvenci znaků. Ve výchozím nastavení se připojuje na konec každého pravidla. I když jste to nezaregistrovali, PS si to nasadí sami. Příklad použití:

Disallow: /cgi-bin/*.aspx – zakáže indexování všech souborů s příponou .aspx
Disallow: /*foto - zakáže indexování souborů a složek obsahujících slovo foto

Speciální znak $ - ruší účinek speciálního znaku "*" na konci pravidla. Například:

Disallow: /example$ – zakazuje indexování „/example“, ale nezakazuje „/example.html“

A pokud píšete bez speciálního znaku $, bude instrukce fungovat jinak:

Disallow: /example – zakáže jak '/example', tak '/example.html'

Směrnice o souborech Sitemap

Směrnice o souborech Sitemap- je navržen tak, aby robotovi vyhledávače ukázal, kde se mapa stránek na hostingu nachází. Formát sitemap by měl být sitemaps.xml. Sitemap je potřeba pro rychlejší a úplnější indexování webu. Navíc mapa webu nemusí být nutně jeden soubor, může jich být několik. Formát zadání směrnice:

Soubor Sitemap: http://site/sitemaps1.xml
Soubor Sitemap: http://site/sitemaps2.xml

Hostitelská směrnice

Hostitelská směrnice- ukazuje robotovi hlavní zrcadlo webu. Bez ohledu na to, co je v zrcadlovém indexu webu, musíte vždy zadat tuto direktivu. Pokud není zadáno, robot Yandex bude indexovat alespoň dvě verze webu s www a bez. Dokud je zrcadlový robot neslepí dohromady. Příklad nahrávání:

Host: www.site
hostitel: webové stránky

V prvním případě bude robot indexovat verzi s www, ve druhém případě bez. V souboru robots.txt je povolena pouze jedna hostitelská směrnice. Pokud jich napíšete několik, bot zpracuje a vezme v úvahu pouze první.

Platná hostitelská směrnice by měla obsahovat následující údaje:
— uveďte protokol připojení (HTTP nebo HTTPS);
- správně napsáno Doménové jméno(nemůžete zaregistrovat IP adresu);
- číslo portu, je-li to nutné (například Host: site.com:8080).

Nesprávně provedené direktivy budou jednoduše ignorovány.

Direktiva Crawl-delay

Direktiva Crawl-delay umožňuje snížit zatížení serveru. Je potřeba v případě, že váš web začne padat pod náporem různých botů. Direktiva Crawl-delay říká vyhledávacímu robotu, aby počkal mezi koncem stahování jedné stránky a začátkem stahování další stránky webu. Direktiva musí následovat bezprostředně po položkách direktivy „Disallow“ a/nebo „Allow“. Vyhledávací robot Yandex dokáže číst zlomkové hodnoty. Například: 1,5 (jedna a půl sekundy).

Směrnice o čistých parametrech

Směrnice o čistých parametrech potřebné pro weby, jejichž stránky obsahují dynamické parametry. Mluvíme o těch, které nemají vliv na obsah stránek. Jedná se o různé informace o službě: identifikátory relace, uživatelé, referreři atd. Abychom se vyhnuli duplikacím těchto stránek, používá se tato směrnice. Řekne PS, aby znovu nenahrával informace o opětovném dojíždění. Sníží se také zatížení serveru a doba, kterou robot potřebuje k procházení webu.

Clean-param: s /forum/showthread.php

Tento záznam říká PS, že parametr s bude považován za nevýznamný pro všechny adresy URL, které začínají /forum/showthread.php. Maximální délka záznamu je 500 znaků.

Přišli jsme na směrnice, pojďme k nastavení našich robotů.

Nastavení souboru robots.txt

Pokračujeme přímo k nastavení souboru robots.txt. Musí obsahovat alespoň dvě položky:

uživatelský agent:- označuje, pro který vyhledávač budou níže uvedené pokyny určeny.
Zakázat:- Určuje, která část webu nemá být indexována. Může se zavřít z indexování jak samostatné stránky webu, tak celých sekcí.

Navíc můžete určit, že tyto direktivy jsou určeny pro všechny vyhledávače, nebo pro jeden konkrétně. To je specifikováno v direktivě User-agent. Pokud chcete, aby si pokyny přečetli všichni roboti, vložte hvězdičku

Pokud chcete napsat pokyny pro konkrétního robota, ale musíte zadat jeho jméno.

Uživatelský agent: YandexBot

Zjednodušený příklad správně složeného souboru robots by byl:

User-agent: *
Disallow: /files.php
Disallow: /sekce/
hostitel: webové stránky

Kde, * říká, že návod je určen pro všechny PS;
Disallow: /files.php- dává zákaz indexování souboru file.php;
Disallow: /foto/- zakazuje indexování celé sekce "foto" se všemi připojenými soubory;
hostitel: webové stránky- říká robotům, které zrcadlo má indexovat.

Pokud váš web nemá stránky, které je třeba zavřít před indexováním, pak by váš soubor robots.txt měl vypadat takto:

User-agent: *
Zakázat:
hostitel: webové stránky

Robots.txt pro Yandex (Yandex)

Chcete-li uvést, že tyto pokyny jsou určeny pro vyhledávač Yandex, musíte v direktivě User-agent uvést: Yandex. Navíc, pokud napíšeme „Yandex“, bude web indexován všemi roboty Yandex, a pokud zadáme „YandexBot“, bude to příkaz pouze pro hlavního indexovacího robota.

Dále je nutné zaregistrovat direktivu "Host", kde specifikovat hlavní zrcadlo webu. Jak jsem psal výše, dělá se to proto, aby se předešlo duplicitním stránkám. Váš správný soubor robots.txt pro Yandex bude vypadat takto.

Většina robotů je dobře navržena a majitelům stránek nečiní žádné problémy. Pokud však robota napíše amatér nebo se „něco pokazilo“, může na webu vytvořit značné zatížení, které obchází. Mimochodem, pavouci vůbec nevstupují na server jako viry - jednoduše si vzdáleně vyžádají stránky, které potřebují (ve skutečnosti se jedná o analogy prohlížečů, ale bez funkce procházení stránek).

Robots.txt – direktiva user-agent a roboti vyhledávačů

Robots.txt má velmi jednoduchou syntaxi, která je velmi podrobně popsána např. v pomozte yandexu a Nápověda Google. Obvykle určuje, pro kterého vyhledávacího robota jsou určeny následující direktivy: název robota (" user-agent"), umožňující (" dovolit") a zakazující (" Zakázat"), a "Sitemap" se také aktivně používá k tomu, aby vyhledávačům přesně indikoval, kde se soubor mapy nachází.

Standard vznikl už docela dávno a něco bylo přidáno později. Existují směrnice a pravidla designu, kterým porozumí pouze roboti určitých vyhledávačů. V RuNet jsou zajímavé pouze Yandex a Google, což znamená, že s jejich pomocí při kompilaci robots.txt byste se měli podrobně seznámit (odkazy jsem uvedl v předchozím odstavci).

Například dříve pro vyhledávač Yandex bylo užitečné uvést, že váš webový projekt je hlavním projektem ve speciální direktivě „Host“, které rozumí pouze tento vyhledávač (také Mail.ru, protože mají vyhledávání z Yandex). Pravda, začátkem roku 2018 Yandex stále zrušil Host a nyní jsou jeho funkce, stejně jako funkce jiných vyhledávačů, prováděny přesměrováním 301.

I když váš zdroj nemá zrcadla, bude užitečné uvést, který z pravopisů je hlavní - .

Nyní si povíme něco málo o syntaxi tohoto souboru. Direktivy v souboru robots.txt vypadají takto:

<поле>:<пробел><значение><пробел> <поле>:<пробел><значение><пробел>

Správný kód by měl obsahovat alespoň jednu direktivu "Disallow". po každém záznamu "User-agent". Prázdný soubor předpokládá oprávnění k indexování celého webu.

user-agent

Direktiva "User-agent". musí obsahovat jméno vyhledávacího robota. S ním můžete nastavit pravidla chování pro každý konkrétní vyhledávač (například vytvořit zákaz indexování samostatné složky pouze pro Yandex). Příklad zápisu „User-agent“ adresovaného všem robotům, kteří přijdou do vašeho zdroje, vypadá takto:

User-agent: *

Pokud chcete nastavit "User-agent" jisté podmínky pouze pro jednoho robota, například Yandex, pak musíte napsat takto:

Uživatelský agent: Yandex

Název robotů vyhledávače a jejich role v souboru robots.txt

Bot každého vyhledávače má své jméno (například pro rambler je to StackRambler). Zde uvedu ty nejznámější z nich:

Google http://www.google.com Googlebot Yandex http://www.ya.ru Yandex Bing http://www.bing.com/ bingbot

Pro velké vyhledávače, někdy kromě hlavních robotů, existují také samostatné instance pro indexování blogů, zpráv, obrázků a dalších. Můžete získat spoustu informací o typech robotů (pro Yandex) a (pro Google).

Jak být v tomto případě? Pokud potřebujete napsat pravidlo zákazu indexování, které musí dodržovat všechny typy Googlebotů, použijte název Googlebot a všichni ostatní pavouci tohoto vyhledávače se budou také řídit. Můžete však zakázat například indexování obrázků pouze tím, že jako User-agent určíte robota Googlebot-Image. Teď to není moc jasné, ale s příklady si myslím, že to bude jednodušší.

Příklady použití direktiv Disallow a Allow v robots.txt

Dovolte mi, abych vám dal několik jednoduchých příklady použití direktiv vysvětlující své činy.

Níže uvedený kód umožňuje všem robotům (označeným hvězdičkou v User-agent) indexovat veškerý obsah bez jakýchkoli výjimek. Je to dané prázdný Disallow direktiva. User-agent: * Disallow:
Následující kód naopak zcela zakazuje všem vyhledávačům přidávat stránky tohoto zdroje do indexu. Nastaví to na Disallow s "/" v poli hodnoty. User-agent: * Disallow: /
V tomto případě bude všem robotům zakázáno prohlížet obsah adresáře /image/ (http://mysite.ru/image/ je absolutní cesta k tomuto adresáři) User-agent: * Disallow: /image/
K zablokování jednoho souboru bude stačit zaregistrovat jeho absolutní cestu k němu (přečíst): User-agent: * Disallow: /katalog1//katalog2/private_file.html
Když se podívám trochu dopředu, řeknu, že je snazší použít znak hvězdičky (*), abyste nepsali celou cestu:
Disallow: /*private_file.html
V níže uvedeném příkladu bude zakázán adresář "image", stejně jako všechny soubory a adresáře, které začínají znaky "image", tj. soubory: "image.htm", "images.htm", adresáře: "image" , " images1", "image34" atd.): User-agent: * Disallow: /image Faktem je, že ve výchozím nastavení je na konci záznamu uvedena hvězdička, která nahrazuje jakékoli znaky, včetně jejich absence. Přečtěte si o tom níže.
Používáním povolit direktivy umožňujeme přístup. Dobře doplňuje Disallow. S touto podmínkou například zakážeme vyhledávacímu robotu Yandex stahovat (indexovat) vše kromě webových stránek, jejichž adresa začíná /cgi-bin: User-agent: Yandex Allow: /cgi-bin Disallow: /
No, nebo toto je zřejmý příklad použití balíčku Povolit a Zakázat:
User-agent: * Disallow: /catalog Allow: /catalog/auto
Při popisu cest pro direktivy Allow-Disallow můžete použít symboly "*" a "$", čímž se nastaví určité logické výrazy.
1. Symbol "*"(hvězda) znamená jakoukoli (včetně prázdných) posloupností znaků. Následující příklad zabraňuje všem vyhledávačům v indexování souborů s příponou „.php“: User-agent: * Disallow: *.php$
2. Proč je to nakonec potřeba znak $ (dolar).? Faktem je, že podle logiky kompilace souboru robots.txt je na konec každé směrnice přidána výchozí hvězdička (neexistuje, ale zdá se, že tam je). Například napíšeme: Disallow: /images
  Za předpokladu, že je to stejné jako:
  Disallow: /images*
  Tito. toto pravidlo zakazuje indexování všech souborů (webových stránek, obrázků a dalších typů souborů), jejichž adresa začíná /images a cokoli jiného následuje (viz příklad výše). Tak tady to je symbol $ jednoduše přepíše výchozí (nespecifikovanou) hvězdičku na konci. Například:
  Disallow: /images$
  Zakáže pouze indexování souboru /images, nikoli /images.html nebo /images/primer.html. No, v prvním příkladu jsme zakázali indexovat pouze soubory končící na .php (s takovou příponou), abychom nezachytili něco navíc:
  Disallow: *.php$

V mnoha motorech mají uživatelé (lidsky čitelné adresy URL), zatímco systémem generované adresy URL mají otazník "?" v adrese. Můžete toho využít a napsat takové pravidlo do robots.txt: User-agent: * Disallow: /*?

Hvězdička za otazníkem se sama navrhuje, ale jak jsme zjistili o něco výše, na konci je již implikována. Zakážeme tedy indexování vyhledávacích stránek a dalších servisních stránek vytvořených vyhledávačem, na které se vyhledávací robot dostane. Nebude to zbytečné, protože otazník CMS nejčastěji používá jako identifikátor relace, což může vést k tomu, že se do indexu dostanou duplicitní stránky.

Direktivy Sitemap a Host (pro Yandex) v Robots.txt

Aby se předešlo nepříjemným problémům se zrcadly stránek, bylo dříve doporučeno přidat do robots.txt direktivu Host, která nasměrovala robota Yandex na hlavní zrcadlo.

Hostitelská směrnice - určuje hlavní zrcadlo webu pro Yandex

Například dříve, pokud jste ještě nepřešli na zabezpečený protokol, bylo nutné v Hostiteli uvést ne celou URL, ale název domény (bez http://, tj. .ru). Pokud jste již přešli na https, budete muset zadat úplnou adresu URL (například https://myhost.ru).

Skvělý nástroj pro boj s duplicitním obsahem – vyhledávač jednoduše nebude indexovat stránku, pokud je v Canonicalu registrována jiná URL. Například pro takovou stránku mého blogu (stránku se stránkováním) Canonical odkazuje na https: // web a neměly by být žádné problémy s duplikováním titulků.

Ale to jsem odbočil...
Pokud je váš projekt založen na jakémkoli motoru, pak dojde k duplicitnímu obsahu s vysokou pravděpodobností, což znamená, že s tím musíte bojovat, a to i pomocí zákazu v robots.txt a zejména v metaznačce, protože v prvním případě může Google zákaz ignorovat, ale už nemůže dát sakra o metaznačce (takhle vychované).
Například v Stránky WordPress s velmi podobným obsahem se může dostat do indexu vyhledávačů, pokud je povoleno indexování jak obsahu kategorií, obsahu archivu tagů, tak obsahu dočasných archivů. Pokud však použijete výše popsanou metaznačku Robots k vytvoření zákazu pro archiv značek a dočasný archiv (značky můžete ponechat, ale zakázat indexování obsahu kategorií), duplikace obsahu nenastane. Jak to udělat, je popsáno v odkazu uvedeném výše (na plugin OlInSeoPak)
Když to shrnu, řeknu, že soubor Robots je navržen tak, aby nastavil globální pravidla pro odepření přístupu k celým adresářům webu nebo k souborům a složkám, které obsahují dané symboly(podle masky). Příklady nastavení takových zákazů můžete vidět o něco výše.
Nyní uvažujme konkrétní příklady roboty určené pro různé motory - Joomla, WordPress a SMF. Přirozeně, všechny tři možnosti vytvořené pro různé CMS se od sebe budou výrazně (ne-li zásadně) lišit. Je pravda, že všichni budou mít jeden společný okamžik a tento okamžik je spojen s vyhledávačem Yandex.
Protože Yandex má v Runet poměrně velkou váhu, pak musíte vzít v úvahu všechny nuance jeho práce, a tady Pomůže hostitelská směrnice. To tomuto vyhledávači výslovně označí hlavní zrcadlo vašeho webu.
Pro ni se doporučuje používat samostatný blog User-agent, určený pouze pro Yandex (User-agent: Yandex). Důvodem je skutečnost, že jiné vyhledávače nemusí hostiteli rozumět, a proto jeho zahrnutí do záznamu User-agent určeného pro všechny vyhledávače (User-agent: *) může vést k negativním důsledkům a nesprávnému indexování.
Je těžké říci, jak se věci skutečně mají, protože vyhledávací algoritmy jsou věc sama o sobě, takže je lepší dělat, co radí. V tomto případě však budete muset duplikovat v direktivě User-agent: Yandex všechna pravidla, která jsme nastavili User-agent: * . Pokud necháte User-agent: Yandex s prázdnou Disallow: , pak tímto způsobem umožníte Yandexu jít kamkoli a přetáhnout vše do indexu.
Roboti pro WordPress
Nebudu uvádět příklad souboru, který vývojáři doporučují. Můžete to sledovat sami. Mnoho bloggerů při svých procházkách obsahem enginu WordPress vůbec neomezuje roboty Yandex a Google. Nejčastěji na blozích najdete roboty automaticky vyplněné pluginem.
Ale podle mého názoru by člověk měl stále pomáhat hledání v obtížném úkolu prosít zrno od plev. Za prvé, Yandexu a robotům Google zabere spoustu času, než budou indexovat tento odpad, a na přidání webových stránek s vašimi novými články do indexu nemusí být vůbec čas. Za druhé, roboti procházející nevyžádané soubory enginu vytvoří další zátěž na serveru vašeho hostitele, což není dobré.
Mou verzi tohoto souboru můžete vidět sami. Je stará, dlouho se neměnila, ale snažím se řídit zásadou „co se nerozbilo neopravuj“ a je na vás, abyste se rozhodli: použijte, vyrobte si vlastní nebo odkoukejte od někoho jiného . Ještě nedávno jsem tam měl zákaz indexování stránek se stránkováním (Disallow: */page/), ale nedávno jsem ho odstranil, spoléhajíc na Canonical, o kterém jsem psal výše.
Ale obecně, jediný správný soubor pro WordPress pravděpodobně neexistuje. Je samozřejmě možné do něj implementovat jakékoli předpoklady, ale kdo řekl, že budou správné. Na webu existuje mnoho možností pro ideální soubor robots.txt.
Uvedu dva extrémy:
můžete najít megasoubor s podrobným vysvětlením (symbol # odděluje komentáře, které by bylo lepší odstranit ve skutečném souboru): User-agent: * # hlavní pravidla pro roboty, kromě Yandex a Google, # protože pravidla pro ně jsou níže Disallow: /cgi-bin # hostingová složka Disallow: /? # všechny možnosti dotazu na hlavní stránce Zakázat: /wp- # všechny soubory WP: /wp-json/, /wp-includes, /wp-content/plugins Zakázat: /wp/ # pokud existuje podadresář /wp/, kde CMS je nainstalován (pokud ne, # pravidlo lze odstranit) Disallow: *?s= # search Disallow: *&s= # search Disallow: /search/ # search Disallow: /author/ # archiv autora Disallow: /users/ # archiv autorů Disallow: */ trackback # trackbacks, upozornění v komentářích, když se objeví otevřený # odkaz na článek Disallow: */feed # all feeds Disallow: */rss # rss feed Disallow: */embed # all embeds Disallow: */wlwmanifest .xml # manifest xml soubor Windows Live Writer (pokud nepoužíváte, # lze odebrat) Disallow: /xmlrpc.php # WordPress API file Disallow: *utm= # odkazy se značkami utm Disallow: *openstat= # odkazy se značkami openstat Povolit : */uploads # otevřít složku s nahráváním souborů User-agent: GoogleBot # pravidla pro Google (neduplikovat komentáře) Disallow: /cgi-bin Disallow: /? Disallow: /wp- Disallow: /wp/ Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */ rss Disallow: */embed Disallow: */wlwmanifest.xml Disallow: /xmlrpc.php Disallow: *utm= Disallow: *openstat= Allow: */uploads Allow: /*/*.js # open js scripts inside /wp - (/*/ - pro prioritu) Povolit: /*/*.css # otevřít soubory css uvnitř /wp- (/*/ - pro prioritu) Povolit: /wp-*.png # obrázky v pluginech, složce mezipaměti atd. Povolit: /wp-*.jpg # obrázky v pluginech, složce mezipaměti atd. Povolit: /wp-*.jpeg # obrázky v pluginech, složce mezipaměti atd. Povolit: /wp-*.gif # obrázky v pluginech, složce mezipaměti atd. Povolit: /wp-admin/admin-ajax.php # používá pluginy k zamezení blokování JS a CSS User-agent: Pravidla Yandex # pro Yandex (neduplikovat komentáře) Disallow: /cgi-bin Disallow: /? Disallow: /wp- Disallow: /wp/ Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */ rss Disallow: */embed Disallow: */wlwmanifest.xml Disallow: /xmlrpc.php Povolit: */uploads Allow: /*/*.js Povolit: /*/*.css Povolit: /wp-*.png Povolit: /wp-*.jpg Povolit: /wp-*.jpeg Povolit: /wp-*.gif Povolit: /wp-admin/admin-ajax.php Clean-Param: utm_source&utm_medium&utm_campaign # Yandex doporučuje nezavírat # z indexování, ale smazat parametry značek, # Google taková pravidla nepodporuje Clean-Param: openstat # podobné # Zadejte jeden nebo více souborů Sitemap (není třeba duplikovat pro každý User-agent #). Google XML Sitemap vytvoří 2 soubory Sitemap jako v příkladu níže. Sitemap: http://site.ru/sitemap.xml Sitemap: http://site.ru/sitemap.xml.gz # Zadejte hlavní zrcadlo webu, jako v příkladu níže (s WWW / bez WWW, pokud HTTPS # pak napište protokol, pokud potřebujete specifikovat port, uveďte). Příkaz hostitele rozumí # Yandex a Mail.RU, Google nebere v úvahu. Hostitel: www.site.ru
Zde je příklad minimalismu: User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php Host: https://site.ru Sitemap: https://site. ru/ sitemap.xml

Pravda je pravděpodobně někde uprostřed. Nezapomeňte si také zaregistrovat metaznačku Robots pro „extra“ stránky, například pomocí úžasného pluginu - . Pomůže také nastavit Canonical.
Opravte soubor robots.txt pro Joomla
User-agent: * Disallow: /administrator/ Disallow: /bin/ Disallow: /cache/ Disallow: /cli/ Disallow: /components/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /layouts/ Disallow: /libraries/ Disallow: /logs/ Disallow: /modules/ Disallow: /plugins/ Disallow: /tmp/
V zásadě se zde počítá téměř se vším a funguje to dobře. Jediná věc je, že byste do něj měli přidat samostatné pravidlo User-agent: Yandex pro vložení direktivy Host, která definuje hlavní zrcadlo pro Yandex, a také zadat cestu k souboru Sitemap.
Správní roboti pro Joomlu by tedy ve finální podobě podle mého názoru měli vypadat takto:
User-agent: Yandex Disallow: /administrator/ Disallow: /cache/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /modules/ Disallow: /plugins/ Disallow: /tmp/ Disallow: /layouts/ Disallow: /cli/ Disallow: /bin/ Disallow: /logs/ Disallow: /components/ Disallow: /component/ Disallow: /component/tags* Disallow: /*mailto/ Disallow: /*.pdf Disallow : /*% Disallow: /index.php Hostitel: vash_sait.ru (nebo www.vash_sait.ru) User-agent: * Povolit: /*.css?*$ Povolit: /*.js?*$ Povolit: /* .jpg?*$ Allow: /*.png?*$ Disallow: /administrator/ Disallow: /cache/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /modules/ Disallow : /plugins/ Disallow: /tmp/ Disallow: /layouts/ Disallow: /cli/ Disallow: /bin/ Disallow: /logs/ Disallow: /components/ Disallow: /component/ Disallow: /*mailto/ Disallow: /*. pdf Disallow: /*% Disallow: /index.php Sitemap: http://cesta k vaší mapě XML formát
Ano, také si všimněte, že ve druhé možnosti jsou směrnice Povolit, umožňující indexování stylů, skriptů a obrázků. Toto bylo napsáno speciálně pro Google, protože jeho Googlebot někdy přísahá, že indexování těchto souborů je v robotech zakázáno například ze složky s použitým tématem. Dokonce za to hrozí snížením hodnocení.
Proto umožňujeme celou tuto věc předem indexovat pomocí Allow. Mimochodem, totéž se stalo v ukázkovém souboru pro WordPress.

Hodně štěstí! Brzy se uvidíme na stránkách blogu
Možná vás to bude zajímat
Domény s a bez www - historie jejich vzhledu, pomocí přesměrování 301 je slepit dohromady
Zrcadla, duplicitní stránky a URL adresy – audit vašeho webu aneb co by mohlo být příčinou pádu při jeho SEO propagaci SEO pro začátečníky: 10 základních věcí pro technický audit webu
Bing webmaster - centrum pro webmastery z vyhledávače Bing
Google Webmaster – nástroje Search Console (Google Webmaster)
Jak se vyhnout běžným chybám při propagaci webu
Jak propagovat web sami, zlepšit interní optimalizaci pro klíčová slova a odstranění duplicitního obsahu
Yandex Webmaster - indexování, odkazy, viditelnost stránek, výběr regionu, autorství a kontrola virů v Yandex Webmaster

Soubor sitemap.xml a správný soubor robots.txt pro daný web jsou dva povinné dokumenty, které přispívají k rychlému a úplnému indexování všech potřebných stránek webového zdroje vyhledávacími roboty. Správné indexování stránek v Yandex a Google je klíčem k úspěšné propagaci blogu ve vyhledávačích.

Jak vytvořit mapu webu XML formát a proč to potřebuji, už jsem psal. A nyní si povíme, jak vytvořit správný robots.txt pro web WordPress a proč je vůbec potřeba. Detailní informace o tomto souboru lze získat od samotných Yandex a Google a. Dotknu se samotné podstaty a dotknu se hlavního nastavení robots.txt pro WordPress pomocí mého souboru jako příkladu.

Proč pro web potřebujete soubor robots.txt

Standard robots.txt byl zaveden již v lednu 1994. Při procházení webového zdroje hledají roboti nejprve textový soubor robots.txt umístěný v kořenové složce webu nebo blogu. S jeho pomocí můžeme robotům různých vyhledávačů určit určitá pravidla, podle kterých budou stránky indexovat.

Správné nastavení souboru robots.txt umožní:

vyloučit duplikáty a různé odpadní stránky z indexu;
uvalit zákaz indexování stránek, souborů a složek, které chceme skrýt;
obecně odmítají indexování některým vyhledávacím robotům (například Yahoo, aby skryli informace o příchozích odkazech před konkurenty);
označte hlavní zrcadlo webu (s www nebo bez www);
zadejte cestu k souboru sitemap.xml.

Jak vytvořit správný soubor robots.txt pro web

Pro tento účel existují speciální generátory a pluginy, ale správnější je to udělat ručně.

Stačí vytvořit prostý textový soubor s názvem robots.txt pomocí libovolného textový editor(například Notepad nebo Notepad ++) a nahrajte jej na hosting do kořenové složky blogu. Do tohoto souboru je potřeba zapsat určité direktivy, tzn. pravidla indexování pro roboty Yandex, Google atd.

Pokud jste líní se s tím trápit, tak níže uvedu příklad z mého pohledu správného robots.txt pro WordPress z mého blogu. Můžete jej použít nahrazením názvu domény na třech místech.

Pravidla a směrnice pro vytváření robots.txt

Pro úspěšné optimalizace pro vyhledávače blog, potřebujete znát některá pravidla pro vytváření robots.txt:

Nepřítomnost nebo prázdný soubor robots.txt bude znamenat, že vyhledávače mohou indexovat veškerý obsah webového zdroje.
Soubor robots.txt by se měl otevřít na adrese site.ru/robots.txt a dát robotovi kód odpovědi 200 OK a jeho velikost není větší než 32 kB. Soubor, který nelze otevřít (například kvůli chybě 404) nebo je větší, bude považován za povolený.
Počet direktiv v souboru by neměl přesáhnout 1024. Délka jednoho řádku by neměla přesáhnout 1024 znaků.
Platný soubor robots.txt může mít více instrukcí, z nichž každá musí začínat direktivou User-agent a musí obsahovat alespoň jednu direktivu Disallow. Obvykle píší pokyny do souboru robots.txt pro Google a všechny ostatní roboty a samostatně pro Yandex.

Hlavní příkazy souboru robots.txt:

User-agent – označuje, kterému prolézacímu modulu je instrukce adresována.

Symbol „*“ znamená, že to platí pro všechny roboty, například:

User-agent: *

Pokud potřebujeme vytvořit pravidlo v robots.txt pro Yandex, napíšeme:

Uživatelský agent: Yandex

Pokud je pro konkrétního robota zadána direktiva, direktiva User-agent: * je tímto robotem ignorována.

Disallow a Allow – zakáže a umožní robotům indexovat zadané stránky. Všechny adresy musí být zadány z kořenového adresáře webu, tzn. počínaje třetím lomítkem. Například:

Zákaz indexování celého webu pro všechny roboty:
User-agent: *
zakázat: /
Yandexu je zakázáno indexovat všechny stránky začínající na /wp-admin:
Uživatelský agent: Yandex
Disallow: /wp-admin
Prázdná direktiva Disallow umožňuje vše indexovat a je podobná jako Povolit. Například povoluji Yandexu indexovat celý web:
Uživatelský agent: Yandex
Zakázat:
A naopak, zakazuji indexování všech stránek všemi vyhledávacími roboty:
User-agent: *
dovolit:
Direktivy Allow a Disallow ze stejného bloku User-agent jsou seřazeny podle délky předpony URL a prováděny postupně. Pokud je pro jednu stránku webu vhodné několik direktiv, provede se poslední v seznamu. Nyní na pořadí jejich psaní nezáleží pro použití příkazů robotem. Pokud mají direktivy předpony stejné délky, nejprve se provede Allow. Tato pravidla nabyla účinnosti dnem 8. března 2012. Například umožňuje indexovat pouze stránky začínající /wp-includes:
Uživatelský agent: Yandex
zakázat: /
Povolit: /wp-includes

Sitemap – Určuje adresu URL souboru Sitemap XML. Jeden web může mít několik direktivy sitemap, které lze vnořovat. Všechny adresy souborů Sitemap musí být uvedeny v souboru robots.txt, aby se urychlilo indexování stránek:

Soubor Sitemap: http://site/sitemap.xml.gz
Soubor Sitemap: http://site/sitemap.xml

Host – říká zrcadlovému robotu, které zrcadlo webu je považováno za hlavní.

Pokud je stránka dostupná na více adresách (např. s www a bez www), pak se vytvoří plně duplicitní stránky, na které se můžete dostat pod filtr. Také v tomto případě nelze indexovat hlavní stránku, ale ta hlavní bude naopak z indexu vyhledávače vyloučena. Aby se tomu zabránilo, používá se direktiva Host, která je v souboru robots.txt určena pouze pro Yandex a může být pouze jedna. Je napsáno za Disallow a Allow a vypadá takto:

hostitel: webové stránky

Crawl-delay – nastavuje prodlevu mezi stahováním stránek v sekundách. Používá se, pokud je velká zátěž a server nemá čas zpracovávat požadavky. Na mladých webech je lepší direktivu Crawl-delay nepoužívat. Ona píše takto:

Uživatelský agent: Yandex
Zpoždění procházení: 4

Clean-param - podporuje pouze Yandex a používá se k odstranění duplicitních stránek s proměnnými jejich slepením do jedné. Robot Yandex tedy nebude stahovat podobné stránky mnohokrát, například ty, které jsou spojené s odkazy na doporučení. Tuto direktivu jsem ještě nepoužil, ale v nápovědě robots.txt pro Yandex na odkazu na začátku článku si tuto direktivu můžete podrobně přečíst.

Speciální znaky * a $ se v robots.txt používají k určení cest k direktivám Disallow a Allow:

Speciální znak „*“ znamená libovolnou posloupnost znaků. Například Disallow: /*?* znamená zákaz na všech stránkách, kde se v adrese vyskytuje „?“, bez ohledu na to, jaké znaky následují před a za tímto znakem. Ve výchozím nastavení je na konec každého pravidla přidán speciální znak „*“, i když není konkrétně zapsán.
Znak „$“ ruší „*“ na konci pravidla a znamená přesnou shodu. Například direktiva Disallow: /*?$ zakáže indexování stránek končících „?“.

Příklad WordPress robots.txt

Zde je příklad mého souboru robots.txt pro blog WordPress:

User-agent: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: / trackback Disallow: */trackback Disallow: */*/trackback Disallow: /feed/ Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Disallow: /?s= User-agent: Yandex Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: */ trackback Disallow: */*/trackback Disallow: /feed/ Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Disallow: /?.ru/sitemap.xml..xml

Abyste se nepletli s vytvořením správného souboru robots.txt pro WordPress, můžete použít tento soubor. S indexováním nejsou žádné problémy. Mám skript ochrany proti kopírování, takže bude pohodlnější stáhnout si hotový robots.txt a nahrát ho na svůj hosting. Jen nezapomeňte nahradit název mého webu vaším v direktivách Host a Sitemap.

Užitečné doplňky pro správnou konfiguraci souboru robots.txt pro WordPress

Pokud jsou na vašem blogu WordPress nainstalovány stromové komentáře, vytvářejí duplicitní stránky jako ?replytocom= . V robots.txt jsou takové stránky uzavřeny direktivou Disallow: /*?*. Ale to není cesta ven a je lepší odstranit zákazy, ale řešit respondtocom jiným způsobem. Co, .

Aktuální soubor robots.txt pro červenec 2014 tedy vypadá takto:

User-agent: * Disallow: /wp-includes Disallow: /wp-feed Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes User-agent: Yandex Disallow: /wp -includes Disallow: /wp-feed Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Hostitel: site.ru User-agent: Googlebot-Image Allow: /wp-content /uploads/ User-agent: YandexImages Povolit: /wp-content/uploads/ Sitemap: http://site.ru/sitemap.xml

Navíc obsahuje pravidla pro roboty pro indexování obrázků.

Uživatelský agent: Mediapartners-Google
Zakázat:

Pokud plánujete propagovat stránky kategorií nebo značek, měli byste je otevřít pro roboty. Například na webu blogu nejsou sekce uzavřeny před indexováním, protože publikují pouze malá oznámení článků, což je z hlediska duplikování obsahu zcela nepodstatné. A pokud použijete výstup uvozovek v blogovém zdroji, které jsou plné jedinečných oznámení, nedojde k žádné duplicitě.

Pokud výše uvedený plugin nepoužíváte, můžete v souboru robots.txt zadat zákaz indexování značek, kategorií a archivů. Například přidáním těchto řádků:

Disallow: /autor/
Disallow: /tag
Disallow: /category/*/*
Disallow: /20*

Nezapomeňte zkontrolovat soubor robots.txt na panelu Yandex.Webmaster a poté jej znovu nahrát na hosting.

Pokud máte nějaké doplňky pro nastavení robots.txt, napište o tom do komentářů. A nyní se podívejte na video o tom, co to je a jak vytvořit správný soubor robots.txt pro web, jak zakázat indexování v souboru robots.txt a opravit chyby.

Jen o komplexu. Programy. Žehlička. Internet. Okna

txt soubor robots. Jak upravit txt robots. Použití speciálních znaků * a $

Co je robots.txt a k čemu slouží

Jak vytvořit správný soubor Robots.txt pro web

Nastavení souboru Robots.txt: indexování, hlavní zrcadlo, direktivy

Disallow: Zakázat indexování

Jak otevřít web pro indexování

Hlavní zrcadlo webu

Sitemap: soubor sitemap robots.txt

Směrnice o čistých parametrech

Direktiva Crawl-delay

Jaký druh robotů ti ex ti?

Proč potřebujete soubor robots.txt

Jak vytvořit soubor robots.txt

User-agent - vizitka pro roboty

Disallow - umístíme "cihly"

Povolit - přímé roboty

Host – vyberte zrcadlo webu

Sitemap - lékařská mapa stránek

Crawl-delay - stopky pro slabé servery

Clean-param - Duplicate Content Hunter

Symboly v souboru robots.txt

Jak vypadá ideální soubor robots.txt?

Jak zkontrolovat soubor robots.txt

Jak nevyplňovat soubor robots.txt

Nestandardní použití souboru robots.txt

závěry

Jak vytvořit správný soubor robots.txt

příkazy robots.txt

Direktiva uživatelského agenta

Direktivy zakázat a povolit

Směrnice o souborech Sitemap

Hostitelská směrnice

Direktiva Crawl-delay

Směrnice o čistých parametrech

Nastavení souboru robots.txt

Robots.txt pro Yandex (Yandex)

Robots.txt – direktiva user-agent a roboti vyhledávačů

user-agent

Název robotů vyhledávače a jejich role v souboru robots.txt

Příklady použití direktiv Disallow a Allow v robots.txt

Direktivy Sitemap a Host (pro Yandex) v Robots.txt

Hostitelská směrnice - určuje hlavní zrcadlo webu pro Yandex

Roboti pro WordPress

Opravte soubor robots.txt pro Joomla

Jak vytvořit správný soubor robots.txt pro web

Pravidla a směrnice pro vytváření robots.txt

Příklad WordPress robots.txt

Užitečné doplňky pro správnou konfiguraci souboru robots.txt pro WordPress