V SEO nie sú žiadne maličkosti. Niekedy len jeden malý súbor, Robots.txt, môže ovplyvniť propagáciu webových stránok.Ak chcete, aby bola vaša stránka indexovaná, aby vyhľadávacie roboty obchádzali stránky, ktoré potrebujete, musíte im napísať odporúčania.

"Je to možné?", - pýtaš sa.Možno. Ak to chcete urobiť, vaša stránka musí mať súbor robots.TXT.Ako vytvoriť súbor roboty, nakonfigurujte a pridajte na stránku - rozumieme v tomto článku.

Čo je to robots.txt a na čo slúži

Robots.txt je obvyklý textový súbor , ktorý obsahuje odporúčania pre vyhľadávacie roboty: ktoré stránky by sa mali prehľadávať a ktoré nie.

Dôležité: Súbor musí byť zakódovaný v UTF-8, inak ho vyhľadávacie roboty nemusia akceptovať.

Vstúpi do indexu stránka, ktorá nemá tento súbor?Bude, ale roboty môžu „uchopiť“ tie stránky, ktoré sú vo výsledkoch vyhľadávania nežiaduce: napríklad prihlasovacie stránky, panel správcu, osobné používateľské stránky, zrkadlové stránky atď. Toto všetko sa považuje za „odpad pri hľadaní“:

Ak sú vo výsledkoch vyhľadávania zahrnuté osobné informácie, môžete trpieť vy aj stránka. Ďalší bod - bez tohto súboru bude indexovanie stránky trvať dlhšie.

V súbore Robots.txt možno zadať tri typy príkazov pre vyhľadávacích pavúkov:

  • skenovanie je zakázané;
  • skenovanie je povolené;
  • skenovanie je čiastočne povolené.

To všetko je napísané pomocou direktív.

Ako vytvoriť správny súbor Robots.txt pre webovú stránku

Súbor Robots.txt je možné vytvoriť jednoducho v programe Poznámkový blok, ktorý je štandardne dostupný na akomkoľvek počítači. Predpísanie súboru zaberie aj začiatočníkovi maximálne pol hodiny času (ak ovládate príkazy).

Môžete použiť aj iné programy – napríklad Poznámkový blok. Existujú tiež online služby ktorý dokáže vygenerovať súbor automaticky. Napríklad ako naprCYPR.com alebo Mediasova.

Stačí zadať adresu vášho webu, pre ktoré vyhľadávače musíte nastaviť pravidlá, hlavné zrkadlo (s alebo bez www). Potom služba urobí všetko sama.

Osobne preferujem stary "dedkovsky" sposob - registrovat subor rucne v notepade. Existuje aj „lenivý spôsob“ - zmiasť s tým svojho vývojára 🙂 Ale aj v tomto prípade by ste mali skontrolovať, či je tam všetko napísané správne. Preto poďme zistiť, ako zostaviť tento súbor a kde by sa mal nachádzať.

Hotový súbor Robots.txt sa musí nachádzať v koreňovom priečinku lokality. Iba súbor, žiadny priečinok:

Chcete skontrolovať, či je na vašom webe? Vchádzať adresný riadok adresa: site.ru/robots.txt. Zobrazí sa nasledujúca stránka (ak súbor existuje):

Súbor pozostáva z niekoľkých blokov oddelených zarážkou. Každý blok obsahuje odporúčania pre vyhľadávacie roboty rôznych vyhľadávacích nástrojov (plus blok s všeobecné pravidlá pre každého) a samostatný blok s odkazmi na mapu stránok – Sitemap.

Nie je potrebné odsadzovať vnútro bloku pravidlami pre jedného vyhľadávacieho robota.

Každý blok začína príkazom User-agent.

Za každou direktívou nasleduje znak ":" (dvojbodka), medzera, za ktorou je uvedená hodnota (napríklad, ktorá stránka sa má zatvoriť z indexovania).

Musíte zadať relatívne adresy stránok, nie absolútne. Relatívna - toto je bez "www.site.ru". Napríklad musíte zakázať indexovanie stránkywww.site.ru/shop. Za dvojbodku teda dáme medzeru, lomku a „nakupovať“:

Disallow: /shop.

Hviezdička (*) označuje ľubovoľnú skupinu znakov.

Znak dolára ($) je koniec riadku.

Môžete sa rozhodnúť – prečo písať súbor od začiatku, ak ho môžete otvoriť na ľubovoľnej stránke a jednoducho si ho skopírovať?

Pre každú stránku musíte predpísať jedinečné pravidlá. Je potrebné vziať do úvahy vlastnosti CMS. Napríklad rovnaký admin panel sa nachádza na /wp-admin na WordPress engine, na inej adrese to bude iné. To isté s adresami jednotlivých stránok, s mapou stránok a podobne.

Nastavenie súboru Robots.txt: indexovanie, hlavné zrkadlo, smernice

Ako ste už videli na snímke obrazovky, smernica User-agent je na prvom mieste. Označuje, pre ktorého vyhľadávacieho robota budú pravidlá uvedené nižšie.

User-agent: * - pravidlá pre všetky vyhľadávacie roboty, to znamená pre akýkoľvek vyhľadávací nástroj (Google, Yandex, Bing, Rambler atď.).

User-agent: Googlebot – označuje pravidlá pre vyhľadávač Google.

User-agent: Yandex - pravidlá pre vyhľadávacieho robota Yandex.

Pre ktorý vyhľadávací robot predpíše pravidlá ako prvý, nie je rozdiel. Ale zvyčajne sa najprv píšu odporúčania pre všetky roboty.

Disallow: Zakázať indexovanie

Ak chcete zakázať indexovanie lokality ako celku alebo jednotlivých stránok, použite direktívu Disallow.

Môžete napríklad úplne zatvoriť stránku z indexovania (ak sa zdroj dokončuje a nechcete, aby sa v tomto stave dostal do výsledkov vyhľadávania). Ak to chcete urobiť, napíšte nasledovné:

User-agent: *

zakázať: /

Všetkým vyhľadávacím robotom je teda zakázané indexovať obsah na stránke.

A takto môžete otvoriť stránku na indexovanie:

User-agent: *

Disallow:

Preto skontrolujte, či sa za direktívou Disallow nenachádza lomka, ak chcete web zatvoriť. Ak ho chcete otvoriť neskôr - nezabudnite odstrániť pravidlo (a to sa často stáva).

Ak chcete zatvoriť jednotlivé stránky z indexovania, musíte zadať ich adresu. Už som napísal, ako sa to robí:

User-agent: *

Disallow: /wp-admin

Panel správcu bol teda na stránke uzavretý z pohľadu tretích strán.

Čo musíte z indexovania bez problémov zavrieť:

  • administratívny panel;
  • osobné stránky používateľov;
  • košíky;
  • výsledky vyhľadávania na stránke;
  • prihlasovacie, registračné, autorizačné stránky.

Môžete zavrieť z indexovania a určitých typov súborov. Povedzme, že máte na svojom webe nejaké súbory .pdf, ktoré nechcete indexovať. A vyhľadávacie roboty veľmi jednoducho skenujú súbory nahrané na stránku. Môžete ich zatvoriť z indexovania takto:

User-agent: *

Disallow: /*. pdf$

Ako otvoriť stránku na indexovanie

Aj keď je lokalita úplne zatvorená pred indexovaním, môžete pre roboty otvoriť cestu k určitým súborom alebo stránkam. Povedzme, že meníte dizajn stránky, ale adresár služieb zostáva nedotknutý. Môžete tam nasmerovať vyhľadávacie roboty, aby pokračovali v indexovaní sekcie. Na tento účel sa používa smernica Allow:

User-agent: *

Povoliť: /services

zakázať: /

Hlavné zrkadlo webovej stránky

Do 20. marca 2018 bolo v súbore robots.txt pre vyhľadávacieho robota Yandex potrebné špecifikovať zrkadlo hlavného webu prostredníctvom smernice Host. Teraz to už nemusíte robiť - stačí nastaviť presmerovanie 301 po jednotlivých stránkach .

Aké je hlavné zrkadlo? Toto je adresa vašej stránky hlavná – s www alebo bez nej. Ak nenastavíte presmerovanie, obe stránky budú indexované, to znamená, že budú existovať duplikáty všetkých stránok.

Sitemap: súbor sitemap robots.txt

Po napísaní všetkých smerníc pre roboty musíte zadať cestu k súboru Sitemap. Sitemap ukazuje robotom, že všetky adresy URL, ktoré je potrebné indexovať, sa nachádzajú na určitej adrese. Napríklad:

Sitemap: site.ru/sitemap.xml

Keď robot prehľadáva stránku, uvidí, aké zmeny boli vykonané v tomto súbore. Vďaka tomu budú nové stránky indexované rýchlejšie.

Smernica o čistých parametroch

V roku 2009 spoločnosť Yandex zaviedla novú smernicu - Clean-param. Dá sa použiť na popis dynamických parametrov, ktoré neovplyvňujú obsah stránok. Najčastejšie sa táto smernica používa na fórach. Je tu veľa odpadu, napríklad ID relácie, parametre triedenia. Ak zaregistrujete túto smernicu, vyhľadávací robot Yandex nebude opakovane sťahovať informácie, ktoré sú duplikované.

Túto smernicu môžete napísať kdekoľvek v súbore robots.txt.

Parametre, ktoré robot nemusí brať do úvahy, sú uvedené v prvej časti hodnoty cez znamienko &:

Clean-param: sid&sort /forum/viewforum.php

Táto smernica zabraňuje duplicitným stránkam s dynamickými adresami URL (ktoré obsahujú otáznik).

Smernica o oneskorenom prehľadávaní

Táto smernica príde na pomoc tým, ktorí majú slabý server.

Príchod vyhľadávacieho robota predstavuje dodatočné zaťaženie servera. Ak máte vysokú návštevnosť stránok, zdroj jednoducho nemusí vydržať a "ľahnúť". Výsledkom je, že robot dostane chybové hlásenie 5xx. Ak sa táto situácia neustále opakuje, môže byť stránka rozpoznaná vyhľadávačom ako nefunkčná.

Predstavte si, že pracujete a súčasne musíte neustále odpovedať na hovory. Vaša produktivita potom klesá.

Podobne aj so serverom.

Vráťme sa k smernici. Crawl-delay vám umožňuje nastaviť oneskorenie skenovania webových stránok, aby sa znížilo zaťaženie servera. Inými slovami, nastavíte dobu, po ktorej sa budú stránky webu načítavať. Tento parameter je zadaný v sekundách ako celé číslo:

Nie všetci moderní webmasteri sú schopní pracovať s HTML kódom. Mnohí ani nevedia, ako majú vyzerať funkcie zapísané v kľúčových súboroch CMS. Vnútorné časti vášho zdroja, ako napríklad súbor robots.txt, sú duševným vlastníctvom, v ktorom by mal byť vlastník ako ryba vo vode. Doladenie stránky vám umožňuje zvýšiť jej hodnotenie vo vyhľadávaní, dostať ju na vrchol a úspešne zbierať návštevnosť.

Súbor robots.txt je jedným z hlavných prvkov prispôsobenia zdroja požiadavkám vyhľadávačov. On obsahuje technická informácia a obmedzuje prístup na množstvo stránok vyhľadávacím robotom. Vo výsledkoch vyhľadávania by totiž určite nemala byť každá napísaná stránka. Predtým sa na vytvorenie súboru txt robots vyžadoval prístup FTP. Vývoj CMS umožnil prístup k nemu priamo cez ovládací panel.

Na čo slúži súbor robots.txt?

Tento súbor obsahuje množstvo odporúčaní adresovaných vyhľadávacím robotom. Obmedzuje ich prístup do určitých častí stránky. Kvôli umiestneniu tohto súboru v koreňovom adresári ho roboti nemôžu nijako prehliadnuť. Výsledkom je, že keď sa dostanú k vášmu zdroju, najprv si prečítajú pravidlá jeho spracovania a až potom začnú kontrolovať.

Súbor teda vyhľadávacím robotom indikuje, ktoré adresáre stránok sú povolené na indexovanie a ktoré nepodliehajú tomuto procesu.

Vzhľadom na to, že prítomnosť súboru priamo neovplyvňuje proces hodnotenia, mnohé stránky neobsahujú súbor robots.txt. Ale cesta plný prístup nemožno považovať za technicky správne. Poďme sa pozrieť na výhody, ktoré robots.txt poskytuje zdroju.

Môžete zakázať indexovanie zdroja ako celku alebo jeho časti, obmedziť okruh vyhľadávacích robotov, ktorí budú mať právo indexovať. Ak nariadite robots.txt, aby všetko zakázal, môžete zdroj úplne izolovať počas opravy alebo prestavby.

Mimochodom, vývojári Google opakovane pripomenuli webmasterom, že veľkosť súboru robots.txt by nemala presiahnuť 500 KB. To určite povedie k chybám indexovania. Ak súbor vytvoríte manuálne, potom je „dosiahnutie“ tejto veľkosti samozrejme nereálne. Ale tu sú niektoré CMS, ktoré automaticky generujú obsah robots.txt, môžu ho výrazne preťažiť.

Jednoduché vytváranie súborov pre akýkoľvek vyhľadávací nástroj

Ak sa bojíte cvičiť jemné ladenie nezávisle, môže sa vykonávať automaticky. Existujú konštruktéri, ktorí zhromažďujú takéto súbory bez vašej účasti. Sú vhodné pre ľudí, ktorí s webmastermi len začínajú.

Ako môžete vidieť na obrázku, nastavenie konštruktora začína zadaním adresy lokality. Ďalej si vyberiete vyhľadávače, s ktorými plánujete pracovať. Ak problém konkrétneho vyhľadávača nie je pre vás dôležitý, nie je potrebné preň vytvárať nastavenia. Teraz prejdite na určenie priečinkov a súborov, ku ktorým plánujete obmedziť prístup. AT tento príklad môžete zadať adresu mapy a zrkadlo vášho zdroja.

Generátor Robots.txt vyplní formulár tak, ako sa konštruktor zaplní. Všetko, čo sa od vás v budúcnosti vyžaduje, je skopírovať prijatý text do súboru txt. Nezabudnite to pomenovať roboti.

Ako skontrolovať účinnosť súboru robots.txt

Ak chcete analyzovať účinok súboru v Yandex, prejdite na príslušnú stránku v sekcii Yandex.Webmaster. V dialógovom okne zadajte názov lokality a kliknite na tlačidlo „stiahnuť“.

Systém analyzuje súbor robots.txt a skontroluje, či vyhľadávací robot neobíde stránky, ktorých indexovanie je zakázané. Ak sa vyskytnú problémy, príkazy je možné upravovať a kontrolovať priamo v dialógovom okne. Pravda, potom budete musieť skopírovať upravený text a vložiť ho do súboru robots.txt v koreňovom adresári.

Podobnú službu poskytuje služba „Nástroje správcu webu“ z vyhľadávača Google.

Vytváranie robots.txt pre WordPress, Joomla a Ucoz

Rôzne CMS, ktoré si získali veľkú popularitu na Runete, ponúkajú používateľom svoje vlastné verzie súborov robots.txt. Niektoré z nich takéto súbory vôbec nemajú. Tieto súbory sú často príliš univerzálne a nezohľadňujú vlastnosti zdroja používateľa alebo majú množstvo významných nedostatkov.

Skúsený odborník môže situáciu napraviť manuálne (ak je nedostatok vedomostí, je lepšie to nerobiť). Ak sa bojíte preniknúť do vnútra stránky, využite služby kolegov. Takéto manipulácie so znalosťou veci zaberú len pár minút času. Súbor robots.txt môže vyzerať napríklad takto:

V posledných dvoch riadkoch, ako by ste mohli hádať, musíte zadať údaje o svojom vlastnom zdroji.

Záver

Existuje množstvo zručností, ktoré musí každý webmaster ovládať. A samokonfigurácia a údržba webových stránok je jedným z nich. Začínajúci stavitelia stránok môžu takéto palivové drevo zlomiť pri ladení zdroja, ktorý neskôr nebudete môcť vyčistiť. Ak nechcete kvôli štruktúre stránky prísť o svoje potenciálne publikum a pozície vo výsledkoch vyhľadávania, pristupujte k procesu jej nastavenia dôkladne a zodpovedne.

Najprv vám poviem, čo je robots.txt.

Robots.txt- súbor, ktorý sa nachádza v koreňovom priečinku lokality, kde špeciálne pokyny pre vyhľadávacích robotov. Tieto pokyny sú potrebné na to, aby robot pri vstupe na stránku nebral do úvahy stránku / sekciu, inými slovami, zatvorili sme stránku z indexovania.

Prečo je potrebný súbor robots.txt

Súbor robots.txt je považovaný za kľúčovú požiadavku pre SEO optimalizáciu absolútne akejkoľvek stránky. Absencia tohto súboru môže negatívne ovplyvniť záťaž robotmi a pomalé indexovanie, ba čo viac, stránka nebude úplne indexovaná. Používatelia preto nebudú môcť prejsť na stránky prostredníctvom služieb Yandex a Google.

Vplyv súboru robots.txt na vyhľadávače?

Vyhľadávače(najmä Google) bude stránku indexovať, ale ak neexistuje súbor robots.txt, potom, ako som povedal, nie všetky stránky. Ak takýto súbor existuje, potom sa roboty riadia pravidlami, ktoré sú špecifikované v tomto súbore. Okrem toho existuje niekoľko typov vyhľadávacích robotov, ak niektorí môžu brať do úvahy pravidlo, iní ho ignorujú. Najmä robot GoogleBot neberie do úvahy direktívy Host a Crawl-Delay, robot YandexNews nedávno prestal brať do úvahy direktívu Crawl-Delay a roboty YandexDirect a YandexVideoParser ignorujú všeobecne akceptované smernice v robots.txt (ale berte do úvahy tie, ktoré sú napísané špeciálne pre nich).

Stránku najviac načítavajú roboty, ktoré načítavajú obsah z vašej stránky. Podľa toho, ak robotovi povieme, ktoré stránky má indexovať a ktoré ignorovať, ako aj v akých časových intervaloch načítavať obsah zo stránok (to platí skôr pre veľké weby, ktoré majú v indexe vyhľadávača viac ako 100 000 stránok). To robotovi výrazne uľahčí indexovanie a načítanie obsahu zo stránky.


Súbory, ktoré súvisia s CMS, napríklad vo Wordpresse - /wp-admin/, možno klasifikovať ako nepotrebné pre vyhľadávače. Okrem toho ajax, json skripty zodpovedné za vyskakovacie formuláre, bannery, výstup captcha atď.

Pre väčšinu robotov tiež odporúčam, aby ste zatvorili všetky súbory Javascript a CSS z indexovania. Pre GoogleBot a Yandex je však lepšie takéto súbory indexovať, pretože ich používajú vyhľadávače na analýzu pohodlia stránky a jej hodnotenia.

Čo je to smernica robots.txt?



smernice- to sú pravidlá pre vyhľadávacích robotov. Prvé štandardy pre písanie robots.txt a preto sa objavili v roku 1994 a rozšírený štandard v roku 1996. Ako však už viete, nie všetky roboty podporujú určité smernice. Nižšie som preto popísal, čím sa riadia hlavní roboti pri indexovaní stránok webu.

Čo znamená používateľský agent?

Toto je najdôležitejšia smernica, ktorá určuje, pre ktoré vyhľadávacie roboty budú platiť ďalšie pravidlá.

Pre všetky roboty:

Pre konkrétneho robota:

Používateľský agent: Googlebot

Veľkosť písmen v súbore robots.txt nie je dôležitá, môžete napísať Googlebot aj googlebot

Prehľadávače Google







Vyhľadávacie roboty Yandex

Hlavný indexovací robot Yandex

Používa sa v službe Yandex.Images

Používa sa v službe Yandex.Video

multimediálne dáta

Blog Search

Indexový prehľadávač pristupujúci na stránku po jej pridaní prostredníctvom formulára „Pridať adresu URL“.

robot, ktorý indexuje ikony stránok (favicony)

Yandex.Direct

Yandex.Metrica

Používa sa v službe Yandex.Catalog

Používa sa v službe Yandex.News

YandexImageResizer

Vyhľadávací robot mobilných služieb

Vyhľadávacie roboty Bing, Yahoo, Mail.ru, Rambler

Zakázať a povoliť smernice

Disallow zatvorí sekcie a stránky vašej lokality pred indexovaním. Preto ich Allow, naopak, otvára.

Existuje niekoľko funkcií.

Po prvé, ďalšie operátory sú *, $ a #. Na čo slúžia?

“*” je ľubovoľný počet znakov a ich absencia. Štandardne je už na konci riadku, takže nemá zmysel dávať ho znova.

“$” - označuje, že znak pred ním musí prísť ako posledný.

“#” - komentár, všetko, čo nasleduje po tejto postave, robot ignoruje.

Príklady použitia Disallow:

Disallow: *?s=

Disallow: /category/

V súlade s tým vyhľadávací robot zatvorí stránky ako:

Stránky formulára však budú otvorené na indexovanie:

Teraz musíte pochopiť, ako sa vykonávajú vnorené pravidlá. Veľmi dôležité je poradie, v akom sú smernice napísané. Dedičnosť pravidiel je daná tým, ktoré adresáre sú špecifikované, čiže ak chceme stránku / dokument uzavrieť z indexovania, stačí napísať direktívu. Pozrime sa na príklad

Toto je náš súbor robots.txt

Disallow: /template/

Táto smernica je tiež uvedená kdekoľvek a môžete zaregistrovať niekoľko súborov sitemap.

Príkaz hostiteľa v súbore robots.txt

Táto smernica je potrebná na určenie hlavného zrkadla stránky (často s alebo bez www). Všimnite si, že hostiteľská smernica je špecifikovaná bez protokolu http://, ale s protokolom https://. Smernicu berú do úvahy iba vyhľadávacie roboty Yandex a Mail.ru, zatiaľ čo iné roboty, vrátane GoogleBot, nebudú brať do úvahy pravidlo. Hostiteľ na registráciu 1 krát v súbore robots.txt

Príklad s http://

Hostiteľ: www.website.ru

Príklad s https://

Smernica o oneskorenom prehľadávaní

Nastavuje časový interval indexovania stránok lokality vyhľadávacím robotom. Hodnota je uvedená v sekundách a milisekundách.

Príklad:

Používa sa najmä na veľkých internetových obchodoch, informačných stránkach, portáloch, kde je návštevnosť stránok od 5000 za deň. Je potrebné, aby vyhľadávací robot v určitom časovom období podal požiadavku na indexovanie. Ak túto direktívu nešpecifikujete, môže to spôsobiť vážne zaťaženie servera.

Optimálna hodnota oneskorenia indexového prehľadávania pre každú lokalitu je iná. Pre vyhľadávače Mail, Bing, Yahoo je možné hodnotu nastaviť minimálna hodnota 0,25, 0,3, keďže tieto roboty vyhľadávacích nástrojov môžu prehľadávať vašu stránku raz za mesiac, 2 mesiace atď. (veľmi zriedkavo). Pre Yandex je lepšie nastaviť väčšiu hodnotu.


Ak je zaťaženie vášho webu minimálne, potom nemá zmysel špecifikovať túto smernicu.

Smernica o čistých parametroch

Pravidlo je zaujímavé, pretože prehľadávaču hovorí, že stránky s určitými parametrami nie je potrebné indexovať. Zapisujú sa 2 argumenty: URL stránky a parameter. Táto smernica je podporovaná vyhľadávacím nástrojom Yandex.

Príklad:

Disallow: /admin/

Disallow: /plugins/

Disallow: /search/

Disallow: /košík/

Disallow: *sort=

Disallow: *view=

Používateľský agent: GoogleBot

Disallow: /admin/

Disallow: /plugins/

Disallow: /search/

Disallow: /košík/

Disallow: *sort=

Disallow: *view=

Povoliť: /plugins/*.css

Povoliť: /plugins/*.js

Povoliť: /plugins/*.png

Povoliť: /plugins/*.jpg

Povoliť: /plugins/*.gif

Používateľský agent: Yandex

Disallow: /admin/

Disallow: /plugins/

Disallow: /search/

Disallow: /košík/

Disallow: *sort=

Disallow: *view=

Povoliť: /plugins/*.css

Povoliť: /plugins/*.js

Povoliť: /plugins/*.png

Povoliť: /plugins/*.jpg

Povoliť: /plugins/*.gif

Clean-Param: utm_source&utm_medium&utm_campaign

V príklade sme napísali pravidlá pre 3 rôznych botov.

Kam pridať súbor robots.txt?

Pridané do koreňový priečinok stránky. Okrem toho, aby za ním mohol nasledovať odkaz:

Ako skontrolovať súbor robots.txt?

Správca webu Yandex

Na karte Nástroje vyberte položku Analyzovať súbor robots.txt a potom kliknite na tlačidlo Skontrolovať

Google Search Console

Na karte Skenovanie vyberte si nástroj na kontrolu súboru robots.txt a potom kliknite na skontrolovať.

Záver:

Súbor robots.txt musí byť povinný na každej propagovanej stránke a iba jeho správna konfigurácia vám umožní získať potrebné indexovanie.

A na záver, ak máte nejaké otázky, opýtajte sa ich v komentároch pod článkom a tiež ma zaujíma, ako sa píše robots.txt?

Robots.txt je textový súbor, ktorý obsahuje špeciálne pokyny pre roboty vyhľadávacích nástrojov na preskúmanie vašej stránky na internete. Takéto inštrukcie sú tzv smernice- môže zakázať indexovanie niektorých stránok webu, označiť správne "zrkadlenie" domény atď.

Pre stránky bežiace na platforme Nubex sa súbor s direktívami vytvorí automaticky a nachádza sa na domen.ru/robots.txt, kde je domen.ru Doménové meno site..ru/robots.txt.

Na paneli správcu stránky môžete zmeniť súbor robots.txt a predpísať ďalšie pokyny pre vyhľadávače. Ak to chcete urobiť, na ovládacom paneli vyberte sekciu "Nastavenie", a v ňom - ​​bod SEO.

Nájdite pole "Text súboru robots.txt" a napíšte do nej potrebné smernice. Odporúča sa aktivovať zaškrtávacie políčko „Pridať odkaz na automaticky vygenerovaný súbor sitemap.xml v súbore robots.txt“: týmto spôsobom bude vyhľadávací robot schopný načítať mapu webu a nájsť všetky potrebné stránky na indexovanie.

Základné pokyny pre súbor txt robots

Pri načítavaní súboru robots.txt prehľadávač najprv hľadá záznam začínajúci na user-agent: Hodnota tohto poľa musí byť názov robota, ktorého prístupové práva sú nastavené v tomto zázname. Tie. direktíva User-agent je akýmsi volaním robota.

1. Ak hodnota poľa User-agent obsahuje symbol " * “, potom sa prístupové práva špecifikované v tomto zázname vzťahujú na všetky vyhľadávacie roboty, ktoré požadujú súbor /robots.txt.

2. Ak je v zázname zadaných viac ako jedno meno robota, potom sa prístupové práva rozšíria na všetky zadané mená.

3. Na veľkých alebo malých písmenách nezáleží.

4. Ak sa nájde reťazec User-agent: BotName, direktívy pre User-agent: * sa neberú do úvahy (to je prípad, ak zadávate viacero položiek pre rôznych robotov). Tie. robot najprv naskenuje text pre záznam User-agent: MyName, a ak ho nájde, bude postupovať podľa týchto pokynov; ak nie, bude konať podľa pokynov User-agenta: * záznam (pre všetkých robotov).

Mimochodom, pred každou novou direktívou User-agent sa odporúča vložiť prázdny riadok (Enter).

5. Ak chýbajú riadky User-agent: BotName a User-agent: *, má sa za to, že prístup k robotovi nie je obmedzený.

Zákaz a povolenie indexovania stránok: príkazy Disallow a Allow

Na zabránenie alebo povolenie prístupu vyhľadávacích robotov na určité stránky lokality sa používajú príkazy Zakázať a povoliť resp.

Hodnota týchto direktív určuje úplnú alebo čiastočnú cestu k sekcii:

  • Disallow: /admin/- zakazuje indexovanie všetkých stránok v sekcii správcu;
  • Disallow: /help— zakazuje indexovanie súborov /help.html aj /help/index.html;
  • Disallow: /help/ - zatvorí iba /help/index.html;
  • zakázať: /- blokuje prístup na celú stránku.

Ak nie je zadaná hodnota Disallow, prístup nie je obmedzený:

  • Disallow:- je povolené indexovanie všetkých stránok webu.

Na nastavenie výnimiek môžete použiť direktívu allow. povoliť. Takýto záznam napríklad zabráni robotom v indexovaní všetkých sekcií lokality s výnimkou tých, ktorých cesta začína reťazcom /search:

Nezáleží na tom, v akom poradí sú uvedené smernice pre odmietnutie a povolenie indexovania. Pri čítaní ich robot stále zoradí podľa dĺžky predpony URL (od najmenšej po najväčšiu) a postupne aplikuje. To znamená, že vyššie uvedený príklad vo vnímaní robota bude vyzerať takto:

- iba stránky začínajúce na /search môžu byť indexované. Poradie smerníc teda nijako neovplyvní výsledok.

Hostiteľská smernica: ako určiť doménu hlavnej lokality

Ak je s vašou stránkou prepojených viacero názvov domén (technické adresy, zrkadlá atď.), vyhľadávací nástroj môže rozhodnúť, že ide o rôzne stránky. A s rovnakým obsahom. Riešenie? Do kúpeľa! A jeden robot vie, ktorá z domén bude „potrestaná“ - hlavná alebo technická.

Aby ste sa vyhli týmto problémom, musíte vyhľadávaciemu robotu povedať, ktorá z adries sa zúčastňuje vyhľadávania. Táto adresa bude označená ako hlavná a zvyšok bude tvoriť skupinu zrkadiel vašej stránky.

Môžete to urobiť pomocou hostiteľské smernice. Musí byť pridaný do záznamu počínajúc User-Agent, hneď za príkazmi Disallow a Allow. V hodnote direktívy Host musíte zadať hlavnú doménu s číslom portu (štandardne 80). Napríklad:

Hostiteľ: test-o-la-la.ru

Takýto záznam znamená, že stránka sa zobrazí vo výsledkoch vyhľadávania s odkazom na doménu test-o-la-la.ru, a nie www.test-o-la-la.ru a s10364.. screenshot vyššie).

V konštruktore Nubex sa direktíva Host pridá do textu súboru robots.txt automaticky, keď v admin paneli určíte, ktorá doména je hlavná.

Príkaz hostiteľa možno v súbore robots.txt použiť iba raz. Ak to napíšete viackrát, robot prijme len prvý záznam v poradí.

Direktíva Crawl-delay: ako nastaviť interval načítania stránky

Ak chcete robotovi oznámiť minimálny interval medzi dokončením načítania jednej stránky a začatím načítania ďalšej stránky, použite Smernica o oneskorenom prehľadávaní. Musí byť pridaný do záznamu počínajúc User-Agent, hneď za príkazmi Disallow a Allow. V hodnote smernice zadajte čas v sekundách.

Využitie tohto oneskorenia pri spracovaní stránok bude výhodné pre preťažené servery.

Existujú aj ďalšie smernice pre prehľadávače, ale päť popísaných - User-Agent, Disallow, Allow, Host and Crawl-oneskorenie - zvyčajne stačí na zostavenie textu súboru robots.txt.

Vyhľadávacie roboty – prehľadávače sa začínajú zoznamovať s webom prečítaním súboru robots.txt. Obsahuje pre nich všetky dôležité informácie. Vlastníci stránok by mali vytvárať a pravidelne kontrolovať súbor robots.txt. Rýchlosť indexovania stránok a umiestnenie vo výsledkoch vyhľadávania závisí od správnosti jeho práce.

Nie je to povinný prvok stránky, ale jeho prítomnosť je žiaduca, pretože ho využívajú majitelia stránok na ovládanie vyhľadávacích robotov. Nastavte si rôzne úrovne prístupu na stránku, zákaz indexovania celej stránky, jednotlivých stránok, sekcií či súborov. Pre zdroje s vysokou návštevnosťou obmedzte čas indexovania a zakážte prístup robotom, ktoré nesúvisia s tými hlavnými. vyhľadávače. Tým sa zníži zaťaženie servera.

Tvorba. Vytvorte súbor v textový editor Poznámkový blok alebo podobne. Uistite sa, že veľkosť súboru nepresahuje 32 kB. Vyberte pre súbor kódovanie ASCII alebo UTF-8. Upozorňujeme, že súbor musí byť jedinečný. Ak je stránka vytvorená na CMS, potom sa vygeneruje automaticky.

Umiestnite vytvorený súbor do koreňového adresára lokality vedľa hlavného súboru index.html. Na toto použitie FTP prístup. Ak je stránka vytvorená na CMS, súbor sa spracuje cez administratívny panel. Keď je súbor vytvorený a funguje správne, je dostupný v prehliadači.

Ak neexistuje súbor robots.txt, vyhľadávacie roboty zhromažďujú všetky informácie súvisiace s webom. Nebuďte prekvapení, keď vo výsledkoch vyhľadávania uvidíte prázdne stránky alebo informácie o službách. Určite, ktoré sekcie lokality budú dostupné používateľom, a ostatné zatvorte z indexovania.

Vyšetrenie. Pravidelne kontrolujte, či všetko funguje správne. Ak prehľadávač nedostane odpoveď 200 OK, potom automaticky predpokladá, že súbor neexistuje a lokalita je plne otvorená na indexovanie. Chybové kódy sú nasledovné:

    3xx - presmerovanie odpovedí. Robot je nasmerovaný na inú stránku alebo na hlavnú. Vytvorte až päť presmerovaní na jednej stránke. Ak je ich viac, robot takúto stránku označí ako chybu 404. To isté platí pre presmerovania na princípe nekonečnej slučky;

    4xx - odpovede na chyby stránky. Ak prehľadávač dostane zo súboru robots.txt chybu 400, dôjde k záveru, že súbor neexistuje a všetok obsah je dostupný. To platí aj pre chyby 401 a 403;

    5xx - odpovede na chyby servera. Prehľadávač bude „klopať“, kým nedostane odpoveď inú ako 500.

Pravidlá tvorby

Začíname pozdravom. Každý súbor musí začínať pozdravom User-agent. Pomocou neho budú vyhľadávače určovať mieru otvorenosti.

Kód Význam
User-agent: * Dostupné pre každého
Používateľský agent: Yandex Dostupné pre robota Yandex
Používateľský agent: Googlebot Dostupné pre Googlebot
Používateľský agent: Mail.ru Dostupné pre robot Mail.ru

Pridajte samostatné smernice pre roboty. V prípade potreby pridajte smernice pre špecializované vyhľadávacie roboty Yandex.

V tomto prípade sa však smernice * a Yandex nebudú brať do úvahy.


Google má svojich vlastných robotov:

Najprv zakážeme, potom povolíme. Pracujte s dvoma príkazmi: Povoliť - povoľujem, Zakázať - zakazujem. Nezabudnite zahrnúť direktívu disallow, aj keď je povolený prístup k celej lokalite. Táto smernica je povinná. Ak chýba, prehľadávač nemusí správne prečítať zvyšok informácií. Ak stránka nemá obmedzený obsah, nechajte smernicu prázdnu.

Pracovať s rôzne úrovne. V súbore môžete zadať nastavenia na štyroch úrovniach: lokalita, stránka, priečinok a typ obsahu. Povedzme, že chcete skryť obrázky pred indexovaním. Dá sa to urobiť na úrovni:

  • priečinky - zakázať: /images/
  • typ obsahu - disallow: /*.jpg
Direktívy zoskupte do blokov a oddeľte ich prázdnym riadkom. Nepíšte všetky pravidlá na jeden riadok. Použite samostatné pravidlo pre každú stránku, prehľadávač, priečinok atď. Tiež si nezamieňajte pokyny: napíšte robota do používateľského agenta a nie do direktívy allow / disallow.
nie Áno
Zakázať: Yandex Používateľský agent: Yandex
zakázať: /
Disallow: /css/ /images/ Disallow: /css/
Disallow: /images/


Rozlišujte malé a veľké písmená.
Zadajte názov súboru malými písmenami. Yandex vo vysvetľujúcej dokumentácii uvádza, že prípad nie je pre jeho robotov dôležitý, ale spoločnosť Google žiada prípad rešpektovať. Je tiež možné, že názvy súborov a priečinkov rozlišujú veľké a malé písmená.

Zadajte presmerovanie 301 na hlavné zrkadlo lokality. Kedysi sa na to používala smernica Host, no od marca 2018 už nie je potrebná. Ak sa už nachádza v súbore robots.txt, odstráňte ho alebo ho ponechajte podľa vlastného uváženia; roboty túto smernicu ignorujú.

Ak chcete určiť hlavné zrkadlo, umiestnite na každú stránku webu presmerovanie 301. Ak nedôjde k presmerovaniu, vyhľadávací nástroj nezávisle určí, ktoré zrkadlo sa považuje za hlavné. Ak chcete opraviť zrkadlo webu, jednoducho zadajte presmerovanie stránky 301 a počkajte niekoľko dní.

Napíšte smernicu Sitemap (mapa stránky). Súbory sitemap.xml a robots.txt sa navzájom dopĺňajú. Skontrolujte:

  • súbory si navzájom neodporujú;
  • stránky boli vylúčené z oboch súborov;
  • stránky boli povolené v oboch súboroch.
Pri analýze obsahu súboru robots.txt venujte pozornosť tomu, či je mapa webu zahrnutá v smernici s rovnakým názvom. Je napísaný takto: Sitemap: www.yoursite.ru/sitemap.xml

Označte komentáre symbolom #.Čokoľvek napísané po tom, prehľadávač ignoruje.

Overenie súboru

Analyzujte súbor robots.txt pomocou nástrojov pre vývojárov: Yandex.Webmaster a Google Robots Testing Tool. Upozorňujeme, že Yandex a Google iba kontrolujú, či súbor spĺňa ich vlastné požiadavky. Ak je súbor správny pre Yandex, neznamená to, že bude správny pre Google roboty, preto skontrolujte v oboch systémoch.

Ak nájdete chyby a opravíte súbor robots.txt, prehľadávače neprečítajú zmeny okamžite. Opätovné indexové prehľadávanie stránky sa zvyčajne vyskytuje raz denne, ale často trvá oveľa dlhšie. Po týždni skontrolujte súbor, aby ste sa uistili, že vyhľadávače používajú novú verziu.

Kontrola v Yandex.Webmaster

Najprv si overte práva na stránku. Potom sa zobrazí na paneli správcu webu. Do poľa zadajte názov stránky a kliknite na tlačidlo Skontrolovať. Výsledok kontroly bude k dispozícii nižšie.

Okrem toho skontrolujte jednotlivé strany. Ak to chcete urobiť, zadajte adresy stránok a kliknite na „skontrolovať“.

Testovanie v nástroji Google Robots Testing Tool

Umožňuje vám skontrolovať a upraviť súbor v administratívnom paneli. Poskytuje správu o logických a syntaktických chybách. Opravte text súboru priamo v editore Google. Upozorňujeme však, že zmeny sa neuložia automaticky. Po oprave robots.txt skopírujte kód z webového editora a vytvorte nový súbor cez poznámkový blok alebo iný textový editor. Potom ho nahrajte na server do koreňového adresára.

Pamätajte

    Súbor robots.txt pomáha vyhľadávacím robotom indexovať stránku. Zatvorte stránku počas vývoja, zvyšok času - celá stránka alebo jej časť by mala byť otvorená. Správne fungujúci súbor by mal vrátiť odpoveď 200.

    Súbor je vytvorený v bežnom textovom editore. V mnohých CMS umožňuje administračný panel vytvorenie súboru. Uistite sa, že veľkosť nepresahuje 32 KB. Umiestnite ho do koreňového adresára lokality.

    Vyplňte súbor podľa pravidiel. Začnite s kódom "User-agent:". Pravidlá napíšte do blokov, oddeľte ich prázdnym riadkom. Postupujte podľa akceptovanej syntaxe.

    Povoliť alebo zakázať indexovanie pre všetky prehľadávače alebo vybrané prehľadávače. Ak to chcete urobiť, zadajte názov vyhľadávacieho robota alebo vložte ikonu *, čo znamená „pre každého“.

    Pracujte s rôznymi úrovňami prístupu: lokalita, stránka, priečinok alebo typ súboru.

    Zahrňte do súboru označenie hlavného zrkadla pomocou stránkovaného presmerovania 301 a mapu webu pomocou direktívy sitemap.

    Na analýzu súboru robots.txt použite nástroje pre vývojárov. Sú to nástroje Yandex.Webmaster a Google Robots Testing Tools. Najprv potvrďte práva na stránku a potom skontrolujte. V Google okamžite upravte súbor vo webovom editore a odstráňte chyby. Upravené súbory sa neuložia automaticky. Nahrajte ich na server namiesto pôvodného súboru robots.txt. Po týždni skontrolujte, či vyhľadávače používajú novú verziu.

Materiál pripravila Svetlana Sirvida-Llorente.