Pre väčšinu stránok sa vyžaduje súbor robot.txt.

Každý SEO-optimalizátor by mal rozumieť významu tohto súboru, ako aj vedieť predpísať najžiadanejšie direktívy.

Správne zostavené roboty zlepšujú pozíciu stránky vo výsledkoch vyhľadávania a okrem iných spôsobov propagácie sú účinným nástrojom SEO.

Aby sme pochopili, čo je robot.txt a ako funguje, pripomeňme si, ako fungujú vyhľadávače.

Ak to chcete skontrolovať, zadajte do panela s adresou koreňovú doménu a na koniec adresy URL pridajte súbor /robots.txt.

Napríklad súbor robota Moz sa nachádza na adrese: moz.com/robots.txt. Vstúpime a dostaneme stránku:

Pokyny pre "robota"

Ako vytvoriť súbor robots.txt?

3 typy pokynov pre súbor robots.txt.

Ak zistíte, že súbor robots.txt chýba, jeho vytvorenie je jednoduché.

Ako už bolo spomenuté na začiatku článku, ide o bežný textový súbor v koreňovom adresári stránky.

Dá sa to urobiť cez admin panel alebo cez správcu súborov, s ktorým programátor pracuje so súbormi na stránke.

Ako a čo tam predpísať, zistíme v priebehu článku.

Vyhľadávacie nástroje dostávajú z tohto súboru tri typy pokynov:

  • skenovať všetko, tzn plný prístup(Povoliť);
  • nič sa nedá skenovať - ​​úplný zákaz (Disallow);
  • nie je možné skenovať jednotlivé prvky (ktoré sú označené) - čiastočný prístup.

V praxi to vyzerá takto:

Upozorňujeme, že stránka sa stále môže dostať do SERP, ak má odkaz nainštalovaný na tejto stránke alebo mimo nej.

Aby sme tomu lepšie porozumeli, preštudujme si syntax tohto súboru.

Syntax Robots.Txt

Robots.txt: ako to vyzerá?

Dôležité body: čo by ste si mali vždy pamätať o robotoch.

Sedem bežných výrazov, ktoré sa často vyskytujú na webových stránkach.

Vo svojej najjednoduchšej podobe vyzerá robot takto:

Používateľský agent: [názov systému, pre ktorý píšeme smernice] Disallow: Sitemap: [uveďte, kde máme súbor Sitemap] # Pravidlo 1 Používateľský agent: Googlebot Disallow: /prim1/ Sitemap: http://www.nashsite.com / sitemap.xml

Spoločne sa tieto tri riadky považujú za najjednoduchší súbor robots.txt.

Tu sme robotovi zabránili v indexovaní adresy URL: http://www.nashsite.com/prim1/ a uviedli sme, kde sa nachádza mapa lokality.

Poznámka: v súbore robots je množina direktív pre jedného používateľského agenta (vyhľadávač) oddelená od množiny direktív pre iného zalomením riadku.

V súbore s niekoľkými príkazmi vyhľadávacieho nástroja sa každý zákaz alebo povolenie vzťahuje iba na vyhľadávací nástroj uvedený v danom konkrétnom bloku riadkov.

to dôležitý bod a na to sa nesmie zabudnúť.

Ak súbor obsahuje pravidlá, ktoré sa vzťahujú na viacero používateľských agentov, systém uprednostní príkazy, ktoré sú špecifické pre zadaný vyhľadávací nástroj.

Tu je príklad:

Na obrázku vyššie majú MSNbot, discobot a Slurp individuálne pravidlá, ktoré budú fungovať len pre tieto vyhľadávače.

Všetci ostatní user-agenti sa riadia všeobecnými pokynmi v user-agent: * group.

Syntax súboru robots.txt je úplne jednoduchá.

Existuje sedem všeobecných výrazov, ktoré sa často nachádzajú na webových stránkach.

  • User-agent: Špecifický webový vyhľadávací nástroj (bot vyhľadávacieho nástroja), ktorého indexové prehľadávanie dávate pokyn. Zoznam väčšiny používateľských agentov nájdete tu. Celkovo má 302 systémov, z ktorých dva sú najrelevantnejšie - Google a Yandex.
  • Disallow: Príkaz disallow, ktorý hovorí agentovi, aby nenavštevoval adresu URL. Na každú adresu URL je povolený iba jeden riadok „disallow“.
  • Povoliť (platí len pre Googlebota): Príkaz informuje robota, že má prístup k stránke alebo podpriečinku, aj keď bola jeho nadradená stránka alebo podpriečinok zatvorená.
  • Oneskorenie indexového prehľadávania: Koľko milisekúnd by mal vyhľadávací nástroj čakať pred načítaním a indexovým prehľadávaním obsahu stránky.

Upozorňujeme, že robot Googlebot tento príkaz nepodporuje, ale rýchlosť indexového prehľadávania možno manuálne nastaviť v konzole Google Search Console.

  • Sitemap: Používa sa na volanie umiestnenia akýchkoľvek máp XML spojených s touto adresou URL. Tento príkaz podporujú iba Google, Ask, Bing a Yahoo.
  • Host: táto smernica špecifikuje hlavné zrkadlo stránky, ktoré by sa malo brať do úvahy pri indexovaní. Dá sa napísať len raz.
  • Clean-param: Tento príkaz sa používa na riešenie duplicitného obsahu pri dynamickom adresovaní.

Regulárne výrazy

Regulárne výrazy: ako vyzerajú a čo znamenajú.

Ako povoliť a zakázať prehľadávanie v súbore robots.txt.

V praxi môžu súbory robots.txt rásť a stať sa pomerne zložitými a nepraktickými.

Systém umožňuje používať regulárne výrazy poskytnúť požadovanú funkcionalitu súboru, teda flexibilne pracovať so stránkami a podpriečinkami.

  • * je zástupný znak, čo znamená, že smernica funguje pre všetky vyhľadávacie roboty;
  • $ sa zhoduje s koncom URL alebo reťazca;
  • # používa sa na komentáre vývojárov a optimalizátorov.

Tu je niekoľko príkladov súboru robots.txt pre http://www.nashsite.com

Webová adresa súboru Robots.txt: www.nashsite.com/robots.txt

User-agent: * (t. j. pre všetky vyhľadávacie nástroje) Disallow: / (lomka označuje koreňový adresár stránky)

Práve sme zakázali všetkým vyhľadávacím nástrojom prehľadávať a indexovať celú stránku.

Ako často sa táto akcia vyžaduje?

Zriedkavo, ale sú chvíle, keď je potrebné, aby sa zdroj nezúčastnil Výsledky vyhľadávania a návštevy sa uskutočnili prostredníctvom špeciálnych odkazov alebo prostredníctvom firemného povolenia.

Takto fungujú interné stránky niektorých firiem.

Okrem toho je takáto smernica predpísaná, ak je lokalita vo vývoji alebo modernizácii.

Ak potrebujete povoliť vyhľadávaciemu nástroju prehľadávať všetko na stránke, musíte do súboru robots.txt napísať nasledujúce príkazy:

User-agent: * Disallow:

V zákaze nie je nič (disallow), čo znamená, že všetko je možné.

Použitie tejto syntaxe v súbore robots.txt umožňuje prehľadávačom prehľadávať všetky stránky na http://www.nashsite.com vrátane domovskej stránke, admin a kontakty.

Blokovanie konkrétnych vyhľadávacích robotov a jednotlivých priečinkov

Syntax pre vyhľadávač Google (Googlebot).

Syntax pre iných vyhľadávacích agentov.

User-agent: Googlebot Disallow: /example-subfolder/

Táto syntax iba špecifikuje Vyhľadávač Google(Googlebot), že nepotrebujete indexovo prehľadávať adresu: www.nashsite.com/example-subfolder/.

Blokovanie jednotlivých stránok pre zadaných robotov:

User-agent: Bingbot Disallow: /example-subfolder/blocked-page.html

Táto syntax hovorí, že iba Bingbot (názov prehľadávača Bing) by nemal navštíviť stránku na adrese: www.nashsite.com /example-subfolder/blocked-page.

V skutočnosti je to všetko.

Ak ovládate týchto sedem príkazov a tri symboly a rozumiete aplikačnej logike, môžete napísať správny súbor robots.txt.

Prečo to nefunguje a čo robiť

Algoritmus hlavnej akcie.

Iné metódy.

Nesprávne správanie súboru robots.txt je problém.

Koniec koncov, bude chvíľu trvať, kým identifikujete chybu a potom na ňu prídete.

Znovu si prečítajte súbor a uistite sa, že ste nezablokovali nič navyše.

Ak sa po chvíli ukáže, že stránka stále visí vo výsledkoch vyhľadávania, pozrite sa do správcu webu Google, či bola stránka znova indexovaná vyhľadávacím nástrojom, a skontrolujte, či neexistujú nejaké externé odkazy na zatvorenú stránku.

Pretože ak sú, potom bude ťažšie skryť ho z výsledkov vyhľadávania, budú potrebné iné metódy.

Pred použitím skontrolujte tento súbor pomocou bezplatného testera od spoločnosti Google.

Včasná analýza pomáha predchádzať problémom a šetrí čas.

Vydali sme novú knihu „Content Marketing in v sociálnych sieťach: Ako sa dostať do hlavy predplatiteľov a zamilovať si svoju značku.

Robots.txt je textový súbor, ktorý obsahuje informácie pre prehľadávače, ktoré pomáhajú indexovať portálové stránky.


Viac videí na našom kanáli - naučte sa internetový marketing so SEMANTICOU

Predstavte si, že ste na honbe za pokladom na ostrove. Máš mapu. Trasa je tam vyznačená: „Priblížte sa k veľkému pňu. Z nej urobte 10 krokov na východ, potom sa dostaňte k útesu. Odbočte doprava, nájdite jaskyňu."

Toto sú pokyny. Po nich nasledujete trasu a nájdete poklad. Vyhľadávací robot tiež funguje približne rovnakým spôsobom, keď začne indexovať web alebo stránku. Nájde súbor robots.txt. Číta, ktoré stránky by sa mali indexovať a ktoré nie. A podľa týchto príkazov obíde portál a pridá jeho stránky do indexu.

Na čo slúži robots.txt?

Začnú navštevovať stránky a indexovať stránky po nahratí stránky na hosting a zaregistrovaní DNS. Robia svoju prácu bez ohľadu na to, či nejakú máte technické súbory alebo nie. Roboti vyhľadávačom naznačujú, že pri prehľadávaní webovej stránky musia brať do úvahy parametre, ktoré sa na nej nachádzajú.

Neprítomnosť súboru robots.txt môže viesť k problémom s rýchlosťou prehľadávania stránky a k výskytu odpadu v indexe. Nesprávna konfigurácia súboru je spojená s vylúčením dôležitých častí zdroja z indexu a prítomnosťou nepotrebných stránok vo výsledkoch vyhľadávania.

To všetko vedie k problémom s propagáciou.

Pozrime sa bližšie na to, aké pokyny obsahuje tento súbor a ako ovplyvňujú správanie robota na vašom webe.

Ako vytvoriť súbor robots.txt

Najprv skontrolujte, či máte tento súbor.

Zadajte adresný riadok adresa prehliadača stránky a cez lomku názov súboru, napríklad https://www.xxxxx.ru/robots.txt

Ak je súbor prítomný, na obrazovke sa zobrazí zoznam jeho parametrov.

Ak súbor neexistuje:

  1. Súbor sa vytvorí v obyčajnom textovom editore, ako je Poznámkový blok alebo Poznámkový blok ++.
  2. Musíte nastaviť názov robota, príponu.txt. Zadajte údaje v súlade s akceptovanými štandardmi formátovania.
  3. Chyby môžete skontrolovať pomocou služieb, ako je webmaster Yandex. Tam musíte v sekcii "Nástroje" vybrať položku "Analyze robots.txt" a postupovať podľa pokynov.
  4. Keď je súbor pripravený, nahrajte ho do koreňového adresára lokality.

Pravidlá prispôsobenia

Vyhľadávače majú viac ako jedného robota. Niektoré roboty iba indexujú textový obsah, niektoré - iba grafické. A samotné vyhľadávače môžu mať rôzne schémy fungovania prehľadávačov. Toto je potrebné vziať do úvahy pri zostavovaní súboru.

Niektorí z nich môžu ignorovať niektoré pravidlá, napríklad GoogleBot nereaguje na informácie o tom, ktoré zrkadlo stránky sa považuje za hlavné. Ale vo všeobecnosti vnímajú a riadia sa súborom.

Syntax súboru

Parametre dokumentu: meno robota (bota) "User-agent", príkazy: povolenie "Povoliť" a zákaz "Zakázať".

Teraz existujú dva kľúčové vyhľadávacie nástroje: Yandex a Google, pri zostavovaní stránky je dôležité vziať do úvahy požiadavky oboch.

Formát na vytváranie záznamov je nasledujúci, všimnite si požadované medzery a prázdne riadky.

Direktíva používateľského agenta

Robot hľadá položky, ktoré začínajú User-agent, musia obsahovať označenie mena vyhľadávacieho robota. Ak nie je zadaný, prístup robotov sa považuje za neobmedzený.

Direktívy Disallow a Allow

Ak potrebujete zakázať indexovanie v súbore robots.txt, použite možnosť Disallow. S jeho pomocou obmedzujú prístup robota na stránku alebo do niektorých sekcií.

Ak robots.txt neobsahuje ani jednu direktívu „Disallow“, má sa za to, že indexovanie celej stránky je povolené. Zvyčajne sa zákazy píšu za každým robotom zvlášť.

Všetky informácie za znakom # sú komentárom a nie sú strojovo čitateľné.

Povoliť sa používa na povolenie prístupu.

Symbol hviezdičky znamená, že sa vzťahuje na všetky: User-agent: *.

Táto možnosť naopak znamená úplný zákaz indexovania pre každého.

Zabrániť prezeraniu celého obsahu konkrétneho priečinka adresára

Ak chcete zablokovať jeden súbor, musíte zadať jeho absolútnu cestu


Smernice Sitemap, Host

Pre Yandex je obvyklé uviesť, ktoré zrkadlo chcete označiť ako hlavné. A Google, ako si pamätáme, to ignoruje. Ak neexistujú žiadne zrkadlá, opravte, ako si myslíte, že je správne napísať názov vašej webovej stránky s alebo bez www.

Smernica o čistých parametroch

Môže sa použiť, ak adresy URL webových stránok obsahujú premenlivé parametre, ktoré neovplyvňujú ich obsah (môžu to byť ID používateľov, referrery).

Napríklad v adrese stránky „ref“ definuje zdroj návštevnosti, t.j. označuje, odkiaľ návštevník prišiel na stránku. Stránka bude rovnaká pre všetkých používateľov.

Robot môže byť na to nasmerovaný a nebude sťahovať duplicitné informácie. Tým sa zníži zaťaženie servera.

Smernica o oneskorenom prehľadávaní

S pomocou môžete určiť, s akou frekvenciou bude robot načítavať stránky na analýzu. Tento príkaz sa používa, keď je server preťažený a označuje, že proces obchádzania je potrebné urýchliť.

chyby v súbore robots.txt

  1. Súbor sa nenachádza v koreňovom adresári. Robot to nebude hľadať hlbšie a nebude to brať do úvahy.
  2. Písmená v názve musia byť malé latinky.
    Chyba v názve, občas im chýba písmeno S na konci a napíšu robot.
  3. V súbore robots.txt nemôžete použiť znaky cyriliky. Ak potrebujete zadať doménu v ruštine, použite formát v špeciálnom kódovaní Punycode.
  4. Toto je metóda na konverziu názvov domén na sekvenciu znakov ASCII. Na tento účel môžete použiť špeciálne prevodníky.

Toto kódovanie vyzerá takto:
website.rf = xn--80aswg.xn--p1ai

Ďalšie informácie o tom, čo treba zatvoriť v súbore robots txt a o nastaveniach v súlade s požiadavkami vyhľadávacích nástrojov Google a Yandex, nájdete v referenčných dokumentoch. Rôzne cm môžu mať tiež svoje vlastné charakteristiky, to by sa malo vziať do úvahy.

Robots.txt- toto je textový súbor, ktorý sa nachádza v koreňovom adresári stránky - http://site.ru/robots.txt. Jeho hlavným účelom je nastaviť určité smernice pre vyhľadávače – čo a kedy na stránke robiť.

Najjednoduchší súbor Robots.txt

Najjednoduchší súbor robots.txt , ktorý umožňuje všetkým vyhľadávacím nástrojom indexovať všetko, vyzerá takto:

User-agent: *
Zakázať:

Ak direktíva Disallow nemá na konci lomku, potom je povolené indexovanie všetkých stránok.

Táto smernica úplne zakazuje indexovanie stránky:

User-agent: *
Disallow: /

User-agent - označuje, pre koho sú smernice určené, hviezdička označuje, že pre všetky PS, pre Yandex uveďte User-agent: Yandex.

Pomocník Yandex hovorí, že jeho prehľadávače spracovávajú User-agent: * , ale ak je prítomný User-agent: Yandex, User-agent: * sa ignoruje.

Direktívy Disallow a Allow

Existujú dve hlavné smernice:

Zakázať – zakázať

Povoliť - povoliť

Príklad: Na blogu sme zakázali indexovať priečinok /wp-content/, kde sa nachádzajú súbory pluginov, šablóny atď. Existujú však aj obrázky, ktoré musí PS indexovať, aby sa mohli zúčastniť vyhľadávania obrázkov. Ak to chcete urobiť, musíte použiť nasledujúcu schému:

User-agent: *
Povoliť: /wp-content/uploads/ # Umožnite indexovanie obrázkov v priečinku odovzdávania
Disallow : /wp-content/

Poradie, v ktorom sa používajú smernice, je dôležité pre Yandex, ak sa vzťahujú na rovnaké stránky alebo priečinky. Ak zadáte takto:

User-agent: *
Disallow : /wp-content/
Povoliť: /wp-content/uploads/

Robot Yandex nenačíta obrázky z adresára /uploads/, pretože sa vykonáva prvá direktíva, ktorá zakazuje všetok prístup k priečinku wp-content.

Google to robí jednoducho a riadi sa všetkými pokynmi súboru robots.txt bez ohľadu na ich umiestnenie.

Tiež nezabudnite, že direktívy s lomkou a bez lomky plnia inú úlohu:

Disallow: /about Zamietne prístup k celému adresáru site.ru/about/ a stránky, ktoré obsahujú o - site.ru/about.html , site.ru/aboutlive.html atď., nebudú indexované.

Disallow: /about/ Zakáže robotom indexovať stránky v adresári site.ru/about/ a stránky ako site.ru/about.html atď. bude k dispozícii na indexovanie.

Regulárne výrazy v súbore robots.txt

Podporované sú dva znaky, a to:

* - znamená akékoľvek poradie znakov.

Príklad:

Disallow: /about* odmietne prístup na všetky stránky, ktoré obsahujú asi v zásade a bez hviezdičky bude fungovať aj takáto smernica. V niektorých prípadoch však tento výraz nie je možné nahradiť. Napríklad v jednej kategórii sú stránky s .html na konci a bez, aby sme zatvorili všetky stránky, ktoré obsahujú html z indexovania, napíšeme nasledujúcu direktívu:

Disallow : /about/*.html

Teraz je stránka site.ru/about/live.html uzavretá z indexovania a stránka site.ru/about/live je otvorená.

Ďalší príklad analógie:

Používateľský agent: Yandex
Povoliť : /about/*.html #povoliť indexovanie
Disallow : /about/

Všetky stránky budú zatvorené, okrem stránok, ktoré končia príponou .html

$ - zvyšok odstrihne a označí koniec vlasca.

Príklad:

Disallow: /about- Táto direktíva robots.txt zakazuje indexovanie všetkých stránok, ktoré začínajú asi , ako aj stránky v adresári /about/.

Pridaním znaku dolára na koniec - Disallow: /about$ povieme robotom, že nemožno indexovať iba stránku /about, ale adresár /about/, stránky /aboutlive atď. možno indexovať.

Smernica o mapách stránok

Táto smernica špecifikuje cestu k súboru Sitemap takto:

Mapa stránok: http://site.ru/sitemap.xml

hostiteľskej smernice

Špecifikované v tomto formulári:

Hostiteľ: site.ru

Bez http:// , lomiek a podobne. Ak máte hlavnú zrkadlovú stránku s www, napíšte:

Príklad súboru Robots.txt pre Bitrix

User-agent: *
Disallow: /*index.php$
Disallow: /bitrix/
Disallow: /auth/
Zakázať: /osobné/
Disallow: /upload/
Disallow: /search/
Disallow: /*/search/
Disallow: /*/slide_show/
Disallow: /*/gallery/*order=*
Disallow: /*?*
Disallow: /*&print=
Disallow: /*register=
Disallow: /*zabudnuté_heslo=
Disallow: /*change_password=
Disallow: /*login=
Disallow: /*logout=
Disallow: /*auth=
Disallow: /*akcia=*
Disallow: /*bitrix_*=
Disallow: /*backurl=*
Disallow: /*BACKURL=*
Disallow: /*back_url=*
Disallow: /*BACK_URL=*
Disallow: /*back_url_admin=*
Disallow: /*print_course=Y
Disallow: /*COURSE_ID=
Disallow: /*PAGEN_*
Disallow: /*PAGE_*
Disallow: /*SHOWALL
Disallow: /*show_all=
Hostiteľ: sitename.com
Sitemap: https://www.sitename.ru/sitemap.xml

Príklad WordPress robots.txt

Potom, čo boli pridané všetky potrebné smernice opísané vyššie. Mali by ste skončiť so súborom robots takto:

Toto je takpovediac základná verzia robots.txt pre wordpress. Sú tu dvaja User-agenti – jeden pre každého a druhý pre Yandex, kde je špecifikovaná hostiteľská smernica.

metaznačky robotov

Stránku alebo web je možné zatvoriť z indexovania nielen pomocou súboru robots.txt, ale aj pomocou metaznačky.

<meta name = "roboty" content = "noindex,nofollow" >

Musíte ho zaregistrovať v tagu a tento meta tag zakáže indexovanie stránky. Vo WordPresse sú pluginy, ktoré umožňujú nastaviť si takéto meta tagy, napríklad – Platinum Seo Pack. S ním môžete zatvoriť akúkoľvek stránku z indexovania, používa metaznačky.

Smernica o oneskorenom prehľadávaní

Pomocou tejto smernice môžete nastaviť čas, počas ktorého má byť vyhľadávací robot prerušený medzi sťahovaním stránok lokality.

User-agent: *
Oneskorenie indexového prehľadávania: 5

Časový limit medzi dvoma načítaniami stránky bude 5 sekúnd. Aby sa znížilo zaťaženie servera, zvyčajne ho nastavujú na 15-20 sekúnd. Táto smernica je potrebná pre veľké, často aktualizované stránky, kde vyhľadávacie roboty len „žijú“.

Pre bežné stránky/blogy táto smernica nie je potrebná, ale môžete tak obmedziť správanie iných irelevantných vyhľadávacích robotov (Rambler, Yahoo, Bing) atď. Koniec koncov, tiež navštívia stránku a indexujú ju, čím vytvárajú zaťaženie servera.

Ahojte všetci! Dnes by som vám chcel povedať o súbor robots.txt. Áno, na internete sa o ňom píše veľa vecí, ale úprimne povedané, ja sám veľmi na dlhú dobu Nevedel som prísť na to, ako vytvoriť správny súbor robots.txt. Nakoniec som si jeden vyrobil a je na všetkých mojich blogoch. S robots.txt som nezaznamenal žiadne problémy, funguje to dobre.

Robots.txt pre WordPress

A prečo vlastne potrebujeme súbor robots.txt? Odpoveď je stále rovnaká -. To znamená, že kompilácia robots.txt je jednou z častí optimalizácia pre vyhľadávače stránky (mimochodom, veľmi skoro tu bude lekcia, ktorá bude venovaná celej internej optimalizácii stránky WordPress. Preto sa nezabudnite prihlásiť na odber RSS, aby ste nezmeškali zaujímavé materiály.).

Jedna z funkcií daný súborzákaz indexovania nepotrebné stránky webu. Nastavuje tiež adresu a predpisuje hlavné zrkadlo stránky(webová stránka s www alebo bez www).

Poznámka: pre vyhľadávače sú rovnaké stránky s www a bez www úplne odlišné stránky. Ale uvedomujúc si, že obsah týchto stránok je rovnaký, vyhľadávače ich „zlepia“ dokopy. Preto je dôležité zaregistrovať hlavné zrkadlo stránky v súbore robots.txt. Ak chcete zistiť, ktorá je hlavná (s www alebo bez www), stačí do prehliadača zadať adresu vašej stránky, napríklad s www, ak ste automaticky presmerovaní na rovnakú stránku bez www, potom hlavné zrkadlo vaše stránky bez www. Dúfam, že som to vysvetlil správne.

Tak toto sa mi páčilo, správny súbor robots.txt pre wordpress Môžete vidieť nižšie.

Opravte súbor Robots.txt pre WordPress

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag

Používateľský agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
hostiteľ: stránka
.gz
Sitemap: https://site/sitemap.xml

Všetko, čo je uvedené vyššie, musíte skopírovať textový dokument s príponou .txt, to znamená, že názov súboru by mal byť robots.txt. Tento textový dokument môžete vytvoriť napríklad pomocou programu. Len prosím nezabudni zmena v posledných troch riadkoch adresu na adresu vašej webovej stránky. Súbor robots.txt musí byť umiestnený v koreňovom adresári blogu, teda v rovnakom priečinku ako priečinky wp-content, wp-admin atď.

Tí, ktorí sú príliš leniví na to, aby to vytvorili textový súbor, stačí si stiahnuť robots.txt a tiež tam opraviť 3 riadky.

Chcem poznamenať, že v technických častiach, o ktorých sa bude diskutovať nižšie, sa nemusíte silne zaťažovať. Citujem ich pre „vedomosti“, takpovediac všeobecný rozhľad, aby vedeli, čo je potrebné a prečo.

Takže riadok:

user-agent

nastavuje pravidlá pre niektoré vyhľadávacie nástroje: napríklad „*“ (hviezdička) označuje, že pravidlá sú pre všetky vyhľadávače a čo je nižšie

Používateľský agent: Yandex

znamená, že tieto pravidlá sú len pre Yandex.

Zakázať
Tu „strčíte“ sekcie, ktoré NEMUSIA indexovať vyhľadávače. Napríklad na https://site/tag/seo stránke mám duplicitné články (opakovanie) s bežnými článkami a duplicitné stránky negatívne ovplyvňujú propagácia vyhľadávania, preto je veľmi žiaduce, aby tieto sektory boli uzavreté pred indexovaním, čo robíme pomocou tohto pravidla:

Disallow: /tag

Takže vo vyššie uvedenom súbore robots.txt sú takmer všetky nepotrebné sekcie webu WordPress uzavreté pred indexovaním, to znamená, že všetko nechajte tak, ako je.

Hostiteľ

Tu nastavujeme hlavné zrkadlo stránke, o ktorej som hovoril trochu vyššie.

Sitemap

V posledných dvoch riadkoch uvádzame adresu až dvoch máp stránok vytvorených pomocou .

Možné problémy

Ale kvôli tomuto riadku v súbore robots.txt už moje príspevky na stránke neboli indexované:

Disallow: /*?*

Ako vidíte, práve tento riadok v súbore robots.txt zakazuje indexovanie článkov, čo samozrejme vôbec nepotrebujeme. Ak to chcete opraviť, stačí odstrániť tieto 2 riadky (v pravidlách pre všetky vyhľadávače a pre Yandex) a konečný správny súbor robots.txt pre web WordPress bez CNC bude vyzerať takto:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /tag

Používateľský agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /tag
hostiteľ: stránka
Sitemap: https://site/sitemap.xml

Ak chcete skontrolovať, či sme správne zostavili súbor robots.txt, odporúčam vám použiť službu Yandex Webmaster (povedal som vám, ako sa zaregistrovať v tejto službe).

Ideme do sekcie Nastavenia indexovania –> Analýza Robots.txt:

Už tam kliknite na tlačidlo „Stiahnuť robots.txt zo stránky“ a potom kliknite na tlačidlo „Skontrolovať“:

Ak sa vám zobrazí niečo ako nasledujúca správa, potom máte správny súbor robots.txt pre Yandex:

Najprv vám poviem, čo je robots.txt.

Robots.txt- súbor, ktorý sa nachádza v koreňovom priečinku lokality, kde špeciálne pokyny pre vyhľadávacích robotov. Tieto pokyny sú potrebné na to, aby robot pri vstupe na stránku nebral do úvahy stránku / sekciu, inými slovami, zatvorili sme stránku z indexovania.

Prečo je potrebný súbor robots.txt

Súbor robots.txt je považovaný za kľúčovú požiadavku pre SEO optimalizáciu absolútne akejkoľvek stránky. Absencia tohto súboru môže negatívne ovplyvniť záťaž robotmi a pomalé indexovanie, ba čo viac, stránka nebude úplne indexovaná. Používatelia preto nebudú môcť prejsť na stránky prostredníctvom služieb Yandex a Google.

Vplyv súboru robots.txt na vyhľadávače?

Vyhľadávače(najmä Google) bude stránku indexovať, ale ak neexistuje súbor robots.txt, potom, ako som povedal, nie všetky stránky. Ak takýto súbor existuje, potom sa roboty riadia pravidlami, ktoré sú špecifikované v tomto súbore. Okrem toho existuje niekoľko typov vyhľadávacích robotov, ak niektorí môžu brať do úvahy pravidlo, iní ho ignorujú. Najmä robot GoogleBot neberie do úvahy direktívy Host a Crawl-Delay, robot YandexNews nedávno prestal brať do úvahy direktívu Crawl-Delay a roboty YandexDirect a YandexVideoParser ignorujú všeobecne akceptované smernice v robots.txt (ale berte do úvahy tie, ktoré sú napísané špeciálne pre nich).

Stránku najviac načítavajú roboty, ktoré načítavajú obsah z vašej stránky. Podľa toho, ak robotovi povieme, ktoré stránky má indexovať a ktoré ignorovať, ako aj v akých časových intervaloch načítavať obsah zo stránok (to platí skôr pre veľké weby, ktoré majú v indexe vyhľadávača viac ako 100 000 stránok). To robotovi výrazne uľahčí indexovanie a načítanie obsahu zo stránky.


Súbory, ktoré súvisia s CMS, napríklad vo Wordpresse - /wp-admin/, možno klasifikovať ako nepotrebné pre vyhľadávače. Okrem toho ajax, json skripty zodpovedné za vyskakovacie formuláre, bannery, výstup captcha atď.

Pre väčšinu robotov tiež odporúčam, aby ste zatvorili všetky súbory Javascript a CSS z indexovania. Pre GoogleBot a Yandex je však lepšie takéto súbory indexovať, pretože ich používajú vyhľadávače na analýzu pohodlia stránky a jej hodnotenia.

Čo je to smernica robots.txt?



smernice- to sú pravidlá pre vyhľadávacích robotov. Prvé štandardy pre písanie robots.txt a preto sa objavili v roku 1994 a rozšírený štandard v roku 1996. Ako však už viete, nie všetky roboty podporujú určité smernice. Nižšie som preto popísal, čím sa riadia hlavní roboti pri indexovaní stránok webu.

Čo znamená používateľský agent?

Toto je najdôležitejšia smernica, ktorá určuje, pre ktoré vyhľadávacie roboty budú platiť ďalšie pravidlá.

Pre všetky roboty:

Pre konkrétneho robota:

Používateľský agent: Googlebot

Veľkosť písmen v súbore robots.txt nie je dôležitá, môžete napísať Googlebot aj googlebot

Prehľadávače Google







Vyhľadávacie roboty Yandex

Hlavný indexovací robot Yandex

Používa sa v službe Yandex.Images

Používa sa v službe Yandex.Video

multimediálne dáta

Blog Search

Indexový prehľadávač pristupujúci na stránku po jej pridaní prostredníctvom formulára „Pridať adresu URL“.

robot, ktorý indexuje ikony stránok (favicony)

Yandex.Direct

Yandex.Metrica

Používa sa v službe Yandex.Catalog

Používa sa v službe Yandex.News

YandexImageResizer

Vyhľadávací robot mobilných služieb

Vyhľadávacie roboty Bing, Yahoo, Mail.ru, Rambler

Direktívy Disallow a Allow

Disallow zatvorí sekcie a stránky vašej lokality pred indexovaním. Preto ich Allow, naopak, otvára.

Existuje niekoľko funkcií.

Po prvé, ďalšie operátory sú *, $ a #. Na čo slúžia?

“*” je ľubovoľný počet znakov a ich absencia. Štandardne je už na konci riadku, takže nemá zmysel dávať ho znova.

“$” - označuje, že znak pred ním musí prísť ako posledný.

“#” - komentár, všetko, čo nasleduje po tejto postave, robot ignoruje.

Príklady použitia Disallow:

Disallow: *?s=

Disallow: /category/

V súlade s tým vyhľadávací robot zatvorí stránky ako:

Stránky formulára však budú otvorené na indexovanie:

Teraz musíte pochopiť, ako sa vykonávajú vnorené pravidlá. Veľmi dôležité je poradie, v akom sú smernice napísané. Dedičnosť pravidiel je daná tým, ktoré adresáre sú špecifikované, čiže ak chceme stránku / dokument uzavrieť z indexovania, stačí napísať direktívu. Pozrime sa na príklad

Toto je náš súbor robots.txt

Disallow: /template/

Táto smernica je tiež uvedená kdekoľvek a môžete zaregistrovať niekoľko súborov sitemap.

Príkaz hostiteľa v súbore robots.txt

Táto smernica je potrebná na určenie hlavného zrkadla stránky (často s alebo bez www). poznač si to hostiteľskej smernicešpecifikované bez protokolu http://, ale s protokolom https://. Smernicu berú do úvahy iba vyhľadávacie roboty Yandex a Mail.ru, zatiaľ čo iné roboty, vrátane GoogleBot, nebudú brať do úvahy pravidlo. Hostiteľ na registráciu 1 krát v súbore robots.txt

Príklad s http://

Hostiteľ: www.website.ru

Príklad s https://

Smernica o oneskorenom prehľadávaní

Nastavuje časový interval indexovania stránok lokality vyhľadávacím robotom. Hodnota je uvedená v sekundách a milisekundách.

Príklad:

Používa sa najmä na veľkých internetových obchodoch, informačných stránkach, portáloch, kde je návštevnosť stránok od 5000 za deň. Je potrebné, aby vyhľadávací robot v určitom časovom období podal požiadavku na indexovanie. Ak túto direktívu nešpecifikujete, môže to spôsobiť vážne zaťaženie servera.

Optimálna hodnota oneskorenia indexového prehľadávania pre každú lokalitu je iná. Pre vyhľadávače Mail, Bing, Yahoo je možné hodnotu nastaviť minimálna hodnota 0,25, 0,3, keďže tieto roboty vyhľadávacích nástrojov môžu prehľadávať vašu stránku raz za mesiac, 2 mesiace atď. (veľmi zriedkavo). Pre Yandex je lepšie nastaviť väčšiu hodnotu.


Ak je zaťaženie vášho webu minimálne, potom nemá zmysel špecifikovať túto smernicu.

Smernica o čistých parametroch

Pravidlo je zaujímavé, pretože prehľadávaču hovorí, že stránky s určitými parametrami nie je potrebné indexovať. Zapisujú sa 2 argumenty: URL stránky a parameter. Táto smernica je podporovaná vyhľadávač Yandex.

Príklad:

Disallow: /admin/

Disallow: /plugins/

Disallow: /search/

Disallow: /košík/

Disallow: *sort=

Disallow: *view=

Používateľský agent: GoogleBot

Disallow: /admin/

Disallow: /plugins/

Disallow: /search/

Disallow: /košík/

Disallow: *sort=

Disallow: *view=

Povoliť: /plugins/*.css

Povoliť: /plugins/*.js

Povoliť: /plugins/*.png

Povoliť: /plugins/*.jpg

Povoliť: /plugins/*.gif

Používateľský agent: Yandex

Disallow: /admin/

Disallow: /plugins/

Disallow: /search/

Disallow: /košík/

Disallow: *sort=

Disallow: *view=

Povoliť: /plugins/*.css

Povoliť: /plugins/*.js

Povoliť: /plugins/*.png

Povoliť: /plugins/*.jpg

Povoliť: /plugins/*.gif

Clean-Param: utm_source&utm_medium&utm_campaign

V príklade sme napísali pravidlá pre 3 rôznych botov.

Kam pridať súbor robots.txt?

Pridané do koreňový priečinok stránky. Okrem toho, aby za ním mohol nasledovať odkaz:

Ako skontrolovať súbor robots.txt?

Správca webu Yandex

Na karte Nástroje vyberte položku Analyzovať súbor robots.txt a potom kliknite na tlačidlo Skontrolovať

Google Search Console

Na karte Skenovanie vyberte si nástroj na kontrolu súboru robots.txt a potom kliknite na skontrolovať.

Záver:

Súbor robots.txt musí byť povinný na každej propagovanej stránke a iba jeho správna konfigurácia vám umožní získať potrebné indexovanie.

A na záver, ak máte nejaké otázky, opýtajte sa ich v komentároch pod článkom a tiež ma zaujíma, ako sa píše robots.txt?