Pre väčšinu stránok sa vyžaduje súbor robot.txt.
Každý SEO-optimalizátor by mal rozumieť významu tohto súboru, ako aj vedieť predpísať najžiadanejšie direktívy.
Správne zostavené roboty zlepšujú pozíciu stránky vo výsledkoch vyhľadávania a okrem iných spôsobov propagácie sú účinným nástrojom SEO.
Aby sme pochopili, čo je robot.txt a ako funguje, pripomeňme si, ako fungujú vyhľadávače.
Ak to chcete skontrolovať, zadajte do panela s adresou koreňovú doménu a na koniec adresy URL pridajte súbor /robots.txt.
Napríklad súbor robota Moz sa nachádza na adrese: moz.com/robots.txt. Vstúpime a dostaneme stránku:
Pokyny pre "robota"
Ako vytvoriť súbor robots.txt?
3 typy pokynov pre súbor robots.txt.
Ak zistíte, že súbor robots.txt chýba, jeho vytvorenie je jednoduché.
Ako už bolo spomenuté na začiatku článku, ide o bežný textový súbor v koreňovom adresári stránky.
Dá sa to urobiť cez admin panel alebo cez správcu súborov, s ktorým programátor pracuje so súbormi na stránke.
Ako a čo tam predpísať, zistíme v priebehu článku.
Vyhľadávacie nástroje dostávajú z tohto súboru tri typy pokynov:
- skenovať všetko, tzn plný prístup(Povoliť);
- nič sa nedá skenovať - úplný zákaz (Disallow);
- nie je možné skenovať jednotlivé prvky (ktoré sú označené) - čiastočný prístup.
V praxi to vyzerá takto:
Upozorňujeme, že stránka sa stále môže dostať do SERP, ak má odkaz nainštalovaný na tejto stránke alebo mimo nej.
Aby sme tomu lepšie porozumeli, preštudujme si syntax tohto súboru.
Syntax Robots.Txt
Robots.txt: ako to vyzerá?
Dôležité body: čo by ste si mali vždy pamätať o robotoch.
Sedem bežných výrazov, ktoré sa často vyskytujú na webových stránkach.
Vo svojej najjednoduchšej podobe vyzerá robot takto:
Používateľský agent: [názov systému, pre ktorý píšeme smernice] Disallow: Sitemap: [uveďte, kde máme súbor Sitemap] # Pravidlo 1 Používateľský agent: Googlebot Disallow: /prim1/ Sitemap: http://www.nashsite.com / sitemap.xml
Spoločne sa tieto tri riadky považujú za najjednoduchší súbor robots.txt.
Tu sme robotovi zabránili v indexovaní adresy URL: http://www.nashsite.com/prim1/ a uviedli sme, kde sa nachádza mapa lokality.
Poznámka: v súbore robots je množina direktív pre jedného používateľského agenta (vyhľadávač) oddelená od množiny direktív pre iného zalomením riadku.
V súbore s niekoľkými príkazmi vyhľadávacieho nástroja sa každý zákaz alebo povolenie vzťahuje iba na vyhľadávací nástroj uvedený v danom konkrétnom bloku riadkov.
to dôležitý bod a na to sa nesmie zabudnúť.
Ak súbor obsahuje pravidlá, ktoré sa vzťahujú na viacero používateľských agentov, systém uprednostní príkazy, ktoré sú špecifické pre zadaný vyhľadávací nástroj.
Tu je príklad:
Na obrázku vyššie majú MSNbot, discobot a Slurp individuálne pravidlá, ktoré budú fungovať len pre tieto vyhľadávače.
Všetci ostatní user-agenti sa riadia všeobecnými pokynmi v user-agent: * group.
Syntax súboru robots.txt je úplne jednoduchá.
Existuje sedem všeobecných výrazov, ktoré sa často nachádzajú na webových stránkach.
- User-agent: Špecifický webový vyhľadávací nástroj (bot vyhľadávacieho nástroja), ktorého indexové prehľadávanie dávate pokyn. Zoznam väčšiny používateľských agentov nájdete tu. Celkovo má 302 systémov, z ktorých dva sú najrelevantnejšie - Google a Yandex.
- Disallow: Príkaz disallow, ktorý hovorí agentovi, aby nenavštevoval adresu URL. Na každú adresu URL je povolený iba jeden riadok „disallow“.
- Povoliť (platí len pre Googlebota): Príkaz informuje robota, že má prístup k stránke alebo podpriečinku, aj keď bola jeho nadradená stránka alebo podpriečinok zatvorená.
- Oneskorenie indexového prehľadávania: Koľko milisekúnd by mal vyhľadávací nástroj čakať pred načítaním a indexovým prehľadávaním obsahu stránky.
Upozorňujeme, že robot Googlebot tento príkaz nepodporuje, ale rýchlosť indexového prehľadávania možno manuálne nastaviť v konzole Google Search Console.
- Sitemap: Používa sa na volanie umiestnenia akýchkoľvek máp XML spojených s touto adresou URL. Tento príkaz podporujú iba Google, Ask, Bing a Yahoo.
- Host: táto smernica špecifikuje hlavné zrkadlo stránky, ktoré by sa malo brať do úvahy pri indexovaní. Dá sa napísať len raz.
- Clean-param: Tento príkaz sa používa na riešenie duplicitného obsahu pri dynamickom adresovaní.
Regulárne výrazy
Regulárne výrazy: ako vyzerajú a čo znamenajú.
Ako povoliť a zakázať prehľadávanie v súbore robots.txt.
V praxi môžu súbory robots.txt rásť a stať sa pomerne zložitými a nepraktickými.
Systém umožňuje používať regulárne výrazy poskytnúť požadovanú funkcionalitu súboru, teda flexibilne pracovať so stránkami a podpriečinkami.
- * je zástupný znak, čo znamená, že smernica funguje pre všetky vyhľadávacie roboty;
- $ sa zhoduje s koncom URL alebo reťazca;
- # používa sa na komentáre vývojárov a optimalizátorov.
Tu je niekoľko príkladov súboru robots.txt pre http://www.nashsite.com
Webová adresa súboru Robots.txt: www.nashsite.com/robots.txt
User-agent: * (t. j. pre všetky vyhľadávacie nástroje) Disallow: / (lomka označuje koreňový adresár stránky)
Práve sme zakázali všetkým vyhľadávacím nástrojom prehľadávať a indexovať celú stránku.
Ako často sa táto akcia vyžaduje?
Zriedkavo, ale sú chvíle, keď je potrebné, aby sa zdroj nezúčastnil Výsledky vyhľadávania a návštevy sa uskutočnili prostredníctvom špeciálnych odkazov alebo prostredníctvom firemného povolenia.
Takto fungujú interné stránky niektorých firiem.
Okrem toho je takáto smernica predpísaná, ak je lokalita vo vývoji alebo modernizácii.
Ak potrebujete povoliť vyhľadávaciemu nástroju prehľadávať všetko na stránke, musíte do súboru robots.txt napísať nasledujúce príkazy:
User-agent: * Disallow:
V zákaze nie je nič (disallow), čo znamená, že všetko je možné.
Použitie tejto syntaxe v súbore robots.txt umožňuje prehľadávačom prehľadávať všetky stránky na http://www.nashsite.com vrátane domovskej stránke, admin a kontakty.
Blokovanie konkrétnych vyhľadávacích robotov a jednotlivých priečinkov
Syntax pre vyhľadávač Google (Googlebot).
Syntax pre iných vyhľadávacích agentov.
User-agent: Googlebot Disallow: /example-subfolder/
Táto syntax iba špecifikuje Vyhľadávač Google(Googlebot), že nepotrebujete indexovo prehľadávať adresu: www.nashsite.com/example-subfolder/.
Blokovanie jednotlivých stránok pre zadaných robotov:
User-agent: Bingbot Disallow: /example-subfolder/blocked-page.html
Táto syntax hovorí, že iba Bingbot (názov prehľadávača Bing) by nemal navštíviť stránku na adrese: www.nashsite.com /example-subfolder/blocked-page.
V skutočnosti je to všetko.
Ak ovládate týchto sedem príkazov a tri symboly a rozumiete aplikačnej logike, môžete napísať správny súbor robots.txt.
Prečo to nefunguje a čo robiť
Algoritmus hlavnej akcie.
Iné metódy.
Nesprávne správanie súboru robots.txt je problém.
Koniec koncov, bude chvíľu trvať, kým identifikujete chybu a potom na ňu prídete.
Znovu si prečítajte súbor a uistite sa, že ste nezablokovali nič navyše.
Ak sa po chvíli ukáže, že stránka stále visí vo výsledkoch vyhľadávania, pozrite sa do správcu webu Google, či bola stránka znova indexovaná vyhľadávacím nástrojom, a skontrolujte, či neexistujú nejaké externé odkazy na zatvorenú stránku.
Pretože ak sú, potom bude ťažšie skryť ho z výsledkov vyhľadávania, budú potrebné iné metódy.
Pred použitím skontrolujte tento súbor pomocou bezplatného testera od spoločnosti Google.
Včasná analýza pomáha predchádzať problémom a šetrí čas.
Vydali sme novú knihu „Content Marketing in v sociálnych sieťach: Ako sa dostať do hlavy predplatiteľov a zamilovať si svoju značku.
Robots.txt je textový súbor, ktorý obsahuje informácie pre prehľadávače, ktoré pomáhajú indexovať portálové stránky.
Viac videí na našom kanáli - naučte sa internetový marketing so SEMANTICOU
Predstavte si, že ste na honbe za pokladom na ostrove. Máš mapu. Trasa je tam vyznačená: „Priblížte sa k veľkému pňu. Z nej urobte 10 krokov na východ, potom sa dostaňte k útesu. Odbočte doprava, nájdite jaskyňu."
Toto sú pokyny. Po nich nasledujete trasu a nájdete poklad. Vyhľadávací robot tiež funguje približne rovnakým spôsobom, keď začne indexovať web alebo stránku. Nájde súbor robots.txt. Číta, ktoré stránky by sa mali indexovať a ktoré nie. A podľa týchto príkazov obíde portál a pridá jeho stránky do indexu.
Na čo slúži robots.txt?
Začnú navštevovať stránky a indexovať stránky po nahratí stránky na hosting a zaregistrovaní DNS. Robia svoju prácu bez ohľadu na to, či nejakú máte technické súbory alebo nie. Roboti vyhľadávačom naznačujú, že pri prehľadávaní webovej stránky musia brať do úvahy parametre, ktoré sa na nej nachádzajú.
Neprítomnosť súboru robots.txt môže viesť k problémom s rýchlosťou prehľadávania stránky a k výskytu odpadu v indexe. Nesprávna konfigurácia súboru je spojená s vylúčením dôležitých častí zdroja z indexu a prítomnosťou nepotrebných stránok vo výsledkoch vyhľadávania.
To všetko vedie k problémom s propagáciou.
Pozrime sa bližšie na to, aké pokyny obsahuje tento súbor a ako ovplyvňujú správanie robota na vašom webe.
Ako vytvoriť súbor robots.txt
Najprv skontrolujte, či máte tento súbor.
Zadajte adresný riadok adresa prehliadača stránky a cez lomku názov súboru, napríklad https://www.xxxxx.ru/robots.txt
Ak je súbor prítomný, na obrazovke sa zobrazí zoznam jeho parametrov.
Ak súbor neexistuje:
- Súbor sa vytvorí v obyčajnom textovom editore, ako je Poznámkový blok alebo Poznámkový blok ++.
- Musíte nastaviť názov robota, príponu.txt. Zadajte údaje v súlade s akceptovanými štandardmi formátovania.
- Chyby môžete skontrolovať pomocou služieb, ako je webmaster Yandex. Tam musíte v sekcii "Nástroje" vybrať položku "Analyze robots.txt" a postupovať podľa pokynov.
- Keď je súbor pripravený, nahrajte ho do koreňového adresára lokality.
Pravidlá prispôsobenia
Vyhľadávače majú viac ako jedného robota. Niektoré roboty iba indexujú textový obsah, niektoré - iba grafické. A samotné vyhľadávače môžu mať rôzne schémy fungovania prehľadávačov. Toto je potrebné vziať do úvahy pri zostavovaní súboru.
Niektorí z nich môžu ignorovať niektoré pravidlá, napríklad GoogleBot nereaguje na informácie o tom, ktoré zrkadlo stránky sa považuje za hlavné. Ale vo všeobecnosti vnímajú a riadia sa súborom.
Syntax súboru
Parametre dokumentu: meno robota (bota) "User-agent", príkazy: povolenie "Povoliť" a zákaz "Zakázať".
Teraz existujú dva kľúčové vyhľadávacie nástroje: Yandex a Google, pri zostavovaní stránky je dôležité vziať do úvahy požiadavky oboch.
Formát na vytváranie záznamov je nasledujúci, všimnite si požadované medzery a prázdne riadky.
Direktíva používateľského agenta
Robot hľadá položky, ktoré začínajú User-agent, musia obsahovať označenie mena vyhľadávacieho robota. Ak nie je zadaný, prístup robotov sa považuje za neobmedzený.
Direktívy Disallow a Allow
Ak potrebujete zakázať indexovanie v súbore robots.txt, použite možnosť Disallow. S jeho pomocou obmedzujú prístup robota na stránku alebo do niektorých sekcií.
Ak robots.txt neobsahuje ani jednu direktívu „Disallow“, má sa za to, že indexovanie celej stránky je povolené. Zvyčajne sa zákazy píšu za každým robotom zvlášť.
Všetky informácie za znakom # sú komentárom a nie sú strojovo čitateľné.
Povoliť sa používa na povolenie prístupu.
Symbol hviezdičky znamená, že sa vzťahuje na všetky: User-agent: *.
Táto možnosť naopak znamená úplný zákaz indexovania pre každého.
Zabrániť prezeraniu celého obsahu konkrétneho priečinka adresára
Ak chcete zablokovať jeden súbor, musíte zadať jeho absolútnu cestu
Smernice Sitemap, Host
Pre Yandex je obvyklé uviesť, ktoré zrkadlo chcete označiť ako hlavné. A Google, ako si pamätáme, to ignoruje. Ak neexistujú žiadne zrkadlá, opravte, ako si myslíte, že je správne napísať názov vašej webovej stránky s alebo bez www.
Smernica o čistých parametroch
Môže sa použiť, ak adresy URL webových stránok obsahujú premenlivé parametre, ktoré neovplyvňujú ich obsah (môžu to byť ID používateľov, referrery).
Napríklad v adrese stránky „ref“ definuje zdroj návštevnosti, t.j. označuje, odkiaľ návštevník prišiel na stránku. Stránka bude rovnaká pre všetkých používateľov.
Robot môže byť na to nasmerovaný a nebude sťahovať duplicitné informácie. Tým sa zníži zaťaženie servera.
Smernica o oneskorenom prehľadávaní
S pomocou môžete určiť, s akou frekvenciou bude robot načítavať stránky na analýzu. Tento príkaz sa používa, keď je server preťažený a označuje, že proces obchádzania je potrebné urýchliť.
chyby v súbore robots.txt
- Súbor sa nenachádza v koreňovom adresári. Robot to nebude hľadať hlbšie a nebude to brať do úvahy.
- Písmená v názve musia byť malé latinky.
Chyba v názve, občas im chýba písmeno S na konci a napíšu robot. - V súbore robots.txt nemôžete použiť znaky cyriliky. Ak potrebujete zadať doménu v ruštine, použite formát v špeciálnom kódovaní Punycode.
- Toto je metóda na konverziu názvov domén na sekvenciu znakov ASCII. Na tento účel môžete použiť špeciálne prevodníky.
Toto kódovanie vyzerá takto:
website.rf = xn--80aswg.xn--p1ai
Ďalšie informácie o tom, čo treba zatvoriť v súbore robots txt a o nastaveniach v súlade s požiadavkami vyhľadávacích nástrojov Google a Yandex, nájdete v referenčných dokumentoch. Rôzne cm môžu mať tiež svoje vlastné charakteristiky, to by sa malo vziať do úvahy.
Robots.txt- toto je textový súbor, ktorý sa nachádza v koreňovom adresári stránky - http://site.ru/robots.txt. Jeho hlavným účelom je nastaviť určité smernice pre vyhľadávače – čo a kedy na stránke robiť.
Najjednoduchší súbor Robots.txt
Najjednoduchší súbor robots.txt , ktorý umožňuje všetkým vyhľadávacím nástrojom indexovať všetko, vyzerá takto:
User-agent: *
Zakázať:
Ak direktíva Disallow nemá na konci lomku, potom je povolené indexovanie všetkých stránok.
Táto smernica úplne zakazuje indexovanie stránky:
User-agent: *
Disallow: /
User-agent - označuje, pre koho sú smernice určené, hviezdička označuje, že pre všetky PS, pre Yandex uveďte User-agent: Yandex.
Pomocník Yandex hovorí, že jeho prehľadávače spracovávajú User-agent: * , ale ak je prítomný User-agent: Yandex, User-agent: * sa ignoruje.
Direktívy Disallow a Allow
Existujú dve hlavné smernice:
Zakázať – zakázať
Povoliť - povoliť
Príklad: Na blogu sme zakázali indexovať priečinok /wp-content/, kde sa nachádzajú súbory pluginov, šablóny atď. Existujú však aj obrázky, ktoré musí PS indexovať, aby sa mohli zúčastniť vyhľadávania obrázkov. Ak to chcete urobiť, musíte použiť nasledujúcu schému:
User-agent: *
Povoliť: /wp-content/uploads/ # Umožnite indexovanie obrázkov v priečinku odovzdávania
Disallow : /wp-content/
Poradie, v ktorom sa používajú smernice, je dôležité pre Yandex, ak sa vzťahujú na rovnaké stránky alebo priečinky. Ak zadáte takto:
User-agent: *
Disallow : /wp-content/
Povoliť: /wp-content/uploads/
Robot Yandex nenačíta obrázky z adresára /uploads/, pretože sa vykonáva prvá direktíva, ktorá zakazuje všetok prístup k priečinku wp-content.
Google to robí jednoducho a riadi sa všetkými pokynmi súboru robots.txt bez ohľadu na ich umiestnenie.
Tiež nezabudnite, že direktívy s lomkou a bez lomky plnia inú úlohu:
Disallow: /about Zamietne prístup k celému adresáru site.ru/about/ a stránky, ktoré obsahujú o - site.ru/about.html , site.ru/aboutlive.html atď., nebudú indexované.
Disallow: /about/ Zakáže robotom indexovať stránky v adresári site.ru/about/ a stránky ako site.ru/about.html atď. bude k dispozícii na indexovanie.
Regulárne výrazy v súbore robots.txt
Podporované sú dva znaky, a to:
* - znamená akékoľvek poradie znakov.
Príklad:
Disallow: /about* odmietne prístup na všetky stránky, ktoré obsahujú asi v zásade a bez hviezdičky bude fungovať aj takáto smernica. V niektorých prípadoch však tento výraz nie je možné nahradiť. Napríklad v jednej kategórii sú stránky s .html na konci a bez, aby sme zatvorili všetky stránky, ktoré obsahujú html z indexovania, napíšeme nasledujúcu direktívu:
Disallow : /about/*.html
Teraz je stránka site.ru/about/live.html uzavretá z indexovania a stránka site.ru/about/live je otvorená.
Ďalší príklad analógie:
Používateľský agent: Yandex
Povoliť : /about/*.html #povoliť indexovanie
Disallow : /about/
Všetky stránky budú zatvorené, okrem stránok, ktoré končia príponou .html
$ - zvyšok odstrihne a označí koniec vlasca.
Príklad:
Disallow: /about- Táto direktíva robots.txt zakazuje indexovanie všetkých stránok, ktoré začínajú asi , ako aj stránky v adresári /about/.
Pridaním znaku dolára na koniec - Disallow: /about$ povieme robotom, že nemožno indexovať iba stránku /about, ale adresár /about/, stránky /aboutlive atď. možno indexovať.
Smernica o mapách stránok
Táto smernica špecifikuje cestu k súboru Sitemap takto:
Mapa stránok: http://site.ru/sitemap.xml
hostiteľskej smernice
Špecifikované v tomto formulári:
Hostiteľ: site.ru
Bez http:// , lomiek a podobne. Ak máte hlavnú zrkadlovú stránku s www, napíšte:
Príklad súboru Robots.txt pre Bitrix
User-agent: *
Disallow: /*index.php$
Disallow: /bitrix/
Disallow: /auth/
Zakázať: /osobné/
Disallow: /upload/
Disallow: /search/
Disallow: /*/search/
Disallow: /*/slide_show/
Disallow: /*/gallery/*order=*
Disallow: /*?*
Disallow: /*&print=
Disallow: /*register=
Disallow: /*zabudnuté_heslo=
Disallow: /*change_password=
Disallow: /*login=
Disallow: /*logout=
Disallow: /*auth=
Disallow: /*akcia=*
Disallow: /*bitrix_*=
Disallow: /*backurl=*
Disallow: /*BACKURL=*
Disallow: /*back_url=*
Disallow: /*BACK_URL=*
Disallow: /*back_url_admin=*
Disallow: /*print_course=Y
Disallow: /*COURSE_ID=
Disallow: /*PAGEN_*
Disallow: /*PAGE_*
Disallow: /*SHOWALL
Disallow: /*show_all=
Hostiteľ: sitename.com
Sitemap: https://www.sitename.ru/sitemap.xml
Príklad WordPress robots.txt
Potom, čo boli pridané všetky potrebné smernice opísané vyššie. Mali by ste skončiť so súborom robots takto:
Toto je takpovediac základná verzia robots.txt pre wordpress. Sú tu dvaja User-agenti – jeden pre každého a druhý pre Yandex, kde je špecifikovaná hostiteľská smernica.
metaznačky robotov
Stránku alebo web je možné zatvoriť z indexovania nielen pomocou súboru robots.txt, ale aj pomocou metaznačky.
<meta name = "roboty" content = "noindex,nofollow" >
Musíte ho zaregistrovať v tagu a tento meta tag zakáže indexovanie stránky. Vo WordPresse sú pluginy, ktoré umožňujú nastaviť si takéto meta tagy, napríklad – Platinum Seo Pack. S ním môžete zatvoriť akúkoľvek stránku z indexovania, používa metaznačky.
Smernica o oneskorenom prehľadávaní
Pomocou tejto smernice môžete nastaviť čas, počas ktorého má byť vyhľadávací robot prerušený medzi sťahovaním stránok lokality.
User-agent: *
Oneskorenie indexového prehľadávania: 5
Časový limit medzi dvoma načítaniami stránky bude 5 sekúnd. Aby sa znížilo zaťaženie servera, zvyčajne ho nastavujú na 15-20 sekúnd. Táto smernica je potrebná pre veľké, často aktualizované stránky, kde vyhľadávacie roboty len „žijú“.
Pre bežné stránky/blogy táto smernica nie je potrebná, ale môžete tak obmedziť správanie iných irelevantných vyhľadávacích robotov (Rambler, Yahoo, Bing) atď. Koniec koncov, tiež navštívia stránku a indexujú ju, čím vytvárajú zaťaženie servera.
Ahojte všetci! Dnes by som vám chcel povedať o súbor robots.txt. Áno, na internete sa o ňom píše veľa vecí, ale úprimne povedané, ja sám veľmi na dlhú dobu Nevedel som prísť na to, ako vytvoriť správny súbor robots.txt. Nakoniec som si jeden vyrobil a je na všetkých mojich blogoch. S robots.txt som nezaznamenal žiadne problémy, funguje to dobre.
Robots.txt pre WordPress
A prečo vlastne potrebujeme súbor robots.txt? Odpoveď je stále rovnaká -. To znamená, že kompilácia robots.txt je jednou z častí optimalizácia pre vyhľadávače stránky (mimochodom, veľmi skoro tu bude lekcia, ktorá bude venovaná celej internej optimalizácii stránky WordPress. Preto sa nezabudnite prihlásiť na odber RSS, aby ste nezmeškali zaujímavé materiály.).
Jedna z funkcií daný súbor – zákaz indexovania nepotrebné stránky webu. Nastavuje tiež adresu a predpisuje hlavné zrkadlo stránky(webová stránka s www alebo bez www).
Poznámka: pre vyhľadávače sú rovnaké stránky s www a bez www úplne odlišné stránky. Ale uvedomujúc si, že obsah týchto stránok je rovnaký, vyhľadávače ich „zlepia“ dokopy. Preto je dôležité zaregistrovať hlavné zrkadlo stránky v súbore robots.txt. Ak chcete zistiť, ktorá je hlavná (s www alebo bez www), stačí do prehliadača zadať adresu vašej stránky, napríklad s www, ak ste automaticky presmerovaní na rovnakú stránku bez www, potom hlavné zrkadlo vaše stránky bez www. Dúfam, že som to vysvetlil správne.
Tak toto sa mi páčilo, správny súbor robots.txt pre wordpress Môžete vidieť nižšie.
Opravte súbor Robots.txt pre WordPress
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
Používateľský agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
hostiteľ: stránka
.gz
Sitemap: https://site/sitemap.xml
Všetko, čo je uvedené vyššie, musíte skopírovať textový dokument s príponou .txt, to znamená, že názov súboru by mal byť robots.txt. Tento textový dokument môžete vytvoriť napríklad pomocou programu. Len prosím nezabudni zmena v posledných troch riadkoch adresu na adresu vašej webovej stránky. Súbor robots.txt musí byť umiestnený v koreňovom adresári blogu, teda v rovnakom priečinku ako priečinky wp-content, wp-admin atď.
Tí, ktorí sú príliš leniví na to, aby to vytvorili textový súbor, stačí si stiahnuť robots.txt a tiež tam opraviť 3 riadky.
Chcem poznamenať, že v technických častiach, o ktorých sa bude diskutovať nižšie, sa nemusíte silne zaťažovať. Citujem ich pre „vedomosti“, takpovediac všeobecný rozhľad, aby vedeli, čo je potrebné a prečo.
Takže riadok:
user-agent
nastavuje pravidlá pre niektoré vyhľadávacie nástroje: napríklad „*“ (hviezdička) označuje, že pravidlá sú pre všetky vyhľadávače a čo je nižšie
Používateľský agent: Yandex
znamená, že tieto pravidlá sú len pre Yandex.
Zakázať
Tu „strčíte“ sekcie, ktoré NEMUSIA indexovať vyhľadávače. Napríklad na https://site/tag/seo stránke mám duplicitné články (opakovanie) s bežnými článkami a duplicitné stránky negatívne ovplyvňujú propagácia vyhľadávania, preto je veľmi žiaduce, aby tieto sektory boli uzavreté pred indexovaním, čo robíme pomocou tohto pravidla:
Disallow: /tag
Takže vo vyššie uvedenom súbore robots.txt sú takmer všetky nepotrebné sekcie webu WordPress uzavreté pred indexovaním, to znamená, že všetko nechajte tak, ako je.
Hostiteľ
Tu nastavujeme hlavné zrkadlo stránke, o ktorej som hovoril trochu vyššie.
Sitemap
V posledných dvoch riadkoch uvádzame adresu až dvoch máp stránok vytvorených pomocou .
Možné problémy
Ale kvôli tomuto riadku v súbore robots.txt už moje príspevky na stránke neboli indexované:
Disallow: /*?*
Ako vidíte, práve tento riadok v súbore robots.txt zakazuje indexovanie článkov, čo samozrejme vôbec nepotrebujeme. Ak to chcete opraviť, stačí odstrániť tieto 2 riadky (v pravidlách pre všetky vyhľadávače a pre Yandex) a konečný správny súbor robots.txt pre web WordPress bez CNC bude vyzerať takto:
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /tag
Používateľský agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /tag
hostiteľ: stránka
Sitemap: https://site/sitemap.xml
Ak chcete skontrolovať, či sme správne zostavili súbor robots.txt, odporúčam vám použiť službu Yandex Webmaster (povedal som vám, ako sa zaregistrovať v tejto službe).
Ideme do sekcie Nastavenia indexovania –> Analýza Robots.txt:
Už tam kliknite na tlačidlo „Stiahnuť robots.txt zo stránky“ a potom kliknite na tlačidlo „Skontrolovať“:
Ak sa vám zobrazí niečo ako nasledujúca správa, potom máte správny súbor robots.txt pre Yandex:
Najprv vám poviem, čo je robots.txt.
Robots.txt- súbor, ktorý sa nachádza v koreňovom priečinku lokality, kde špeciálne pokyny pre vyhľadávacích robotov. Tieto pokyny sú potrebné na to, aby robot pri vstupe na stránku nebral do úvahy stránku / sekciu, inými slovami, zatvorili sme stránku z indexovania.
Prečo je potrebný súbor robots.txt
Súbor robots.txt je považovaný za kľúčovú požiadavku pre SEO optimalizáciu absolútne akejkoľvek stránky. Absencia tohto súboru môže negatívne ovplyvniť záťaž robotmi a pomalé indexovanie, ba čo viac, stránka nebude úplne indexovaná. Používatelia preto nebudú môcť prejsť na stránky prostredníctvom služieb Yandex a Google.
Vplyv súboru robots.txt na vyhľadávače?
Vyhľadávače(najmä Google) bude stránku indexovať, ale ak neexistuje súbor robots.txt, potom, ako som povedal, nie všetky stránky. Ak takýto súbor existuje, potom sa roboty riadia pravidlami, ktoré sú špecifikované v tomto súbore. Okrem toho existuje niekoľko typov vyhľadávacích robotov, ak niektorí môžu brať do úvahy pravidlo, iní ho ignorujú. Najmä robot GoogleBot neberie do úvahy direktívy Host a Crawl-Delay, robot YandexNews nedávno prestal brať do úvahy direktívu Crawl-Delay a roboty YandexDirect a YandexVideoParser ignorujú všeobecne akceptované smernice v robots.txt (ale berte do úvahy tie, ktoré sú napísané špeciálne pre nich).
Stránku najviac načítavajú roboty, ktoré načítavajú obsah z vašej stránky. Podľa toho, ak robotovi povieme, ktoré stránky má indexovať a ktoré ignorovať, ako aj v akých časových intervaloch načítavať obsah zo stránok (to platí skôr pre veľké weby, ktoré majú v indexe vyhľadávača viac ako 100 000 stránok). To robotovi výrazne uľahčí indexovanie a načítanie obsahu zo stránky.
Súbory, ktoré súvisia s CMS, napríklad vo Wordpresse - /wp-admin/, možno klasifikovať ako nepotrebné pre vyhľadávače. Okrem toho ajax, json skripty zodpovedné za vyskakovacie formuláre, bannery, výstup captcha atď.
Pre väčšinu robotov tiež odporúčam, aby ste zatvorili všetky súbory Javascript a CSS z indexovania. Pre GoogleBot a Yandex je však lepšie takéto súbory indexovať, pretože ich používajú vyhľadávače na analýzu pohodlia stránky a jej hodnotenia.
Čo je to smernica robots.txt?
smernice- to sú pravidlá pre vyhľadávacích robotov. Prvé štandardy pre písanie robots.txt a preto sa objavili v roku 1994 a rozšírený štandard v roku 1996. Ako však už viete, nie všetky roboty podporujú určité smernice. Nižšie som preto popísal, čím sa riadia hlavní roboti pri indexovaní stránok webu.
Čo znamená používateľský agent?
Toto je najdôležitejšia smernica, ktorá určuje, pre ktoré vyhľadávacie roboty budú platiť ďalšie pravidlá.
Pre všetky roboty:
Pre konkrétneho robota:
Používateľský agent: Googlebot
Veľkosť písmen v súbore robots.txt nie je dôležitá, môžete napísať Googlebot aj googlebot
Prehľadávače Google
Vyhľadávacie roboty Yandex
Hlavný indexovací robot Yandex |
|
Používa sa v službe Yandex.Images |
|
Používa sa v službe Yandex.Video |
|
multimediálne dáta |
|
Blog Search |
|
Indexový prehľadávač pristupujúci na stránku po jej pridaní prostredníctvom formulára „Pridať adresu URL“. |
|
robot, ktorý indexuje ikony stránok (favicony) |
|
Yandex.Direct |
|
Yandex.Metrica |
|
Používa sa v službe Yandex.Catalog |
|
Používa sa v službe Yandex.News |
|
YandexImageResizer |
Vyhľadávací robot mobilných služieb |
Vyhľadávacie roboty Bing, Yahoo, Mail.ru, Rambler
Direktívy Disallow a Allow
Disallow zatvorí sekcie a stránky vašej lokality pred indexovaním. Preto ich Allow, naopak, otvára.
Existuje niekoľko funkcií.
Po prvé, ďalšie operátory sú *, $ a #. Na čo slúžia?
“*” je ľubovoľný počet znakov a ich absencia. Štandardne je už na konci riadku, takže nemá zmysel dávať ho znova.
“$” - označuje, že znak pred ním musí prísť ako posledný.
“#” - komentár, všetko, čo nasleduje po tejto postave, robot ignoruje.
Príklady použitia Disallow:
Disallow: *?s=
Disallow: /category/
V súlade s tým vyhľadávací robot zatvorí stránky ako:
Stránky formulára však budú otvorené na indexovanie:
Teraz musíte pochopiť, ako sa vykonávajú vnorené pravidlá. Veľmi dôležité je poradie, v akom sú smernice napísané. Dedičnosť pravidiel je daná tým, ktoré adresáre sú špecifikované, čiže ak chceme stránku / dokument uzavrieť z indexovania, stačí napísať direktívu. Pozrime sa na príklad
Toto je náš súbor robots.txt
Disallow: /template/
Táto smernica je tiež uvedená kdekoľvek a môžete zaregistrovať niekoľko súborov sitemap.
Príkaz hostiteľa v súbore robots.txt
Táto smernica je potrebná na určenie hlavného zrkadla stránky (často s alebo bez www). poznač si to hostiteľskej smernicešpecifikované bez protokolu http://, ale s protokolom https://. Smernicu berú do úvahy iba vyhľadávacie roboty Yandex a Mail.ru, zatiaľ čo iné roboty, vrátane GoogleBot, nebudú brať do úvahy pravidlo. Hostiteľ na registráciu 1 krát v súbore robots.txt
Príklad s http://
Hostiteľ: www.website.ru
Príklad s https://
Smernica o oneskorenom prehľadávaní
Nastavuje časový interval indexovania stránok lokality vyhľadávacím robotom. Hodnota je uvedená v sekundách a milisekundách.
Príklad:
Používa sa najmä na veľkých internetových obchodoch, informačných stránkach, portáloch, kde je návštevnosť stránok od 5000 za deň. Je potrebné, aby vyhľadávací robot v určitom časovom období podal požiadavku na indexovanie. Ak túto direktívu nešpecifikujete, môže to spôsobiť vážne zaťaženie servera.
Optimálna hodnota oneskorenia indexového prehľadávania pre každú lokalitu je iná. Pre vyhľadávače Mail, Bing, Yahoo je možné hodnotu nastaviť minimálna hodnota 0,25, 0,3, keďže tieto roboty vyhľadávacích nástrojov môžu prehľadávať vašu stránku raz za mesiac, 2 mesiace atď. (veľmi zriedkavo). Pre Yandex je lepšie nastaviť väčšiu hodnotu.
Ak je zaťaženie vášho webu minimálne, potom nemá zmysel špecifikovať túto smernicu.
Smernica o čistých parametroch
Pravidlo je zaujímavé, pretože prehľadávaču hovorí, že stránky s určitými parametrami nie je potrebné indexovať. Zapisujú sa 2 argumenty: URL stránky a parameter. Táto smernica je podporovaná vyhľadávač Yandex.
Príklad:
Disallow: /admin/
Disallow: /plugins/
Disallow: /search/
Disallow: /košík/
Disallow: *sort=
Disallow: *view=
Používateľský agent: GoogleBot
Disallow: /admin/
Disallow: /plugins/
Disallow: /search/
Disallow: /košík/
Disallow: *sort=
Disallow: *view=
Povoliť: /plugins/*.css
Povoliť: /plugins/*.js
Povoliť: /plugins/*.png
Povoliť: /plugins/*.jpg
Povoliť: /plugins/*.gif
Používateľský agent: Yandex
Disallow: /admin/
Disallow: /plugins/
Disallow: /search/
Disallow: /košík/
Disallow: *sort=
Disallow: *view=
Povoliť: /plugins/*.css
Povoliť: /plugins/*.js
Povoliť: /plugins/*.png
Povoliť: /plugins/*.jpg
Povoliť: /plugins/*.gif
Clean-Param: utm_source&utm_medium&utm_campaign
V príklade sme napísali pravidlá pre 3 rôznych botov.
Kam pridať súbor robots.txt?
Pridané do koreňový priečinok stránky. Okrem toho, aby za ním mohol nasledovať odkaz:
Ako skontrolovať súbor robots.txt?
Správca webu Yandex
Na karte Nástroje vyberte položku Analyzovať súbor robots.txt a potom kliknite na tlačidlo Skontrolovať
Google Search Console
Na karte Skenovanie vyberte si nástroj na kontrolu súboru robots.txt a potom kliknite na skontrolovať.
Záver:
Súbor robots.txt musí byť povinný na každej propagovanej stránke a iba jeho správna konfigurácia vám umožní získať potrebné indexovanie.
A na záver, ak máte nejaké otázky, opýtajte sa ich v komentároch pod článkom a tiež ma zaujíma, ako sa píše robots.txt?