A SEO-ban nincsenek apróságok. Néha csak egy kis fájl, a Robots.txt, hatással lehet a webhely promóciójára.Ha azt szeretné, hogy webhelye indexelve legyen, hogy a keresőrobotok megkerüljék a szükséges oldalakat, akkor ajánlásokat kell írnia számukra.

"Lehetséges?", - kérdezed.Talán. Ehhez a webhelynek rendelkeznie kell robotok fájl.txt.Hogyan készítsünk fájlt robotok, konfigurálja és adja hozzá a webhelyet - megértjük ebben a cikkben.

Mi az a robots.txt és mire való

A Robots.txt a szokásos szöveges fájl , amely ajánlásokat tartalmaz a keresőrobotoknak: mely oldalakat érdemes feltérképezni és melyeket nem.

Fontos: a fájlnak UTF-8 kódolásúnak kell lennie, ellenkező esetben előfordulhat, hogy a keresőrobotok nem fogadják el.

Bekerül az indexbe az a webhely, amelyik nem rendelkezik ezzel a fájllal?Megteszi, de a robotok képesek „megragadni” azokat az oldalakat, amelyek nem kívánatosak a keresési eredmények között: például bejelentkezési oldalak, adminisztrációs panel, személyes felhasználói oldalak, tükrözési oldalak stb. Mindez "keresési szemétnek" számít:

Ha a keresési eredmények között személyes adatok is szerepelnek, akkor Ön és a webhely is szenvedhet. Egy másik pont - e fájl nélkül a webhely indexelése tovább tart.

A keresőpókokhoz háromféle parancs adható meg a Robots.txt fájlban:

  • a szkennelés tilos;
  • a szkennelés megengedett;
  • a szkennelés részben engedélyezett.

Mindez direktívák segítségével van megírva.

A megfelelő Robots.txt fájl létrehozása egy webhelyhez

A Robots.txt fájl egyszerűen létrehozható a Notepad programban, amely alapértelmezés szerint bármely számítógépen elérhető. Egy fájl felírása még egy kezdőnek is maximum fél órát vesz igénybe (ha ismeri a parancsokat).

Használhat más programokat is - például a Jegyzettömböt. Vannak még online szolgáltatások amely képes automatikusan generálni a fájlt. Például, mint plCYPR.com vagy Mediasova.

Csak meg kell adnia a webhely címét, mely keresőmotorokhoz kell szabályokat beállítani, a fő tükröt (www-vel vagy anélkül). Ezután a szerviz mindent maga csinál.

Személy szerint jobban szeretem a régi "nagyapa" módszert - a fájl manuális regisztrálását a Jegyzettömbben. Van egy „lusta módszer” is - hogy fejtörést okozzon a fejlesztőnek 🙂 De még ebben az esetben is ellenőriznie kell, hogy minden rendben van-e odaírva. Ezért gondoljuk ki, hogyan fordítsuk le ezt a fájlt, és hol kell elhelyezkednie.

A kész Robots.txt fájlnak a webhely gyökérmappájában kell lennie. Csak egy fájl, mappa nélkül:

Szeretné ellenőrizni, hogy megtalálható-e a webhelyén? Hajtson be címsor cím: site.ru/robots.txt. A következő oldal jelenik meg (ha a fájl létezik):

A fájl több, behúzással elválasztott blokkból áll. Minden blokk ajánlásokat tartalmaz a különböző keresőmotorok keresőrobotjai számára (plusz egy blokk a következővel: Általános szabályok mindenki számára), és egy külön blokk a webhelytérképre mutató hivatkozásokkal - Webhelytérkép.

Nem kell behúzni a blokkon belül egy keresőrobotra vonatkozó szabályokat.

Minden blokk a User-agent direktívával kezdődik.

Minden direktívát egy ":" jel (kettőspont), egy szóköz követ, amely után egy érték jelenik meg (például melyik oldalt kell bezárni az indexelésből).

Relatív oldalcímeket kell megadnia, nem abszolút címeket. Relatív - ez a "www.site.ru" nélkül van. Például le kell tiltania egy oldal indexelésétwww.site.ru/shop. Tehát a kettőspont után szóközt, perjelet és "bolt"-t teszünk:

Disallow: /shop.

A csillag (*) bármely karakterkészletet jelöl.

A dollárjel ($) a sor vége.

Dönthet úgy, hogy miért írjon egy fájlt a semmiből, ha bármelyik webhelyen megnyithatja, és egyszerűen másolhatja saját magának?

Minden webhelyhez egyedi szabályokat kell előírnia. Figyelembe kell venni a jellemzőket CMS. Például ugyanaz az adminisztrációs panel a /wp-admin címen található a WordPress motorban, egy másik címen más lesz. Ugyanez az egyes oldalak címeivel, oldaltérképpel és így tovább.

A Robots.txt fájl beállítása: indexelés, főtükör, direktívák

Amint azt a képernyőképen már láthatta, a User-agent direktíva az első. Azt jelzi, hogy az alábbi szabályok melyik keresőrobotra vonatkoznak.

User-agent: * - szabályok minden keresőrobotra, azaz bármely keresőmotorra (Google, Yandex, Bing, Rambler stb.).

User-agent: Googlebot – A Google keresőpók szabályait jelzi.

Felhasználói ügynök: Yandex - szabályok a Yandex keresőrobothoz.

Nincs különbség, hogy melyik keresőrobot írja le először a szabályokat. De általában minden robotra vonatkozó ajánlásokat írnak először.

Disallow: Indexelés tiltása

A webhely egészének vagy egyes oldalainak indexelésének letiltásához használja a Disallow utasítást.

Például teljesen bezárhatja a webhelyet az indexelésből (ha az erőforrás véglegesítése folyamatban van, és nem szeretné, hogy ebben az állapotban megjelenjen a keresési eredmények között). Ehhez írja be a következőket:

User-agent: *

letilt: /

Így minden keresőrobotnak tilos tartalmat indexelni az oldalon.

És így nyithat meg egy webhelyet indexelésre:

User-agent: *

Letiltás:

Ezért ellenőrizze, hogy van-e perjel a Disallow direktíva után, ha be akarja zárni a webhelyet. Ha később szeretné megnyitni - ne felejtse el eltávolítani a szabályt (és ez gyakran megtörténik).

Az egyes oldalak indexelésből való bezárásához meg kell adnia a címüket. Már írtam, hogyan kell:

User-agent: *

Disallow: /wp-admin

Így az adminisztrációs panel lezárásra került a webhelyen a harmadik fél nézetei elől.

Amit hiba nélkül be kell zárnia az indexelésből:

  • adminisztratív panel;
  • a felhasználók személyes oldalai;
  • kosarak;
  • webhelykeresési eredmények;
  • bejelentkezési, regisztrációs, engedélyezési oldalak.

Bezárhatja az indexelést és bizonyos típusú fájlokat. Tegyük fel, hogy van néhány .pdf fájl a webhelyén, amelyeket nem szeretne indexelni. A keresőrobotok pedig nagyon egyszerűen átvizsgálják az oldalra feltöltött fájlokat. Az alábbiak szerint zárhatja be őket az indexelésből:

User-agent: *

Disallow: /*. pdf$

Hogyan lehet megnyitni egy webhelyet indexeléshez

Még akkor is, ha egy webhely teljesen bezárt az indexelés elől, megnyithatja bizonyos fájlok vagy oldalak elérési útját a robotok számára. Tegyük fel, hogy újratervezi a webhelyet, de a szolgáltatások könyvtára érintetlen marad. Oda irányíthatja a keresőrobotokat, hogy továbbra is indexeljék a szakaszt. Ehhez az Allow direktívát használjuk:

User-agent: *

Engedélyezi: /services

letilt: /

Fő weboldal tükör

2018. március 20-ig a Yandex keresőrobot robots.txt fájljában meg kellett adni a fő webhelytükröt a Host direktíván keresztül. Most már nem kell ezt tennie – elég állítson be egy oldalról oldalra 301-es átirányítást .

Mi a fő tükör? Ez az Ön webhelyének fő címe – www-vel vagy anélkül. Ha nem állít be átirányítást, akkor mindkét oldal indexelve lesz, azaz minden oldal ismétlődő lesz.

Webhelytérkép: robots.txt webhelytérkép

Miután megírta a robotokra vonatkozó összes utasítást, meg kell adnia a webhelytérkép elérési útját. Az oldaltérkép megmutatja a robotoknak, hogy az összes indexelendő URL egy adott címen található. Például:

Webhelytérkép: site.ru/sitemap.xml

Amikor a robot feltérképezi a webhelyet, látni fogja, hogy milyen változtatásokat hajtottak végre ezen a fájlon. Ennek eredményeként az új oldalak gyorsabban lesznek indexelve.

Clean-param irányelv

2009-ben a Yandex új irányelvet vezetett be - a Clean-param. Olyan dinamikus paraméterek leírására használható, amelyek nem befolyásolják az oldalak tartalmát. Leggyakrabban ezt az irányelvet fórumokon használják. Itt sok a szemét, például session id, rendezési paraméterek. Ha regisztrálja ezt az utasítást, a Yandex keresőrobotja nem tölti le ismételten a megkettőzött információkat.

Ezt az utasítást bárhová beírhatja a robots.txt fájlba.

Azok a paraméterek, amelyeket a robotnak nem kell figyelembe vennie, az érték első részében vannak felsorolva a & jellel:

Tiszta paraméter: sid&sort /forum/viewforum.php

Ez az irányelv elkerüli az ismétlődő oldalakat dinamikus URL-ekkel (amelyek kérdőjelet tartalmaznak).

Feltérképezési késleltetési utasítás

Ez az irányelv azoknak a segítségére lesz, akiknek gyenge a szerverük.

A keresőrobot érkezése további terhelést jelent a szerveren. Ha nagy a webhely forgalma, akkor előfordulhat, hogy az erőforrás egyszerűen nem bírja el, és "fekszik". Ennek eredményeként a robot 5xx hibaüzenetet kap. Ha ez a helyzet folyamatosan ismétlődik, előfordulhat, hogy a keresőmotor nem működik a webhelyen.

Képzelje el, hogy dolgozik, és ezzel párhuzamosan folyamatosan fogadnia kell a hívásokat. Ekkor csökken a termelékenysége.

Ugyanígy a szerverrel.

Térjünk vissza az irányelvhez. A feltérképezési késleltetés lehetővé teszi, hogy késleltetést állítson be a webhely oldalainak vizsgálatában, hogy csökkentse a szerver terhelését. Más szóval, beállíthatja azt az időszakot, amely után a webhely oldalai betöltődnek. Ez a paraméter másodpercben, egész számként van megadva:

Nem minden modern webmester képes HTML-kóddal dolgozni. Sokan nem is tudják, hogyan nézzenek ki a kulcsfontosságú CMS-fájlokba írt függvények. Az erőforrás belső részei, például a robots.txt fájl olyan szellemi tulajdont képeznek, amelyben a tulajdonosnak olyannak kell lennie, mint hal a vízben. A webhely finomhangolása lehetővé teszi a keresési rangsor növelését, a csúcsra helyezést és a forgalom sikeres gyűjtését.

A robots.txt fájl az egyik fő eleme annak, hogy egy erőforrást a keresőmotorok követelményeihez igazítsunk. Ő tartalmaz technikai információés korlátozza a keresőrobotok hozzáférését számos oldalhoz. Végül is nem minden írott oldalnak kell szerepelnie a keresési eredmények között. Korábban FTP-hozzáférésre volt szükség a robots txt fájl létrehozásához. A CMS fejlesztése lehetővé tette a közvetlen hozzáférést a vezérlőpulton keresztül.

Mire való a robots.txt fájl?

Ez a fájl számos ajánlást tartalmaz a keresőrobotokra vonatkozóan. Korlátozza hozzáférésüket a webhely bizonyos részeihez. Mivel ez a fájl a gyökérkönyvtárban található, a robotok nem hagyhatják figyelmen kívül. Ennek eredményeként, amikor eljutnak az erőforráshoz, először elolvassák a feldolgozás szabályait, és csak ezután kezdik el az ellenőrzést.

Így a fájl jelzi a keresőrobotoknak, hogy mely webhelykönyvtárak indexelhetők, és melyek nem tartoznak a folyamat alá.

Mivel egy fájl jelenléte nem befolyásolja közvetlenül a rangsorolási folyamatot, sok webhely nem tartalmazza a robots.txt fájlt. De az út teljes hozzáférés műszakilag nem tekinthető helyesnek. Vessünk egy pillantást a robots.txt által egy erőforrás számára nyújtott előnyökre.

Megtilthatja az erőforrás egészének vagy részleges indexelését, korlátozhatja az indexelési joggal rendelkező keresőrobotok körét. Ha elrendeli a robots.txt fájlt, hogy tiltson le mindent, teljesen elkülönítheti az erőforrást a javítás vagy újjáépítés alatt.

A Google fejlesztői egyébként többször is emlékeztették a webmestereket, hogy a robots.txt fájl mérete nem haladhatja meg az 500 KB-ot. Ez minden bizonnyal indexelési hibákhoz vezet. Ha manuálisan hoz létre egy fájlt, akkor ezt a méretet "elérni" természetesen irreális. De itt van néhány CMS, amely automatikusan generálja a robots.txt tartalmát, és jelentősen túlterhelheti azt.

Egyszerű fájlkészítés bármely keresőmotorhoz

Ha félsz gyakorolni finomhangolás függetlenül, automatikusan végrehajtható. Vannak olyan konstruktőrök, amelyek az Ön részvétele nélkül gyűjtik az ilyen fájlokat. Olyan emberek számára alkalmasak, akik most kezdik webmesterként dolgozni.

Amint az a képen is látható, a konstruktor beállítása a webhely címének megadásával kezdődik. Ezután válassza ki azokat a keresőmotorokat, amelyekkel dolgozni szeretne. Ha egy adott keresőmotor kérdése nem fontos Önnek, akkor nem kell hozzá beállításokat létrehozni. Most folytassa a mappák és fájlok megadásával, amelyekhez korlátozni kívánja a hozzáférést. NÁL NÉL ezt a példát megadhatja az erőforrás térképének és tükrének címét.

A Robots.txt generátor kitölti az űrlapot, ahogy a konstruktor kitölti. A jövőben csak annyit kell tennie, hogy a kapott szöveget txt fájlba másolja. Ne felejtse el robotoknak nevezni.

A robots.txt fájl hatékonyságának ellenőrzése

Egy fájl hatásának elemzéséhez a Yandexben lépjen a Yandex.Webmaster szakasz megfelelő oldalára. A párbeszédpanelen adja meg a webhely nevét, és kattintson a "letöltés" gombra.

A rendszer elemzi a robots.txt fájlt, és ellenőrzi, hogy a keresőrobot megkerüli-e az indexeléstől tilos oldalakat. Probléma esetén a direktívák közvetlenül a párbeszédpanelen szerkeszthetők és ellenőrizhetők. Igaz, ezt követően a szerkesztett szöveget ki kell másolni, és be kell illeszteni a gyökérkönyvtárban lévő robots.txt fájlba.

Hasonló szolgáltatást nyújt a Google keresőjének „Webmestereszközök” szolgáltatása.

Robots.txt létrehozása WordPress, Joomla és Ucoz számára

Különböző CMS-ek, amelyek nagy népszerűségre tettek szert a Runeten, kínálják a felhasználóknak a robots.txt fájlok saját verzióját. Némelyikük egyáltalán nem rendelkezik ilyen fájlokkal. Ezek a fájlok gyakran vagy túl sokoldalúak, és nem veszik figyelembe a felhasználó erőforrásának jellemzőit, vagy számos jelentős hátrányuk van.

Egy tapasztalt szakember manuálisan javíthatja a helyzetet (ha hiányzik a tudás, jobb, ha ezt nem teszi meg). Ha fél elmélyülni az oldal belsejében, vegye igénybe kollégái szolgáltatásait. Az ilyen manipulációk a dolog ismeretében csak néhány percet vesznek igénybe. A robots.txt például így nézhet ki:

Az utolsó két sorban, ahogy sejthető, meg kell adnia a saját erőforrás adatait.

Következtetés

Számos készség van, amelyet minden webmesternek el kell sajátítania. És önkonfigurációés a weboldal karbantartása az egyik ilyen. A kezdő építészek feltörhetik az ilyen tűzifát egy erőforrás hibakeresése közben, amelyet később nem fog tudni megtisztítani. Ha nem szeretné elveszíteni potenciális közönségét és pozícióit a keresési eredmények között az oldal felépítése miatt, akkor alaposan és felelősségteljesen közelítse meg a felállítás folyamatát.

Először is elmondom, mi az a robots.txt.

Robots.txt- egy fájl, amely a webhely gyökérmappájában található, ahol Különleges utasítások keresőrobotoknak. Ezekre az utasításokra azért van szükség, hogy az oldalra való belépéskor a robot ne vegye figyelembe az oldalt/szakaszt, vagyis bezárjuk az oldalt az indexelés elől.

Miért van szükség a robots.txt fájlra?

A robots.txt fájl kulcsfontosságú követelménynek számít minden webhely SEO optimalizálásához. Ennek a fájlnak a hiánya negatívan befolyásolhatja a robotok által okozott terhelést és a lassú indexelést, sőt, még ennél is több, a webhely nem lesz teljesen indexelve. Ennek megfelelően a felhasználók nem léphetnek fel oldalakra a Yandexen és a Google-n keresztül.

A robots.txt hatása a keresőmotorokra?

Kereső motorok(főleg a Google) indexeli az oldalt, de ha nincs robots.txt fájl, akkor, mint mondtam, nem minden oldal. Ha van ilyen fájl, akkor a robotokat az ebben a fájlban megadott szabályok vezérlik. Sőt, többféle keresőrobot létezik, ha egyesek figyelembe tudják venni a szabályt, akkor mások figyelmen kívül hagyják. Különösen a GoogleBot robot nem veszi figyelembe a Host és a Crawl-Delay direktívákat, a YandexNews robot a közelmúltban nem veszi figyelembe a Crawl-Delay direktívát, a YandexDirect és a YandexVideoParser robotok pedig figyelmen kívül hagyják a robots.txt általánosan elfogadott direktíváit. (de vedd figyelembe azokat, amiket kifejezetten nekik írnak).

Az oldalt a legtöbbet olyan robotok töltik be, amelyek tartalmat töltenek be az Ön webhelyéről. Ennek megfelelően, ha megmondjuk a robotnak, hogy mely oldalakat indexelje és melyiket hagyja figyelmen kívül, valamint azt is, hogy milyen időközönként töltsön be tartalmat az oldalakról (ez inkább azokra a nagy oldalakra vonatkozik, amelyeknek több mint 100 000 oldala van a keresőmotor indexében). Ez sokkal könnyebbé teszi a robot számára a tartalom indexelését és betöltését az oldalról.


A CMS-hez kapcsolódó fájlok, például a Wordpressben - /wp-admin/, a keresőmotorok számára szükségtelennek minősíthetők. Ezen kívül ajax, json szkriptek, amelyek felelősek a felugró űrlapokért, bannerekért, captcha kimenetért stb.

A legtöbb robot számára azt is javaslom, hogy zárjon be minden Javascript- és CSS-fájlt az indexelésből. A GoogleBot és a Yandex esetében azonban jobb az ilyen fájlok indexelése, mivel a keresőmotorok a webhely kényelmét és rangsorolását elemzik.

Mi az a robots.txt direktíva?



irányelveket- ezek a keresőrobotokra vonatkozó szabályok. Az első szabványok a robots.txt írására és ennek megfelelően 1994-ben jelentek meg, egy kiterjesztett szabvány pedig 1996-ban. Azonban, mint már tudja, nem minden robot támogat bizonyos direktívákat. Ezért az alábbiakban leírtam, hogy a főbb robotokat mi vezérli az oldal oldalainak indexelésekor.

Mit jelent a user-agent?

Ez a legfontosabb irányelv, amely meghatározza, hogy mely keresőrobotokra vonatkozzanak további szabályok.

Minden robothoz:

Egy adott bothoz:

Felhasználói ügynök: Googlebot

A robots.txt fájlban a kis- és nagybetű nem fontos, írhatsz Googlebotot és googlebotot is

Google feltérképező robotok







Yandex keresőrobotok

A Yandex fő indexelő robotja

A Yandex.Images szolgáltatásban használatos

A Yandex.Video szolgáltatásban használatos

multimédiás adatok

Blogkeresés

Egy feltérképező robot, amely hozzáfér egy oldalhoz, amikor azt az „URL hozzáadása” űrlapon keresztül adják hozzá

robot, amely indexeli a webhely ikonjait (favicon)

Yandex.Direct

Yandex.Metrica

A Yandex.Catalog szolgáltatásban használatos

A Yandex.News szolgáltatásban használatos

YandexImageResizer

Mobilszolgáltatások keresőrobotja

Keresőrobotok: Bing, Yahoo, Mail.ru, Rambler

Disallow és Allow direktívák

A Disallow bezárja a webhely egyes részeit és oldalait az indexelésből. Ennek megfelelően az Allow éppen ellenkezőleg, megnyitja őket.

Van néhány funkció.

Először is a további operátorok a *, $ és #. Mire használják?

“*” tetszőleges számú karakter és ezek hiánya. Alapértelmezés szerint már a sor végén van, így nincs értelme újra feltenni.

“$” - azt jelzi, hogy az előtte lévő karakternek kell az utolsónak lennie.

“#” - megjegyzés, mindent, ami ez után a karakter után következik, a robot figyelmen kívül hagyja.

Példák a Disallow használatára:

Disallow: *?s=

Disallow: /category/

Ennek megfelelően a keresőrobot bezárja a következő oldalakat:

De az űrlap oldalai nyitva lesznek indexelésre:

Most meg kell értenie, hogyan hajtják végre a beágyazott szabályokat. Az irányelvek írásának sorrendje nagyon fontos. A szabályok öröklődését az határozza meg, hogy mely könyvtárakat adjuk meg, vagyis ha egy oldalt/dokumentumot be akarunk zárni az indexelésből, akkor elég egy direktívát írni. Nézzünk egy példát

Ez a mi robots.txt fájlunk

Disallow: /template/

Ez az utasítás is bárhol fel van tüntetve, és több webhelytérkép fájlt is regisztrálhat.

Host direktíva a robots.txt fájlban

Ennek az irányelvnek meg kell határoznia a webhely fő tükrét (gyakran www-vel vagy anélkül). Vegye figyelembe, hogy a gazdagép direktíva a http:// protokoll nélkül van megadva, de a https:// protokollal. Az irányelvet csak a Yandex és a Mail.ru keresőrobotjai veszik figyelembe, míg más robotok, köztük a GoogleBot nem veszik figyelembe a szabályt. A gazdagép 1 alkalommal regisztráljon a robots.txt fájlban

Példa: http://

Házigazda: www.website.ru

Példa https://

Feltérképezési késleltetési utasítás

Beállítja a webhelyoldalak keresőrobot általi indexelésének időtartamát. Az érték másodpercben és ezredmásodpercben van megadva.

Példa:

Főleg nagy online áruházakban, információs oldalakon, portálokon használják, ahol az oldal forgalom napi 5000-től. A keresőrobotnak bizonyos időn belül indexelési kérelmet kell benyújtania. Ha nem adja meg ezt az utasítást, akkor ez komoly terhelést okozhat a szerveren.

Az optimális feltérképezési késleltetés értéke minden webhelyhez eltérő. A Mail, Bing, Yahoo keresőmotoroknál az érték beállítható minimális érték 0,25, 0,3, mivel ezek a keresőrobotok havonta egyszer, 2 hónaponként és így tovább (nagyon ritkán) képesek feltérképezni az Ön webhelyét. A Yandex esetében jobb, ha nagyobb értéket állít be.


Ha a webhely terhelése minimális, akkor nincs értelme meghatározni ezt az irányelvet.

Clean-param irányelv

A szabály azért érdekes, mert azt mondja a bejárónak, hogy bizonyos paraméterekkel rendelkező oldalakat nem kell indexelni. 2 argumentum van írva: oldal URL és paraméter. Ezt az irányelvet a Yandex keresőmotorja támogatja.

Példa:

Disallow: /admin/

Disallow: /plugins/

Disallow: /search/

Disallow: /kosár/

Disallow: *sort=

Disallow: *view=

Felhasználói ügynök: GoogleBot

Disallow: /admin/

Disallow: /plugins/

Disallow: /search/

Disallow: /kosár/

Disallow: *sort=

Disallow: *view=

Engedélyezés: /plugins/*.css

Engedélyezés: /plugins/*.js

Engedélyezés: /plugins/*.png

Engedélyezés: /plugins/*.jpg

Engedélyezés: /plugins/*.gif

Felhasználói ügynök: Yandex

Disallow: /admin/

Disallow: /plugins/

Disallow: /search/

Disallow: /kosár/

Disallow: *sort=

Disallow: *view=

Engedélyezés: /plugins/*.css

Engedélyezés: /plugins/*.js

Engedélyezés: /plugins/*.png

Engedélyezés: /plugins/*.jpg

Engedélyezés: /plugins/*.gif

Clean-Param: utm_source&utm_medium&utm_campaign

A példában 3 különböző bothoz írtunk szabályokat.

Hova kell hozzáadni a robots.txt fájlt?

Hozzáadott gyökérkönyvtár webhely. Ezen kívül, hogy egy link követhesse:

Hogyan lehet ellenőrizni a robots.txt fájlt?

Yandex webmester

Az Eszközök lapon válassza a Robots.txt elemzése lehetőséget, majd kattintson az Ellenőrzés gombra

Google Search Console

A lapon Szkennelés választ robots.txt fájlellenőrző eszköz majd kattintson az ellenőrzés gombra.

Következtetés:

A robots.txt fájlnak kötelezőnek kell lennie minden hirdetett webhelyen, és csak a megfelelő konfiguráció teszi lehetővé a szükséges indexelést.

És végül, ha bármilyen kérdésed van, tedd fel a cikk alatti megjegyzésekben, és én is kíváncsi vagyok, hogyan írod meg a robots.txt fájlt?

Robots.txt egy szöveges fájl, amely speciális utasításokat tartalmaz a keresőrobotok számára, hogy felfedezzék webhelyét az interneten. Az ilyen utasításokat ún irányelveket- megtilthatja a webhely egyes oldalainak indexelését, jelezheti a domain helyes „tükrözését” stb.

A Nubex platformon futó webhelyek esetében a rendszer automatikusan létrehoz egy direktívákat tartalmazó fájlt, amely a domen.ru/robots.txt címen található, ahol a domen.ru Domain név site..ru/robots.txt.

A webhely adminisztrációs paneljén módosíthatja a robots.txt fájlt, és további utasításokat írhat elő a keresőmotorok számára. Ehhez válassza ki a részt a vezérlőpulton "Beállítások", és benne - pont SEO.

Keressen egy mezőt "A robots.txt fájl szövege"és írd bele a szükséges direktívákat. Célszerű bejelölni a "Hivatkozás hozzáadása az automatikusan generált sitemap.xml fájlhoz a robots.txt-ben" jelölőnégyzetet: így a keresőbot képes lesz betölteni az oldaltérképet és megtalálni az indexeléshez szükséges összes oldalt.

Alapvető utasítások a robots txt fájlhoz

A robots.txt betöltésekor a robot először a következővel kezdődő bejegyzést keresi user-agent: A mező értékének annak a robotnak a nevének kell lennie, amelynek hozzáférési jogosultságai ebben a bejegyzésben vannak beállítva. Azok. a User-agent direktíva egyfajta hívás a robotnak.

1. Ha a User-agent mező értéke a " szimbólumot tartalmazza * ”, akkor az ebben a bejegyzésben megadott hozzáférési jogok vonatkoznak minden olyan keresőrobotra, amely kéri a /robots.txt fájlt.

2. Ha egynél több robotnév van megadva a bejegyzésben, akkor a hozzáférési jogok az összes megadott névre kiterjednek.

3. A kis- vagy nagybetűk nem számítanak.

4. Ha a User-agent: BotName karakterlánc található, a User-agent: * direktívái nem lesznek figyelembe véve (ez a helyzet, ha több bejegyzést ad meg különböző robotokhoz). Azok. a robot először beolvassa a User-agent: MyName bejegyzés szövegét, és ha megtalálja, akkor követi az alábbi utasításokat; ha nem, akkor a User-agent utasításai szerint fog működni: * bejegyzés (minden botnál).

Egyébként minden új User-agent direktíva előtt ajánlatos beszúrni egy üres sort (Enter).

5. Ha a User-agent: BotName és a User-agent: * sorok hiányoznak, akkor a robothoz való hozzáférés nem korlátozott.

A webhely indexelésének tilalma és engedélyezése: Disallow és Allow utasítások

A keresőrobotok hozzáférésének megakadályozására vagy engedélyezésére a webhely bizonyos oldalaihoz direktívákat használnak Letiltásés lehetővé teszi illetőleg.

Ezen direktívák értéke határozza meg a szakasz teljes vagy részleges elérési útját:

  • Disallow: /admin/- tiltja az összes oldal indexelését az adminisztrációs részben;
  • Disallow: /help— tiltja mind a /help.html, mind a /help/index.html indexelését;
  • Disallow: /help/ - csak bezárja a /help/index.html fájlt;
  • letilt: /- blokkolja a hozzáférést a teljes webhelyhez.

Ha a Disallow érték nincs megadva, akkor a hozzáférés nincs korlátozva:

  • Letiltás:- az oldal összes oldalának indexelése megengedett.

Kivételek beállításához használhatja az engedélyezési direktívát. lehetővé teszi. Például egy ilyen bejegyzés megakadályozza, hogy a robotok a webhely összes részét indexeljék, kivéve azokat, amelyek elérési útja a /search karakterlánccal kezdődik:

Nem mindegy, hogy milyen sorrendben szerepelnek az indexelés tiltására és engedélyezésére vonatkozó utasítások. Olvasáskor a robot továbbra is az URL előtag hossza szerint rendezi őket (a legkisebbtől a legnagyobbig), és sorban alkalmazza őket. Vagyis a fenti példa a bot észlelésében így fog kinézni:

- csak a /search karakterrel kezdődő oldalak indexelhetők. Így az irányelvek sorrendje semmilyen módon nem befolyásolja az eredményt.

Host direktíva: hogyan kell megadni a fő webhely tartományát

Ha több domain név is kapcsolódik webhelyéhez (műszaki címek, tükrök stb.), a keresőmotor úgy dönthet, hogy ezek mind különböző webhelyek. És ugyanazzal a tartalommal. Megoldás? A fürdőbe! És az egyik bot tudja, hogy melyik domaint „büntetik” - a főt vagy a technikait.

A probléma elkerülése érdekében meg kell mondania a keresőrobotnak, hogy az Ön webhelye mely címek keresésében vesz részt. Ez a cím lesz a fő cím, a többi pedig a webhely tükreinek csoportját alkotja.

Ezzel megteheti fogadó direktívák. Hozzá kell adni a User-Agent kezdetű bejegyzéshez, közvetlenül a Disallow és Allow utasítások után. A Host direktíva értékében meg kell adni a fő tartományt egy portszámmal (alapértelmezés szerint 80). Például:

Házigazda: test-o-la-la.ru

Egy ilyen bejegyzés azt jelenti, hogy a webhely a test-o-la-la.ru domainre mutató hivatkozással jelenik meg a keresési eredmények között, nem pedig a www.test-o-la-la.ru és az s10364.. képernyőképen.

A Nubex konstruktorban a Host direktíva automatikusan hozzáadódik a robots.txt fájl szövegéhez, amikor az adminisztrációs panelen megadja, hogy melyik tartomány a fő domain.

A host direktíva csak egyszer használható a robots.txt fájlban. Többszöri írás esetén a robot csak az első bejegyzést fogadja el a sorrendben.

Crawl-delay direktíva: az oldalbetöltési időköz beállítása

Ha azt szeretné, hogy a robot jelezze az egyik oldal betöltésének befejezése és a következő betöltés megkezdése közötti minimális időközt, használja a gombot Feltérképezési késleltetési utasítás. Hozzá kell adni a User-Agent kezdetű bejegyzéshez, közvetlenül a Disallow és Allow utasítások után. A direktíva értékében adja meg az időt másodpercben.

Ennek a késleltetésnek az alkalmazása az oldalak feldolgozásakor kényelmes lesz a túlterhelt szerverek számára.

Vannak más irányelvek is a bejárókra, de az öt leírt - User-Agent, Disallow, Allow, Host és Feltérképezés-késleltetés - általában elég a robots.txt fájl szövegének összeállításához.

Keresőrobotok – a robotok a robots.txt fájl elolvasásával kezdik a webhellyel való ismerkedést. Minden számukra fontos információt tartalmaz. A webhelytulajdonosoknak létre kell hozniuk és rendszeresen ellenőrizniük kell a robots.txt fájlt. Az oldalak indexelésének sebessége és a keresési eredményekben elfoglalt hely a munka helyességétől függ.

Nem kötelező eleme az oldalnak, de jelenléte kívánatos, mert keresőrobotok irányítására használják az oldaltulajdonosok. Állítson be különböző szintű hozzáférést a webhelyhez, tiltsa meg a teljes webhely, az egyes oldalak, szakaszok vagy fájlok indexelését. Nagy forgalmú erőforrások esetén korlátozza az indexelési időt, és tiltsa le a hozzáférést olyan robotokhoz, amelyek nem kapcsolódnak a fő robotokhoz. kereső motorok. Ez csökkenti a szerver terhelését.

Teremtés. Hozzon létre egy fájlt szöveg szerkesztő Jegyzettömb vagy hasonló. Győződjön meg arról, hogy a fájl mérete nem haladja meg a 32 KB-ot. Válasszon ASCII vagy UTF-8 kódolást a fájlhoz. Kérjük, vegye figyelembe, hogy a fájlnak egyedinek kell lennie. Ha a webhelyet CMS-en hozták létre, akkor az automatikusan létrejön.

Helyezze a létrehozott fájlt a webhely gyökérkönyvtárába a fő index.html fájl mellé. Erre a használatra FTP hozzáférés. Ha a webhely CMS-en készült, akkor a fájl feldolgozása az adminisztrációs panelen keresztül történik. Amikor a fájl létrejött és megfelelően működik, elérhető a böngészőben.

A robots.txt hiányában a keresőrobotok összegyűjtik az oldallal kapcsolatos összes információt. Ne lepődjön meg, ha üres oldalakat vagy szolgáltatási információkat lát a keresési eredmények között. Határozza meg, hogy a webhely mely részei lesznek elérhetők a felhasználók számára, a többit pedig zárja be az indexelésből.

Vizsgálat. Rendszeresen ellenőrizze, hogy minden megfelelően működik-e. Ha a bejáró nem kap 200 OK választ, akkor automatikusan feltételezi, hogy a fájl nem létezik, és a webhely teljesen nyitott az indexelésre. A hibakódok a következők:

    3xx - válaszok átirányítása. A robot egy másik oldalra vagy a fő oldalra kerül. Hozzon létre akár öt átirányítást egy oldalon. Ha több van belőlük, a robot 404-es hibának jelöli meg az ilyen oldalt. Ugyanez vonatkozik a végtelen hurok elvén alapuló átirányításokra is;

    4xx - webhelyhiba-válaszok. Ha a bejáró 400-as hibát kap a robots.txt fájlból, akkor arra a következtetésre jut, hogy a fájl nem létezik, és az összes tartalom elérhető. Ez vonatkozik a 401-es és 403-as hibákra is;

    5xx - szerverhiba-válaszok. A bejáró addig "kopogtat", amíg az 500.-tól eltérő választ nem kap.

Létrehozási szabályok

Köszöntéssel kezdjük. Minden fájlnak egy User-agent üdvözlettel kell kezdődnie. Ezzel a keresőmotorok meghatározzák a nyitottság szintjét.

A kód Jelentése
User-agent: * Mindenki számára elérhető
Felhasználói ügynök: Yandex Elérhető a Yandex robot számára
Felhasználói ügynök: Googlebot Elérhető a Googlebot számára
Felhasználói ügynök: Mail.ru Elérhető a Mail.ru robot számára

Adjon hozzá külön direktívákat a robotokhoz. Ha szükséges, adjon hozzá direktívákat a speciális Yandex keresőrobotokhoz.

Ebben az esetben azonban a * és a Yandex irányelvek nem lesznek figyelembe véve.


A Google-nak saját robotjai vannak:

Először tiltjuk, aztán engedjük. Működjön két direktívával: Engedélyezés - Engedélyem, Disallow - Megtiltom. Ügyeljen arra, hogy tartalmazza a disallow utasítást, még akkor is, ha a teljes webhelyhez engedélyezett a hozzáférés. Ez az irányelv kötelező. Ha hiányzik, előfordulhat, hogy a bejáró nem olvassa be megfelelően a többi információt. Ha a webhelyen nincs korlátozott tartalom, hagyja üresen az utasítást.

Dolgozik vele különböző szinteken. A fájlban négy szinten adhat meg beállításokat: webhely, oldal, mappa és tartalomtípus. Tegyük fel, hogy el akarja rejteni a képeket az indexelés elől. Ezt a következő szinten lehet megtenni:

  • mappák - Disallow: /images/
  • tartalomtípus - tiltás: /*.jpg
Csoportosítsa a direktívákat blokkba, és válassza el őket egy üres sorral. Ne írjon minden szabályt egy sorba. Használjon külön szabályt minden oldalhoz, bejáróhoz, mappához stb. Ezenkívül ne keverje össze az utasításokat: írja be a botot a user-agentbe, és ne az engedélyezési / tiltó direktívába.
Nem Igen
Disallow: Yandex Felhasználói ügynök: Yandex
letilt: /
Disallow: /css/ /images/ Disallow: /css/
Disallow: /images/


Írjon kis- és nagybetűket.
Írja be a fájl nevét kisbetűkkel. A Yandex a magyarázó dokumentációban azt jelzi, hogy az eset nem fontos a robotjai számára, de a Google kéri, hogy tartsák tiszteletben az esetet. Az is előfordulhat, hogy a fájlok és mappák nevei megkülönböztetik a kis- és nagybetűket.

Adjon meg egy 301-es átirányítást a fő webhelytükörre. Erre korábban a Host direktívát használták, de 2018 márciusától már nincs rá szükség. Ha már benne van a robots.txt fájlban, távolítsa el, vagy hagyja saját belátása szerint; a robotok figyelmen kívül hagyják ezt az utasítást.

A főtükör megadásához helyezzen el egy 301-es átirányítást a webhely minden oldalán. Ha nincs átirányítás, a keresőmotor önállóan határozza meg, hogy melyik tükör tekinthető a főnek. A webhelytükrözés javításához egyszerűen írjon be egy 301-es oldalátirányítást, és várjon néhány napot.

Írja be a direktívát Sitemap (sitemap). A sitemap.xml és a robots.txt fájlok kiegészítik egymást. Ellenőrizze ide:

  • a fájlok nem mondanak ellent egymásnak;
  • oldalakat mindkét fájlból kizárták;
  • oldalak engedélyezettek mindkét fájlban.
A robots.txt tartalmának elemzésekor ügyeljen arra, hogy az oldaltérkép szerepel-e az azonos nevű direktívában. Így van írva: Oldaltérkép: www.yoursite.ru/sitemap.xml

A megjegyzéseket a # szimbólummal adja meg. Az utána írt dolgokat a bejáró figyelmen kívül hagyja.

Fájlellenőrzés

Elemezze a robots.txt fájlt fejlesztői eszközökkel: Yandex.Webmaster és Google Robots Testing Tool. Felhívjuk figyelmét, hogy a Yandex és a Google csak azt ellenőrzi, hogy a fájl megfelel-e saját követelményeinek. Ha a fájl megfelelő a Yandex számára, ez nem jelenti azt, hogy megfelelő lesz Google robotok, ezért ellenőrizze mindkét rendszert.

Ha hibákat talál, és kijavítja a robots.txt fájlt, a robotok nem olvassák be azonnal a módosításokat. Az oldal újrafeltérképezése általában naponta egyszer történik meg, de gyakran sokkal tovább tart. Egy hét elteltével ellenőrizze a fájlt, és győződjön meg arról, hogy a keresőmotorok az új verziót használják.

Ellenőrzés a Yandex.Webmasterben

Először ellenőrizze a webhely jogait. Ezt követően megjelenik a Webmester panelen. Írja be a webhely nevét a mezőbe, és kattintson az ellenőrzés gombra. Az ellenőrzés eredménye alább lesz elérhető.

Ezenkívül ellenőrizze az egyes oldalakat. Ehhez adja meg az oldalak címét, és kattintson az "ellenőrzés" gombra.

Tesztelés a Google Robots Testing Tool segítségével

Lehetővé teszi a fájl ellenőrzését és szerkesztését az adminisztrációs panelen. Üzenetet ad a logikai és szintaktikai hibákról. Javítsa ki a fájl szövegét közvetlenül a Google szerkesztőben. De vegye figyelembe, hogy a változtatások nem kerülnek automatikusan mentésre. A robots.txt javítása után másolja ki a kódot a webszerkesztőből, és hozza létre új fájl jegyzettömbön vagy más szövegszerkesztőn keresztül. Ezután töltse fel a kiszolgálóra a gyökérkönyvtárban.

Emlékezik

    A robots.txt fájl segít a robotok számára a webhely indexelésében. Fejlesztés közben zárja be az oldalt, a fennmaradó időben - a teljes oldalnak vagy annak egy részének nyitva kell lennie. A megfelelően működő fájlnak 200-as választ kell adnia.

    A fájl egy normál szövegszerkesztőben jön létre. Sok CMS-ben az adminisztrációs panel biztosítja a fájl létrehozását. Ügyeljen arra, hogy a méret ne haladja meg a 32 KB-ot. Helyezze a webhely gyökérkönyvtárába.

    Töltse ki a fájlt a szabályok szerint. Kezdje a „User-agent:” kóddal. Írja a szabályokat blokkba, és válassza el őket egy üres sorral. Kövesse az elfogadott szintaxist.

    Engedélyezze vagy tiltsa le az indexelést az összes vagy kiválasztott bejáró számára. Ehhez adja meg a keresőrobot nevét, vagy helyezze el a * ikont, ami azt jelenti, hogy "mindenki számára".

    Dolgozzon különböző hozzáférési szintekkel: webhely, oldal, mappa vagy fájltípus.

    Szerelje be a fájlba a főtükör jelzését oldalszámozott 301-es átirányítással és egy webhelytérképet a sitemap direktíva használatával.

    Használjon fejlesztői eszközöket a robots.txt elemzéséhez. Ezek a Yandex.Webmaster és a Google Robots Testing Tools. Először erősítse meg a webhely jogait, majd ellenőrizze. A Google-ban azonnal szerkessze a fájlt egy webszerkesztőben, és távolítsa el a hibákat. A szerkesztett fájlok mentése nem történik meg automatikusan. Töltse fel őket a szerverre az eredeti robots.txt helyett. Egy hét elteltével ellenőrizze, hogy a keresőmotorok használják-e az új verziót.

Az anyagot Svetlana Sirvida-Llorente készítette.