itthon Érdekes A robots txt fájl forráskódja. Yandex robotok. Crawl-delay – stopper gyenge szerverekhez

A robots txt fájl forráskódja. Yandex robotok. Crawl-delay – stopper gyenge szerverekhez

A legtöbb webhelyhez szükség van a robot.txt fájlra.

Minden SEO-optimalizálónak meg kell értenie ennek a fájlnak a jelentését, valamint képesnek kell lennie a legkeresettebb direktívák előírására.

A megfelelően összeállított robotok javítják az oldal pozícióját a keresési eredmények között, és egyéb promóciós módszerek mellett hatékony SEO eszköz.

Hogy megértsük, mi az a robot.txt és hogyan működik, emlékezzünk a keresőmotorok működésére.

Ennek ellenőrzéséhez írja be a gyökérdomaint a címsorba, majd adja hozzá a /robots.txt fájlt az URL végéhez.

Például a Moz robotfájl a következő címen található: moz.com/robots.txt. Belépünk, és megkapjuk az oldalt:

Útmutató a "robothoz"

Hogyan lehet robots.txt fájlt létrehozni?

3 típusú utasítás a robots.txt fájlhoz.

Ha úgy találja, hogy a robots.txt fájl hiányzik, egyszerűen létrehozhat egyet.

Amint azt a cikk elején már említettük, ez egy normál szövegfájl a webhely gyökérkönyvtárában.

Megtehető az adminisztrációs panelen vagy egy fájlkezelőn keresztül, amellyel a programozó a webhelyen található fájlokkal dolgozik.

A cikk során kitaláljuk, hogyan és mit írjunk fel ott.

A keresőmotorok háromféle utasítást kapnak ebből a fájlból:

beolvasni mindent, azaz teljes hozzáférés(Lehetővé teszi);
semmit nem lehet beolvasni - teljes tiltás (Disallow);
lehetetlen az egyes elemek beolvasása (melyek vannak feltüntetve) - részleges hozzáférés.

A gyakorlatban ez így néz ki:

Felhívjuk figyelmét, hogy az oldal továbbra is bekerülhet a SERP-be, ha ezen az oldalon vagy azon kívül van telepítve egy hivatkozás.

Ennek jobb megértéséhez tanulmányozzuk ennek a fájlnak a szintaxisát.

Robots.Txt szintaxis

Robots.txt: hogyan néz ki?

Fontos tudnivalók: amit mindig emlékezned kell a robotokról.

Hét általános kifejezés, amelyek gyakran megtalálhatók a webhelyeken.

A legegyszerűbb formájában a robot így néz ki:

Felhasználói ügynök: [annak a rendszernek a neve, amelyhez direktívákat írunk] Disallow: Webhelytérkép: [adja meg, hol van a webhelytérkép] # 1. szabály Felhasználói ügynök: Googlebot Disallow: /prim1/ Webhelytérkép: http://www.nashsite.com / sitemap.xml

Ez a három sor együtt tekinthető a legegyszerűbb robots.txt fájlnak.

Itt megakadályoztuk, hogy a bot indexelje a http://www.nashsite.com/prim1/ URL-t, és jeleztük, hogy hol található a webhelytérkép.

Kérjük, vegye figyelembe: a robots fájlban az egyik felhasználói ügynök (keresőmotor) direktívái sortöréssel vannak elválasztva a másik direktíváitól.

Egy több keresőmotor-irányelvvel rendelkező fájlban minden tiltás vagy engedély csak az adott sorblokkban megadott keresőmotorra vonatkozik.

azt fontos pontés nem szabad elfelejteni.

Ha a fájl több felhasználói ügynökre vonatkozó szabályokat is tartalmaz, a rendszer elsőbbséget ad a megadott keresőmotorra jellemző direktíváknak.

Íme egy példa:

A fenti ábrán az MSNbot, a discobot és a Slurp egyedi szabályokkal rendelkezik, amelyek csak ezeknél a keresőmotoroknál működnek.

Az összes többi felhasználói ügynök a user-agent: * csoport általános utasításait követi.

A robots.txt szintaxisa teljesen egyszerű.

Hét általános kifejezés található, amelyek gyakran megtalálhatók a webhelyeken.

User-agent: Az adott webes keresőmotor (keresőmotor-bot), amelynek feltérképezésére utasít. A legtöbb felhasználói ügynök listája itt található. Összesen 302 rendszerrel rendelkezik, amelyek közül kettő a legrelevánsabb - a Google és a Yandex.
Disallow: Disallow parancs, amely megmondja az ügynöknek, hogy ne keresse fel az URL-t. URL-enként csak egy „disallow” sor megengedett.
Allow (csak a Googlebotra vonatkozik): A parancs közli a robottal, hogy akkor is hozzáférhet az oldalhoz vagy almappához, ha a szülőoldal vagy almappája be van zárva.
Feltérképezési késleltetés: Hány ezredmásodpercet kell várnia a keresőmotornak, mielőtt betölti és feltérképezi az oldal tartalmát.

Felhívjuk figyelmét, hogy a Googlebot nem támogatja ezt a parancsot, de a feltérképezési sebesség manuálisan beállítható a Google Search Console-ban.

Webhelytérkép: Az ehhez az URL-hez társított XML-térképek helyének meghívására szolgál. Ezt a parancsot csak a Google, az Ask, a Bing és a Yahoo támogatja.
Host: ez a direktíva meghatározza a webhely fő tükrét, amelyet figyelembe kell venni az indexelés során. Csak egyszer írható le.
Clean-param: Ez a parancs a dinamikus címzés duplikált tartalmainak kezelésére szolgál.

Reguláris kifejezések

Szabályos kifejezések: hogyan néznek ki és mit jelentenek.

A feltérképezés engedélyezése és letiltása a robots.txt fájlban.

A gyakorlatban a robots.txt fájlok növekedhetnek, és meglehetősen bonyolulttá és nehézkessé válhatnak.

A rendszer lehetővé teszi a használatát reguláris kifejezések hogy biztosítsa a fájl szükséges funkcionalitását, azaz rugalmasan dolgozzon az oldalakkal és almappákkal.

* egy helyettesítő karakter, ami azt jelenti, hogy az irányelv minden keresőrobotra vonatkozik;
$ megegyezik az URL vagy karakterlánc végével;
# fejlesztői és optimalizálói megjegyzésekhez használják.

Íme néhány példa a http://www.nashsite.com webhely robots.txt fájljára

Robots.txt URL: www.nashsite.com/robots.txt

User-agent: * (azaz minden keresőmotorhoz) Disallow: / (a perjel a webhely gyökérkönyvtárát jelöli)

Nemrég tiltottuk meg az összes keresőmotornak a teljes webhely feltérképezését és indexelését.

Milyen gyakran van szükség erre a műveletre?

Ritkán, de van, amikor szükséges, hogy az erőforrás ne vegyen részt Keresési eredmények, és a látogatások speciális linkeken vagy vállalati felhatalmazáson keresztül történtek.

Így működnek egyes cégek belső oldalai.

Ezenkívül ilyen irányelvet írnak elő, ha a helyszín fejlesztés vagy korszerűsítés alatt áll.

Ha engedélyeznie kell a keresőmotornak, hogy mindent feltérképezzen az oldalon, akkor a következő parancsokat kell beírnia a robots.txt fájlba:

User-agent: * Disallow:

A tiltásban (disallow) nincs semmi, ami azt jelenti, hogy minden lehetséges.

Ennek a szintaxisnak a használata a robots.txt fájlban lehetővé teszi a bejárók számára a http://www.nashsite.com összes oldalának feltérképezését, beleértve a kezdőlap, adminisztrátor és kapcsolattartók.

Adott keresőrobotok és egyedi mappák blokkolása

Szintaxis a Google keresőmotorhoz (Googlebot).

Más keresőügynökök szintaxisa.

User-agent: Googlebot Disallow: /example-subfolder/

Ez a szintaxis csak meghatározza Google kereső(Googlebot), hogy nem kell feltérképeznie a következő címet: www.nashsite.com/example-subfolder/.

Egyedi oldalak blokkolása a megadott robotokhoz:

User-agent: Bingbot Disallow: /example-subfolder/blocked-page.html

Ez a szintaxis azt mondja, hogy csak a Bingbot (a Bing bejáró neve) nem látogathatja meg a www.nashsite.com /example-subfolder/blocked-page címen található oldalt.

Valójában ez minden.

Ha elsajátítja ezt a hét parancsot és három szimbólumot, és megérti az alkalmazás logikáját, meg tudja írni a megfelelő robots.txt fájlt.

Miért nem működik és mit kell tenni

Fő műveleti algoritmus.

Egyéb módszerek.

A robots.txt helytelen működése probléma.

Végül is időbe telik a hiba azonosítása, majd annak kiderítése.

Olvassa el újra a fájlt, és győződjön meg arról, hogy nem tiltott le semmi extra.

Ha egy idő után kiderül, hogy az oldal még mindig a keresési eredmények között lóg, nézze meg a Google Webmasterben, hogy az oldalt nem indexelte-e újra a kereső, és nézze meg, hogy nincs-e külső hivatkozás a bezárt oldalra.

Mert ha igen, akkor nehezebb lesz elrejteni a keresési eredmények közül, más módszerekre lesz szükség.

Nos, használat előtt ellenőrizze ezt a fájlt a Google ingyenes tesztelőjével.

Az időszerű elemzés segít elkerülni a problémákat és időt takarít meg.

Megjelent egy új könyvünk "Tartalommarketing in a közösségi hálózatokon: Hogyan kerülhetsz az előfizetők fejébe, és szerethetsz bele a márkádba.

A Robots.txt egy szöveges fájl, amely információkat tartalmaz a portáloldalak indexelését segítő bejárók számára.

Még több videó a csatornánkon – tanulja meg az internetes marketinget a SEMANTICA segítségével

Képzeld el, hogy kincsvadászaton vagy egy szigeten. Van térképed. Ott van feltüntetve az útvonal: „Kérj meg egy nagy tuskót. Tegyünk tőle 10 lépést kelet felé, majd érjük el a sziklát. Fordulj jobbra, keresd meg a barlangot."

Ezek az irányok. Követve őket, követed az útvonalat, és megtalálod a kincset. A keresőrobot megközelítőleg ugyanúgy működik, amikor elkezd indexelni egy webhelyet vagy oldalt. Megkeresi a robots.txt fájlt. Kiolvassa, mely oldalakat érdemes indexelni és melyeket nem. Ezen parancsok követésével pedig megkerüli a portált, és az oldalait hozzáadja az indexhez.

Mire való a robots.txt?

Azután kezdik meglátogatni a webhelyeket és indexelni az oldalakat, hogy az oldalt feltöltik a tárhelyre, és regisztrálják a DNS-t. Teszik a munkájukat, függetlenül attól, hogy neked van-e műszaki fájlok vagy nem. A robotok azt jelzik a keresőmotoroknak, hogy egy weboldal feltérképezésekor figyelembe kell venniük a benne lévő paramétereket.

A robots.txt fájl hiánya problémákat okozhat a webhely feltérképezésének sebességével és az indexben található szeméttel kapcsolatban. A helytelen fájlkonfiguráció azzal jár, hogy az erőforrás fontos részeit kizárják az indexből, és szükségtelen oldalak jelennek meg a keresési eredmények között.

Mindezek eredményeként problémákhoz vezet a promóció.

Nézzük meg közelebbről, milyen utasításokat tartalmaz ez a fájl, és ezek hogyan befolyásolják a bot viselkedését az Ön webhelyén.

Hogyan készítsünk robots.txt fájlt

Először ellenőrizze, hogy megvan-e ez a fájl.

Begépel címsor a webhely böngészőcíme és perjellel a fájl neve, például https://www.xxxxx.ru/robots.txt

Ha a fájl jelen van, a képernyőn megjelenik a paramétereinek listája.

Ha a fájl nem létezik:

A fájl egy egyszerű szövegszerkesztőben jön létre, mint például a Notepad vagy a Notepad++.
Meg kell adnia a robot nevét, a extension.txt. Adja meg az adatokat az elfogadott formázási szabványoknak megfelelően.
A hibákat olyan szolgáltatásokkal ellenőrizheti, mint a Yandex webmester. Itt ki kell választania a "Robots.txt elemzése" elemet az "Eszközök" részben, és kövesse az utasításokat.
Amikor a fájl elkészült, töltse fel a webhely gyökérkönyvtárába.

Testreszabási szabályok

A keresőmotoroknak egynél több robotja van. Egyes robotok csak indexelnek szöveges tartalom, néhány - csak grafikus. És maguk a keresőmotorok is eltérő sémákkal rendelkeznek a feltérképező robotok működésére vonatkozóan. Ezt figyelembe kell venni a fájl összeállításakor.

Némelyikük figyelmen kívül hagyhatja a szabályok egy részét, például a GoogleBot nem reagál arra az információra, hogy melyik webhelytükör tekinthető főnek. De általában észlelik és irányítják a fájlt.

Fájl szintaxis

Dokumentum paraméterei: a robot (bot) neve „User-agent”, direktívák: „Engedélyezés” engedélyezése és „Disallow” tiltása.

Most két kulcsfontosságú kereső van: a Yandex és a Google, fontos, hogy az oldal összeállításakor figyelembe vegyük mindkettő követelményeit.

A bejegyzések létrehozásának formátuma a következő, vegye figyelembe a szükséges szóközöket és üres sorokat.

Felhasználói ügynök direktíva

A robot a User-agent kezdetű bejegyzéseket keresi, ezeknek tartalmazniuk kell a keresőrobot nevének jelzését. Ha nincs megadva, a bot hozzáférése korlátlannak minősül.

Disallow és Allow direktívák

Ha le kell tiltania az indexelést a robots.txt fájlban, használja a Disallow parancsot. Segítségével korlátozzák a bot hozzáférését az oldalhoz vagy egyes szakaszokhoz.

Ha a robots.txt egyetlen "Disallow" direktívát sem tartalmaz, akkor a teljes webhely indexelése megengedett. Általában a tiltásokat minden bot után külön írják.

A # jel utáni összes információ kommentár, és géppel nem olvasható.

Az Engedélyezés a hozzáférés engedélyezésére szolgál.

A csillag szimbólum azt jelzi, hogy mindenre vonatkozik: User-agent: *.

Ez a lehetőség éppen ellenkezőleg, az indexelés teljes tilalmát jelenti mindenki számára.

Megakadályozza egy adott könyvtármappa teljes tartalmának megtekintését

Egyetlen fájl blokkolásához meg kell adni az abszolút elérési utat

Irányelvek Sitemap, Host

A Yandex esetében szokás jelezni, hogy melyik tükröt szeretné főként kijelölni. A Google pedig, mint emlékszünk, figyelmen kívül hagyja. Ha nincsenek tükrök, csak javítsa ki, hogyan gondolja helyesen a webhely nevét www-vel vagy anélkül.

Clean-param irányelv

Akkor használható, ha a weboldalak URL-jei olyan változó paramétereket tartalmaznak, amelyek nem befolyásolják azok tartalmát (ezek lehetnek felhasználói azonosítók, hivatkozók).

Például az oldalcímben a "ref" határozza meg a forgalom forrását, azaz. jelzi, hogy a látogató honnan érkezett az oldalra. Az oldal minden felhasználó számára ugyanaz lesz.

A robot erre mutatható, és nem tölt le duplikált információkat. Ez csökkenti a szerver terhelését.

Feltérképezési késleltetési utasítás

Segítségével meghatározhatja, hogy a bot milyen gyakorisággal töltse be az elemzéshez szükséges oldalakat. Ez a parancs akkor használatos, ha a kiszolgáló túlterhelt, és azt jelzi, hogy a kiiktatási folyamatot fel kell gyorsítani.

robots.txt hibák

A fájl nincs a gyökérkönyvtárban. A robot nem keresi mélyebben, és nem veszi figyelembe.
A címben szereplő betűknek kis latinnak kell lenniük.
Hiba a névben, néha kihagyják az S betűt a végéről és robotot írnak.
A robots.txt fájlban nem használhat cirill karaktereket. Ha oroszul kell megadnia egy tartományt, használja a formátumot a speciális Punycode kódolásban.
Ez egy módszer a tartománynevek ASCII-karakterek sorozatává alakítására. Ehhez speciális konvertereket használhat.

Ez a kódolás így néz ki:
website.rf = xn--80aswg.xn--p1ai

További információ arról, hogy mit kell bezárni a robots txt-ben, valamint a Google és a Yandex keresőmotorok követelményeinek megfelelő beállításokról, a referenciadokumentumokban található. A különböző cm-eknek is lehetnek saját jellemzőik, ezt figyelembe kell venni.

Robots.txt- ez egy szöveges fájl, amely a webhely gyökerében található - http://site.ru/robots.txt. Fő célja, hogy bizonyos irányelveket állítson be a keresőmotorok számára – mit és mikor kell tennie az oldalon.

A legegyszerűbb Robots.txt

A legegyszerűbb robots.txt fájl, amely lehetővé teszi, hogy minden keresőmotor mindent indexeljen, így néz ki:

Felhasználói ügynök: *
Letiltás:

Ha a Disallow utasítás végén nincs perjel, akkor minden oldal indexelhető.

Ez az irányelv teljes mértékben tiltja a webhely indexelését:

Felhasználói ügynök: *
Letiltás: /

User-agent - jelzi, hogy kinek szólnak az utasítások, a csillag azt jelzi, hogy az összes PS-nél, a Yandex esetén a User-agent: Yandex.

A Yandex súgója azt mondja, hogy a bejárói a User-agent: * -t dolgozzák fel, de ha a User-agent: Yandex jelen van, akkor a User-agent: * figyelmen kívül marad.

Disallow és Allow direktívák

Két fő irányelv létezik:

Disallow – tilt

Engedélyezés - engedélyezés

Példa: A blogon megtiltottuk annak a /wp-content/ mappának az indexelését, ahol a plugin fájlok, sablon stb. De vannak olyan képek is, amelyeket a PS-nek indexelnie kell ahhoz, hogy részt vegyen a képkeresésben. Ehhez a következő sémát kell használnia:

Felhasználói ügynök: *
Engedélyezés: /wp-content/uploads/ # A képek indexelésének engedélyezése a feltöltési mappában
Disallow: /wp-content/

Az irányelvek használatának sorrendje fontos a Yandex számára, ha ugyanazokra az oldalakra vagy mappákra vonatkoznak. Ha így adja meg:

Felhasználói ügynök: *
Disallow: /wp-content/
Engedélyezés: /wp-content/uploads/

A képeket a Yandex robot nem fogja betölteni a /uploads/ könyvtárból, mert az első direktíva végrehajtása folyamatban van, ami megtagad minden hozzáférést a wp-content mappához.

A Google könnyedén, és követi a robots.txt fájl összes utasítását, függetlenül azok helyétől.

Ne felejtse el, hogy a perjellel és anélküli direktívák eltérő szerepet töltenek be:

Disallow: /about Megtagadja a hozzáférést a teljes site.ru/about/ könyvtárhoz, és az about - site.ru/about.html , site.ru/aboutlive.html stb. tartalmat tartalmazó oldalak nem lesznek indexelve.

Disallow: /about/ Megtiltja a robotoknak, hogy indexeljék a site.ru/about/ könyvtárban lévő oldalakat, és olyan oldalakat, mint a site.ru/about.html stb. indexelhető lesz.

Reguláris kifejezések a robots.txt fájlban

Két karakter támogatott, ezek a következők:

* - a karakterek bármilyen sorrendjét jelenti.

Példa:

Disallow: /about* elvileg megtagadja a hozzáférést minden olyan oldalhoz, amelyen szerepel, és csillag nélkül, egy ilyen irányelv is működni fog. De bizonyos esetekben ez a kifejezés nem helyettesíthető. Például egy kategóriában vannak .html-t tartalmazó oldalak a végén és anélkül, hogy az összes html-t tartalmazó oldalt bezárjuk az indexelésből, a következő direktívát írjuk:

Disallow: /about/*.html

Most a site.ru/about/live.html oldal le van zárva az indexelésből, és a site.ru/about/live oldal meg van nyitva.

Egy másik analógia példa:

Felhasználói ügynök: Yandex
Engedélyezés: /about/*.html #indexelés engedélyezése
Disallow : /about/

Minden oldal be lesz zárva, kivéve a .html végződésű oldalakat

$ - levágja a többit és kijelöli a sor végét.

Példa:

Disallow: /about- Ez a robots.txt direktíva tiltja minden olyan oldal indexelését, amelyek about karakterrel kezdődnek, valamint tiltja a /about/ könyvtárban lévő oldalakat is.

A végére egy dollárjel hozzáadásával - Disallow: /about$ közöljük a robotokkal, hogy csak a /about oldal nem indexelhető, de a /about/ könyvtár, /aboutlive oldalak stb. indexelhető.

Webhelytérkép-irányelv

Ez az utasítás a következőképpen határozza meg a webhelytérkép elérési útját:

Webhelytérkép: http://site.ru/sitemap.xml

fogadó irányelv

Ebben a formában megadva:

Házigazda: site.ru

http://, perjelek és hasonlók nélkül. Ha van egy fő tüköroldala www-vel, akkor írja be:

Robots.txt példa a Bitrixhez

User-agent: *
Disallow: /*index.php$
Disallow: /bitrix/
Disallow: /auth/
Disallow: /személyes/
Disallow: /feltöltés/
Disallow: /search/
Disallow: /*/search/
Disallow: /*/slide_show/
Disallow: /*/gallery/*order=*
Disallow: /*?*
Disallow: /*&print=
Disallow: /*register=
Disallow: /*forgot_password=
Disallow: /*change_password=
Disallow: /*login=
Disallow: /*logout=
Disallow: /*auth=
Disallow: /*action=*
Disallow: /*bitrix_*=
Disallow: /*backurl=*
Disallow: /*BACKURL=*
Disallow: /*back_url=*
Disallow: /*BACK_URL=*
Disallow: /*back_url_admin=*
Disallow: /*print_course=Y
Disallow: /*COURSE_ID=
Disallow: /*PAGEN_*
Disallow: /*PAGE_*
Disallow: /*SHOWALL
Disallow: /*show_all=
Házigazda: sitename.com
Webhelytérkép: https://www.sitename.ru/sitemap.xml

WordPress robots.txt példa

Miután a fent leírt összes szükséges irányelvet hozzáadta. A végén egy ilyen robots fájlt kell kapnia:

Ez, hogy úgy mondjam, a robots.txt alapverziója a wordpress számára. Itt két User-agent található – az egyik mindenki számára, a másik pedig a Yandex számára, ahol a Host direktíva van megadva.

robots meta tagek

Egy oldalt vagy webhelyet nem csak a robots.txt fájllal lehet bezárni az indexelésből, ez megtehető a metatag használatával.

Regisztrálnia kell a címkében, és ez a metacímke tiltja a webhely indexelését. A WordPressben vannak olyan beépülő modulok, amelyek lehetővé teszik az ilyen metacímkék beállítását, például - Platinum Seo Pack. Ezzel bármelyik oldalt bezárhatod az indexelés elől, meta tageket használ.

Feltérképezési késleltetési utasítás

Ezzel a direktívával beállíthatja, hogy mennyi ideig legyen megszakítva a keresőbot a webhelyoldalak letöltése között.

Felhasználói ügynök: *
Feltérképezés késleltetése: 5

A két oldalbetöltés közötti időtúllépés 5 másodperc lesz. A szerver terhelésének csökkentése érdekében általában 15-20 másodpercre állítják be. Erre az irányelvre nagy, gyakran frissített webhelyeknél van szükség, ahol a keresőrobotok csak „élnek”.

Normál webhelyek/blogok esetén ez az utasítás nem szükséges, de így korlátozhatja a többi irreleváns keresőrobot (Rambler, Yahoo, Bing) stb. Hiszen ők is felkeresik az oldalt és indexelik, ezáltal terhelést okozva a szerveren.

Sziasztok! Ma arról szeretnék mesélni robots.txt fájl. Igen, sok mindent írnak róla az interneten, de őszintén szólva én magam nagyon hosszú ideje Nem tudtam rájönni, hogyan kell létrehozni a megfelelő robots.txt fájlt. Végül készítettem egyet, és minden blogomon megtalálható. Nem észlelek semmilyen problémát a robots.txt fájllal, jól működik.

Robots.txt a WordPresshez

És valójában miért van szükségünk a robots.txt fájlra? A válasz továbbra is ugyanaz -. Vagyis a robots.txt fordítása az egyik rész Keresőoptimalizáció webhely (mellesleg hamarosan lesz egy lecke, amelyet a WordPress webhely belső optimalizálásának szentelnek. Ezért ne felejtsen el előfizetni az RSS-re, hogy ne maradjon le érdekes anyagokról.).

Az egyik funkció adott fájl – az indexelés tilalma az oldal felesleges oldalait. Ezenkívül beállítja a címet és előírja a főcímet oldaltükör(webhely www-vel vagy anélkül).

Megjegyzés: a keresőmotorok számára ugyanaz a webhely www-vel és www nélkül teljesen különböző webhelyek. De miután felismerték, hogy ezeknek a webhelyeknek a tartalma ugyanaz, a keresőmotorok „összeragasztják” őket. Ezért fontos a fő webhelytükör regisztrálása a robots.txt fájlban. Ahhoz, hogy megtudja, melyik a fő (www-vel vagy www nélkül), csak írja be webhelye címét a böngészőbe, például www-vel, ha automatikusan átirányítunk ugyanarra a webhelyre www nélkül, akkor a fő tükör webhelye www. Remélem jól magyaráztam.

Szóval, véleményem szerint ez dédelgetett javítsa ki a robots.txt fájlt a wordpress számára Alább láthatod.

Javítsa ki a Robots.txt fájlt a WordPresshez

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag

Felhasználói ügynök: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
host: site
.gz
Webhelytérkép: https://site/sitemap.xml

Mindent, ami fent van, be kell másolnia szöveges dokumentum.txt kiterjesztéssel, vagyis a fájl neve robots.txt legyen. Ezt a szöveges dokumentumot például a program segítségével hozhatja létre. Csak kérlek ne felejtsd el változás az utolsó három sorban címet a weboldalad címére. A robots.txt fájlnak a blog gyökerében kell lennie, vagyis ugyanabban a mappában, ahol a wp-content, wp-admin stb.

Akik lusták ezt megalkotni szöveges fájl, egyszerűen letöltheti a robots.txt fájlt, és ott is javíthat 3 sort.

Szeretném megjegyezni, hogy a műszaki részeknél, amelyekről az alábbiakban lesz szó, nem kell erősen megterhelnie magát. A „tudás” kedvéért idézem őket, hogy úgy mondjam, egy általános kitekintés, hogy tudják, mire van szükség és miért.

Tehát a sor:

user-agent

beállítja a szabályokat egyes keresőmotorokhoz: például a „*” (csillag) azt jelzi, hogy a szabályok minden keresőmotorra érvényesek, és ami lent van

Felhasználói ügynök: Yandex

azt jelenti, hogy ezek a szabályok csak a Yandexre vonatkoznak.

Letiltás
Ide „lökdösöd” azokat a részeket, amelyeket NEM kell indexelni a keresőmotoroknak. Például a https://site/tag/seo oldalon duplikált cikkek (ismétlődés) vannak szokásos cikkekkel, és az oldalak duplikálása negatív hatással van keresés promóciója, ezért nagyon kívánatos, hogy ezeket a szektorokat le kell zárni az indexelés elől, amit a következő szabály segítségével teszünk:

Disallow: /tag

Tehát a fent megadott robots.txt-ben a WordPress oldal szinte minden felesleges része le van zárva az indexelés elől, vagyis csak hagyjunk mindent úgy, ahogy van.

Házigazda

Itt állítjuk be az oldal fő tükrét, amiről beszéltem egy kicsit feljebb.

Webhelytérkép

Az utolsó két sorban legfeljebb két webhelytérkép címét adjuk meg, amelyek a segítségével készültek.

Lehetséges problémák

De a robots.txt ezen sora miatt a webhelyem bejegyzései már nem indexelve:

Disallow: /*?*

Mint látható, a robots.txt-ben éppen ez a sor tiltja a cikkek indexelését, amire természetesen egyáltalán nincs szükségünk. Ennek kijavításához csak el kell távolítania ezt a 2 sort (az összes keresőmotorra és a Yandexre vonatkozó szabályokból), és a végső helyes robots.txt egy CNC nélküli WordPress webhelyhez így fog kinézni:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /tag

Felhasználói ügynök: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /tag
host: site
Webhelytérkép: https://site/sitemap.xml

Annak ellenőrzéséhez, hogy megfelelően fordítottuk-e le a robots.txt fájlt, azt javaslom, hogy használja a Yandex Webmester szolgáltatást (mondtam, hogyan kell regisztrálni ebben a szolgáltatásban).

Megyünk a szakaszhoz Indexelési beállítások –> Robots.txt elemzés:

Már ott kattintson a „Robots.txt letöltése a webhelyről” gombra, majd kattintson az „Ellenőrzés” gombra:

Ha az alábbi üzenethez hasonlót lát, akkor a megfelelő robots.txt a Yandexhez:

Először is elmondom, mi az a robots.txt.

Robots.txt- egy fájl, amely a webhely gyökérmappájában található, ahol Különleges utasítások keresőrobotoknak. Ezekre az utasításokra azért van szükség, hogy az oldalra való belépéskor a robot ne vegye figyelembe az oldalt/szakaszt, vagyis bezárjuk az oldalt az indexelés elől.

Miért van szükség a robots.txt fájlra?

A robots.txt fájl kulcsfontosságú követelménynek számít minden webhely SEO optimalizálásához. Ennek a fájlnak a hiánya negatívan befolyásolhatja a robotok által okozott terhelést és a lassú indexelést, sőt, még ennél is több, a webhely nem lesz teljesen indexelve. Ennek megfelelően a felhasználók nem léphetnek fel oldalakra a Yandexen és a Google-n keresztül.

A robots.txt hatása a keresőmotorokra?

Kereső motorok(főleg a Google) indexeli az oldalt, de ha nincs robots.txt fájl, akkor, mint mondtam, nem minden oldal. Ha van ilyen fájl, akkor a robotokat az ebben a fájlban megadott szabályok vezérlik. Sőt, többféle keresőrobot létezik, ha egyesek figyelembe tudják venni a szabályt, akkor mások figyelmen kívül hagyják. Különösen a GoogleBot robot nem veszi figyelembe a Host és a Crawl-Delay direktívákat, a YandexNews robot a közelmúltban nem veszi figyelembe a Crawl-Delay direktívát, a YandexDirect és a YandexVideoParser robotok pedig figyelmen kívül hagyják a robots.txt általánosan elfogadott direktíváit. (de vedd figyelembe azokat, amiket kifejezetten nekik írnak).

Az oldalt a legtöbbet olyan robotok töltik be, amelyek tartalmat töltenek be az Ön webhelyéről. Ennek megfelelően, ha megmondjuk a robotnak, hogy mely oldalakat indexelje és melyiket hagyja figyelmen kívül, valamint azt is, hogy milyen időközönként töltsön be tartalmat az oldalakról (ez fontosabb olyan nagy webhelyeknél, amelyeknek a keresőindexében több mint 100 000 oldal található). Ez sokkal könnyebbé teszi a robot számára a tartalom indexelését és betöltését az oldalról.

A CMS-hez kapcsolódó fájlok, például a Wordpressben - /wp-admin/, a keresőmotorok számára szükségtelennek minősíthetők. Ezen kívül ajax, json szkriptek, amelyek felelősek a felugró űrlapokért, bannerekért, captcha kimenetért stb.

A legtöbb robot számára azt is javaslom, hogy zárjon be minden Javascript- és CSS-fájlt az indexelésből. A GoogleBot és a Yandex esetében azonban jobb az ilyen fájlok indexelése, mivel a keresőmotorok a webhely kényelmének és rangsorolásának elemzésére használják őket.

Mi az a robots.txt direktíva?

irányelveket- ezek a keresőrobotokra vonatkozó szabályok. Az első szabványok a robots.txt írására és ennek megfelelően 1994-ben jelentek meg, egy kiterjesztett szabvány pedig 1996-ban. Azonban, mint már tudja, nem minden robot támogat bizonyos direktívákat. Ezért az alábbiakban leírtam, hogy a főbb robotokat mi vezérli az oldal oldalainak indexelésekor.

Mit jelent a user-agent?

Ez a legfontosabb irányelv, amely meghatározza, hogy mely keresőrobotokra vonatkozzanak további szabályok.

Minden robothoz:

Egy adott bothoz:

Felhasználói ügynök: Googlebot

A robots.txt fájlban a kis- és nagybetű nem fontos, írhatsz Googlebotot és googlebotot is

Google feltérképező robotok

Yandex keresőrobotok


	A Yandex fő indexelő robotja
	A Yandex.Images szolgáltatásban használatos
	A Yandex.Video szolgáltatásban használatos
	multimédiás adatok
	Blogkeresés
	Egy feltérképező robot, amely hozzáfér egy oldalhoz, amikor azt az „URL hozzáadása” űrlapon keresztül adják hozzá
	robot, amely indexeli a webhely ikonjait (favicon)
	Yandex.Direct
	Yandex.Metrica
	A Yandex.Catalog szolgáltatásban használatos
	A Yandex.News szolgáltatásban használatos
YandexImageResizer	Mobilszolgáltatások keresőrobotja

Keresőrobotok: Bing, Yahoo, Mail.ru, Rambler

Disallow és Allow direktívák

A Disallow bezárja a webhely egyes részeit és oldalait az indexelésből. Ennek megfelelően az Allow éppen ellenkezőleg, megnyitja őket.

Van néhány funkció.

Először is a további operátorok a *, $ és #. Mire használják?

“*” tetszőleges számú karakter és ezek hiánya. Alapértelmezés szerint már a sor végén van, így nincs értelme újra feltenni.

“$” - azt jelzi, hogy az előtte lévő karakternek kell az utolsónak lennie.

“#” - megjegyzés, mindent, ami ez után a karakter után következik, a robot figyelmen kívül hagyja.

Példák a Disallow használatára:

Disallow: *?s=

Disallow: /category/

Ennek megfelelően a keresőrobot bezárja a következő oldalakat:

De az űrlap oldalai nyitva lesznek indexelésre:

Most meg kell értenie, hogyan hajtják végre a beágyazott szabályokat. Az irányelvek írásának sorrendje nagyon fontos. A szabályok öröklődését az határozza meg, hogy mely könyvtárakat adjuk meg, vagyis ha egy oldalt/dokumentumot be akarunk zárni az indexelésből, akkor elég egy direktívát írni. Nézzünk egy példát

Ez a mi robots.txt fájlunk

Disallow: /template/

Ez az utasítás is bárhol fel van tüntetve, és több webhelytérkép fájlt is regisztrálhat.

Host direktíva a robots.txt fájlban

Ennek az irányelvnek meg kell határoznia a webhely fő tükrét (gyakran www-vel vagy anélkül). vegye figyelembe, hogy fogadó direktíva http:// protokoll nélkül, de https:// protokollal van megadva. Az irányelvet csak a Yandex és a Mail.ru keresőrobotjai veszik figyelembe, míg más robotok, köztük a GoogleBot nem veszik figyelembe a szabályt. A gazdagép 1 alkalommal regisztráljon a robots.txt fájlban

Példa: http://

Házigazda: www.website.ru

Példa https://

Feltérképezési késleltetési utasítás

Beállítja a webhelyoldalak keresőrobot általi indexelésének időtartamát. Az érték másodpercben és ezredmásodpercben van megadva.

Példa:

Főleg nagy online áruházakban, információs oldalakon, portálokon használják, ahol az oldal forgalom napi 5000-től. A keresőrobotnak bizonyos időn belül indexelési kérelmet kell benyújtania. Ha nem adja meg ezt az utasítást, akkor ez komoly terhelést okozhat a szerveren.

Az optimális feltérképezési késleltetés értéke minden webhelyhez eltérő. A Mail, Bing, Yahoo keresőmotoroknál az érték beállítható minimális érték 0,25, 0,3, mivel ezek a keresőrobotok havonta egyszer, 2 hónaponként és így tovább (nagyon ritkán) képesek feltérképezni az Ön webhelyét. A Yandex esetében jobb, ha nagyobb értéket állít be.

Ha a webhely terhelése minimális, akkor nincs értelme meghatározni ezt az irányelvet.

Clean-param irányelv

A szabály azért érdekes, mert azt mondja a bejárónak, hogy bizonyos paraméterekkel rendelkező oldalakat nem kell indexelni. 2 argumentum van írva: oldal URL és paraméter. Ez az irányelv támogatott keresőmotor Yandex.

Példa:

Disallow: /admin/

Disallow: /plugins/

Disallow: /search/

Disallow: /kosár/

Disallow: *sort=

Disallow: *view=

Felhasználói ügynök: GoogleBot

Disallow: /admin/

Disallow: /plugins/

Disallow: /search/

Disallow: /kosár/

Disallow: *sort=

Disallow: *view=

Engedélyezés: /plugins/*.css

Engedélyezés: /plugins/*.js

Engedélyezés: /plugins/*.png

Engedélyezés: /plugins/*.jpg

Engedélyezés: /plugins/*.gif

Felhasználói ügynök: Yandex

Disallow: /admin/

Disallow: /plugins/

Disallow: /search/

Disallow: /kosár/

Disallow: *sort=

Disallow: *view=

Engedélyezés: /plugins/*.css

Engedélyezés: /plugins/*.js

Engedélyezés: /plugins/*.png

Engedélyezés: /plugins/*.jpg

Engedélyezés: /plugins/*.gif

Clean-Param: utm_source&utm_medium&utm_campaign

A példában 3 különböző bothoz írtunk szabályokat.

Hova kell hozzáadni a robots.txt fájlt?

Hozzáadott gyökérkönyvtár webhely. Ezen kívül, hogy egy link követhesse:

Hogyan lehet ellenőrizni a robots.txt fájlt?

Yandex webmester

Az Eszközök lapon válassza a Robots.txt elemzése lehetőséget, majd kattintson az Ellenőrzés gombra

Google Search Console

A lapon Szkennelés választ robots.txt fájlellenőrző eszköz majd kattintson az ellenőrzés gombra.

Következtetés:

A robots.txt fájlnak kötelezőnek kell lennie minden hirdetett webhelyen, és csak a megfelelő konfiguráció teszi lehetővé a szükséges indexelést.

És végül, ha bármilyen kérdésed van, tedd fel a cikk alatti megjegyzésekben, és én is kíváncsi vagyok, hogyan írod meg a robots.txt fájlt?

Csak a komplexumról. Programok. Vas. Internet. ablakok

A robots txt fájl forráskódja. Yandex robotok. Crawl-delay – stopper gyenge szerverekhez

Útmutató a "robothoz"

Robots.Txt szintaxis

Reguláris kifejezések

Adott keresőrobotok és egyedi mappák blokkolása

Miért nem működik és mit kell tenni

Mire való a robots.txt?

Hogyan készítsünk robots.txt fájlt

Testreszabási szabályok

Fájl szintaxis

Felhasználói ügynök direktíva

Disallow és Allow direktívák

Irányelvek Sitemap, Host

Clean-param irányelv

Feltérképezési késleltetési utasítás

robots.txt hibák

A legegyszerűbb Robots.txt

Disallow és Allow direktívák

Reguláris kifejezések a robots.txt fájlban

Példa:

Példa:

Webhelytérkép-irányelv

fogadó irányelv

Robots.txt példa a Bitrixhez

WordPress robots.txt példa

robots meta tagek

Feltérképezési késleltetési utasítás

Robots.txt a WordPresshez

Javítsa ki a Robots.txt fájlt a WordPresshez

Lehetséges problémák

Miért van szükség a robots.txt fájlra?

A robots.txt hatása a keresőmotorokra?

Mi az a robots.txt direktíva?

Mit jelent a user-agent?

Google feltérképező robotok

Yandex keresőrobotok

Keresőrobotok: Bing, Yahoo, Mail.ru, Rambler

Disallow és Allow direktívák

Host direktíva a robots.txt fájlban

Feltérképezési késleltetési utasítás

Clean-param irányelv

Hogyan lehet ellenőrizni a robots.txt fájlt?

Következtetés: