В SEO няма дребни неща. Понякога само един малък файл, Robots.txt, може да повлияе на популяризирането на уебсайта.Ако искате вашият сайт да бъде индексиран, така че роботите за търсене да заобикалят страниците, от които се нуждаете, трябва да напишете препоръки за тях.

"Възможно ли е?", - ти питаш.Може би. За да направите това, вашият сайт трябва да има robots файл.текст.Как се прави файл роботи, конфигурирайте и добавете към сайта - разбираме в тази статия.

Какво е robots.txt и за какво служи

Robots.txt е обичайният текстов файл , който съдържа препоръки за търсещите роботи: кои страници трябва да се обхождат и кои не.

Важно: файлът трябва да бъде кодиран в UTF-8, в противен случай роботите за търсене може да не го приемат.

Ще влезе ли в индекса сайт, който няма този файл?Това ще стане, но роботите могат да „грабнат“ онези страници, които са нежелани в резултатите от търсенето: например страници за вход, административен панел, лични потребителски страници, огледални сайтове и т.н. Всичко това се счита за "боклук при търсене":

Ако личната информация е включена в резултатите от търсенето, вие и сайтът може да пострадате. Друг момент - без този файл индексирането на сайта ще отнеме повече време.

Във файла Robots.txt могат да бъдат зададени три вида команди за паяци за търсене:

  • сканирането е забранено;
  • сканирането е разрешено;
  • сканирането е частично разрешено.

Всичко това е написано с помощта на директиви.

Как да създадете правилния файл Robots.txt за уебсайт

Файлът Robots.txt може да бъде създаден просто в програмата Notepad, която е достъпна по подразбиране на всеки компютър. Предписването на файл ще отнеме дори на начинаещ максимум половин час време (ако знаете командите).

Можете да използвате и други програми - Notepad, например. Също така има онлайн услугикойто може да генерира файла автоматично. Например катоCYPR.comили Медиасова.

Просто трябва да посочите адреса на вашия сайт, за кои търсачки трябва да зададете правила, основното огледало (с или без www). След това услугата ще направи всичко сама.

Лично аз предпочитам стария "дядо" начин - да регистрирам файла ръчно в notepad. Има и „мързелив начин“ - да озадачите разработчика си с това 🙂 Но дори и в този случай трябва да проверите дали всичко е написано правилно там. Затова нека да разберем как да компилираме този файл и къде трябва да се намира.

Готовият файл Robots.txt трябва да се намира в основната папка на сайта. Само файл, без папка:

Искате ли да проверите дали е на вашия сайт? Шофиране в адресна лентаадрес: site.ru/robots.txt. Ще видите следната страница (ако файлът съществува):

Файлът се състои от няколко блока, разделени с отстъп. Всеки блок съдържа препоръки за роботи за търсене на различни търсачки (плюс блок с Общи правилаза всички) и отделен блок с връзки към картата на сайта - Sitemap.

Няма нужда да правите отстъп вътре в блока с правила за един робот за търсене.

Всеки блок започва с директивата User-agent.

Всяка директива е последвана от знак ":" (двоеточие), интервал, след който се посочва стойност (например коя страница да се затвори от индексиране).

Трябва да посочите относителни адреси на страници, а не абсолютни. Относително - това е без "www.site.ru". Например, трябва да деактивирате индексирането на страницаwww.site.ru/магазин. Така че след двоеточието поставяме интервал, наклонена черта и "shop":

Disallow: /shop.

Звездичка (*) обозначава всеки набор от знаци.

Знакът за долар ($) е краят на реда.

Може да решите - защо да пишете файл от нулата, ако можете да го отворите на всеки сайт и просто да го копирате в себе си?

За всеки сайт трябва да предпишете уникални правила. Необходимо е да се вземат предвид характеристиките CMS. Например, същият администраторски панел се намира в /wp-admin на WordPress двигателя, на друг адрес ще бъде различен. Същото с адресите на отделните страници, с карта на сайта и т.н.

Настройка на файла Robots.txt: индексиране, основно огледало, директиви

Както вече видяхте на екранната снимка, директивата User-agent е на първо място. Той показва за кой робот за търсене ще важат правилата по-долу.

Потребителски агент: * - правила за всички роботи за търсене, т.е. всяка търсачка (Google, Yandex, Bing, Rambler и др.).

Потребителски агент: Googlebot - Показва правилата за паяка за търсене на Google.

Потребителски агент: Yandex - правила за робота за търсене на Yandex.

За кой робот за търсене първо да предпише правилата, няма разлика. Но обикновено първо се пишат препоръки за всички роботи.

Disallow: Забранете индексирането

За да деактивирате индексирането на сайта като цяло или на отделни страници, използвайте директивата Disallow.

Например, можете напълно да затворите сайта от индексиране (ако ресурсът се финализира и не искате той да влезе в резултатите от търсенето в това състояние). За да направите това, напишете следното:

Потребителски агент: *

забрани: /

По този начин на всички роботи за търсене е забранено да индексират съдържание на сайта.

Ето как можете да отворите сайт за индексиране:

Потребителски агент: *

Забрана:

Затова проверете дали има наклонена черта след директивата Disallow, ако искате да затворите сайта. Ако искате да го отворите по-късно - не забравяйте да премахнете правилото (и това често се случва).

За да затворите отделни страници от индексиране, трябва да посочите адреса им. Вече писах как се прави:

Потребителски агент: *

Забрана: /wp-admin

По този начин административният панел беше затворен на сайта от изгледи на трети страни.

Какво трябва да затворите безпроблемно от индексирането:

  • административен панел;
  • лични страници на потребители;
  • кошници;
  • резултати от търсене в сайта;
  • страници за вход, регистрация, авторизация.

Можете да затворите от индексиране и определени типове файлове. Да приемем, че имате някои .pdf файлове на вашия сайт, които не искате да бъдат индексирани. А роботите за търсене много лесно сканират файловете, качени на сайта. Можете да ги затворите от индексиране, както следва:

Потребителски агент: *

Забрана: /*. pdf$

Как да отворите сайт за индексиране

Дори когато сайтът е напълно затворен от индексиране, можете да отворите пътя към определени файлове или страници за роботи. Да приемем, че правите нов дизайн на сайта, но директорията с услуги остава непокътната. Можете да насочите роботите за търсене там, така че да продължат да индексират секцията. За това се използва директивата Allow:

Потребителски агент: *

Разрешаване: /services

забрани: /

Основно огледало на уебсайта

До 20 март 2018 г. във файла robots.txt за робота за търсене на Yandex беше необходимо да се посочи основният огледален сайт чрез директивата Host. Сега не е нужно да правите това - достатъчно е настройте пренасочване страница по страница 301 .

Какво е основното огледало? Това е кой адрес на вашия сайт е основен - с или без www. Ако не настроите пренасочване, тогава и двата сайта ще бъдат индексирани, тоест ще има дубликати на всички страници.

Карта на сайта: карта на сайта robots.txt

След като всички директиви за роботите са написани, трябва да посочите пътя до картата на сайта. Картата на сайта показва на роботите, че всички URL адреси, които трябва да бъдат индексирани, се намират на определен адрес. Например:

Карта на сайта: site.ru/sitemap.xml

Когато роботът обхожда сайта, той ще види какви промени са направени в този файл. В резултат на това новите страници ще бъдат индексирани по-бързо.

Директива за чисти параметри

През 2009 г. Yandex въведе нова директива - Clean-param. Може да се използва за описание на динамични параметри, които не влияят на съдържанието на страниците. Най-често тази директива се използва във форуми. Тук има много боклук, например идентификатор на сесия, параметри за сортиране. Ако регистрирате тази директива, роботът за търсене на Yandex няма да изтегля многократно информация, която се дублира.

Можете да напишете тази директива навсякъде във файла robots.txt.

Параметрите, които роботът не трябва да взема предвид, са изброени в първата част на стойността чрез знака &:

Clean-param: sid&sort /forum/viewforum.php

Тази директива избягва дублиращи се страници с динамични URL адреси (които съдържат въпросителен знак).

Директива за забавяне на обхождане

Тази директива ще дойде на помощ на тези, които имат слаб сървър.

Пристигането на робот за търсене е допълнително натоварване на сървъра. Ако имате голям трафик на сайта, тогава ресурсът може просто да не издържи и да „легне“. В резултат на това роботът ще получи съобщение за грешка 5xx. Ако тази ситуация се повтаря постоянно, сайтът може да бъде разпознат от търсачката като неработещ.

Представете си, че работите и успоредно с това трябва постоянно да отговаряте на обаждания. Тогава производителността ви пада.

По същия начин със сървъра.

Да се ​​върнем на директивата. Забавянето при обхождане ви позволява да зададете забавяне при сканиране на страниците на уебсайта, за да намалите натоварването на сървъра. С други думи, вие задавате периода, след който да се зареждат страниците на сайта. Този параметър се посочва в секунди, като цяло число:

Не всички съвременни уебмастъри могат да работят с HTML код. Мнозина дори не знаят как трябва да изглеждат функциите, записани в ключовите CMS файлове. Вътрешните части на вашия ресурс, като например файла robots.txt, са интелектуална собственост, в която собственикът трябва да бъде като риба във вода. Фината настройка на сайта ви позволява да повишите класирането му при търсене, да го изведете на върха и успешно да събирате трафик.

Файлът robots.txt е един от основните елементи за адаптиране на ресурс към изискванията на търсачките. Той съдържа техническа информацияи ограничава достъпа до определен брой страници от роботи за търсене. В крайна сметка не всяка написана страница със сигурност трябва да бъде в резултатите от търсенето. По-рано се изискваше FTP достъп за създаване на txt файл на robots. Развитието на CMS направи възможен достъпът до него директно през контролния панел.

За какво е файлът robots.txt?

Този файл съдържа редица препоръки, адресирани до търсещи ботове. Ограничава достъпа им до определени части от сайта. Поради местоположението на този файл в основната директория, няма начин ботовете да го пропуснат. В резултат на това, когато стигнат до вашия ресурс, те първо прочитат правилата за обработката му и едва след това започват проверка.

По този начин файлът показва на търсещите роботи кои директории на сайтове са разрешени за индексиране и кои не подлежат на този процес.

Като се има предвид, че наличието на файл не влияе пряко върху процеса на класиране, много сайтове не съдържат robots.txt. Но начинът пълен достъпне може да се счита за технически изправен. Нека да разгледаме предимствата, които robots.txt предоставя на даден ресурс.

Можете да забраните индексирането на ресурса изцяло или частично, да ограничите кръга от роботи за търсене, които ще имат право да индексират. Като наредите на robots.txt да деактивира всичко, можете напълно да изолирате ресурса, докато се ремонтира или възстановява.

Между другото, разработчиците на Google многократно напомняха на уеб администраторите, че размерът на файла robots.txt не трябва да надвишава 500 KB. Това със сигурност ще доведе до грешки при индексирането. Ако създадете файл ръчно, тогава "достигането" на този размер, разбира се, е нереалистично. Но ето някои CMS, които автоматично генерират съдържанието на robots.txt, могат значително да го претоварят.

Лесно създаване на файл за всяка търсачка

Ако се страхувате да практикувате фина настройканезависимо, може да се извърши автоматично. Има конструктори, които събират такива файлове без ваше участие. Подходящи са за хора, които тепърва започват като уеб администратори.

Както можете да видите на изображението, настройката на конструктора започва с въвеждане на адреса на сайта. След това избирате търсачките, с които планирате да работите. Ако проблемът с определена търсачка не е важен за вас, тогава няма нужда да създавате настройки за нея. Сега преминете към посочване на папките и файловете, до които планирате да ограничите достъпа. AT този примерможете да посочите адреса на картата и огледалото на вашия ресурс.

Генераторът на robots.txt ще попълни формуляра, докато конструкторът се запълва. Всичко, което се изисква от вас в бъдеще, е да копирате получения текст в txt файл. Не забравяйте да го кръстите роботи.

Как да проверите ефективността на файла robots.txt

За да анализирате ефекта на файл в Yandex, отидете на съответната страница в секцията Yandex.Webmaster. В диалоговия прозорец въведете името на сайта и щракнете върху бутона "изтегляне".

Системата ще анализира файла robots.txt и ще провери дали роботът за търсене ще заобиколи страници, които са забранени за индексиране. Ако има проблеми, директивите могат да се редактират и проверяват директно в диалоговия прозорец. Вярно е, че след това ще трябва да копирате редактирания текст и да го поставите във вашия файл robots.txt в основната директория.

Подобна услуга се предоставя от услугата "Webmaster Tools" от търсачката Google.

Създаване на robots.txt за WordPress, Joomla и Ucoz

Различни CMS, придобили широка популярност в Runet, предлагат на потребителите свои собствени версии на файлове robots.txt. Някои от тях изобщо нямат такива файлове. Често тези файлове са или твърде гъвкави и не отчитат характеристиките на ресурса на потребителя, или имат редица значителни недостатъци.

Опитен специалист може ръчно да коригира ситуацията (ако има липса на знания, по-добре е да не правите това). Ако се страхувате да се ровите във вътрешността на сайта, използвайте услугите на колеги. Такива манипулации, с познаване на материята, отнемат само няколко минути време. Например robots.txt може да изглежда така:

В последните два реда, както може би се досещате, трябва да въведете данните на собствения си ресурс.

Заключение

Има редица умения, които всеки уеб администратор трябва да овладее. И самоконфигуриранеи поддръжката на уебсайт е един от тях. Начинаещите създатели на сайтове могат да счупят такива дърва за огрев, докато отстраняват грешки в ресурс, който няма да можете да изчистите по-късно. Ако не искате да загубите потенциалната си аудитория и позиции в резултатите от търсенето поради структурата на сайта, подходете към процеса на настройката му внимателно и отговорно.

Първо, ще ви кажа какво е robots.txt.

Robots.txt- файл, който се намира в основната папка на сайта, където специални инструкцииза роботи за търсене. Тези инструкции са необходими, така че при влизане в сайта роботът да не взема предвид страницата / секцията, с други думи, затваряме страницата от индексиране.

Защо е необходим robots.txt

Файлът robots.txt се счита за ключово изискване за SEO оптимизация на абсолютно всеки сайт. Липсата на този файл може да повлияе негативно на натоварването от роботи и бавното индексиране и дори повече от това, сайтът няма да бъде напълно индексиран. Съответно потребителите няма да могат да посещават страници чрез Yandex и Google.

Влияние на robots.txt върху търсачките?

Търсачки(особено Google) ще индексира сайта, но ако няма файл robots.txt, тогава, както казах, не всички страници. Ако има такъв файл, тогава роботите се ръководят от правилата, които са посочени в този файл. Освен това има няколко вида роботи за търсене, ако някои могат да вземат предвид правилото, други го пренебрегват. По-специално, роботът GoogleBot не взема под внимание директивите Host и Crawl-Delay, роботът YandexNews наскоро престана да взема под внимание директивата Crawl-Delay, а роботите YandexDirect и YandexVideoParser игнорират общоприетите директиви в robots.txt (но вземете предвид тези, които са написани специално за тях).

Сайтът се зарежда най-много от роботи, които зареждат съдържание от вашия сайт. Съответно, ако кажем на робота кои страници да индексира и кои да игнорира, както и на какви времеви интервали да зарежда съдържание от страниците (това е повече за големи сайтове, които имат над 100 000 страници в индекса на търсачката). Това ще улесни много робота при индексирането и зареждането на съдържание от сайта.


Файловете, които са свързани със CMS, например в Wordpress - /wp-admin/, могат да бъдат класифицирани като ненужни за търсачките. В допълнение, ajax, json скриптове, отговорни за изскачащи форми, банери, извеждане на captcha и т.н.

За повечето роботи препоръчвам също така да затворите всички Javascript и CSS файлове от индексиране. Но за GoogleBot и Yandex е по-добре да индексирате такива файлове, тъй като те се използват от търсачките за анализиране на удобството на сайта и неговото класиране.

Какво представлява директивата robots.txt?



директиви- това са правилата за роботите за търсене. Първите стандарти за писане на robots.txt и съответно се появяват през 1994 г., а разширен стандарт през 1996 г. Въпреки това, както вече знаете, не всички роботи поддържат определени директиви. Затова по-долу описах от какво се ръководят основните роботи при индексирането на страниците на сайта.

Какво означава потребителски агент?

Това е най-важната директива, която определя за кои роботи за търсене ще се прилагат допълнителни правила.

За всички роботи:

За конкретен бот:

Потребителски агент: Googlebot

Регистърът на буквите в robots.txt не е важен, можете да напишете както Googlebot, така и googlebot

Google роботи







Yandex роботи за търсене

Основният робот за индексиране на Yandex

Използва се в услугата Yandex.Images

Използва се в услугата Yandex.Video

мултимедийни данни

Търсене в блогове

Робот, който има достъп до страница, когато е добавена чрез формуляра „Добавяне на URL“.

робот, който индексира икони на сайтове (favicons)

Yandex.Direct

Yandex.Metrica

Използва се в услугата Yandex.Catalog

Използва се в услугата Yandex.News

YandexImageResizer

Робот за търсене на мобилни услуги

Роботи за търсене Bing, Yahoo, Mail.ru, Rambler

Директиви Disallow и Allow

Disallow затваря раздели и страници от вашия сайт от индексиране. Съответно, Allow, напротив, ги отваря.

Има някои функции.

Първо, допълнителните оператори са *, $ и #. За какво се използват?

“*” е произволен брой знаци и тяхната липса. По подразбиране той вече е в края на реда, така че няма смисъл да го поставяте отново.

“$” - показва, че символът преди него трябва да дойде последен.

“#” - коментар, всичко, което идва след този знак, се игнорира от робота.

Примери за използване на Disallow:

Забрана: *?s=

Забрана: /категория/

Съответно роботът за търсене ще затвори страници като:

Но страниците на формуляра ще бъдат отворени за индексиране:

Сега трябва да разберете как се изпълняват вложените правила. Редът, в който са написани директивите, е много важен. Наследяването на правилата се определя от това кои директории са посочени, тоест ако искаме да затворим страница / документ от индексиране, достатъчно е да напишем директива. Нека разгледаме един пример

Това е нашият файл robots.txt

Забрана: /шаблон/

Тази директива също е посочена навсякъде и можете да регистрирате няколко файла с карта на сайта.

Директива за хост в robots.txt

Тази директива е необходима за определяне на основното огледало на сайта (често със или без www). Имайте предвид, че директивата за хост е посочена без протокола http://, но с протокола https://. Директивата се взема предвид само от роботите за търсене на Yandex и Mail.ru, докато други роботи, включително GoogleBot, няма да вземат предвид правилото. Хост да се регистрира 1 път във файла robots.txt

Пример с http://

Домакин: www.website.ru

Пример с https://

Директива за забавяне на обхождане

Задава интервала от време за индексиране на страниците на сайта от робота за търсене. Стойността е посочена в секунди и милисекунди.

Пример:

Използва се предимно в големи онлайн магазини, информационни сайтове, портали, където посещаемостта на сайта е от 5000 на ден. Необходимо е роботът за търсене да направи заявка за индексиране в определен период от време. Ако не посочите тази директива, тогава това може да създаде сериозно натоварване на сървъра.

Оптималната стойност на забавяне при обхождане за всеки сайт е различна. За търсачките Mail, Bing, Yahoo стойността може да бъде зададена минимална стойност 0,25, 0,3, тъй като тези роботи на търсачките могат да обхождат вашия сайт веднъж месечно, 2 месеца и т.н. (много рядко). За Yandex е по-добре да зададете по-голяма стойност.


Ако натоварването на вашия сайт е минимално, тогава няма смисъл да посочвате тази директива.

Директива за чисти параметри

Правилото е интересно, защото казва на робота, че страниците с определени параметри не трябва да бъдат индексирани. Пишат се 2 аргумента: URL адрес на страница и параметър. Тази директива се поддържа от търсачката Yandex.

Пример:

Забрана: /admin/

Disallow: /плъгини/

Disallow: /търсене/

Disallow: /количка/

Забрана: *sort=

Забрана: *view=

Потребителски агент: GoogleBot

Забрана: /admin/

Disallow: /плъгини/

Disallow: /търсене/

Disallow: /количка/

Забрана: *sort=

Забрана: *view=

Разрешаване: /plugins/*.css

Разрешаване: /plugins/*.js

Разрешаване: /plugins/*.png

Разрешаване: /plugins/*.jpg

Разрешаване: /plugins/*.gif

Потребителски агент: Yandex

Забрана: /admin/

Disallow: /плъгини/

Disallow: /търсене/

Disallow: /количка/

Забрана: *sort=

Забрана: *view=

Разрешаване: /plugins/*.css

Разрешаване: /plugins/*.js

Разрешаване: /plugins/*.png

Разрешаване: /plugins/*.jpg

Разрешаване: /plugins/*.gif

Clean-Param: utm_source&utm_medium&utm_campaign

В примера сме написали правила за 3 различни бота.

Къде да добавя robots.txt?

Добавен към основна папкасайт. Освен това, за да може да бъде последван от връзка:

Как да проверя robots.txt?

Уеб администратор на Yandex

В раздела Инструменти изберете Анализ на robots.txt и след това щракнете върху Проверка

Google Search Console

В раздела Сканиранеизбирам инструмент за проверка на файлове robots.txtи след това щракнете върху проверка.

Заключение:

Файлът robots.txt трябва да бъде задължителен на всеки рекламиран сайт и само правилната му конфигурация ще ви позволи да получите необходимото индексиране.

И накрая, ако имате въпроси, задайте ги в коментарите под статията и аз също се чудя как се пише robots.txt?

Robots.txtе текстов файл, който съдържа специални инструкции за роботите на търсачките да изследват вашия сайт в Интернет. Такива инструкции се наричат директиви- може да забрани индексирането на някои страници от сайта, да посочи правилното "огледало" на домейна и др.

За сайтове, работещи на платформата Nubex, файл с директиви се създава автоматично и се намира на domen.ru/robots.txt, където е domen.ru Име на домейн site..ru/robots.txt.

Можете да промените robots.txt и да предпишете допълнителни указания за търсачките в административния панел на сайта. За да направите това, на контролния панел изберете секцията "Настройки", а в него - точка SEO.

Намерете поле „Текстът на файла robots.txt“и напишете необходимите директиви в него. Препоръчително е да активирате квадратчето за отметка „Добавяне на връзка към автоматично генерирания файл sitemap.xml в robots.txt“: по този начин търсачката ще може да зареди картата на сайта и да намери всички необходими страници за индексиране.

Основни директиви за txt файла robots

Когато зарежда robots.txt, роботът първо търси запис, започващ с потребителски агент: Стойността на това поле трябва да бъде името на робота, чиито права за достъп са зададени в този запис. Тези. директивата User-agent е вид повикване към робота.

1. Ако стойността на полето User-agent съдържа символа " * ”, тогава правата за достъп, посочени в този запис, се прилагат за всички роботи за търсене, които изискват файла /robots.txt.

2. Ако в записа е посочено повече от едно име на робот, тогава правата за достъп се разширяват до всички посочени имена.

3. Главните или малките букви нямат значение.

4. Ако низът User-agent: BotName бъде намерен, директивите за User-agent: * не се вземат предвид (това е случаят, ако правите множество записи за различни роботи). Тези. роботът първо ще сканира текста за записа User-agent: MyName и ако го намери, ще следва тези инструкции; ако не, ще действа според инструкциите на потребителския агент: * запис (за всички ботове).

Между другото, преди всяка нова директива на потребителския агент се препоръчва да вмъкнете празен ред (Enter).

5. Ако редовете User-agent: BotName и User-agent: * липсват, се счита, че достъпът до робота не е ограничен.

Забрана и разрешение за индексиране на сайтове: директиви Disallow и Allow

За да се предотврати или позволи достъп на ботове за търсене до определени страници от сайта, се използват директиви Забрании позволявасъответно.

Стойността на тези директиви определя пълния или частичен път до секцията:

  • Забрана: /admin/- забранява индексирането на всички страници в админ секцията;
  • Disallow: /помощ— забранява индексирането на /help.html и /help/index.html;
  • Disallow: /помощ/ -затваря само /help/index.html;
  • забрани: /- блокира достъпа до целия сайт.

Ако стойността Disallow не е посочена, тогава достъпът не е ограничен:

  • Забрана:- разрешено е индексиране на всички страници на сайта.

Можете да използвате директивата за разрешаване, за да настроите изключения. позволява. Например, такъв запис ще попречи на роботите да индексират всички раздели на сайта, с изключение на тези, чийто път започва с /search:

Няма значение в какъв ред са изброени директивите за отказ и разрешаване на индексиране. Когато чете, роботът пак ще ги сортира по дължината на URL префикса (от най-малкия до най-големия) и ще ги прилага последователно. Тоест примерът по-горе във възприятието на бота ще изглежда така:

- само страници, започващи с /search, могат да бъдат индексирани. По този начин редът на директивите няма да повлияе по никакъв начин на резултата.

Директива за хост: как да посочите основния домейн на сайта

Ако няколко имена на домейни са свързани към вашия сайт (технически адреси, огледала и т.н.), търсачката може да реши, че това са различни сайтове. И то със същото съдържание. Решение? Към банята! И един бот знае кой от домейните ще бъде „наказан“ - основният или техническият.

За да избегнете този проблем, трябва да кажете на робота за търсене кой от адресите на вашия сайт участва в търсенето. Този адрес ще бъде определен като основен, а останалите ще образуват група огледала на вашия сайт.

Можете да направите това с хост директиви. Трябва да се добави към записа, започващ с User-Agent, непосредствено след директивите Disallow и Allow. В стойността на директивата Host трябва да посочите основния домейн с номер на порт (80 по подразбиране). Например:

Домакин: test-o-la-la.ru

Подобен запис означава, че сайтът ще се показва в резултатите от търсенето с връзка към домейна test-o-la-la.ru, а не www.test-o-la-la.ru и s10364.. екранна снимка по-горе).

В конструктора на Nubex директивата Host се добавя към текста на файла robots.txt автоматично, когато посочите в админ панела кой домейн е основен.

Директивата за хост може да се използва само веднъж в robots.txt. Ако го напишете няколко пъти, роботът ще приеме само първото по ред въвеждане.

Директива за забавяне на обхождането: как да зададете интервал за зареждане на страницата

За да посочите на робота минималния интервал между завършването на зареждането на една страница и началото на зареждането на следващата, използвайте Директива за забавяне на обхождане. Трябва да се добави към записа, започващ с User-Agent, непосредствено след директивите Disallow и Allow. В стойността на директивата посочете времето в секунди.

Използването на това забавяне при обработка на страници ще бъде удобно за претоварени сървъри.

Има и други директиви за роботите, освен описаните пет - User-Agent, Disallow, Allow, Host иОбхождане-закъснение - обикновено достатъчно, за да съставите текста на файла robots.txt.

Роботите за търсене - роботите започват запознаването си със сайта, като прочетат файла robots.txt. Той съдържа цялата важна за тях информация. Собствениците на сайтове трябва да създават и периодично да преглеждат robots.txt. От коректността на работата му зависи скоростта на индексиране на страниците и мястото в резултатите от търсенето.

Не е задължителен елемент от сайта, но присъствието му е желателно, тъй като се използва от собствениците на сайтове за управление на роботите за търсене. Задаване на различни нива на достъп до сайта, забрана за индексиране на целия сайт, отделни страници, секции или файлове. За ресурси с голям трафик ограничете времето за индексиране и забранете достъпа до роботи, които не са свързани с основните. търсачки. Това ще намали натоварването на сървъра.

Създаване.Създайте файл в текстов редакторБележник или подобен. Уверете се, че размерът на файла не надвишава 32 KB. Изберете ASCII или UTF-8 кодиране за файла. Моля, обърнете внимание, че файлът трябва да е уникален. Ако сайтът е създаден на CMS, той ще се генерира автоматично.

Поставете създадения файл в основната директория на сайта до основния файл index.html. За тази употреба FTP достъп. Ако сайтът е направен на CMS, тогава файлът се обработва през административния панел. Когато файлът е създаден и работи правилно, той е достъпен в браузъра.

При липса на robots.txt роботите за търсене събират цялата информация, свързана със сайта. Не се изненадвайте, когато видите празни страници или информация за услуги в резултатите от търсенето. Определете кои секции от сайта ще бъдат достъпни за потребителите и затворете останалите от индексиране.

Преглед.Периодично проверявайте дали всичко работи правилно. Ако роботът не получи отговор 200 OK, той автоматично приема, че файлът не съществува и сайтът е напълно отворен за индексиране. Кодовете за грешки са както следва:

    3xx - пренасочване на отговорите. Роботът се насочва към друга страница или към основната. Създайте до пет пренасочвания на една страница. Ако има повече от тях, роботът ще маркира такава страница като грешка 404. Същото важи и за пренасочванията, базирани на принципа на безкраен цикъл;

    4xx - отговори за грешка на сайта. Ако роботът получи грешка 400 от файла robots.txt, той заключава, че файлът не съществува и цялото съдържание е налично. Това важи и за грешки 401 и 403;

    5xx - отговори за грешка на сървъра. Роботът ще "чука", докато не получи отговор, различен от 500-ия.

Правила за създаване

Започваме с поздрав.Всеки файл трябва да започва с поздрав за потребителски агент. С него търсачките ще определят нивото на откритост.

Кодът Значение
Потребителски агент: * Достъпно за всеки
Потребителски агент: Yandex Достъпно за робота Yandex
Потребителски агент: Googlebot Достъпно за Googlebot
Потребителски агент: Mail.ru Достъпно за робота Mail.ru

Добавете отделни директиви за роботи. Ако е необходимо, добавете директиви за специализирани ботове за търсене на Yandex.

В този случай обаче директивите * и Yandex няма да бъдат взети под внимание.


Google има свои собствени ботове:

Първо забраняваме, после разрешаваме.Работете с две директиви: Allow - разрешавам, Disallow - забранявам. Не забравяйте да включите директивата disallow, дори ако достъпът е разрешен до целия сайт. Тази директива е задължителна. Ако липсва, роботът може да не прочете правилно останалата информация. Ако сайтът няма ограничено съдържание, оставете директивата празна.

Работи с различни нива. Във файла можете да зададете настройки на четири нива: сайт, страница, папка и тип съдържание. Да приемем, че искате да скриете изображения от индексиране. Това може да стане на ниво:

  • папки - disallow: /images/
  • тип съдържание - disallow: /*.jpg
Групирайте директивите в блокове и ги отделете с празен ред.Не пишете всички правила на един ред. Използвайте отделно правило за всяка страница, робот, папка и т.н. Освен това не бъркайте инструкциите: напишете бота в потребителския агент, а не в директивата за разрешаване / забрана.
Не да
Забрана: Yandex Потребителски агент: Yandex
забрани: /
Забрана: /css/ /images/ Забрана: /css/
Забрана: /изображения/


Регистър на записа е чувствителен.
Въведете името на файла с малки букви. Yandex в обяснителната документация посочва, че случаят не е важен за неговите ботове, но Google моли да уважи случая. Също така е възможно имената на файловете и папките да са чувствителни към малки и големи букви.

Посочете пренасочване 301 към главния огледален сайт. Директивата Host се използваше за това, но от март 2018 г. вече не е необходима. Ако вече е във файла robots.txt, премахнете го или го оставете по ваша преценка; роботите игнорират тази директива.

За да посочите главното огледало, поставете пренасочване 301 на всяка страница от сайта. Ако няма пренасочване, търсачката ще определи независимо кое огледало се счита за основно. За да поправите огледалото на сайта, просто въведете пренасочване на страница 301 и изчакайте няколко дни.

Напишете директивата Sitemap (карта на сайта).Файловете sitemap.xml и robots.txt се допълват взаимно. Проверете до:

  • файловете не си противоречат;
  • страниците бяха изключени и от двата файла;
  • страници бяха разрешени и в двата файла.
Когато анализирате съдържанието на robots.txt, обърнете внимание дали картата на сайта е включена в едноименната директива. Написано е така: Карта на сайта: www.yoursite.ru/sitemap.xml

Посочете коментарите със символа #.Всичко, написано след него, се игнорира от робота.

Проверка на файла

Анализирайте robots.txt с помощта на инструменти за разработчици: Yandex.Webmaster и Google Robots Testing Tool. Моля, обърнете внимание, че Yandex и Google проверяват само дали файлът отговаря на техните собствени изисквания. Ако файлът е правилен за Yandex, това не означава, че ще бъде правилен за Google роботи, затова проверете и в двете системи.

Ако намерите грешки и поправите robots.txt, роботите не четат промените веднага. Обикновено повторното обхождане на страницата се извършва веднъж на ден, но често отнема много повече време. Проверете файла след седмица, за да се уверите, че търсачките използват новата версия.

Проверка в Yandex.Webmaster

Първо проверете правата върху сайта. След това ще се появи в панела за уеб администратори. Въведете името на сайта в полето и щракнете върху проверка. Резултатът от проверката ще бъде наличен по-долу.

Освен това проверете отделни страници. За да направите това, въведете адресите на страниците и щракнете върху „проверка“.

Тестване в инструмента за тестване на Google Robots

Позволява ви да проверявате и редактирате файла в административния панел. Извежда съобщение за логически и синтактични грешки. Коригирайте текста на файла директно в редактора на Google. Но имайте предвид, че промените не се запазват автоматично. След като поправите robots.txt, копирайте кода от уеб редактора и създайте нов файлчрез бележник или друг текстов редактор. След това го качете на сървъра в основната директория.

Помня

    Файлът robots.txt помага на роботите за търсене да индексират сайта. Затворете сайта по време на разработката, през останалото време - целият сайт или част от него трябва да е отворен. Коректно работещ файл трябва да върне 200 отговор.

    Файлът се създава в обикновен текстов редактор. В много CMS административният панел осигурява създаването на файл. Уверете се, че размерът не надвишава 32 KB. Поставете го в основната директория на сайта.

    Попълнете файла според правилата. Започнете с кода "User-agent:". Напишете правилата в блокове, отделете ги с празен ред. Следвайте приетия синтаксис.

    Разрешете или забранете индексиране за всички роботи или избрани. За да направите това, посочете името на робота за търсене или поставете иконата *, което означава "за всички".

    Работа с различни нива на достъп: сайт, страница, папка или тип файл.

    Включете във файла индикация за главното огледало, като използвате пренасочване 301 със страници и карта на сайта, използвайки директивата за карта на сайта.

    Използвайте инструменти за разработчици, за да анализирате robots.txt. Това са инструменти за тестване на Yandex.Webmaster и Google Robots. Първо потвърдете правата на сайта, след това проверете. В Google веднага редактирайте файла в уеб редактор и премахнете грешките. Редактираните файлове не се записват автоматично. Качете ги на сървъра вместо оригиналния robots.txt. След седмица проверете дали търсачките използват новата версия.

Материалът е подготвен от Светлана Сирвида-Льоренте.