У дома интересно Изходният код на txt файла robots. Яндекс роботи. Crawl-delay - хронометър за слаби сървъри

Изходният код на txt файла robots. Яндекс роботи. Crawl-delay - хронометър за слаби сървъри

Файлът robot.txt е задължителен за повечето сайтове.

Всеки SEO-оптимизатор трябва да разбира значението на този файл, както и да може да предписва най-търсените директиви.

Правилно съставените роботи подобряват позицията на сайта в резултатите от търсенето и, наред с другите методи за промоция, са ефективен SEO инструмент.

За да разберем какво е robot.txt и как работи, нека си припомним как работят търсачките.

За да го проверите, въведете основния домейн в адресната лента, след което добавете /robots.txt в края на URL адреса.

Например файлът на робота Moz се намира на: moz.com/robots.txt. Влизаме и получаваме страницата:

Инструкции за "робота"

Как да създадете файл robots.txt?

3 вида инструкции за robots.txt.

Ако откриете, че файлът robots.txt липсва, създаването на такъв е лесно.

Както вече беше споменато в началото на статията, това е обикновен текстов файл в основната директория на сайта.

Може да стане през админ панела или файлов мениджър, с който програмистът работи с файловете в сайта.

Ще разберем как и какво да предпишем там в хода на статията.

Търсачките получават три вида инструкции от този файл:

сканира всичко, т.е пълен достъп(Позволява);
нищо не може да се сканира - пълна забрана (Disallow);
невъзможност за сканиране на отделни елементи (които са посочени) - частичен достъп.

На практика това изглежда така:

Моля, имайте предвид, че страницата все още може да влезе в SERP, ако има връзка, инсталирана на този сайт или извън него.

За да разберем по-добре това, нека проучим синтаксиса на този файл.

Синтаксис на Robots.Txt

Robots.txt: как изглежда?

Важни точки: какво винаги трябва да помните за роботите.

Седем общи термина, които често се срещат в уебсайтовете.

В най-простата си форма роботът изглежда така:

Потребителски агент: [име на системата, за която пишем директиви] Disallow: Карта на сайта: [посочете къде имаме картата на сайта] # Правило 1 Потребителски агент: Googlebot Disallow: /prim1/ Карта на сайта: http://www.nashsite.com / sitemap.xml

Заедно тези три реда се считат за най-простия robots.txt.

Тук попречихме на бота да индексира URL: http://www.nashsite.com/prim1/ и посочихме къде се намира картата на сайта.

Моля, обърнете внимание: във файла robots наборът от директиви за един потребителски агент (търсачка) е разделен от набора от директиви за друг с нов ред.

Във файл с няколко директиви на търсачката, всяка забрана или разрешение се отнася само за търсачката, посочена в този конкретен блок от редове.

то важен моменти не трябва да се забравя.

Ако файлът съдържа правила, които се прилагат за множество потребителски агенти, системата ще даде приоритет на директиви, които са специфични за определената търсачка.

Ето един пример:

В илюстрацията по-горе MSNbot, discobot и Slurp имат индивидуални правила, които ще работят само за тези търсачки.

Всички други потребителски агенти следват общите директиви в групата потребителски агент: *.

Синтаксисът на robots.txt е абсолютно ясен.

Има седем общи термина, които често се срещат в уебсайтовете.

Потребителски агент: Конкретната уеб търсачка (бот на търсачката), която инструктирате да обхожда. Списък с повечето потребителски агенти можете да намерите тук. Общо той има 302 системи, от които две са най-подходящите - Google и Yandex.
Disallow: команда за забрана, която казва на агента да не посещава URL адреса. Само един ред "disallow" е разрешен за URL адрес.
Разрешаване (приложимо само за Googlebot): Командата казва на бота, че има достъп до страницата или подпапката, дори ако основната страница или подпапка са затворени.
Забавяне при обхождане: Колко милисекунди трябва да изчака търсачката, преди да зареди и обходи съдържанието на страницата.

Моля, обърнете внимание - Googlebot не поддържа тази команда, но скоростта на обхождане може да бъде зададена ръчно в Google Search Console.

Карта на сайта: Използва се за извикване на местоположението на всички XML карти, свързани с този URL адрес. Тази команда се поддържа само от Google, Ask, Bing и Yahoo.
Хост: тази директива определя основното огледало на сайта, което трябва да се вземе предвид при индексирането. Може да се напише само веднъж.
Clean-param: Тази команда се използва за справяне с дублирано съдържание при динамично адресиране.

Регулярни изрази

Регулярни изрази: как изглеждат и какво означават.

Как да активирате и деактивирате обхождането в robots.txt.

На практика файловете robots.txt могат да растат и да станат доста сложни и тромави.

Системата дава възможност за използване регулярни изразида осигури необходимата функционалност на файла, тоест да работи гъвкаво със страници и подпапки.

* е заместващ знак, което означава, че директивата работи за всички търсещи ботове;
$ съвпада с края на URL адреса или низа;
# използван за коментари на разработчици и оптимизатори.

Ето някои примери за robots.txt за http://www.nashsite.com

URL адрес на Robots.txt: www.nashsite.com/robots.txt

Потребителски агент: * (т.е. за всички търсачки) Disallow: / (наклонена черта обозначава основната директория на сайта)

Току-що забранихме на всички търсачки да обхождат и индексират целия сайт.

Колко често се изисква това действие?

Рядко, но има моменти, когато е необходимо ресурсът да не участва Резултати от търсенето, а посещенията са направени чрез специални връзки или чрез корпоративно упълномощаване.

Така работят вътрешните сайтове на някои фирми.

В допълнение, такава директива се предписва, ако сайтът е в процес на разработка или модернизация.

Ако трябва да позволите на търсачката да обхожда всичко в сайта, тогава трябва да напишете следните команди в robots.txt:

Потребителски агент: * Забрана:

Няма нищо в забраната (забраната), което означава, че всичко е възможно.

Използването на този синтаксис във файла robots.txt позволява на роботите да обхождат всички страници на http://www.nashsite.com, включително начална страница, админ и контакти.

Блокиране на конкретни търсачки и отделни папки

Синтаксис за търсачката на Google (Googlebot).

Синтаксис за други агенти за търсене.

Потребителски агент: Googlebot Disallow: /example-subfolder/

Този синтаксис само уточнява Google търсачка(Googlebot), че не е необходимо да обхождате адреса: www.nashsite.com/example-subfolder/.

Блокиране на отделни страници за посочените ботове:

Потребителски агент: Bingbot Disallow: /example-subfolder/blocked-page.html

Този синтаксис казва, че само Bingbot (името на робота на Bing) не трябва да посещава страницата на: www.nashsite.com /example-subfolder/blocked-page.

Всъщност това е всичко.

Ако владеете тези седем команди и три символа и разбирате логиката на приложението, можете да напишете правилния robots.txt.

Защо не работи и какво да правя

Основен алгоритъм на действие.

Други методи.

Неправилното поведение на robots.txt е проблем.

В крайна сметка ще отнеме време, за да идентифицирате грешката и след това да я разберете.

Прочетете отново файла, уверете се, че не сте блокирали нищо допълнително.

Ако след известно време се окаже, че страницата все още виси в резултатите от търсенето, погледнете в Google Webmaster дали сайтът е индексиран повторно от търсачката и проверете дали има външни връзки към затворената страница.

Защото ако са, тогава ще бъде по-трудно да го скриете от резултатите от търсенето, ще са необходими други методи.

Е, преди да използвате, проверете този файл с безплатен тестер от Google.

Навременният анализ помага да се избегнат проблеми и спестява време.

Издадохме нова книга „Маркетинг на съдържанието в в социалните мрежи: Как да влезете в главата на абонатите и да се влюбите във вашата марка.

Robots.txt е текстов файл, който съдържа информация за роботите, които помагат за индексиране на портални страници.

Още видеоклипове в нашия канал - научете интернет маркетинг със SEMANTICA

Представете си, че сте на лов за съкровища на остров. Имате карта. Там е указан маршрутът: „Приближете голям пън. От него направете 10 крачки на изток, след което стигнете до скалата. Завийте надясно, намерете пещерата."

Това са посоки. Следвайки ги, вие следвате маршрута и намирате съкровището. Търсачът също работи приблизително по същия начин, когато започне да индексира сайт или страница. Намира файла robots.txt. Той чете кои страници трябва да се индексират и кои не. Следвайки тези команди, той заобикаля портала и добавя своите страници към индекса.

За какво е robots.txt?

Те започват да посещават сайтове и да индексират страници, след като сайтът е качен на хостинга и dns са регистрирани. Те си вършат работата, независимо дали имате такива технически файловеили не. Роботите показват на търсачките, че когато обхождат уебсайт, те трябва да вземат предвид параметрите, които са в него.

Липсата на файл robots.txt може да доведе до проблеми със скоростта на обхождане на сайта и наличието на боклук в индекса. Неправилната конфигурация на файла е изпълнена с изключване на важни части от ресурса от индекса и наличието на ненужни страници в резултатите от търсенето.

Всичко това в резултат води до проблеми с повишението.

Нека разгледаме по-отблизо какви инструкции се съдържат в този файл и как те влияят на поведението на бота на вашия сайт.

Как да направите robots.txt

Първо проверете дали имате този файл.

Напишете в адресна лентаадрес на браузъра на сайта и чрез наклонена черта името на файла, например https://www.xxxxx.ru/robots.txt

Ако файлът присъства, на екрана ще се появи списък с неговите параметри.

Ако файлът не съществува:

Файлът се създава в редактор на обикновен текст като Notepad или Notepad++.
Трябва да зададете името на роботите, extension.txt. Въведете данните в съответствие с приетите стандарти за форматиране.
Можете да проверите за грешки, като използвате услуги като уеб администратора на Yandex.Там трябва да изберете елемента „Анализиране на robots.txt“ в секцията „Инструменти“ и да следвате подканите.
Когато файлът е готов, качете го в основната директория на сайта.

Правила за персонализиране

Търсачките имат повече от един робот. Някои ботове само индексират текстово съдържание, някои - само графични. И самите търсачки може да имат различни схеми за това как работят роботите. Това трябва да се вземе предвид при компилирането на файла.

Някои от тях може да пренебрегнат някои от правилата, например GoogleBot не отговаря на информация за това кой огледален сайт се счита за основен. Но като цяло те възприемат и се ръководят от файла.

Синтаксис на файла

Параметри на документа: име на робота (бот) "User-agent", директиви: разрешаване на "Allow" и забрана на "Disallow".

Сега има две ключови търсачки: Yandex и Google, съответно, важно е да се вземат предвид изискванията и на двете при съставянето на сайт.

Форматът за създаване на записи е както следва, обърнете внимание на необходимите интервали и празни редове.

Директива на потребителския агент

Роботът търси записи, които започват с User-agent, те трябва да съдържат указания за името на робота за търсене. Ако не е посочено, достъпът на бот се счита за неограничен.

Директиви Disallow и Allow

Ако трябва да деактивирате индексирането в robots.txt, използвайте Disallow. С негова помощ те ограничават достъпа на бота до сайта или някои секции.

Ако robots.txt не съдържа нито една директива "Disallow", се счита, че индексирането на целия сайт е разрешено. Обикновено бановете се пишат след всеки бот поотделно.

Цялата информация след знака # е коментар и не може да се чете от машина.

Allow се използва за разрешаване на достъп.

Символът звездичка показва, че се отнася за всички: Потребителски агент: *.

Тази опция, напротив, означава пълна забрана за индексиране за всички.

Предотвратяване на преглед на цялото съдържание на конкретна папка на директория

За да блокирате един файл, трябва да посочите неговия абсолютен път

Директиви Карта на сайта, Хост

За Yandex е обичайно да посочвате кое огледало искате да посочите като основно. А Google, както си спомняме, го игнорира. Ако няма огледала, просто поправете как смятате, че е правилно да изпишете името на уебсайта си с или без www.

Директива за чисти параметри

Може да се използва, ако URL адресите на страниците на уебсайта съдържат променливи параметри, които не влияят на тяхното съдържание (това могат да бъдат потребителски идентификатори, референти).

Например в адреса на страницата "ref" определя източника на трафик, т.е. показва откъде посетителят е дошъл на сайта. Страницата ще бъде еднаква за всички потребители.

Роботът може да бъде насочен към това и той няма да изтегли дублирана информация. Това ще намали натоварването на сървъра.

Директива за забавяне на обхождане

С помощта можете да определите с каква честота ботът ще зарежда страници за анализ. Тази команда се използва, когато сървърът е претоварен и показва, че процесът на байпас трябва да бъде ускорен.

грешки в robots.txt

Файлът не е в основната директория. Роботът няма да го търси по-дълбоко и няма да го вземе предвид.
Буквите в заглавието трябва да са малки латински.
Грешка в името, понякога пропускат буквата S накрая и пишат робот.
Не можете да използвате знаци на кирилица във файла robots.txt. Ако трябва да посочите домейн на руски език, използвайте формата в специалното Punycode кодиране.
Това е метод за конвертиране на имена на домейни в поредица от ASCII знаци. За да направите това, можете да използвате специални конвертори.

Това кодиране изглежда така:
website.rf = xn--80aswg.xn--p1ai

Допълнителна информация за това какво да затворите в robots txt и за настройките в съответствие с изискванията на търсачките Google и Yandex можете да намерите в справочните документи. Различните cms също могат да имат свои собствени характеристики, това трябва да се вземе предвид.

Robots.txt- това е текстов файл, който се намира в корена на сайта - http://site.ru/robots.txt. Основната му цел е да задава определени директиви на търсачките – какво и кога да правят в сайта.

Най-простият Robots.txt

Най-простият robots.txt, който позволява на всички търсачки да индексират всичко, изглежда така:

Потребителски агент: *
Забрани:

Ако директивата Disallow няма наклонена черта в края, тогава всички страници могат да бъдат индексирани.

Тази директива напълно забранява сайта да бъде индексиран:

Потребителски агент: *
Забрана: /

Потребителски агент - показва за кого са предназначени директивите, звездичка показва, че за всички PS, за Yandex посочете Потребителски агент: Yandex.

Помощта на Yandex казва, че неговите роботи обработват User-agent: *, но ако присъства User-agent: Yandex, User-agent: * се игнорира.

Директиви Disallow и Allow

Има две основни директиви:

Disallow - забрана

Разрешаване - разрешаване

Пример:В блога забранихме индексирането на папката /wp-content/, където се намират файловете на плъгина, шаблона и т.н. Но има и изображения, които трябва да бъдат индексирани от PS, за да участват в търсенето на изображения. За да направите това, трябва да използвате следната схема:

Потребителски агент: *
Разрешаване: /wp-content/uploads/ # Разрешете изображенията да бъдат индексирани в папката за качване
Забрана: /wp-съдържание/

Редът, в който се използват директивите, е важен за Yandex, ако се прилагат за едни и същи страници или папки. Ако посочите така:

Потребителски агент: *
Забрана: /wp-съдържание/
Разрешаване: /wp-content/uploads/

Изображенията няма да бъдат заредени от робота на Yandex от директорията /uploads/, тъй като се изпълнява първата директива, която отказва всякакъв достъп до папката wp-content.

Google го приема лесно и следва всички указания на файла robots.txt, независимо от местоположението им.

Освен това не забравяйте, че директивите със и без наклонена черта изпълняват различна роля:

Disallow: /aboutОтказва достъп до цялата директория site.ru/about/ и страници, които съдържат about - site.ru/about.html , site.ru/aboutlive.html и т.н. няма да бъдат индексирани.

Disallow: /за/Той ще забрани на роботите да индексират страници в директорията site.ru/about/ и страници като site.ru/about.html и др. ще бъдат достъпни за индексиране.

Регулярни изрази в robots.txt

Поддържат се два знака, това са:

* - предполага произволен ред на знаците.

Пример:

Disallow: /около*ще откаже достъп до всички страници, които съдържат около, по принцип и без звездичка, такава директива също ще работи. Но в някои случаи този израз не е заменим. Например в една категория има страници с .html в края и без, за да затворим всички страници, които съдържат html от индексиране, пишем следната директива:

Disallow: /about/*.html

Сега страницата site.ru/about/live.html е затворена от индексиране, а страницата site.ru/about/live е отворена.

Друг пример за аналогия:

Потребителски агент: Yandex
Разрешаване: /about/*.html #разрешаване на индексиране
Disallow: /относно/

Всички страници ще бъдат затворени, с изключение на страниците, които завършват на .html

$ - отрязва остатъка и маркира края на линията.

Пример:

Disallow: /about- Тази директива robots.txt забранява индексирането на всички страници, които започват с about, както и забранява страниците в директорията /about/.

Като добавим знак за долар в края - Disallow: /about$, ще кажем на роботите, че само /about страницата не може да бъде индексирана, но /about/ директорията, /aboutlive страниците и т.н. могат да бъдат индексирани.

Директива за карта на сайта

Тази директива определя пътя до Sitemap, както следва:

Карта на сайта: http://site.ru/sitemap.xml

Директива за хост

Посочено в този формуляр:

Домакин: site.ru

Без http://, наклонени черти и други подобни. Ако имате основен огледален сайт с www, напишете:

Пример за Robots.txt за Bitrix

Потребителски агент: *
Забрана: /*index.php$
Забрана: /bitrix/
Забрана: /auth/
Disallow: /лични/
Disallow: /качване/
Disallow: /търсене/
Забрана: /*/търсене/
Забрана: /*/slide_show/
Disallow: /*/gallery/*order=*
Забрана: /*?*
Забрана: /*&print=
Disallow: /*register=
Disallow: /*забравена_парола=
Disallow: /*change_password=
Disallow: /*login=
Забрана: /*излизане=
Забрана: /*auth=
Disallow: /*действие=*
Забрана: /*bitrix_*=
Забрана: /*backurl=*
Забрана: /*BACKURL=*
Забрана: /*back_url=*
Забрана: /*BACK_URL=*
Забрана: /*back_url_admin=*
Забрана: /*print_course=Y
Забрана: /*COURSE_ID=
Забрана: /*PAGEN_*
Забрана: /*PAGE_*
Забрана: /*SHOWALL
Disallow: /*show_all=
Хост: sitename.ru
Карта на сайта: https://www.sitename.ru/sitemap.xml

Пример за WordPress robots.txt

След като бъдат добавени всички необходими директиви, описани по-горе. Трябва да получите файл robots като този:

Това е, така да се каже, основната версия на robots.txt за wordpress. Тук има два потребителски агента - един за всички и втори за Yandex, където е посочена директивата Host.

роботи мета тагове

Възможно е да затворите страница или сайт от индексиране не само с файла robots.txt, това може да стане с мета тага.

Трябва да го регистрирате в тага и този мета таг ще забрани индексирането на сайта. В WordPress има плъгини, които ви позволяват да задавате такива мета тагове, например - Platinum Seo Pack. С него можете да затворите всяка страница от индексиране, използва мета тагове.

Директива за забавяне на обхождане

С тази директива можете да зададете времето, за което ботът за търсене трябва да бъде прекъснат между изтеглянето на страниците на сайта.

Потребителски агент: *
Забавяне при обхождане: 5

Времето за изчакване между две зареждания на страници ще бъде 5 секунди. За да намалят натоварването на сървъра, обикновено го задават на 15-20 секунди. Тази директива е необходима за големи, често актуализирани сайтове, където ботовете за търсене просто "живеят".

За обикновени сайтове/блогове тази директива не е необходима, но по този начин можете да ограничите поведението на други неподходящи роботи за търсене (Rambler, Yahoo, Bing) и т.н. В крайна сметка те също посещават сайта и го индексират, като по този начин създават натоварване на сървъра.

Здравейте всички! Днес бих искал да ви разкажа за файл robots.txt. Да, много неща се пишат за него в интернет, но, честно казано, аз самият съм много за дълго времеНе можах да разбера как да създам правилния robots.txt. Накрая направих един и го има във всичките ми блогове. Не забелязвам никакви проблеми с robots.txt, работи добре.

Robots.txt за WordPress

И защо всъщност се нуждаем от robots.txt? Отговорът е все същият -. Тоест компилирането на robots.txt е една от частите Оптимизация за търсачкисайт (между другото, много скоро ще има урок, който ще бъде посветен на цялата вътрешна оптимизация на WordPress сайт. Затова не забравяйте да се абонирате за RSS, за да не пропуснете интересни материали.).

Една от функциите даден файл – забрана за индексиранененужни страници от сайта. Той също така задава адреса и предписва основния огледало на сайта(сайт с www или без www).

Забележка: за търсачките един и същ сайт с www и без www са напълно различни сайтове. Но, осъзнавайки, че съдържанието на тези сайтове е едно и също, търсачките ги „залепват“ заедно. Ето защо е важно да регистрирате главния огледален сайт в robots.txt. За да разберете кой е основният (с www или без www), просто въведете адреса на вашия сайт в браузъра, например с www, ако автоматично бъдете пренасочени към същия сайт без www, тогава основното огледало на вашия сайт без www. Надявам се да съм обяснил правилно.

И така, това съкровено, според мен, правилен robots.txt за wordpressМожете да видите по-долу.

Правилен Robots.txt за WordPress

Потребителски агент: *
Забрана: /cgi-bin
Забрана: /wp-admin
Забрана: /wp-includes
Забрана: /wp-content/cache
Забрана: /wp-content/themes
Забрана: /trackback
Забрана: */trackback
Забрана: */*/trackback
Забрана: */*/feed/*/
Забрана: */feed
Забрана: /*?*
Забрана: /tag

Потребителски агент: Yandex
Забрана: /cgi-bin
Забрана: /wp-admin
Забрана: /wp-includes
Забрана: /wp-content/plugins
Забрана: /wp-content/cache
Забрана: /wp-content/themes
Забрана: /trackback
Забрана: */trackback
Забрана: */*/trackback
Забрана: */*/feed/*/
Забрана: */feed
Забрана: /*?*
Забрана: /tag
хост: сайт
.gz
Карта на сайта: https://site/sitemap.xml

Всичко, което е дадено по-горе, трябва да копирате в текстов документс разширение .txt, тоест името на файла трябва да е robots.txt. Можете да създадете този текстов документ, например, с помощта на програмата. Само моля те не забравяй промяна в последните три редаадрес към адреса на вашия уебсайт. Файлът robots.txt трябва да се намира в корена на блога, тоест в същата папка като папките wp-content, wp-admin и др.

Тези, които са твърде мързеливи, за да създадат това текстов файл, можете просто да изтеглите robots.txt и също да коригирате 3 реда там.

Искам да отбележа, че в техническите части, които ще бъдат разгледани по-долу, не е нужно да се натоварвате много. Цитирам ги за „знание“, така да се каже, общ поглед, за да знаят какво е необходимо и защо.

Така че линията:

потребителски агент

задава правилата за дадена търсачка: например „*“ (звездичка) показва, че правилата са за всички търсачки и какво е по-долу

Потребителски агент: Yandex

означава, че тези правила са само за Yandex.

Забрани
Тук „бутате“ секции, които НЕ е необходимо да бъдат индексирани от търсачките. Например на страницата https://site/tag/seo имам дублирани статии (повтаряне) с обикновени статии и дублирането на страници се отразява отрицателно промоция при търсене, следователно е много желателно тези сектори да бъдат затворени от индексиране, което правим, като използваме това правило:

Забрана: /tag

Така че в дадения по-горе robots.txt почти всички ненужни раздели на сайта на WordPress са затворени от индексиране, тоест просто оставете всичко както е.

Домакин

Тук задаваме основното огледало на сайта, за което говорих малко по-нагоре.

Карта на сайта

В последните два реда посочваме адреса на до две карти на сайта, създадени с .

Възможни проблеми

Но поради този ред в robots.txt публикациите в сайта ми вече не бяха индексирани:

Забрана: /*?*

Както можете да видите, точно този ред в robots.txt забранява индексирането на статии, което, разбира се, изобщо не ни е необходимо. За да коригирате това, просто трябва да премахнете тези 2 реда (в правилата за всички търсачки и за Yandex) и крайният правилен robots.txt за WordPress сайт без CNC ще изглежда така:

Потребителски агент: *
Забрана: /cgi-bin
Забрана: /wp-admin
Забрана: /wp-includes
Забрана: /wp-content/plugins
Забрана: /wp-content/cache
Забрана: /wp-content/themes
Забрана: /trackback
Забрана: */trackback
Забрана: */*/trackback
Забрана: */*/feed/*/
Забрана: */feed
Забрана: /tag

Потребителски агент: Yandex
Забрана: /cgi-bin
Забрана: /wp-admin
Забрана: /wp-includes
Забрана: /wp-content/plugins
Забрана: /wp-content/cache
Забрана: /wp-content/themes
Забрана: /trackback
Забрана: */trackback
Забрана: */*/trackback
Забрана: */*/feed/*/
Забрана: */feed
Забрана: /tag
хост: сайт
Карта на сайта: https://site/sitemap.xml

За да проверите дали сме компилирали правилно файла robots.txt, препоръчвам ви да използвате услугата Yandex Webmaster (аз ви казах как да се регистрирате в тази услуга).

Отиваме в секцията Настройки за индексиране –> Анализ на Robots.txt:

Вече там кликнете върху бутона „Изтегляне на robots.txt от сайта“ и след това върху бутона „Проверка“:

Ако видите нещо като следното съобщение, значи имате правилния robots.txt за Yandex:

Първо, ще ви кажа какво е robots.txt.

Robots.txt- файл, който се намира в основната папка на сайта, където специални инструкцииза роботи за търсене. Тези инструкции са необходими, така че при влизане в сайта роботът да не взема предвид страницата / секцията, с други думи, затваряме страницата от индексиране.

Защо е необходим robots.txt

Файлът robots.txt се счита за ключово изискване за SEO оптимизация на абсолютно всеки сайт. Липсата на този файл може да повлияе негативно на натоварването от роботи и бавното индексиране и дори повече от това, сайтът няма да бъде напълно индексиран. Съответно потребителите няма да могат да посещават страници чрез Yandex и Google.

Влияние на robots.txt върху търсачките?

Търсачки(особено Google) ще индексира сайта, но ако няма файл robots.txt, тогава, както казах, не всички страници. Ако има такъв файл, тогава роботите се ръководят от правилата, които са посочени в този файл. Освен това има няколко вида роботи за търсене, ако някои могат да вземат предвид правилото, други го пренебрегват. По-специално, роботът GoogleBot не взема предвид директивите Host и Crawl-Delay, роботът YandexNews наскоро престана да взема под внимание директивата Crawl-Delay, а роботите YandexDirect и YandexVideoParser игнорират общоприетите директиви в robots.txt (но вземете предвид тези, които са написани специално за тях).

Сайтът се зарежда най-много от роботи, които зареждат съдържание от вашия сайт. Съответно, ако кажем на робота кои страници да индексира и кои да игнорира, както и на какви времеви интервали да зарежда съдържание от страниците (това е по-важно за големите сайтове, които имат над 100 000 страници в индекса на търсачката). Това ще улесни много робота при индексирането и зареждането на съдържание от сайта.

Файловете, които са свързани със CMS, например в Wordpress - /wp-admin/, могат да бъдат класифицирани като ненужни за търсачките. В допълнение, ajax, json скриптове, отговорни за изскачащи форми, банери, извеждане на captcha и т.н.

За повечето роботи препоръчвам също така да затворите всички Javascript и CSS файлове от индексиране. Но за GoogleBot и Yandex е по-добре да индексирате такива файлове, тъй като те се използват от търсачките за анализиране на удобството на сайта и неговото класиране.

Какво представлява директивата robots.txt?

директиви- това са правилата за роботите за търсене. Първите стандарти за писане на robots.txt и съответно се появяват през 1994 г., а разширен стандарт през 1996 г. Въпреки това, както вече знаете, не всички роботи поддържат определени директиви. Затова по-долу описах от какво се ръководят основните роботи при индексирането на страниците на сайта.

Какво означава потребителски агент?

Това е най-важната директива, която определя за кои роботи за търсене ще се прилагат допълнителни правила.

За всички роботи:

За конкретен бот:

Потребителски агент: Googlebot

Регистърът на буквите в robots.txt не е важен, можете да напишете както Googlebot, така и googlebot

Google роботи

Yandex роботи за търсене


	Основният робот за индексиране на Yandex
	Използва се в услугата Yandex.Images
	Използва се в услугата Yandex.Video
	мултимедийни данни
	Търсене в блогове
	Робот, който има достъп до страница, когато е добавена чрез формуляра „Добавяне на URL“.
	робот, който индексира икони на сайтове (favicons)
	Yandex.Direct
	Yandex.Metrica
	Използва се в услугата Yandex.Catalog
	Използва се в услугата Yandex.News
YandexImageResizer	Робот за търсене на мобилни услуги

Роботи за търсене Bing, Yahoo, Mail.ru, Rambler

Директиви Disallow и Allow

Disallow затваря раздели и страници от вашия сайт от индексиране. Съответно, Allow, напротив, ги отваря.

Има някои функции.

Първо, допълнителните оператори са *, $ и #. За какво се използват?

“*” е произволен брой знаци и тяхната липса. По подразбиране той вече е в края на реда, така че няма смисъл да го поставяте отново.

“$” - показва, че символът преди него трябва да дойде последен.

“#” - коментар, всичко, което идва след този знак, се игнорира от робота.

Примери за използване на Disallow:

Забрана: *?s=

Забрана: /категория/

Съответно роботът за търсене ще затвори страници като:

Но страниците на формуляра ще бъдат отворени за индексиране:

Сега трябва да разберете как се изпълняват вложените правила. Редът, в който са написани директивите, е много важен. Наследяването на правилата се определя от това кои директории са посочени, тоест ако искаме да затворим страница / документ от индексиране, достатъчно е да напишем директива. Нека разгледаме един пример

Това е нашият файл robots.txt

Забрана: /шаблон/

Тази директива също е посочена навсякъде и можете да регистрирате няколко файла с карта на сайта.

Директива за хост в robots.txt

Тази директива е необходима за определяне на основното огледало на сайта (често със или без www). забележи, че хост директивапосочени без http:// протокол, но с https:// протокол. Директивата се взема предвид само от роботите за търсене на Yandex и Mail.ru, докато други роботи, включително GoogleBot, няма да вземат предвид правилото. Хост да се регистрира 1 път във файла robots.txt

Пример с http://

Домакин: www.website.ru

Пример с https://

Директива за забавяне на обхождане

Задава интервала от време за индексиране на страниците на сайта от робота за търсене. Стойността е посочена в секунди и милисекунди.

Пример:

Използва се предимно в големи онлайн магазини, информационни сайтове, портали, където посещаемостта на сайта е от 5000 на ден. Необходимо е роботът за търсене да направи заявка за индексиране в определен период от време. Ако не посочите тази директива, тогава това може да създаде сериозно натоварване на сървъра.

Оптималната стойност на забавяне при обхождане за всеки сайт е различна. За търсачките Mail, Bing, Yahoo стойността може да бъде зададена минимална стойност 0,25, 0,3, тъй като тези роботи на търсачките могат да обхождат вашия сайт веднъж месечно, 2 месеца и т.н. (много рядко). За Yandex е по-добре да зададете по-голяма стойност.

Ако натоварването на вашия сайт е минимално, тогава няма смисъл да посочвате тази директива.

Директива за чисти параметри

Правилото е интересно, защото казва на робота, че страниците с определени параметри не трябва да бъдат индексирани. Пишат се 2 аргумента: URL адрес на страница и параметър. Тази директива се поддържа търсачкаЯндекс.

Пример:

Забрана: /admin/

Disallow: /плъгини/

Disallow: /търсене/

Disallow: /количка/

Забрана: *sort=

Забрана: *view=

Потребителски агент: GoogleBot

Забрана: /admin/

Disallow: /плъгини/

Disallow: /търсене/

Disallow: /количка/

Забрана: *sort=

Забрана: *view=

Разрешаване: /plugins/*.css

Разрешаване: /plugins/*.js

Разрешаване: /plugins/*.png

Разрешаване: /plugins/*.jpg

Разрешаване: /plugins/*.gif

Потребителски агент: Yandex

Забрана: /admin/

Disallow: /плъгини/

Disallow: /търсене/

Disallow: /количка/

Забрана: *sort=

Забрана: *view=

Разрешаване: /plugins/*.css

Разрешаване: /plugins/*.js

Разрешаване: /plugins/*.png

Разрешаване: /plugins/*.jpg

Разрешаване: /plugins/*.gif

Clean-Param: utm_source&utm_medium&utm_campaign

В примера сме написали правила за 3 различни бота.

Къде да добавя robots.txt?

Добавен към основна папкасайт. Освен това, за да може да бъде последван от връзка:

Как да проверя robots.txt?

Уеб администратор на Yandex

В раздела Инструменти изберете Анализ на robots.txt и след това щракнете върху Проверка

Google Search Console

В раздела Сканиранеизбирам инструмент за проверка на файлове robots.txtи след това щракнете върху проверка.

Заключение:

Файлът robots.txt трябва да бъде задължителен на всеки рекламиран сайт и само правилната му конфигурация ще ви позволи да получите необходимото индексиране.

И накрая, ако имате въпроси, задайте ги в коментарите под статията и аз също се чудя как се пише robots.txt?

Само за комплекса. Програми. Желязо. Интернет. Windows

Изходният код на txt файла robots. Яндекс роботи. Crawl-delay - хронометър за слаби сървъри

Инструкции за "робота"

Синтаксис на Robots.Txt

Регулярни изрази

Блокиране на конкретни търсачки и отделни папки

Защо не работи и какво да правя

За какво е robots.txt?

Как да направите robots.txt

Правила за персонализиране

Синтаксис на файла

Директива на потребителския агент

Директиви Disallow и Allow

Директиви Карта на сайта, Хост

Директива за чисти параметри

Директива за забавяне на обхождане

грешки в robots.txt

Най-простият Robots.txt

Директиви Disallow и Allow

Регулярни изрази в robots.txt

Пример:

Пример:

Директива за карта на сайта

Директива за хост

Пример за Robots.txt за Bitrix

Пример за WordPress robots.txt

роботи мета тагове

Директива за забавяне на обхождане

Robots.txt за WordPress

Правилен Robots.txt за WordPress

Възможни проблеми

Защо е необходим robots.txt

Влияние на robots.txt върху търсачките?

Какво представлява директивата robots.txt?

Какво означава потребителски агент?

Google роботи

Yandex роботи за търсене

Роботи за търсене Bing, Yahoo, Mail.ru, Rambler

Директиви Disallow и Allow

Директива за хост в robots.txt

Директива за забавяне на обхождане

Директива за чисти параметри

Как да проверя robots.txt?

Заключение: