خانه سوالات فایل txt robots. نحوه ویرایش روبات txt. استفاده از کاراکترهای خاص * و $

فایل txt robots. نحوه ویرایش روبات txt. استفاده از کاراکترهای خاص * و $

هیچ چیز کوچکی در سئو وجود ندارد. گاهی اوقات فقط یک فایل کوچک، Robots.txt، می تواند بر ارتقای وب سایت تأثیر بگذارد.اگر می خواهید سایت شما ایندکس شود تا ربات های جستجوگر صفحات مورد نیاز شما را دور بزنند، باید برای آنها توصیه هایی بنویسید.

"آیا امکان دارد؟"، - تو پرسیدی.شاید. برای انجام این کار، سایت شما باید یک فایل robots.txt داشته باشد.نحوه ساخت فایل روبات ها، پیکربندی و اضافه کردن به سایت - ما در این مقاله درک می کنیم.

robots.txt چیست و برای چیست؟

Robots.txt معمول است فایل متنی ، که حاوی توصیه هایی برای روبات های جستجوگر است: کدام صفحات باید خزیده شوند و کدام نه.

مهم: فایل باید با UTF-8 کدگذاری شود، در غیر این صورت روبات های جستجوگر ممکن است آن را نپذیرند.

آیا سایتی که این فایل را ندارد وارد ایندکس می شود؟این کار را انجام می‌دهد، اما روبات‌ها می‌توانند صفحاتی را که در نتایج جستجو نامطلوب هستند، "چاپ" کنند: به عنوان مثال، صفحات ورود، پنل مدیریت، صفحات کاربر شخصی، سایت‌های آینه و غیره. همه اینها "زباله جستجو" در نظر گرفته می شود:

اگر اطلاعات شخصی در نتایج جستجو گنجانده شود، هم شما و هم سایت ممکن است متضرر شوند. نکته دیگر - بدون این فایل، نمایه سازی سایت بیشتر طول می کشد.

در فایل Robots.txt می توان سه نوع دستور برای عنکبوت های جستجو مشخص کرد:

اسکن ممنوع است؛
اسکن مجاز است؛
اسکن تا حدی مجاز است.

همه اینها با استفاده از دستورالعمل ها نوشته شده است.

نحوه ایجاد فایل Robots.txt صحیح برای یک وب سایت

فایل Robots.txt را می توان به سادگی در برنامه Notepad ایجاد کرد که به طور پیش فرض در هر رایانه ای موجود است. تجویز یک فایل حتی برای یک مبتدی حداکثر نیم ساعت زمان می برد (اگر دستورات را بدانید).

شما همچنین می توانید از برنامه های دیگر استفاده کنید - برای مثال Notepad. همچنین سرویس های آنلاینی وجود دارد که می توانند فایل را به صورت خودکار تولید کنند. به عنوان مثال، مانندCYPR.comیا مدیاسووا

فقط باید آدرس سایت خود را مشخص کنید که برای کدام موتورهای جستجو باید قوانینی تنظیم کنید، آینه اصلی (با یا بدون www). سپس سرویس همه چیز را خودش انجام می دهد.

من شخصاً روش قدیمی "پدربزرگ" را ترجیح می دهم - ثبت فایل به صورت دستی در دفترچه یادداشت. همچنین یک "راه تنبل" وجود دارد - توسعه دهنده خود را با این معما کنید 🙂 اما حتی در این مورد نیز باید بررسی کنید که آیا همه چیز به درستی در آنجا نوشته شده است یا خیر. بنابراین، بیایید بفهمیم که چگونه این فایل را کامپایل کنیم، و در کجا باید قرار گیرد.

فایل Robots.txt تمام شده باید در پوشه ریشه سایت قرار داشته باشد. فقط یک فایل، بدون پوشه:

آیا می خواهید بررسی کنید که آیا در سایت شما وجود دارد یا خیر؟ رانندگی کنید نوار آدرسنشانی: site.ru/robots.txt. صفحه زیر را مشاهده خواهید کرد (در صورت وجود فایل):

فایل شامل چندین بلوک است که با یک تورفتگی از هم جدا شده اند. هر بلوک حاوی توصیه هایی برای روبات های جستجوگر موتورهای جستجوی مختلف است (به علاوه یک بلوک با قوانین عمومیبرای همه)، و یک بلوک جداگانه با پیوندهایی به نقشه سایت - نقشه سایت.

نیازی به تورفتگی در داخل بلوک با قوانین برای یک ربات جستجو وجود ندارد.

هر بلوک با دستورالعمل User-agent شروع می شود.

پس از هر دستورالعمل یک علامت ":" (دونقطه)، یک فاصله وجود دارد که پس از آن مقداری نشان داده می شود (مثلاً، کدام صفحه را از نمایه سازی ببندید).

شما باید آدرس های نسبی صفحه را مشخص کنید، نه آدرس های مطلق. نسبی - این بدون "www.site.ru" است. به عنوان مثال، شما باید نمایه سازی یک صفحه را غیرفعال کنیدwww.site.ru/shop. بنابراین بعد از کولون یک فاصله، یک اسلش و "فروشگاه" قرار می دهیم:

غیر مجاز: /فروشگاه.

ستاره (*) هر مجموعه ای از کاراکترها را نشان می دهد.

علامت دلار ($) انتهای خط است.

شما ممکن است تصمیم بگیرید - چرا یک فایل را از ابتدا بنویسید اگر می توانید آن را در هر سایتی باز کنید و فقط آن را در خودتان کپی کنید؟

برای هر سایت باید قوانین منحصر به فردی را تجویز کنید. باید ویژگی ها را در نظر گرفت CMS. به عنوان مثال، همان پنل مدیریت در /wp-admin در موتور وردپرس قرار دارد، در آدرس دیگری متفاوت خواهد بود. همینطور آدرس هر صفحه، با نقشه سایت و غیره.

راه اندازی فایل Robots.txt: نمایه سازی، آینه اصلی، دستورالعمل ها

همانطور که قبلاً در اسکرین شات مشاهده کردید، دستورالعمل User-agent در درجه اول قرار دارد. این نشان می دهد که قوانین زیر برای کدام ربات جستجو اجرا می شود.

عامل کاربر: * - قوانین برای همه روبات های جستجوگر، یعنی هر موتور جستجو(گوگل، یاندکس، بینگ، رامبلر و غیره).

عامل کاربر: Googlebot - قوانین عنکبوت جستجوی Google را نشان می دهد.

عامل کاربر: Yandex - قوانین ربات جستجوی Yandex.

برای اینکه کدام ربات جستجوگر ابتدا قوانین را تجویز کند، تفاوتی وجود ندارد. اما معمولاً توصیه هایی برای همه ربات ها ابتدا نوشته می شود.

Disallow: فهرست‌سازی را ممنوع کنید

برای غیرفعال کردن نمایه سازی سایت به عنوان یک کل یا صفحات جداگانه، از دستورالعمل Disallow استفاده کنید.

به عنوان مثال، می توانید سایت را کاملاً از فهرست بندی ببندید (اگر منبع در حال نهایی شدن است و نمی خواهید در این حالت وارد نتایج جستجو شود). برای این کار موارد زیر را بنویسید:

عامل کاربر: *

غیر مجاز:/

بنابراین، همه ربات های جستجوگر از ایندکس کردن مطالب در سایت منع می شوند.

و به این صورت می توانید یک سایت برای نمایه سازی باز کنید:

عامل کاربر: *

غیر مجاز:

بنابراین، اگر می‌خواهید سایت را ببندید، بررسی کنید که آیا بعد از دستور Disallow، یک اسلش وجود دارد یا خیر. اگر می خواهید بعداً آن را باز کنید - فراموش نکنید که قانون را حذف کنید (و این اغلب اتفاق می افتد).

برای بستن صفحات جداگانه از فهرست بندی، باید آدرس آنها را مشخص کنید. من قبلاً نوشتم که چگونه انجام می شود:

عامل کاربر: *

غیر مجاز: /wp-admin

بنابراین، پنل مدیریت در سایت از دید شخص ثالث بسته شد.

آنچه شما باید از نمایه سازی بدون شکست ببندید:

پنل اداری؛
صفحات شخصی کاربران؛
سبدها؛
نتایج جستجوی سایت؛
صفحات ورود، ثبت نام، مجوز.

می توانید از فهرست بندی و انواع خاصی از فایل ها ببندید. فرض کنید چند فایل pdf در سایت خود دارید که نمی خواهید ایندکس شوند. و ربات های جستجوگر به راحتی فایل های آپلود شده در سایت را اسکن می کنند. می توانید آنها را از نمایه سازی به صورت زیر ببندید:

عامل کاربر: *

غیر مجاز: /*. pdf$

نحوه باز کردن سایت برای نمایه سازی

حتی با یک سایت کاملاً بسته از نمایه سازی، می توانید مسیر فایل ها یا صفحات خاصی را برای روبات ها باز کنید. فرض کنید در حال طراحی مجدد سایت هستید، اما دایرکتوری خدمات دست نخورده باقی می ماند. می‌توانید ربات‌های جستجوگر را به آنجا هدایت کنید تا به فهرست کردن بخش ادامه دهند. برای این منظور از دستورالعمل Allow استفاده می شود:

عامل کاربر: *

Allow: / services

غیر مجاز:/

آینه اصلی وب سایت

تا 20 مارس 2018، در فایل robots.txt برای ربات جستجوگر Yandex، لازم بود که آینه اصلی سایت از طریق دایرکتیو Host مشخص شود. حالا شما نیازی به انجام این کار ندارید - کافی است یک تغییر مسیر صفحه به صفحه 301 را تنظیم کنید .

آینه اصلی چیست؟ این آدرس اصلی سایت شماست - با یا بدون www. اگر تغییر مسیر را تنظیم نکنید، هر دو سایت ایندکس می شوند، یعنی از همه صفحات تکراری وجود خواهد داشت.

نقشه سایت: نقشه سایت robots.txt

بعد از اینکه تمام دستورالعمل های مربوط به ربات ها نوشته شد، باید مسیر نقشه سایت را مشخص کنید. نقشه سایت به روبات ها نشان می دهد که تمام URL هایی که باید ایندکس شوند در یک آدرس خاص قرار دارند. مثلا:

نقشه سایت: site.ru/sitemap.xml

هنگامی که ربات در سایت می خزد، می بیند که چه تغییراتی در این فایل ایجاد شده است. در نتیجه صفحات جدید سریعتر ایندکس می شوند.

دستورالعمل Clean-param

در سال 2009، Yandex دستورالعمل جدیدی را ارائه کرد - Clean-param. می توان از آن برای توصیف پارامترهای پویا استفاده کرد که بر محتوای صفحات تأثیر نمی گذارد. اغلب، این دستورالعمل در انجمن ها استفاده می شود. در اینجا زباله های زیادی وجود دارد، به عنوان مثال شناسه جلسه، پارامترهای مرتب سازی. اگر این دستورالعمل را ثبت کنید، ربات جستجوی Yandex اطلاعات تکراری را بارها دانلود نخواهد کرد.

شما می توانید این دستورالعمل را در هر جایی از فایل robots.txt بنویسید.

پارامترهایی که ربات نیازی به در نظر گرفتن آنها ندارد در قسمت اول مقدار از طریق علامت & فهرست شده است:

Clean-param: sid&sort /forum/viewforum.php

این دستورالعمل از صفحات تکراری با URLهای پویا (که حاوی علامت سوال هستند) جلوگیری می کند.

دستورالعمل Crawl-Delay

این بخشنامه به کمک کسانی می آید که سرور ضعیفی دارند.

ورود یک ربات جستجوگر یک بار اضافی بر روی سرور است. اگر ترافیک سایت بالایی دارید، ممکن است منبع به سادگی مقاومت نکند و "دراز بکشد". در نتیجه ربات یک پیغام خطای 5xx دریافت می کند. اگر این وضعیت به طور مداوم تکرار شود، ممکن است سایت توسط موتور جستجو به عنوان غیر فعال تشخیص داده شود.

تصور کنید که در حال کار هستید و به موازات آن باید دائماً به تماس ها پاسخ دهید. سپس بهره وری شما کاهش می یابد.

در مورد سرور هم همینطور.

بیایید به بخشنامه برگردیم. Crawl-Delay به شما امکان می دهد یک تاخیر در اسکن صفحات وب سایت به منظور کاهش بار روی سرور تنظیم کنید. به عبارت دیگر شما مدت زمانی را تعیین می کنید که پس از آن صفحات سایت بارگذاری شوند. این پارامتر بر حسب ثانیه به صورت یک عدد صحیح مشخص می شود:

هر وبلاگی پاسخ خود را به این موضوع می دهد. بنابراین، تازه واردان ارتقاء جستجواغلب اینطور اشتباه گرفته می شود:

چه نوع ربات هایی هستند؟

فایل robots.txtیا فایل فهرست- معمولی سند متنیدر رمزگذاری UTF-8، برای پروتکل های http، https و FTP معتبر است. این فایل توصیه هایی به روبات های جستجو می دهد: کدام صفحات / فایل ها باید خزیده شوند.اگر فایل حاوی کاراکترهایی باشد که نه در UTF-8، بلکه در یک رمزگذاری متفاوت است، روبات های جستجوگر ممکن است آنها را به درستی پردازش نکنند. قوانین فهرست شده در فایل robots.txt فقط برای میزبان، پروتکل و شماره پورتی که فایل در آن قرار دارد معتبر است.

فایل باید در دایرکتوری ریشه به عنوان یک سند متنی ساده و در دسترس باشد: https://site.com.ua/robots.txt.

در فایل های دیگر مرسوم است که BOM (Byte Order Mark) علامت گذاری شود. این یک کاراکتر یونیکد است که برای تعیین توالی در بایت هنگام خواندن اطلاعات استفاده می شود. نماد رمز آن U+FEFF است. در ابتدای فایل robots.txt، علامت توالی بایت نادیده گرفته می شود.

گوگل محدودیتی برای اندازه فایل robots.txt تعیین کرده است - وزن آن نباید بیش از 500 کیلوبایت باشد.

بسیار خوب، اگر به جزئیات فنی علاقه مند هستید، فایل robots.txt یک توضیح Backus-Naur Form (BNF) است. این از قوانین RFC 822 استفاده می کند.

هنگام پردازش قوانین در فایل robots.txt، روبات های جستجو یکی از سه دستورالعمل را دریافت می کنند:

دسترسی جزئی: اسکن عناصر منفرد سایت در دسترس است.
دسترسی کامل: شما می توانید همه چیز را اسکن کنید.
ممنوعیت کامل: ربات نمی تواند چیزی را اسکن کند.

هنگام اسکن فایل robots.txt، روبات ها پاسخ های زیر را دریافت می کنند:

2xx-اسکن موفقیت آمیز بود.
3xx-خزنده تغییر مسیر را دنبال می کند تا زمانی که پاسخ دیگری دریافت کند. بیشتر اوقات، ربات پنج تلاش می کند تا پاسخی غیر از پاسخ 3xx دریافت کند، سپس یک خطای 404 ثبت می شود.
4xx-ربات جستجوگر معتقد است که امکان خزیدن در تمام محتوای سایت وجود دارد.
5xx-به عنوان خطاهای موقت سرور ارزیابی می شوند، اسکن کاملا غیرفعال است. ربات تا زمانی که پاسخ دیگری دریافت نکند به فایل دسترسی پیدا می کند. ربات جستجوگر گوگل می تواند تعیین کند که آیا به درستی یا نادرست پیکربندی شده است تا به صفحات از دست رفته سایت پاسخ دهد، یعنی اگر به جای خطای 404، صفحه یک پاسخ 5xx را برگرداند. در این صورت صفحه با کد پاسخ 404 پردازش می شود.

هنوز مشخص نیست که فایل robots.txt چگونه پردازش می شود که به دلیل مشکلات سرور در دسترسی به اینترنت در دسترس نیست.

چرا به فایل robots.txt نیاز دارید؟

به عنوان مثال، گاهی اوقات ربات ها نباید از موارد زیر بازدید کنند:

صفحات با اطلاعات شخصی کاربران در سایت؛
صفحات با اشکال مختلف ارسال اطلاعات؛
سایت های آینه ای;
صفحات نتایج جستجو

مهم: حتی اگر صفحه در فایل robots.txt باشد، اگر پیوندی به آن در داخل سایت یا جایی در یک منبع خارجی یافت شود، این احتمال وجود دارد که در نتایج جستجو ظاهر شود.

ربات های موتورهای جستجو یک سایت را با و بدون فایل robots.txt می بینند:

بدون robots.txt، اطلاعاتی که باید از چشمان کنجکاو پنهان شوند، می توانند به نتایج جستجو وارد شوند و هم شما و هم سایت به این دلیل متضرر خواهید شد.

به این صورت است که ربات موتور جستجو فایل robots.txt را می بیند:

گوگل فایل robots.txt را در سایت پیدا کرد و قوانینی را پیدا کرد که بر اساس آن صفحات سایت باید خزیده شوند

چگونه یک فایل robots.txt ایجاد کنیم

با Notepad، Notepad، Sublime یا هر ویرایشگر متن دیگری.

عامل کاربر - کارت ویزیت برای ربات ها

User-agent - قانونی در مورد اینکه ربات ها باید دستورالعمل های توضیح داده شده در فایل robots.txt را ببینند. در این لحظه 302 ربات جستجوگر شناخته شده است

او می گوید که ما قوانین را در robots.txt برای همه روبات های جستجوگر مشخص می کنیم.

برای گوگل، ربات اصلی Googlebot است. اگر بخواهیم فقط آن را در نظر بگیریم، ورودی فایل به این صورت خواهد بود:

در این حالت، همه ربات‌های دیگر محتوا را بر اساس دستورالعمل‌های خود می‌خزند تا فایل خالی robots.txt را پردازش کنند.

برای Yandex، ربات اصلی ... Yandex:

سایر ربات های ویژه:

Mediapartners-Google- برای سرویس AdSense؛
AdsBot-Google- برای بررسی کیفیت صفحه فرود؛
YandexImages- نمایه ساز Yandex.Pictures.
تصویر Googlebot- برای تصاویر؛
YandexMetrika— ربات Yandex.Metrica؛
YandexMedia- روباتی که داده های چند رسانه ای را نمایه می کند.
YaDirectFetcher— ربات Yandex.Direct.
ویدیوی Googlebot- برای ویدیو؛
Googlebot موبایل- برای نسخه موبایل؛
YandexDirectDyn- ربات تولید بنر پویا؛
YandexBlogs- یک ربات جستجوی وبلاگ که پست ها و نظرات را نمایه می کند.
YandexMarket— ربات Yandex.Market؛
یاندکس نیوز— ربات Yandex.News;
YandexDirect- دانلود اطلاعات در مورد محتوای سایت های شریک شبکه تبلیغاتی به منظور روشن شدن موضوع آنها برای انتخاب تبلیغات مربوطه.
YandexPagechecker- اعتبار سنجی میکروداده؛
YandexCalendar— ربات Yandex.Calendar.

مجاز نیست - ما "آجر" را قرار می دهیم

اگر سایت در حال بهبود است و نمی خواهید در نتایج جستجو در وضعیت فعلی ظاهر شود باید از آن استفاده کنید.

حذف این قانون به محض اینکه سایت برای دیدن کاربران آماده شد، مهم است. متأسفانه این مورد توسط بسیاری از مدیران سایت فراموش شده است.

مثال. چگونه یک قانون Disallow بنویسیم تا به روبات ها توصیه کنیم محتویات یک پوشه را مشاهده نکنند /پوشه/:

این خط از ایندکس شدن همه فایل های با پسوند .gif جلوگیری می کند

اجازه - مستقیم روبات ها

Allow اجازه می دهد تا هر فایل / دستورالعمل / صفحه را اسکن کنید. بیایید بگوییم که لازم است ربات‌ها فقط بتوانند صفحاتی را که با کاتالوگ / شروع می‌شوند مشاهده کنند و تمام محتوای دیگر را ببندند. در این مورد، ترکیب زیر تجویز می شود:

قوانین مجاز و غیر مجاز بر اساس طول پیشوند URL (پایین ترین به طولانی ترین) مرتب شده و به صورت متوالی اعمال می شوند. اگر بیش از یک قانون با یک صفحه مطابقت داشته باشد، ربات آخرین قانون را در لیست مرتب شده انتخاب می کند.

میزبان - یک آینه سایت را انتخاب کنید

Host یکی از قوانین اجباری برای robots.txt است؛ به ربات Yandex می گوید که کدام یک از آینه های سایت باید برای نمایه سازی در نظر گرفته شود.

آینه سایت - یک کپی دقیق یا تقریباً دقیق از سایت که در آدرس های مختلف موجود است.

ربات هنگام یافتن آینه های سایت گیج نمی شود و متوجه می شود که آینه اصلی در فایل robots.txt مشخص شده است. آدرس سایت بدون پیشوند "http://" مشخص می شود، اما اگر سایت روی HTTPS کار می کند، باید پیشوند "https://" مشخص شود.

نحوه نوشتن این قانون:

نمونه ای از فایل robots.txt اگر سایت بر روی پروتکل HTTPS کار می کند:

نقشه سایت - نقشه سایت پزشکی

نقشه سایت به ربات ها می گوید که همه URL های سایت مورد نیاز برای نمایه سازی در آن قرار دارند http://site.ua/sitemap.xml. با هر بار خزیدن، ربات به تغییراتی که در این فایل اعمال شده است نگاه می کند و به سرعت اطلاعات مربوط به سایت را در پایگاه داده های موتور جستجو بازخوانی می کند.

Crawl-Delay - کرونومتر برای سرورهای ضعیف

Crawl-Delay - پارامتری که با آن می توانید دوره زمانی را که پس از آن صفحات سایت بارگیری می شوند تنظیم کنید. اگر سرور ضعیفی دارید این قانون مرتبط است. در این صورت امکان پذیر است تاخیرهای بزرگزمانی که ربات های جستجوگر به صفحات سایت دسترسی پیدا می کنند. این پارامتر بر حسب ثانیه اندازه گیری می شود.

Clean-param - شکارچی محتوای تکراری

Clean-param به مقابله با پارامترهای دریافت کمک می کند تا از محتوای تکراری که ممکن است در URL های پویا مختلف (با علامت سوال) در دسترس باشد، جلوگیری شود. اگر سایت دارای مرتب‌سازی‌ها، شناسه‌های جلسه و غیره متفاوت باشد، چنین آدرس‌هایی ظاهر می‌شوند.

فرض کنید صفحه در آدرس‌های زیر موجود است:

www.site.com/catalog/get_phone.ua?ref=page_1&phone_id=1

www.site.com/catalog/get_phone.ua?ref=page_2&phone_id=1

www.site.com/catalog/get_phone.ua?ref=page_3&phone_id=1

در این حالت، فایل robots.txt به شکل زیر خواهد بود:

اینجا مرجعنشان می دهد که لینک از کجا آمده است، بنابراین در همان ابتدا نوشته می شود و تنها پس از آن بقیه آدرس نشان داده می شود.

اما قبل از رفتن به فایل مرجع، چند نشانه دیگر وجود دارد که باید هنگام نوشتن یک فایل robots.txt بدانید.

نمادها در robots.txt

کاراکترهای اصلی فایل "/، *، $، #" هستند.

با استفاده از اسلش "/"ما آنچه را که می خواهیم از شناسایی توسط روبات ها پنهان کنیم را نشان می دهیم. به عنوان مثال، اگر یک اسلش در قانون Disallow وجود داشته باشد، ما خزیدن کل سایت را ممنوع می کنیم. با کمک دو اسلش، می توانید اسکن هر دایرکتوری خاصی را غیرفعال کنید، به عنوان مثال: /catalog/.

چنین ورودی می گوید که ما اسکن کل محتویات پوشه کاتالوگ را ممنوع می کنیم، اما اگر /catalog را بنویسیم، همه لینک های موجود در سایت را که با /catalog شروع می شوند ممنوع می کنیم.

ستاره "*"به معنای هر دنباله ای از کاراکترها در یک فایل است. بعد از هر قانون قرار می گیرد.

این ورودی می گوید که همه روبات ها نباید هیچ فایل .gif را در پوشه /catalog/ ایندکس کنند

علامت دلار «$» دامنه علامت ستاره را محدود می کند. اگر می‌خواهید کل محتویات پوشه کاتالوگ را غیرمجاز کنید، اما نمی‌توانید نشانی‌های اینترنتی حاوی کاتالوگ / را مجاز نکنید، ورودی فایل فهرست به این صورت خواهد بود:

هش "#"برای نظراتی که مدیر وب برای خود یا سایر وب مسترها می گذارد استفاده می شود. ربات هنگام اسکن سایت آنها را در نظر نمی گیرد.

مثلا:

robots.txt ایده آل چگونه به نظر می رسد؟

فایل محتوای سایت را برای نمایه سازی باز می کند، هاست ثبت می شود و نقشه سایت مشخص می شود که به موتورهای جستجو امکان می دهد همیشه آدرس هایی را که باید ایندکس شوند مشاهده کنند. قوانین Yandex به طور جداگانه نوشته شده است، زیرا همه ربات ها دستورالعمل Host را درک نمی کنند.

اما برای کپی کردن محتویات فایل برای خود عجله نکنید - قوانین منحصر به فردی باید برای هر سایت نوشته شود که بستگی به نوع سایت و CMS دارد. بنابراین، هنگام پر کردن فایل robots.txt، ارزش آن را دارد که تمام قوانین را به خاطر بسپارید.

چگونه فایل robots.txt را بررسی کنیم

اگر می خواهید بدانید که آیا فایل robots.txt را به درستی پر کرده اید، آن را در ابزار وب مستر بررسی کنید. گوگلو یاندکس فقط وارد شوید منبع robots.txt را با لینک وارد فرم کرده و سایت مورد نظر را مشخص کنید.

چگونه فایل robots.txt را پر نکنیم

اغلب اشتباهات آزاردهنده ای هنگام پر کردن فایل فهرست رخ می دهد و با بی توجهی یا عجله معمولی همراه است. کمی پایین تر نمودار خطاهایی است که در عمل با آن مواجه شدم.

2. نوشتن چندین پوشه/دایرکتوری در یک عبارت Disallow:

چنین ورودی می تواند ربات های جستجو را گیج کند، آنها ممکن است متوجه نشوند که دقیقاً چه چیزی را نباید ایندکس کنند: اولین پوشه یا آخرین پوشه، بنابراین باید هر قانون را جداگانه بنویسید.

3. خود فایل باید فراخوانی شود فقط robots.txt،نه Robots.txt، ROBOTS.TXT یا موارد دیگر.

4. نمی توانید قانون User-agent را خالی بگذارید - باید بگویید کدام ربات باید قوانین مشخص شده در فایل را در نظر بگیرد.

5. کاراکترهای اضافی در فایل (اسمش، ستاره).

6. افزودن صفحاتی به فایل که نباید در فهرست قرار گیرند.

استفاده غیر استاندارد از robots.txt

علاوه بر توابع مستقیم، یک فایل فهرست می تواند به بستری برای خلاقیت و راهی برای یافتن کارمندان جدید تبدیل شود.

اینجا سایتی است که robots.txt خود یک سایت کوچک با عناصر کاری و حتی یک واحد تبلیغاتی است.

به عنوان بستری برای جستجوی متخصصان، این فایل عمدتاً توسط آژانس های سئو استفاده می شود. و چه کسی دیگری می تواند از وجود آن مطلع شود؟ :)

و گوگل دارد فایل ویژه humans.txt، تا اجازه ندهید فکر تبعیض با متخصصان پوست و گوشت شود.

نتیجه گیری

با کمک Robots.txt می‌توانید دستورالعمل‌هایی را برای روبات‌های جستجو تنظیم کنید، خودتان، برندتان را تبلیغ کنید، متخصصان را جستجو کنید. این یک زمینه عالی برای آزمایش است. نکته اصلی این است که پر کردن صحیح پرونده و اشتباهات معمولی را به خاطر بسپارید.

قوانین، آنها دستورالعمل هستند، آنها همچنین دستورالعمل های فایل robots.txt هستند:

User-agent - قانونی در مورد اینکه ربات ها باید دستورالعمل های شرح داده شده در robots.txt را مشاهده کنند.
Disallow در مورد نوع اطلاعاتی که نباید اسکن شوند، توصیه می کند.
نقشه سایت به ربات ها اطلاع می دهد که همه URL های سایت مورد نیاز برای نمایه سازی در http://site.ua/sitemap.xml قرار دارند.
Host به ربات Yandex می گوید که کدام یک از آینه های سایت باید برای نمایه سازی در نظر گرفته شود.
Allow اجازه می دهد تا هر فایل / دستورالعمل / صفحه را اسکن کنید.

علائم هنگام کامپایل robots.txt:

علامت دلار "$" دامنه علامت ستاره را محدود می کند.
با کمک یک اسلش "/" نشان می دهیم که می خواهیم از شناسایی توسط روبات ها پنهان شویم.
ستاره "*" به معنای هر دنباله ای از کاراکترها در فایل است. بعد از هر قانون قرار می گیرد.
علامت هش "#" برای نشان دادن نظراتی که مدیر وب برای خود یا سایر مدیران وب می نویسد استفاده می شود.

از فایل فهرست عاقلانه استفاده کنید - و سایت همیشه در نتایج جستجو خواهد بود.

اولین کاری که یک ربات جستجو در مورد سایت شما انجام می دهد، جستجو و خواندن فایل robots.txt است. این فایل چیست؟ مجموعه ای از دستورالعمل ها برای یک موتور جستجو است.

این یک فایل متنی با پسوند txt است که در دایرکتوری اصلی سایت قرار دارد. این مجموعه دستورالعمل به ربات جستجوگر می گوید که کدام صفحات و فایل های سایت را فهرست کند و کدام را نه. همچنین آینه اصلی سایت و مکان جستجوی نقشه سایت را نشان می دهد.

فایل robots.txt برای چیست؟ برای نمایه سازی مناسب سایت شما به طوری که هیچ صفحه تکراری در جستجو، صفحات خدمات مختلف و اسناد وجود نداشته باشد. هنگامی که دستورالعمل ها را در ربات ها به درستی تنظیم کنید، سایت خود را از بسیاری از مشکلات مربوط به نمایه سازی و انعکاس سایت نجات خواهید داد.

نحوه نوشتن robots.txt صحیح

کامپایل robots.txt به اندازه کافی آسان است، ما یک سند متنی را در یک دفترچه یادداشت استاندارد ویندوز ایجاد می کنیم. ما در این فایل دستورالعمل هایی را برای موتورهای جستجو می نویسیم. در مرحله بعد، این فایل را با نام "ربات" و پسوند متنی "txt" ذخیره کنید. اکنون همه چیز را می توان در هاستینگ آپلود کرد پوشه ریشهسایت. لطفاً توجه داشته باشید که تنها یک سند روبات می تواند در هر سایت ایجاد شود. اگر این فایل در سایت وجود نداشته باشد، ربات به طور خودکار "تصمیم می گیرد" که همه چیز را می توان ایندکس کرد.

از آنجایی که یکی است، حاوی دستورالعمل هایی برای همه موتورهای جستجو است. علاوه بر این، می توانید هر دو دستورالعمل جداگانه را برای هر PS بنویسید، و دستور عمومی را بلافاصله برای همه چیز بنویسید. جداسازی دستورالعمل ها برای ربات های جستجوی مختلف از طریق دستورالعمل User-agent انجام می شود. در ادامه بیشتر در این مورد صحبت خواهیم کرد.

دستورات robots.txt

فایل "ربات" ممکن است حاوی دستورالعمل های نمایه سازی زیر باشد: User-agent، Disallow، Allow، Sitemap، Host، Crawl-Delay، Clean-param. بیایید هر دستورالعمل را با جزئیات بیشتری بررسی کنیم.

دستورالعمل عامل کاربر

دستورالعمل عامل کاربر- نشان می دهد که برای کدام موتور جستجو دستورالعمل وجود دارد (به طور دقیق تر، برای کدام ربات خاص). اگر "*" باشد، دستورالعمل ها برای همه ربات ها هستند. اگر ربات خاصی مانند Googlebot فهرست شده باشد، دستورالعمل ها فقط برای ربات اصلی نمایه سازی گوگل هستند. علاوه بر این، اگر دستورالعمل‌هایی جداگانه برای Googlebot و همه PS‌های دیگر وجود داشته باشد، گوگل فقط دستورالعمل‌های خودش را می‌خواند و کلیات را نادیده می‌گیرد. ربات Yandex نیز همین کار را خواهد کرد. بیایید به نمونه ای از ورودی دستورالعمل نگاه کنیم.

عامل کاربر: YandexBot - دستورالعمل فقط برای ربات اصلی نمایه سازی Yandex
عامل کاربر: Yandex - دستورالعمل برای همه ربات های Yandex
عامل کاربر: * - دستورالعمل برای همه ربات ها

دستورات غیر مجاز و مجاز

دستورات غیر مجاز و مجاز- دستوراتی را بدهید که چه چیزی ایندکس شود و چه چیزی نه. Disallow دستور عدم فهرست بندی یک صفحه یا کل بخش از سایت را می دهد. و Allow، برعکس، نشان می دهد که چه چیزی باید نمایه شود.

غیر مجاز: / - نمایه سازی کل سایت را ممنوع می کند
Disallow: /papka/ - فهرست کردن کل محتویات پوشه را ممنوع می کند
Disallow: /files.php - فهرست کردن فایل files.php را ممنوع می کند

Allow: /cgi-bin - امکان نمایه سازی صفحات cgi-bin را می دهد

استفاده از کاراکترهای خاص در دستورات Disallow و Allow ممکن و اغلب ضروری است. آنها برای تعریف عبارات منظم مورد نیاز هستند.

کاراکتر ویژه * - جایگزین هر دنباله ای از کاراکترها می شود. به طور پیش فرض به انتهای هر قانون اضافه می شود. حتی اگر آن را ثبت نکرده باشید، PS آن را روی خود قرار می دهد. مثال استفاده:

Disallow: /cgi-bin/*.aspx - فهرست کردن همه فایل‌های با پسوند aspx. را ممنوع می‌کند.
Disallow: /*foto - فهرست کردن فایل‌ها و پوشه‌های حاوی کلمه foto را ممنوع می‌کند

کاراکتر ویژه $ - اثر کاراکتر ویژه "*" را در انتهای قانون لغو می کند. مثلا:

Disallow: /example$ - نمایه سازی '/example' را ممنوع می کند، اما '/example.html' را ممنوع نمی کند

و اگر بدون کاراکتر ویژه $ بنویسید، دستورالعمل متفاوت عمل می کند:

Disallow: /example - هر دو '/example' و '/example.html' را ممنوع می کند

دستورالعمل نقشه سایت

دستورالعمل نقشه سایت- طراحی شده است تا به ربات موتور جستجو نشان دهد که نقشه سایت در هاست کجا قرار دارد. فرمت نقشه سایت باید sitemaps.xml باشد. یک نقشه سایت برای ایندکس سریعتر و کاملتر سایت مورد نیاز است. علاوه بر این، نقشه سایت لزوما یک فایل نیست، ممکن است چندین فایل وجود داشته باشد. فرمت ورود دستورالعمل:

نقشه سایت: http://site/sitemaps1.xml
نقشه سایت: http://site/sitemaps2.xml

دستورالعمل میزبان

دستورالعمل میزبان- آینه اصلی سایت را به ربات نشان می دهد. هر آنچه در نمایه آینه ای سایت وجود دارد، همیشه باید این دستورالعمل را مشخص کنید. اگر مشخص نشده باشد، ربات Yandex حداقل دو نسخه از سایت را با و بدون www فهرست می کند. تا زمانی که ربات آینه آنها را به هم بچسباند. مثال ضبط:

میزبان: www.site
میزبان: سایت

در حالت اول ربات نسخه را با www و در حالت دوم بدون ایندکس می کند. فقط یک دستور میزبان در فایل robots.txt مجاز است. اگر چندین مورد از آنها را بنویسید، ربات تنها مورد اول را پردازش کرده و در نظر می گیرد.

یک دستورالعمل میزبان معتبر باید داده های زیر را داشته باشد:
- پروتکل اتصال (HTTP یا HTTPS) را نشان دهید.
- درست نوشته شده نام دامنه(شما نمی توانید یک آدرس IP ثبت کنید)؛
- شماره پورت، در صورت لزوم (به عنوان مثال، Host: site.com:8080).

دستورالعمل های نادرست به سادگی نادیده گرفته می شوند.

دستورالعمل Crawl-Delay

دستورالعمل Crawl-Delayبه شما اجازه می دهد تا بار روی سرور را کاهش دهید. در صورتی که سایت شما تحت هجوم ربات های مختلف قرار گیرد، لازم است. دستورالعمل Crawl-Delay به ربات جستجو می‌گوید که بین پایان دانلود یک صفحه و شروع دانلود صفحه دیگری از سایت منتظر بماند. دستورالعمل باید بلافاصله پس از ورودی های دستورالعمل "عدم اجازه" و/یا "مجاز" ارائه شود. ربات جستجوی Yandex می تواند مقادیر کسری را بخواند. به عنوان مثال: 1.5 (یک و نیم ثانیه).

دستورالعمل Clean-param

دستورالعمل Clean-paramمورد نیاز سایت هایی که صفحات آنها دارای پارامترهای پویا هستند. ما در مورد مواردی صحبت می کنیم که بر محتوای صفحات تأثیر نمی گذارد. این اطلاعات خدمات مختلف است: شناسه های جلسه، کاربران، ارجاع دهندگان و غیره. بنابراین، برای جلوگیری از تکراری شدن این صفحات، از این دستورالعمل استفاده می شود. به PS می گوید که اطلاعات رفت و آمد مجدد را دوباره آپلود نکند. بار روی سرور و زمان لازم برای خزیدن ربات در سایت نیز کاهش می یابد.

Clean-param: s /forum/showthread.php

این ورودی به PS می گوید که پارامتر s برای همه آدرس هایی که با /forum/showthread.php شروع می شوند ناچیز در نظر گرفته می شود. حداکثر طول رکورد 500 کاراکتر است.

ما دستورالعمل ها را فهمیدیم، بیایید به راه اندازی روبات های خود ادامه دهیم.

تنظیم robots.txt

مستقیماً به راه اندازی فایل robots.txt ادامه می دهیم. باید حداقل دو ورودی داشته باشد:

عامل کاربر:- نشان می دهد که دستورالعمل های زیر برای کدام موتور جستجو خواهد بود.
غیر مجاز:- مشخص می کند که کدام قسمت از سایت ایندکس نشود. می تواند از نمایه سازی یک صفحه جداگانه از سایت و کل بخش ها بسته شود.

علاوه بر این، می توانید مشخص کنید که این دستورالعمل ها برای همه موتورهای جستجو یا به طور خاص برای یک موتور جستجو در نظر گرفته شده است. این در دستورالعمل User-agent مشخص شده است. اگر می خواهید همه ربات ها دستورالعمل ها را بخوانند، یک ستاره قرار دهید

اگر می خواهید برای ربات خاصی دستورالعمل بنویسید، اما باید نام آن را مشخص کنید.

عامل کاربر: YandexBot

یک مثال ساده از یک فایل ربات که به درستی ترکیب شده است به این صورت خواهد بود:

عامل کاربر: *
غیر مجاز: /files.php
غیر مجاز: /section/
میزبان: سایت

جایی که، * می گوید که دستورالعمل ها برای همه PS در نظر گرفته شده است.
غیر مجاز: /files.php- ایندکس کردن فایل file.php را ممنوع می کند.
غیر مجاز: /foto/- فهرست کردن کل بخش "عکس" را با تمام فایل های پیوست ممنوع می کند.
میزبان: سایت- به روبات ها می گوید که کدام آینه را فهرست کنند.

اگر سایت شما صفحاتی ندارد که باید از فهرست بندی بسته شوند، فایل robots.txt شما باید به این صورت باشد:

عامل کاربر: *
غیر مجاز:
میزبان: سایت

Robots.txt برای Yandex (Yandex)

برای نشان دادن اینکه این دستورالعمل ها برای موتور جستجوی Yandex در نظر گرفته شده است، باید در دستورالعمل User-agent مشخص کنید: Yandex. علاوه بر این، اگر "Yandex" را بنویسیم، سایت توسط همه ربات های Yandex ایندکس می شود و اگر "YandexBot" را مشخص کنیم، این دستور فقط برای ربات نمایه کننده اصلی خواهد بود.

همچنین لازم است بخشنامه "میزبان" را ثبت کنید که در آن آینه اصلی سایت را مشخص کنید. همانطور که در بالا نوشتم، این کار برای جلوگیری از تکرار صفحات انجام می شود. robots.txt صحیح شما برای Yandex به این صورت خواهد بود.

اکثر ربات ها به خوبی طراحی شده اند و هیچ مشکلی برای صاحبان سایت ایجاد نمی کنند. اما اگر ربات توسط یک آماتور نوشته شده باشد یا "مشکلی پیش آمده باشد"، می تواند بار قابل توجهی در سایت ایجاد کند که از آن عبور می کند. به هر حال، عنکبوت ها به هیچ وجه مانند ویروس ها وارد سرور نمی شوند - آنها به سادگی صفحات مورد نیاز خود را از راه دور درخواست می کنند (در واقع، اینها آنالوگ مرورگرها هستند، اما بدون عملکرد مرور صفحه).

Robots.txt - راهنمای کاربر-عامل و ربات های موتور جستجو

Robots.txt یک نحو بسیار ساده دارد که با جزئیات زیاد توضیح داده شده است، به عنوان مثال، در یاندکس کمک کنیدو کمک گوگل. معمولاً مشخص می کند که دستورالعمل های زیر برای کدام ربات جستجو در نظر گرفته شده اند: نام ربات (" عامل کاربر")، اجازه می دهد (" اجازه") و نهی کننده (" غیر مجاز")، و "Sitemap" نیز به طور فعال برای نشان دادن محل دقیق فایل نقشه به موتورهای جستجو استفاده می شود.

این استاندارد خیلی وقت پیش ایجاد شد و بعداً چیزی اضافه شد. دستورالعمل ها و قوانین طراحی وجود دارد که فقط توسط روبات های موتورهای جستجوی خاص قابل درک است. در RuNet، فقط Yandex و Google مورد توجه هستند، به این معنی که با کمک آنها در کامپایل robots.txt است که باید با جزئیات خاص خود را آشنا کنید (لینک ها را در پاراگراف قبلی ارائه کردم).

به عنوان مثال، قبلاً برای موتور جستجوی Yandex مفید بود که نشان دهیم پروژه وب شما در دستورالعمل ویژه "میزبان" اصلی است، که فقط این موتور جستجو می فهمد (خوب، همچنین Mail.ru، زیرا آنها جستجویی از یاندکس). درست است، در آغاز سال 2018 Yandex همچنان Host را لغو کرده استو اکنون عملکردهای آن، مانند سایر موتورهای جستجو، توسط یک تغییر مسیر 301 انجام می شود.

حتی اگر منبع شما آینه نداشته باشد، مفید خواهد بود که مشخص کنید کدام یک از املاها اصلی است - .

حال اجازه دهید کمی در مورد نحو این فایل صحبت کنیم. دستورالعمل ها در robots.txt به شکل زیر هستند:

<поле>:<пробел><значение><пробел> <поле>:<пробел><значение><пробел>

کد صحیح باید حاوی حداقل یک دستورالعمل "عدم اجازه"پس از هر ورودی "کاربر-عامل". یک فایل خالی اجازه ایندکس کردن کل سایت را در نظر می گیرد.

عامل کاربر

دستورالعمل "کاربر-عامل".باید حاوی نام ربات جستجو باشد. با استفاده از آن، می توانید قوانین رفتاری را برای هر موتور جستجوی خاص تنظیم کنید (به عنوان مثال، ممنوعیت فهرست بندی یک پوشه جداگانه را فقط برای Yandex ایجاد کنید). نمونه ای از نوشتن یک "عامل کاربر"، خطاب به تمام ربات هایی که به منبع شما می آیند، به این صورت است:

عامل کاربر: *

اگر می خواهید "User-agent" را تنظیم کنید شرایط خاصفقط برای یک ربات، به عنوان مثال، Yandex، پس باید اینگونه بنویسید:

عامل کاربر: Yandex

نام ربات های موتور جستجو و نقش آنها در فایل robots.txt

ربات هر موتور جستجونام خاص خود را دارد (به عنوان مثال، برای rambler آن StackRambler است). در اینجا معروف ترین آنها را لیست می کنم:

Google http://www.google.com Googlebot Yandex http://www.ya.ru Yandex Bing http://www.bing.com/ bingbot

برای موتورهای جستجوی اصلی، گاهی اوقات به جز ربات های اصلی، همچنین موارد جداگانه ای برای نمایه سازی وبلاگ ها، اخبار، تصاویر و موارد دیگر وجود دارد. شما می توانید اطلاعات زیادی در مورد انواع ربات ها (برای Yandex) و (برای Google) دریافت کنید.

چگونه در این مورد باشیم؟ اگر نیاز به نوشتن یک قانون عدم نمایه سازی دارید که همه انواع Googlebots باید از آن پیروی کنند، از نام Googlebot استفاده کنید و همه عنکبوت های دیگر این موتور جستجو نیز از آن تبعیت خواهند کرد. با این حال، برای مثال، تنها با تعیین ربات Googlebot-Image به عنوان User-agent، می‌توانید فهرست‌بندی تصاویر را ممنوع کنید. الان خیلی واضح نیست ولی با مثال فکر کنم راحتتر بشه.

نمونه هایی از استفاده از دستورات Disallow و Allow در robots.txt

بگذارید چند تا ساده به شما بدهم نمونه هایی از استفاده از دستورالعمل هاتوضیح اعمالش

کد زیر به همه ربات ها (که با یک ستاره در User-agent نشان داده شده است) اجازه می دهد تا همه محتوا را بدون هیچ استثنایی فهرست کنند. داده می شود دستور غیر مجاز را خالی کنید. عامل کاربر: * غیر مجاز:
برعکس، کد زیر به طور کامل تمام موتورهای جستجو را از اضافه کردن صفحات این منبع به فهرست منع می کند. این را با "/" در فیلد مقدار روی Disallow قرار می دهد. عامل کاربر: * غیر مجاز: /
در این صورت، همه ربات ها از مشاهده محتویات دایرکتوری /image/ منع خواهند شد (http://mysite.ru/image/ مسیر مطلق این دایرکتوری است) User-agent: * Disallow: /image/
برای مسدود کردن یک فایل، کافی است مسیر مطلق آن را ثبت کنید (بخوانید): User-agent: * Disallow: /katalog1//katalog2/private_file.html
با کمی نگاه کردن به آینده، می گویم که استفاده از کاراکتر ستاره (*) آسان تر است تا مسیر کامل را ننویسید:
غیر مجاز: /*private_file.html
در مثال زیر، دایرکتوری "image" و همچنین تمامی فایل ها و دایرکتوری هایی که با کاراکترهای "image" شروع می شوند، ممنوع خواهند بود، یعنی فایل های: "image.htm"، "images.htm"، دایرکتوری ها: "image" ، " images1"، "image34"، و غیره): User-agent: * Disallow: /image واقعیت این است که به طور پیش فرض، یک ستاره در انتهای ورودی ذکر شده است که جایگزین هر کاراکتری از جمله عدم وجود آنها می شود. در مورد آن در زیر بخوانید.
با استفاده از اجازه بخشنامه هاما اجازه دسترسی را می دهیم. مکمل خوبی برای Disallow. به عنوان مثال، با این شرایط، ربات جستجوگر Yandex را از دانلود (ایندکس کردن) همه چیز منع می کنیم به جز صفحات وب که آدرس آنها با /cgi-bin شروع می شود: User-agent: Yandex Allow: /cgi-bin Disallow: /
خوب، یا این یک مثال واضح از استفاده از بسته Allow و Disallow است:
عامل کاربر: * غیر مجاز: /catalog اجازه: /catalog/auto
هنگام تشریح مسیرها برای دستورالعمل‌های Allow-Disallow، می‌توانید از نمادها استفاده کنید "*" و "$"، بنابراین عبارات منطقی خاصی را تنظیم می کند.
1. نماد "*"(ستاره)به معنای هر دنباله (از جمله خالی) کاراکترها است. مثال زیر همه موتورهای جستجو را از ایندکس کردن فایل‌ها با پسوند ".php" باز می‌دارد: User-agent: * Disallow: *.php$
2. چرا در پایان مورد نیاز است علامت دلار (دلار).? واقعیت این است که، طبق منطق کامپایل کردن فایل robots.txt، یک ستاره پیش فرض در انتهای هر دستورالعمل اضافه می شود (این ستاره وجود ندارد، اما به نظر می رسد وجود دارد). برای مثال می نویسیم: Disallow: /images
  با فرض اینکه شبیه به:
  غیر مجاز: /images*
  آن ها این قانون فهرست کردن همه فایل‌ها (صفحات وب، تصاویر و انواع دیگر فایل‌ها) را که آدرس آن‌ها با /images شروع می‌شود و هر چیز دیگری به دنبال آن باشد، ممنوع می‌کند (به مثال بالا مراجعه کنید). پس اینجاست نماد دلاربه سادگی آن ستاره پیش فرض (نامشخص) را در پایان لغو می کند. مثلا:
  غیر مجاز: /images$
  فقط نمایه سازی فایل /images را غیرفعال می کند، نه /images.html یا /images/primer.html. خب، در مثال اول، ما ایندکس کردن فایل‌هایی را که به .php ختم می‌شوند (دارای چنین پسوندی) ممنوع کرده‌ایم تا چیزی اضافه نشود:
  غیر مجاز: *.php$

در بسیاری از موتورها، کاربران (URL های قابل خواندن توسط انسان)، در حالی که URL های تولید شده توسط سیستم دارای علامت سوال "?" هستند. در آدرس می توانید از این استفاده کنید و چنین قانونی را در robots.txt بنویسید: User-agent: * Disallow: /*?

ستاره بعد از علامت سوال خودش را نشان می دهد، اما، همانطور که کمی بالاتر متوجه شدیم، قبلاً در پایان ذکر شده است. بنابراین، نمایه سازی صفحات جستجو و سایر صفحات خدمات ایجاد شده توسط موتور را که ربات جستجوگر می تواند به آنها دسترسی پیدا کند، ممنوع می کنیم. این اضافی نخواهد بود، زیرا علامت سوال اغلب توسط CMS به عنوان شناسه جلسه استفاده می شود، که می تواند منجر به ورود صفحات تکراری به فهرست شود.

راهنمای نقشه سایت و میزبان (برای Yandex) در Robots.txt

برای جلوگیری از مشکلات ناخوشایند با آینه های سایت، قبلاً توصیه می شد دستورالعمل Host را به robots.txt اضافه کنید که ربات Yandex را به آینه اصلی نشان می دهد.

دستورالعمل میزبان - آینه اصلی سایت را برای Yandex مشخص می کند

برای مثال، اگر شما هنوز به پروتکل ایمن تغییر نکرده اند، لازم بود در Host نه URL کامل، بلکه نام دامنه (بدون http://، یعنی .ru) نشان داده شود. اگر قبلاً به https تغییر داده اید، باید URL کامل را مشخص کنید (مانند https://myhost.ru).

یک ابزار فوق العاده برای مبارزه با محتوای تکراری - اگر یک URL متفاوت در Canonical ثبت شود، موتور جستجو به سادگی صفحه را فهرست نمی کند. به عنوان مثال، برای چنین صفحه ای از وبلاگ من (صفحه ای با صفحه بندی)، Canonical به سایت https: // اشاره می کند و نباید مشکلی در مورد تکرار عناوین وجود داشته باشد.

اما من پرت میشم...
اگر پروژه شما بر اساس هر موتوری است، پس محتوای تکراری رخ خواهد دادبا احتمال زیاد، به این معنی که باید با آن مبارزه کنید، از جمله با کمک ممنوعیت در robots.txt، و به خصوص در متا تگ، زیرا در حالت اول، گوگل می تواند ممنوعیت را نادیده بگیرد، اما دیگر نمی تواند آن را ارائه دهد. لعنتی در مورد متا تگ (اینطور مطرح شده است).
به عنوان مثال، در صفحات وردپرسبا محتوای بسیار مشابه، اگر نمایه سازی برای محتوای دسته ها، محتوای آرشیو برچسب و محتوای بایگانی های موقت مجاز باشد، می تواند وارد فهرست موتورهای جستجو شود. اما اگر از متا تگ Robots که در بالا توضیح داده شد برای ایجاد ممنوعیت برای بایگانی برچسب و بایگانی موقت استفاده کنید (می توانید تگ ها را ترک کنید، اما فهرست بندی محتویات دسته ها را ممنوع کنید)، در این صورت تکرار محتوا رخ نخواهد داد. نحوه انجام این کار توسط پیوند داده شده در بالا (به پلاگین OlInSeoPak) توضیح داده شده است.
به طور خلاصه، من می گویم که فایل Robots برای تنظیم قوانین جهانی برای رد دسترسی به کل فهرست های سایت، یا فایل ها و پوشه های حاوی نمادهای داده شده(با ماسک). می توانید نمونه هایی از تعیین چنین ممنوعیت هایی را کمی بالاتر ببینید.
حالا بیایید در نظر بگیریم نمونه های عینیربات های طراحی شده برای موتورهای مختلف - جوملا، وردپرس و SMF. به طور طبیعی، هر سه گزینه ایجاد شده برای CMS های مختلف به طور قابل توجهی (اگر نه به طور اساسی) با یکدیگر متفاوت خواهند بود. درست است که همه آنها یک لحظه مشترک خواهند داشت و این لحظه با موتور جستجوی Yandex مرتبط است.
زیرا Yandex وزن نسبتاً زیادی در Runet دارد، پس باید تمام تفاوت های ظریف کار آن را در نظر بگیرید، و در اینجا ما دستورالعمل میزبان کمک خواهد کرد. این به صراحت به این موتور جستجو آینه اصلی سایت شما را نشان می دهد.
برای او توصیه می شود از یک وبلاگ عامل کاربر جداگانه استفاده کنید که فقط برای Yandex در نظر گرفته شده است (کاربر-عامل: Yandex). این به این دلیل است که سایر موتورهای جستجو ممکن است Host را درک نکنند و بر این اساس، گنجاندن آن در رکورد User-agent در نظر گرفته شده برای همه موتورهای جستجو (User-agent: *) می تواند منجر به عواقب منفی و نمایه سازی نادرست شود.
به سختی می توان گفت که اوضاع واقعاً چگونه است، زیرا الگوریتم های جستجو به خودی خود یک چیز هستند، بنابراین بهتر است همانطور که آنها توصیه می کنند انجام دهید. اما در این مورد، شما باید تمام قوانینی را که User-agent تنظیم کرده ایم، در دستورالعمل User-agent: Yandex کپی کنید: * . اگر User-agent: Yandex را با Disallow خالی رها کنید: به این ترتیب به Yandex اجازه می‌دهید به هر جایی برود و همه چیز را به فهرست بکشد.
ربات برای وردپرس
من نمونه ای از فایلی را که توسعه دهندگان توصیه می کنند ذکر نمی کنم. می توانید خودتان آن را تماشا کنید. بسیاری از وبلاگ نویسان به هیچ وجه ربات های Yandex و Google را در قدم زدن در محتوای موتور وردپرس محدود نمی کنند. اغلب در وبلاگ ها می توانید ربات هایی را پیدا کنید که به طور خودکار با یک افزونه پر شده اند.
اما، به نظر من، باز هم باید به جستجو در کار دشوار غربال کردن گندم از کاه کمک کرد. اولا، زمان زیادی طول می کشد تا ربات های Yandex و Google این زباله ها را فهرست کنند، و ممکن است اصلاً زمانی برای اضافه کردن صفحات وب با مقالات جدید خود به فهرست وجود نداشته باشد. در مرحله دوم، خزیدن ربات ها در فایل های ناخواسته موتور، بار اضافی روی سرور میزبان شما ایجاد می کند که خوب نیست.
شما می توانید نسخه من از این فایل را برای خودتان ببینید. قدیمی است، برای مدت طولانی تغییر نکرده است، اما من سعی می کنم از این اصل پیروی کنم "چیزی که خراب نشده را تعمیر نکن" و این به شما بستگی دارد که تصمیم بگیرید: از آن استفاده کنید، خودتان درست کنید یا از شخص دیگری نگاه کنید. . من هنوز تا همین اواخر ممنوعیت فهرست کردن صفحات با صفحه بندی را در آنجا داشتم (عدم اجازه: */page/)، اما اخیراً با تکیه بر Canonical که در بالا در مورد آن نوشتم آن را حذف کردم.
اما به طور کلی، تنها فایل صحیحبرای وردپرس، احتمالا وجود ندارد. البته می شود هر پیش نیازی را در آن پیاده کرد، اما کی گفته که درست است. گزینه های زیادی برای robots.txt ایده آل در وب وجود دارد.
من دو حالت افراطی می دهم:
می توانید یک مگافیل با توضیحات دقیق پیدا کنید (نماد # نظراتی را که بهتر است در یک فایل واقعی حذف شوند جدا می کند): User-agent: * # قوانین عمومی برای روبات ها، به جز Yandex و Google، # زیرا قوانین مربوط به آنها در زیر Disallow است: /cgi-bin # پوشه میزبانی غیر مجاز: /؟ # همه گزینه‌های پرس و جو در صفحه اصلی غیر مجاز: /wp- # همه فایل‌های WP: /wp-json/، /wp-includes، /wp-content/plugins غیر مجاز: /wp/ # اگر زیر شاخه /wp/ وجود دارد CMS نصب شده است (اگر نه، # قانون حذف می‌شود) غیرمجاز: *?s= # جستجو غیرمجاز: *&s= # جستجو غیرمجاز: /search/ # جستجو غیرمجاز: /author/ # بایگانی نویسنده غیرمجاز: /users/ # بایگانی نویسندگان مجاز نیست: */ trackback # ردیابی، اعلان‌ها در نظرات هنگامی که یک پیوند # مقاله باز ظاهر می‌شود غیر مجاز: */feed # همه فیدها غیر مجاز: */rss # فید rss غیر مجاز: */embed # همه جاسازی‌ها غیر مجاز: */wlwmanifest .xml # فایل xml manifest Windows Live Writer (اگر از # استفاده نمی‌شود، می‌توان # را حذف کرد) غیرمجاز: /xmlrpc.php # فایل API WordPress غیرمجاز: *utm= # پیوندهایی با برچسب‌های utm غیرمجاز: *openstat= # پیوندهایی با برچسب‌های openstat مجاز : */uploads # باز کردن پوشه با آپلود فایل‌ها عامل کاربر: GoogleBot # قانون برای Google (نظرات تکراری نکنید) مجاز نیست: /cgi-bin غیر مجاز: /؟ Disallow: /wp- Disallow: /wp/ Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */ rss غیر مجاز: */embed غیر مجاز: */wlwmanifest.xml غیر مجاز: /xmlrpc.php غیر مجاز: *utm= غیر مجاز: *openstat= مجاز: */uploads مجاز: /*/*.js # باز کردن اسکریپت های js در داخل /wp - (/*/ - برای اولویت) اجازه: /*/*.css # باز کردن فایل‌های css در داخل /wp- (/*/ - برای اولویت) اجازه: /wp-*.png # تصاویر در افزونه‌ها، پوشه کش و غیره. مجاز به: /wp-*.jpg # تصاویر در افزونه ها، پوشه کش و غیره. اجازه دادن به: /wp-*.jpeg # تصاویر در افزونه ها، پوشه کش و غیره. اجازه دادن به: /wp-*.gif # تصاویر در افزونه ها، پوشه کش و غیره. مجاز است: /wp-admin/admin-ajax.php # مورد استفاده پلاگین‌ها برای جلوگیری از مسدود کردن JS و CSS User-agent: Yandex # قوانین برای Yandex (نظرات تکراری نکنید) غیر مجاز: /cgi-bin غیر مجاز: /؟ Disallow: /wp- Disallow: /wp/ Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */ rss غیر مجاز: */embed غیر مجاز: */wlwmanifest.xml غیر مجاز: /xmlrpc.php مجاز: */uploads مجاز: /*/*.js مجاز: /*/*.css مجاز: /wp-*.png مجاز: /wp-*.jpg Allow: /wp-*.jpeg Allow: /wp-*.gif Allow: /wp-admin/admin-ajax.php Clean-Param: utm_source&utm_medium&utm_campaign # Yandex توصیه می‌کند # را از نمایه‌سازی نبندید، اما حذف کنید پارامترهای برچسب، # Google از چنین قوانینی پشتیبانی نمی‌کند. Clean-Param: openstat # مشابه # یک یا چند فایل نقشه سایت را مشخص کنید (نیازی به کپی کردن برای هر User-agent # نیست). Google XML Sitemap 2 نقشه سایت مانند مثال زیر ایجاد می کند. نقشه سایت: http://site.ru/sitemap.xml نقشه سایت: http://site.ru/sitemap.xml.gz # آینه اصلی سایت را مانند مثال زیر مشخص کنید (با WWW / بدون WWW، اگر HTTPS # سپس پروتکل بنویسید، اگر نیاز به تعیین پورت دارید، آن را مشخص کنید). فرمان میزبان # Yandex و Mail.RU را درک می کند، گوگل آن را در نظر نمی گیرد. میزبان: www.site.ru
در اینجا نمونه ای از مینیمالیسم آورده شده است: User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php میزبان: https://site.ru نقشه سایت: https://site. ru/ sitemap.xml

حقیقت احتمالاً جایی در وسط نهفته است. همچنین فراموش نکنید که متا تگ Robots را برای صفحات "اضافی" ثبت کنید، برای مثال با استفاده از افزونه فوق العاده - . او همچنین به راه اندازی Canonical کمک خواهد کرد.
robots.txt را برای جوملا درست کنید
User-agent: * Disallow: /administrator/ Disallow: /bin/ Disallow: /cache/ Disallow: /cli/ Disallow: /components/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /layouts/ غیر مجاز: /libraries/ غیر مجاز: /logs/ غیر مجاز: /modules/ غیر مجاز: /plugins/ غیر مجاز: /tmp/
اصولاً اینجا تقریباً همه چیز در نظر گرفته شده است و به خوبی کار می کند. تنها نکته این است که باید یک User-agent جداگانه به آن اضافه کنید: قانون Yandex برای درج دستورالعمل Host که آینه اصلی را برای Yandex تعریف می کند، و همچنین مسیر فایل Sitemap را مشخص کنید.
بنابراین، در شکل نهایی، ربات های صحیح جوملا، به نظر من، باید به این صورت باشند:
عامل کاربر: Yandex Disallow: /administrator/ Disallow: /cache/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /modules/ Disallow: /plugins/ Disallow: /tmp/ Disallow: /layouts/ Disallow: /cli/ Disallow: /bin/ Disallow: /logs/ Disallow: /components/ Disallow: /component/ Disallow: /component/tags* Disallow: /*mailto/ Disallow: /*.pdf غیر مجاز : /*% غیر مجاز: /index.php میزبان: vash_sait.ru (یا www.vash_sait.ru) عامل کاربر: * مجاز: /*.css؟*$ مجاز: /*.js؟*$ مجاز: /* jpg؟*$ مجاز: /*.png؟*$ غیر مجاز: /administrator/ غیر مجاز: /cache/ غیر مجاز: /includes/ غیر مجاز: /installation/ غیر مجاز: /language/ غیر مجاز: /libraries/ غیر مجاز: /modules/ Disallow : /plugins/ Disallow: /tmp/ Disallow: /layouts/ Disallow: /cli/ Disallow: /bin/ Disallow: /logs/ Disallow: /components/ Disallow: /component/ Disallow: /*mailto/ Disallow: /*. pdf Disallow: /*% Disallow: /index.php نقشه سایت: http://path to your map فرمت XML
بله، همچنین توجه داشته باشید که در گزینه دوم دستورالعمل وجود دارد اجازه می دهد، امکان فهرست بندی سبک ها، اسکریپت ها و تصاویر را فراهم می کند. این به طور خاص برای Google نوشته شده است، زیرا Googlebot آن گاهی اوقات قسم می خورد که نمایه سازی این فایل ها در روبات ها ممنوع است، به عنوان مثال، از پوشه با موضوع مورد استفاده. او حتی تهدید به پایین آوردن رتبه برای این کار می کند.
بنابراین، ما اجازه می‌دهیم که تمام این موارد از قبل با استفاده از Allow ایندکس شود. اتفاقاً در فایل نمونه وردپرس هم همین اتفاق افتاد.

موفق باشی! به زودی شما را در سایت صفحات وبلاگ می بینیم
ممکن است علاقه مند باشید
دامنه ها با و بدون www - تاریخچه ظهور آنها، با استفاده از تغییر مسیر 301 برای چسباندن آنها به یکدیگر
آینه ها، صفحات تکراری و آدرس های URL - ممیزی سایت شما یا علت خرابی در حین ارتقا سئو آن سئو برای مبتدیان: 10 مورد ضروری برای حسابرسی فنی وب سایت
وب مستر بینگ - مرکز مدیران وب سایت از موتور جستجوی بینگ
Google Webmaster - ابزارهای کنسول جستجو (Google Webmaster)
چگونه از اشتباهات رایج در هنگام تبلیغ یک وب سایت جلوگیری کنیم
چگونه خودتان سایت را تبلیغ کنید، بهبود بهینه سازی داخلی برای کلید واژه هاو حذف محتوای تکراری
Yandex Webmaster - نمایه سازی، پیوندها، مشاهده سایت، انتخاب منطقه، نویسندگی و بررسی ویروس در Yandex Webmaster

فایل sitemap.xml و robots.txt صحیح برای سایت دو سند اجباری هستند که به نمایه سازی سریع و کامل تمام صفحات ضروری منبع وب توسط روبات های جستجو کمک می کنند. نمایه سازی صحیح سایت در Yandex و Google، کلید ارتقاء موفق وبلاگ در موتورهای جستجو است.

نحوه ساخت نقشه سایت فرمت XMLو چرا به آن نیاز دارم، قبلاً نوشتم. و اکنون بیایید در مورد نحوه ایجاد robots.txt مناسب برای یک سایت وردپرس و اینکه چرا اصلاً به آن نیاز است صحبت کنیم. اطلاعات دقیقدر مورد این فایل را می توان به ترتیب از Yandex و Google خود دریافت کرد و. من با استفاده از فایل خود به عنوان مثال به اصل موضوع می پردازم و تنظیمات اصلی robots.txt برای وردپرس را لمس می کنم.

چرا برای یک سایت به فایل robots.txt نیاز دارید؟

استاندارد robots.txt در ژانویه 1994 معرفی شد. هنگام خزیدن یک منبع وب، ربات های جستجوگر ابتدا به دنبال فایل متنی robots.txt واقع در پوشه ریشه یک وب سایت یا وبلاگ می گردند. با کمک آن می‌توانیم قوانین خاصی را برای روبات‌های موتورهای جستجوی مختلف مشخص کنیم که بر اساس آن، سایت را فهرست‌بندی می‌کنند.

تنظیم صحیح robots.txt اجازه می دهد:

موارد تکراری و صفحات مختلف زباله را از فهرست حذف کنید.
ممنوعیت فهرست‌سازی صفحات، فایل‌ها و پوشه‌هایی را که می‌خواهیم پنهان کنیم، اعمال کنیم.
به طور کلی از فهرست کردن برخی از روبات های جستجوگر خودداری می کنند (به عنوان مثال، یاهو، برای مخفی کردن اطلاعات مربوط به لینک های دریافتی از رقبا).
آینه اصلی سایت (با www یا بدون www) را نشان دهید.
مسیر نقشه سایت sitemap.xml را مشخص کنید.

نحوه ایجاد robots.txt صحیح برای یک وب سایت

برای این منظور ژنراتورها و پلاگین های خاصی وجود دارد که انجام آن به صورت دستی صحیح تر است.

شما فقط باید یک فایل متنی ساده به نام robots.txt با استفاده از هر یک ایجاد کنید ویرایشگر متن(مثلا Notepad یا Notepad ++) و آن را در هاست در پوشه ریشه وبلاگ آپلود کنید. در این فایل، شما باید دستورالعمل های خاصی را بنویسید، i.e. قوانین نمایه سازی ربات های Yandex، Google و غیره

اگر خیلی تنبل هستید که با این کار زحمت بکشید، در زیر نمونه ای از robots.txt صحیح برای وردپرس را از دیدگاه خودم از وبلاگ خود ارائه می کنم. می توانید با جایگزینی نام دامنه در سه مکان از آن استفاده کنید.

قوانین و دستورالعمل های ایجاد Robots.txt

برای موفقیت بهینه سازی موتور جستجووبلاگ، باید قوانینی را برای ایجاد robots.txt بدانید:

عدم وجود یا خالی بودن فایل robots.txt به این معنی است که موتورهای جستجو اجازه دارند تمام محتوای منبع وب را فهرست کنند.
robots.txt باید در site.ru/robots.txt شما باز شود و به ربات یک کد پاسخ 200 OK و حجمی بیش از 32 کیلوبایت بدهد. فایلی که باز نمی شود (مثلاً به دلیل خطای 404) یا بزرگتر باشد، مجاز در نظر گرفته می شود.
تعداد دستورات موجود در فایل نباید از 1024 تجاوز کند. طول یک خط نباید از 1024 کاراکتر تجاوز کند.
یک فایل robots.txt معتبر می تواند چندین دستورالعمل داشته باشد، که هر کدام باید با یک دستورالعمل User-agent شروع شود و حداقل یک دستورالعمل Disallow داشته باشد. معمولاً دستورالعمل ها را در robots.txt برای گوگل و همه ربات های دیگر و به طور جداگانه برای Yandex می نویسند.

دستورالعمل های اصلی robots.txt:

User-agent - نشان می دهد که دستورالعمل به کدام خزنده خطاب شده است.

نماد "*" به این معنی است که این برای همه ربات ها صدق می کند، به عنوان مثال:

عامل کاربر: *

اگر ما نیاز به ایجاد یک قانون در robots.txt برای Yandex داشته باشیم، می نویسیم:

عامل کاربر: Yandex

اگر دستورالعملی برای یک ربات خاص مشخص شده باشد، دستورالعمل User-agent: * توسط آن نادیده گرفته می شود.

Disallow و Allow - به ترتیب، ربات ها را ممنوع کرده و اجازه می دهد تا صفحات مشخص شده را فهرست بندی کنند. همه آدرس ها باید از ریشه سایت مشخص شوند، یعنی. از اسلش سوم شروع می شود. مثلا:

ممنوعیت ایندکس کردن کل سایت برای همه ربات ها:
عامل کاربر: *
غیر مجاز:/
ایندکس کردن تمام صفحاتی که با /wp-admin شروع می شوند برای Yandex ممنوع است:
عامل کاربر: Yandex
غیر مجاز: /wp-admin
یک دستورالعمل غیر مجاز خالی اجازه می دهد تا همه چیز ایندکس شود و مشابه Allow است. به عنوان مثال، من به Yandex اجازه می دهم کل سایت را فهرست کند:
عامل کاربر: Yandex
غیر مجاز:
و بالعکس، من همه صفحات را از ایندکس شدن توسط همه روبات های جستجو ممنوع می کنم:
عامل کاربر: *
اجازه:
دستورات مجاز و غیر مجاز از یک بلوک عامل کاربر بر اساس طول پیشوند URL مرتب شده و به صورت متوالی اجرا می شوند. اگر چندین دستورالعمل برای یک صفحه از سایت مناسب باشد، آخرین مورد در لیست اجرا می شود. حالا ترتیب نوشتن آنها برای استفاده از دستورالعمل ها توسط ربات مهم نیست. اگر دستورالعمل ها دارای پیشوندهایی با طول یکسان باشند، ابتدا Allow اجرا می شود. این قوانین از 8 مارس 2012 اجرایی شد. برای مثال، ایندکس کردن تنها صفحاتی که با /wp-includes شروع می‌شوند را مجاز می‌کند:
عامل کاربر: Yandex
غیر مجاز:/
Allow: /wp-includes

نقشه سایت - نشانی اینترنتی نقشه سایت XML را مشخص می کند. یک سایت می تواند چندین سایت داشته باشد دستورالعمل های نقشه سایت، که می تواند تو در تو باشد. تمام آدرس های فایل نقشه سایت باید در robots.txt مشخص شوند تا ایندکس سایت سرعت بیشتری بگیرد:

نقشه سایت: http://site/sitemap.xml.gz
نقشه سایت: http://site/sitemap.xml

میزبان - به ربات آینه می گوید که کدام آینه سایت اصلی ترین در نظر گرفته می شود.

اگر سایت در چندین آدرس در دسترس است (به عنوان مثال، با www و بدون www)، سپس صفحات تکراری کامل ایجاد می شود که می توانید برای آنها زیر فیلتر قرار بگیرید. همچنین در این صورت نمی توان صفحه اصلی را ایندکس کرد، بلکه صفحه اصلی برعکس از فهرست موتور جستجو حذف می شود. برای جلوگیری از این امر از دستور Host استفاده می شود که در فایل robots.txt فقط برای Yandex در نظر گرفته شده است و فقط می تواند یکی باشد. بعد از Disallow و Allow نوشته شده و به شکل زیر است:

میزبان: سایت

Crawl-Delay - تأخیر بین بارگیری صفحه را در چند ثانیه تنظیم می کند. اگر بار سنگینی وجود داشته باشد و سرور زمان پردازش درخواست ها را نداشته باشد استفاده می شود. در سایت های جوان بهتر است از دستورالعمل Crawl-Delay استفاده نکنید. او اینگونه می نویسد:

عامل کاربر: Yandex
تاخیر خزیدن: 4

Clean-param - فقط توسط Yandex پشتیبانی می شود و برای حذف صفحات تکراری با متغیرها، چسباندن آنها به یکی استفاده می شود. بنابراین، ربات Yandex صفحات مشابه را بارها دانلود نمی کند، به عنوان مثال، صفحات مرتبط با پیوندهای ارجاع. من هنوز از این دستورالعمل استفاده نکرده ام، اما در راهنمای robots.txt برای Yandex، در لینک ابتدای مقاله، می توانید این دستورالعمل را به طور کامل بخوانید.

کاراکترهای ویژه * و $ در robots.txt برای مشخص کردن مسیرهای دستورات Disallow و Allow استفاده می‌شوند:

کاراکتر ویژه "*" به معنای هر دنباله ای از کاراکترها است. به عنوان مثال، Disallow: /*؟* به معنای ممنوعیت در هر صفحه ای است که در آن "؟" در آدرس وجود دارد، صرف نظر از اینکه چه کاراکتری قبل و بعد از این کاراکتر آمده است. به طور پیش فرض، کاراکتر ویژه "*" به انتهای هر قانون اضافه می شود، حتی اگر به طور خاص نوشته نشده باشد.
کاراکتر "$" "*" را در انتهای قانون لغو می کند و به معنای تطبیق سخت است. به عنوان مثال، دستور Disallow: /*?$ فهرست کردن صفحاتی که با علامت "؟" ختم می شوند را ممنوع می کند.

نمونه وردپرس robots.txt

در اینجا نمونه ای از فایل robots.txt من برای وبلاگ وردپرس آورده شده است:

عامل کاربر: * غیر مجاز: /cgi-bin غیر مجاز: /wp-admin غیر مجاز: /wp-includes غیر مجاز: /wp-content/plugins غیر مجاز: /wp-content/cache غیر مجاز: /wp-content/themes غیر مجاز: / trackback Disallow: */trackback Disallow: */*/trackback Disallow: /feed/ Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Disallow: /?s= User-agent: Yandex غیر مجاز: /cgi-bin غیر مجاز: /wp-admin غیر مجاز: /wp-includes غیر مجاز: /wp-content/plugins غیر مجاز: /wp-content/cache غیر مجاز: /wp-content/themes غیر مجاز: /trackback غیر مجاز: */ trackback Disallow: */*/trackback Disallow: /feed/ Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Disallow: /?.ru/sitemap.xml..xml

برای اینکه خودتان را با ایجاد robots.txt صحیح برای وردپرس گول نزنید، می توانید از این فایل استفاده کنید. هیچ مشکلی برای نمایه سازی وجود ندارد. من یک اسکریپت محافظت از کپی دارم، بنابراین دانلود robots.txt تمام شده و آپلود آن در هاست خود راحت تر خواهد بود. فقط فراموش نکنید که نام سایت من را با نام شما در دستورالعمل هاست و نقشه سایت جایگزین کنید.

افزودنی های مفید برای پیکربندی صحیح فایل robots.txt برای وردپرس

اگر نظرات درختی در وبلاگ وردپرس شما نصب شده باشد، صفحات تکراری مانند ?replytocom= ایجاد می کنند. در robots.txt، چنین صفحاتی با دستور Disallow: /*?* بسته می شوند. اما این راه چاره نیست و بهتر است ممنوعیت ها را حذف کنید، اما با replytocom به گونه ای دیگر برخورد کنید. چی، .

بنابراین، robots.txt فعلی برای جولای 2014 به شکل زیر است:

عامل کاربر: * غیر مجاز: /wp-includes غیر مجاز: /wp-feed غیر مجاز: /wp-content/plugins غیر مجاز: /wp-content/cache غیر مجاز: /wp-content/themes عامل کاربر: Yandex غیر مجاز: /wp -شامل غیر مجاز: /wp-feed غیر مجاز: /wp-content/plugins غیر مجاز: /wp-content/cache غیر مجاز: /wp-content/themes میزبان: site.ru عامل کاربر: Googlebot-Image مجاز: /wp-content /uploads/ عامل کاربر: YandexImages Allow: /wp-content/uploads/ نقشه سایت: http://site.ru/sitemap.xml

علاوه بر این حاوی قوانینی برای روبات های نمایه سازی تصویر است.

عامل کاربر: Mediapartners-Google
غیر مجاز:

اگر قصد دارید صفحات دسته یا برچسب را تبلیغ کنید، باید آنها را برای روبات ها باز کنید. به عنوان مثال، در یک سایت وبلاگ، بخش ها از نمایه سازی بسته نمی شوند، زیرا آنها فقط اطلاعیه های کوچکی از مقالات منتشر می کنند که از نظر محتوای تکراری بسیار ناچیز است. و اگر از خروجی نقل قول ها در فید وبلاگ استفاده کنید که با اعلان های منحصر به فرد پر شده است، هیچ تکراری وجود نخواهد داشت.

اگر از افزونه فوق استفاده نمی کنید، می توانید در فایل robots.txt ممنوعیت فهرست بندی برچسب ها، دسته ها و آرشیوها را مشخص کنید. برای مثال، با افزودن این خطوط:

غیر مجاز: /author/
غیر مجاز: /tag
غیر مجاز: /category/*/*
غیر مجاز: /20*

فراموش نکنید که فایل robots.txt را در پنل Yandex.Webmaster بررسی کنید و سپس آن را دوباره در هاست آپلود کنید.

اگر اضافه‌ای برای راه‌اندازی robots.txt دارید، در نظرات بنویسید. و اکنون ویدیویی در مورد چیستی آن و نحوه ایجاد robots.txt صحیح برای سایت، نحوه غیرفعال کردن نمایه سازی در فایل robots.txt و رفع خطاها تماشا کنید.

فقط در مورد مجتمع برنامه ها. اهن. اینترنت. پنجره ها

فایل txt robots. نحوه ویرایش روبات txt. استفاده از کاراکترهای خاص * و $

robots.txt چیست و برای چیست؟

نحوه ایجاد فایل Robots.txt صحیح برای یک وب سایت

راه اندازی فایل Robots.txt: نمایه سازی، آینه اصلی، دستورالعمل ها

Disallow: فهرست‌سازی را ممنوع کنید

نحوه باز کردن سایت برای نمایه سازی

آینه اصلی وب سایت

نقشه سایت: نقشه سایت robots.txt

دستورالعمل Clean-param

دستورالعمل Crawl-Delay

چه نوع ربات هایی هستند؟

چرا به فایل robots.txt نیاز دارید؟

چگونه یک فایل robots.txt ایجاد کنیم

عامل کاربر - کارت ویزیت برای ربات ها

مجاز نیست - ما "آجر" را قرار می دهیم

اجازه - مستقیم روبات ها

میزبان - یک آینه سایت را انتخاب کنید

نقشه سایت - نقشه سایت پزشکی

Crawl-Delay - کرونومتر برای سرورهای ضعیف

Clean-param - شکارچی محتوای تکراری

نمادها در robots.txt

robots.txt ایده آل چگونه به نظر می رسد؟

چگونه فایل robots.txt را بررسی کنیم

چگونه فایل robots.txt را پر نکنیم

استفاده غیر استاندارد از robots.txt

نتیجه گیری

نحوه نوشتن robots.txt صحیح

دستورات robots.txt

دستورالعمل عامل کاربر

دستورات غیر مجاز و مجاز

دستورالعمل نقشه سایت

دستورالعمل میزبان

دستورالعمل Crawl-Delay

دستورالعمل Clean-param

تنظیم robots.txt

Robots.txt برای Yandex (Yandex)

Robots.txt - راهنمای کاربر-عامل و ربات های موتور جستجو

عامل کاربر

نام ربات های موتور جستجو و نقش آنها در فایل robots.txt

نمونه هایی از استفاده از دستورات Disallow و Allow در robots.txt

راهنمای نقشه سایت و میزبان (برای Yandex) در Robots.txt

دستورالعمل میزبان - آینه اصلی سایت را برای Yandex مشخص می کند

ربات برای وردپرس

robots.txt را برای جوملا درست کنید

نحوه ایجاد robots.txt صحیح برای یک وب سایت

قوانین و دستورالعمل های ایجاد Robots.txt

نمونه وردپرس robots.txt

افزودنی های مفید برای پیکربندی صحیح فایل robots.txt برای وردپرس