ev İlginç robots txt dosyasının kaynak kodu. Yandex robotları. Tarama gecikmesi - zayıf sunucular için kronometre

robots txt dosyasının kaynak kodu. Yandex robotları. Tarama gecikmesi - zayıf sunucular için kronometre

Çoğu site için robot.txt dosyası gereklidir.

Her SEO optimize edici bu dosyanın anlamını anlamalı ve en çok istenen direktifleri yazabilmelidir.

Düzgün oluşturulmuş robotlar, sitenin arama sonuçlarındaki konumunu iyileştirir ve diğer tanıtım yöntemleri arasında etkili bir SEO aracıdır.

robot.txt'nin ne olduğunu ve nasıl çalıştığını anlamak için arama motorlarının nasıl çalıştığını hatırlayalım.

Bunu kontrol etmek için adres çubuğuna kök etki alanını girin ve ardından URL'nin sonuna /robots.txt ekleyin.

Örneğin, Moz robot dosyası şu adreste bulunur: moz.com/robots.txt. Giriyoruz ve sayfayı alıyoruz:

"Robot" için talimatlar

robots.txt dosyası nasıl oluşturulur?

robots.txt için 3 tür talimat.

robots.txt dosyasının eksik olduğunu fark ederseniz, bir tane oluşturmak kolaydır.

Makalenin başında da belirtildiği gibi, bu sitenin kök dizininde bulunan normal bir metin dosyasıdır.

Yönetici paneli veya programcının sitedeki dosyalarla çalıştığı bir dosya yöneticisi aracılığıyla yapılabilir.

Makale boyunca orada nasıl ve neyin reçete edileceğini anlayacağız.

Arama motorları bu dosyadan üç tür talimat alır:

her şeyi tara, yani tam erişim(İzin vermek);
hiçbir şey taranamaz - tam bir yasaklama (İzin Verme);
tek tek öğeleri (hangileri belirtilir) taramak imkansızdır - kısmi erişim.

Pratikte şöyle görünür:

Lütfen bu sitede veya dışında bir bağlantı kuruluysa sayfanın SERP'e girebileceğini unutmayın.

Bunu daha iyi anlamak için bu dosyanın sözdizimini inceleyelim.

Robots.Txt Sözdizimi

Robots.txt: neye benziyor?

Önemli noktalar: robotlar hakkında her zaman hatırlamanız gerekenler.

Web sitelerinde sıklıkla bulunan yedi yaygın terim.

En basit haliyle, robot şöyle görünür:

Kullanıcı aracısı: [direktiflerini yazdığımız sistemin adı] İzin Verme: Site haritası: [site haritasının nerede olduğunu belirtin] # Kural 1 Kullanıcı aracısı: Googlebot İzin Verme: /prim1/ Site Haritası: http://www.nashsite.com / site haritası.xml

Bu üç satır birlikte en basit robots.txt dosyası olarak kabul edilir.

Burada botun URL'yi indekslemesini engelledik: http://www.nashsite.com/prim1/ ve site haritasının nerede olduğunu belirttik.

Lütfen dikkat: robots dosyasında, bir kullanıcı aracısı (arama motoru) için yönergeler kümesi, bir başkası için yönergeler kümesinden bir satır sonu ile ayrılır.

Birkaç arama motoru yönergesi içeren bir dosyada, her yasak veya izin yalnızca o belirli satır bloğunda belirtilen arama motoru için geçerlidir.

BT önemli nokta ve unutulmaması gerekir.

Dosya birden çok kullanıcı aracısına uygulanan kurallar içeriyorsa, sistem belirtilen arama motoruna özel yönergelere öncelik verir.

İşte bir örnek:

Yukarıdaki çizimde MSNbot, discobot ve Slurp'un yalnızca bu arama motorları için çalışacak bireysel kuralları vardır.

Diğer tüm kullanıcı aracıları, kullanıcı aracısı: * grubundaki genel yönergeleri takip eder.

robots.txt sözdizimi kesinlikle basittir.

Web sitelerinde sıklıkla bulunan yedi genel terim vardır.

Kullanıcı aracısı: Taraması için talimat verdiğiniz belirli web arama motoru (arama motoru botu). Çoğu kullanıcı aracısının bir listesi burada bulunabilir. Toplamda, ikisi en alakalı olan 302 sisteme sahiptir - Google ve Yandex.
Disallow: Aracıya URL'yi ziyaret etmemesini söyleyen bir izin vermeme komutu. URL başına yalnızca bir "izin verme" satırına izin verilir.
İzin ver (yalnızca Googlebot için geçerlidir): Komut, bot'a üst sayfası veya alt klasörü kapatılmış olsa bile sayfaya veya alt klasöre erişebileceğini söyler.
Tarama gecikmesi: Arama motorunun sayfa içeriğini yüklemeden ve taramadan önce kaç milisaniye beklemesi gerektiği.

Lütfen dikkat - Googlebot bu komutu desteklemez, ancak tarama hızı Google Arama Konsolunda manuel olarak ayarlanabilir.

Site Haritası: Bu URL ile ilişkili herhangi bir XML haritasının konumunu çağırmak için kullanılır. Bu komut yalnızca Google, Ask, Bing ve Yahoo tarafından desteklenir.
Host: Bu yönerge, indeksleme sırasında dikkate alınması gereken sitenin ana aynasını belirtir. Sadece bir kez yazılabilir.
Clean-param: Bu komut, dinamik adreslemede yinelenen içerikle başa çıkmak için kullanılır.

Düzenli ifadeler

Normal ifadeler: neye benziyorlar ve ne anlama geliyorlar.

robots.txt dosyasında tarama nasıl etkinleştirilir ve devre dışı bırakılır.

Uygulamada, robots.txt dosyaları büyüyebilir ve oldukça karmaşık ve hantal hale gelebilir.

Sistem kullanmayı mümkün kılar düzenli ifadeler dosyanın gerekli işlevselliğini sağlamak, yani sayfalar ve alt klasörlerle esnek bir şekilde çalışmak.

* bir joker karakterdir, yani yönerge tüm arama botları için çalışır;
$, URL veya dizenin sonuyla eşleşir;
# geliştirici ve optimize edici yorumları için kullanılır.

İşte http://www.nashsite.com için bazı robots.txt örnekleri

Robots.txt URL'si: www.nashsite.com/robots.txt

User-agent: * (yani tüm arama motorları için) Disallow: / (eğik çizgi sitenin kök dizinini belirtir)

Az önce tüm arama motorlarının sitenin tamamını taramasını ve dizine eklemesini yasakladık.

Bu işlem ne sıklıkla gereklidir?

Nadiren, ancak kaynağın katılmaması gereken zamanlar vardır. Arama Sonuçlarıözel bağlantılar veya kurumsal yetkilendirme yoluyla ziyaretler gerçekleştirilmiştir.

Bazı firmaların dahili siteleri bu şekilde çalışır.

Ek olarak, site geliştirme veya modernizasyon aşamasındaysa böyle bir yönerge verilir.

Arama motorunun sitedeki her şeyi taramasına izin vermeniz gerekiyorsa, robots.txt dosyasına aşağıdaki komutları yazmanız gerekir:

Kullanıcı aracısı: * İzin verme:

Yasaklamada (izin vermeme) hiçbir şey yoktur, bu da her şeyin mümkün olduğu anlamına gelir.

Robots.txt dosyasında bu söz dizimini kullanmak, tarayıcıların http://www.nashsite.com'daki tüm sayfaları taramasını sağlar. ana sayfa, yönetici ve kişiler.

Belirli arama botlarını ve bireysel klasörleri engelleme

Google arama motoru (Googlebot) için sözdizimi.

Diğer arama aracıları için sözdizimi.

Kullanıcı aracısı: Googlebot Disallow: /example-subfolder/

Bu sözdizimi yalnızca şunu belirtir: Google arama motoru(Googlebot) şu adresi taramanıza gerek olmadığını gösterir: www.nashsite.com/example-subfolder/.

Belirtilen botlar için tek tek sayfaları engelleme:

Kullanıcı aracısı: Bingbot Disallow: /example-subfolder/blocked-page.html

Bu sözdizimi, yalnızca Bingbot'un (Bing tarayıcısının adı) şu adresteki sayfayı ziyaret etmemesi gerektiğini söyler: www.nashsite.com /example-subfolder/blocked-page.

Aslında, hepsi bu.

Bu yedi komuta ve üç sembole hakimseniz ve uygulama mantığını anlarsanız, doğru robots.txt dosyasını yazabilirsiniz.

Neden çalışmıyor ve ne yapmalı

Ana eylem algoritması.

Öbür metodlar.

Robots.txt dosyasının hatalı çalışması bir sorundur.

Sonuçta, hatayı tespit etmek ve sonra çözmek zaman alacaktır.

Dosyayı tekrar okuyun, fazladan bir şeyi engellemediğinizden emin olun.

Bir süre sonra sayfanın hala arama sonuçlarında asılı olduğu ortaya çıkarsa, sitenin arama motoru tarafından yeniden dizine eklenip eklenmediğini görmek için Google Web Yöneticisi'ne bakın ve kapatılan sayfaya herhangi bir harici bağlantı olup olmadığını kontrol edin.

Çünkü eğer öyleyse, onu arama sonuçlarından gizlemek daha zor olacak, başka yöntemler gerekli olacaktır.

Peki, kullanmadan önce bu dosyayı Google'dan ücretsiz bir test cihazı ile kontrol edin.

Zamanında analiz, sorunlardan kaçınmaya yardımcı olur ve zaman kazandırır.

"İçerik Pazarlaması" adlı yeni bir kitap yayınladık. sosyal ağlarda: Abonelerin kafasına nasıl girilir ve markanıza nasıl aşık olunur.

Robots.txt, portal sayfalarının dizine eklenmesine yardımcı olan tarayıcılar için bilgiler içeren bir metin dosyasıdır.

Kanalımızda daha fazla video - SEMANTICA ile internet pazarlamasını öğrenin

Bir adada hazine avında olduğunuzu hayal edin. Bir haritanız var. Güzergah orada belirtilmiştir: “Büyük bir kütüğe yaklaşın. Ondan doğuya doğru 10 adım atın, ardından uçuruma ulaşın. Sağa dönün, mağarayı bulun."

Bunlar yönlerdir. Onları takip ederek rotayı takip ediyor ve hazineyi buluyorsunuz. Arama botu, bir siteyi veya sayfayı dizine eklemeye başladığında da yaklaşık olarak aynı şekilde çalışır. robots.txt dosyasını bulur. Hangi sayfaların dizine eklenmesi gerektiğini ve hangilerinin alınmaması gerektiğini okur. Ve bu komutları izleyerek portalı atlar ve sayfalarını dizine ekler.

robots.txt ne için?

Site hostinge yüklendikten ve dns kaydı yapıldıktan sonra siteleri ziyaret etmeye ve sayfaları indekslemeye başlarlar. Herhangi bir şeyiniz olup olmadığına bakılmaksızın işlerini yaparlar. teknik dosyalar ya da değil. Robotlar, arama motorlarına bir web sitesini tararken, içindeki parametreleri dikkate almaları gerektiğini belirtir.

Bir robots.txt dosyasının olmaması siteyi tarama hızında ve dizinde çöp bulunmasıyla ilgili sorunlara yol açabilir. Yanlış dosya yapılandırması, kaynağın önemli bölümlerinin dizinden çıkarılması ve arama sonuçlarında gereksiz sayfaların bulunmasıyla doludur.

Bütün bunlar, sonuç olarak, terfi ile ilgili sorunlara yol açmaktadır.

Bu dosyada hangi talimatların bulunduğuna ve bunların sitenizdeki botun davranışını nasıl etkilediğine daha yakından bakalım.

robots.txt nasıl yapılır

İlk önce, bu dosyanın olup olmadığını kontrol edin.

Yazın adres çubuğu sitenin tarayıcı adresi ve bir eğik çizgi ile dosyanın adı, örneğin, https://www.xxxxx.ru/robots.txt

Dosya mevcutsa, ekranda parametrelerinin bir listesi görünecektir.

Dosya yoksa:

Dosya, Notepad veya Notepad++ gibi bir düz metin düzenleyicide oluşturulur.
Robot adını, extension.txt'yi ayarlamanız gerekir. Kabul edilen biçimlendirme standartlarına uygun olarak verileri girin.
Yandex web yöneticisi gibi hizmetleri kullanarak hataları kontrol edebilirsiniz.Orada "Araçlar" bölümünde "robots.txt'yi analiz et" öğesini seçmeniz ve istemleri izlemeniz gerekir.
Dosya hazır olduğunda sitenin kök dizinine yükleyin.

Özelleştirme Kuralları

Arama motorlarında birden fazla robot bulunur. Bazı botlar yalnızca dizin Metin içeriği, bazı - sadece grafik. Ve arama motorlarının kendileri, tarayıcıların nasıl çalıştığına dair farklı şemalara sahip olabilir. Dosya derlenirken bu dikkate alınmalıdır.

Bazıları bazı kuralları görmezden gelebilir, örneğin GoogleBot, hangi site aynasının ana olarak kabul edildiğine ilişkin bilgilere yanıt vermez. Ancak genel olarak, dosyayı algılar ve ona rehberlik ederler.

Dosya sözdizimi

Belge parametreleri: robotun (bot) adı "Kullanıcı-aracı", yönergeler: "İzin Ver"e izin verilmesi ve "İzin Verilmemesine" izin verilmesi.

Artık iki önemli arama motoru var: Sırasıyla Yandex ve Google, bir siteyi derlerken her ikisinin de gereksinimlerini dikkate almak önemlidir.

Giriş oluşturma formatı aşağıdaki gibidir, gerekli boşlukları ve boş satırları not edin.

Kullanıcı aracısı yönergesi

Robot, User-agent ile başlayan girişleri arar, bunlar arama robotunun adının göstergelerini içermelidir. Belirtilmezse, bot erişimi sınırsız olarak kabul edilir.

Direktiflere İzin Verme ve İzin Verme

robots.txt dosyasında dizin oluşturmayı devre dışı bırakmanız gerekiyorsa İzin Verme seçeneğini kullanın. Onun yardımıyla botun siteye veya bazı bölümlere erişimini kısıtlarlar.

robots.txt tek bir "Disallow" yönergesi içermiyorsa, tüm sitenin indekslenmesine izin verildiği kabul edilir. Genellikle banlar her bottan sonra ayrı yazılır.

# işaretinden sonraki tüm bilgiler yorum niteliğindedir ve makine tarafından okunamaz.

İzin vermek, erişime izin vermek için kullanılır.

Yıldız işareti, bunun tümü için geçerli olduğunu gösterir: Kullanıcı aracısı: *.

Bu seçenek, aksine, herkes için indekslemenin tamamen yasaklanması anlamına gelir.

Belirli bir dizin klasörünün tüm içeriğinin görüntülenmesini engelle

Tek bir dosyayı engellemek için mutlak yolunu belirtmeniz gerekir.

Yönergeler Site Haritası, Ana Bilgisayar

Yandex için, hangi aynayı ana ayna olarak belirlemek istediğinizi belirtmek gelenekseldir. Ve Google, hatırladığımız gibi, bunu görmezden geliyor. Ayna yoksa, web sitenizin adını www ile veya www olmadan yazmanın doğru olduğunu nasıl düşündüğünüzü düzeltin.

Temiz Param Direktifi

Web sitesi sayfalarının URL'leri, içeriklerini etkilemeyen değişken parametreler içeriyorsa kullanılabilir (bunlar kullanıcı kimlikleri, yönlendirenler olabilir).

Örneğin, sayfa adresinde "ref" trafik kaynağını tanımlar, yani. ziyaretçinin siteye nereden geldiğini gösterir. Sayfa tüm kullanıcılar için aynı olacaktır.

Robot buna işaret edilebilir ve yinelenen bilgileri indirmez. Bu, sunucu yükünü azaltacaktır.

Tarama gecikmesi yönergesi

Yardımla, botun analiz için sayfaları hangi sıklıkta yükleyeceğini belirleyebilirsiniz. Bu komut, sunucu aşırı yüklendiğinde kullanılır ve bypass işleminin hızlandırılması gerektiğini belirtir.

robots.txt hataları

Dosya kök dizinde değil. Robot onu daha derine aramayacak ve hesaba katmayacaktır.
Başlıktaki harfler küçük Latince olmalıdır.
İsimde hata, bazen sondaki S harfini kaçırıp robot yazıyorlar.
robots.txt dosyasında Kiril karakterlerini kullanamazsınız. Rusça bir etki alanı belirtmeniz gerekiyorsa, özel Punycode kodlamasındaki biçimi kullanın.
Bu, alan adlarını bir dizi ASCII karaktere dönüştürmek için bir yöntemdir. Bunu yapmak için özel dönüştürücüler kullanabilirsiniz.

Bu kodlama şöyle görünür:
web sitesi.rf = xn--80aswg.xn--p1ai

Robots txt'de nelerin kapatılacağı ve Google ve Yandex arama motorlarının gereksinimlerine uygun ayarlar hakkında ek bilgiler referans belgelerde bulunabilir. Farklı cm'lerin de kendine has özellikleri olabilir, bu dikkate alınmalıdır.

robots.txt- bu sitenin kökünde bulunan bir metin dosyasıdır - http://site.ru/robots.txt. Ana amacı, arama motorlarına belirli yönergeler koymaktır - sitede ne ve ne zaman yapılacağı.

En basit Robots.txt

Tüm arama motorlarının her şeyi dizine eklemesine izin veren en basit robots.txt şöyle görünür:

Kullanıcı aracısı : *
İzin verme :

Disallow yönergesinin sonunda eğik çizgi yoksa, tüm sayfaların dizine eklenmesine izin verilir.

Bu yönerge, sitenin dizine eklenmesini tamamen yasaklar:

Kullanıcı aracısı : *
İzin verme: /

Kullanıcı aracısı - direktiflerin kime yönelik olduğunu belirtir, bir yıldız işareti tüm PS'ler için Yandex için Kullanıcı aracısı: Yandex'i belirtir.

Yandex yardımı, tarayıcılarının User-agent: * işlediğini söylüyor, ancak User-agent: Yandex varsa, User-agent: * yok sayılır.

Direktiflere İzin Verme ve İzin Verme

İki ana direktif vardır:

İzin verme - yasakla

İzin ver - izin ver

Örnek: Blogda, eklenti dosyalarının, şablonun vb. bulunduğu /wp-content/ klasörünün indekslenmesini yasakladık. Ancak görsel aramaya katılmak için PS tarafından indekslenmesi gereken görseller de var. Bunu yapmak için aşağıdaki şemayı kullanmanız gerekir:

Kullanıcı aracısı : *
İzin ver: /wp-content/uploads/ # Yüklenenler klasöründe resimlerin indekslenmesine izin ver
İzin verme : /wp-content/

Aynı sayfa veya klasörler için geçerliyse, yönergelerin kullanılma sırası Yandex için önemlidir. Bu şekilde belirtirseniz:

Kullanıcı aracısı : *
İzin verme : /wp-content/
İzin ver: /wp-content/uploads/

Görüntüler, /uploads/ dizininden Yandex robotu tarafından yüklenmeyecektir, çünkü wp-content klasörüne tüm erişimi reddeden ilk yönerge yürütülmektedir.

Google işi kolaylaştırır ve konumlarından bağımsız olarak robots.txt dosyasının tüm yönergelerini takip eder.

Ayrıca, eğik çizgili ve eğik çizgisiz yönergelerin farklı bir rol oynadığını unutmayın:

İzin verme: /hakkında site.ru/about/ dizininin tamamına erişimi reddeder ve - site.ru/about.html , site.ru/aboutlive.html vb. içeren sayfalar dizine eklenmez.

İzin verme: /hakkında/ Robotların site.ru/about/ dizinindeki sayfaları ve site.ru/about.html vb. gibi sayfaları dizine eklemesini yasaklayacaktır. indekslemeye uygun olacaktır.

robots.txt'deki normal ifadeler

İki karakter desteklenir, bunlar:

* - herhangi bir karakter sırasını ifade eder.

Örnek:

İzin verme: /hakkında* hakkında içeren tüm sayfalara erişimi reddedecek, ilke olarak ve yıldız işareti olmadan, böyle bir yönerge de işe yarayacaktır. Ancak bazı durumlarda bu ifade değiştirilemez. Örneğin bir kategoride sonunda .html olan ve olmayan sayfalar var, html içeren tüm sayfaları indekslemeden kapatmak için aşağıdaki yönergeyi yazıyoruz:

İzin verme : /about/*.html

Artık site.ru/about/live.html sayfasının dizine eklenmesi kapatılmıştır ve site.ru/about/live sayfası açıktır.

Başka bir benzetme örneği:

Kullanıcı aracısı: Yandex
İzin ver : /about/*.html #indekslemeye izin ver
İzin verme : /hakkında/

.html ile biten sayfalar hariç tüm sayfalar kapatılacak

$ - kalanını keser ve satırın sonunu işaretler.

Örnek:

İzin verme: /hakkında- Bu robots.txt yönergesi, /about/ dizinindeki sayfaların yanı sıra about ile başlayan tüm sayfaların dizine eklenmesini yasaklar.

Sonuna bir dolar işareti ekleyerek - İzin Verme: /about$ ekleyerek robotlara yalnızca /about sayfasının dizine eklenemeyeceğini, ancak /about/ dizininin, /aboutlive sayfalarının vb. indekslenebilir.

Site haritası yönergesi

Bu yönerge, Site Haritasına giden yolu şu şekilde belirtir:

Site Haritası : http://site.ru/sitemap.xml

Ana Bilgisayar Yönergesi

Bu formda belirtilen:

Ev sahibi: site.ru

http:// , eğik çizgiler ve benzerleri olmadan. www ile bir ana ayna siteniz varsa, şunu yazın:

Bitrix için Robots.txt örneği

Kullanıcı aracısı: *
İzin verme: /*index.php$
İzin verme: /bitrix/
İzin verme: /auth/
İzin verme: /kişisel/
İzin verme: /yükle/
İzin verme: /arama/
İzin verme: /*/ara/
İzin verme: /*/slide_show/
İzin verme: /*/gallery/*sipariş=*
İzin verme: /*?*
İzin verme: /*&print=
İzin verme: /*kayıt=
İzin verme: /*forgot_password=
İzin verme: /*change_password=
İzin verme: /*login=
İzin verme: /*logout=
İzin verme: /*auth=
İzin verme: /*eylem=*
İzin verme: /*bitrix_*=
İzin verme: /*backurl=*
İzin verme: /*BACKURL=*
İzin verme: /*back_url=*
İzin verme: /*BACK_URL=*
İzin verme: /*back_url_admin=*
İzin verme: /*print_course=Y
İzin verme: /*COURSE_ID=
İzin verme: /*PAGEN_*
İzin verme: /*PAGE_*
İzin verme: /*SHOWALL
İzin verme: /*show_all=
Ev sahibi: sitename.com
Site Haritası: https://www.sitename.ru/sitemap.xml

WordPress robots.txt örneği

Yukarıda açıklanan tüm gerekli direktifler eklendikten sonra. Bunun gibi bir robots dosyası elde etmelisiniz:

Bu, tabiri caizse, wordpress için robots.txt'nin temel sürümüdür. Burada iki Kullanıcı aracısı vardır - biri herkes için ve ikincisi Host yönergesinin belirtildiği Yandex için.

robotlar meta etiketleri

Bir sayfayı veya siteyi dizine eklemekten sadece robots.txt dosyasıyla kapatmak mümkün değil, bu meta etiketi kullanılarak da yapılabilir.

Etikete kaydetmeniz gerekir ve bu meta etiket sitenin dizine eklenmesini yasaklayacaktır. WordPress'te bu tür meta etiketleri ayarlamanıza izin veren eklentiler vardır, örneğin - Platinum Seo Pack. Bununla, herhangi bir sayfayı indekslemeden kapatabilirsiniz, meta etiketleri kullanır.

Tarama gecikmesi yönergesi

Bu yönerge ile, site sayfalarını indirme arasında arama botunun kesintiye uğraması gereken süreyi ayarlayabilirsiniz.

Kullanıcı aracısı : *
Tarama gecikmesi: 5

İki sayfa yüklemesi arasındaki zaman aşımı 5 saniye olacaktır. Sunucudaki yükü azaltmak için genellikle 15-20 saniyeye ayarlarlar. Bu yönerge, arama botlarının yalnızca "yaşadığı" büyük, sık güncellenen siteler için gereklidir.

Normal siteler/bloglar için bu yönerge gerekli değildir, ancak diğer alakasız arama robotlarının (Rambler, Yahoo, Bing) vb. davranışlarını sınırlayabilirsiniz. Sonuçta onlar da siteyi ziyaret edip dizine ekliyorlar, böylece sunucuda bir yük oluşturuyorlar.

Herkese selam! Bugün size bundan bahsetmek istiyorum robots.txt dosyası. Evet, internette onun hakkında çok şey yazılıyor, ama dürüst olmak gerekirse, ben kendim çok uzun zamandır Doğru robots.txt dosyasını nasıl oluşturacağımı bulamadım. Sonunda bir tane yaptım ve tüm bloglarımda var. Robots.txt ile ilgili herhangi bir sorun görmüyorum, gayet iyi çalışıyor.

WordPress için Robots.txt

Ve aslında neden robots.txt'e ihtiyacımız var? Cevap hala aynı -. Yani, robots.txt dosyasının derlenmesi parçalardan biridir. Arama motoru optimizasyonu site (bu arada, çok yakında bir WordPress sitesinin tüm iç optimizasyonuna ayrılacak bir ders olacak. Bu nedenle, ilginç materyalleri kaçırmamak için RSS'ye abone olmayı unutmayın.).

işlevlerden biri verilen dosya – indeksleme yasağı sitenin gereksiz sayfaları Ayrıca adresi belirler ve ana adresi belirler. site aynası(www ile veya www olmadan web sitesi).

Not: arama motorları için www ile aynı site ve www olmadan tamamen farklı sitelerdir. Ancak, bu sitelerin içeriğinin aynı olduğunu fark eden arama motorları, onları birbirine “yapıştırır”. Bu nedenle, ana site aynasını robots.txt dosyasına kaydetmek önemlidir. Hangisinin ana olduğunu bulmak için (www ile veya www olmadan), sitenizin adresini tarayıcıya yazmanız yeterlidir, örneğin www ile, otomatik olarak aynı siteye www olmadan yönlendirilirseniz, ana aynası www olmadan siteniz. Umarım doğru anlatmışımdır.

Yani, bu aziz, bence, wordpress için doğru robots.txt Aşağıda görebilirsiniz.

WordPress için Doğru Robots.txt

Kullanıcı aracısı: *
İzin verme: /cgi-bin
İzin verme: /wp-admin
İzin verme: /wp-içerir
İzin verme: /wp-content/cache
İzin verme: /wp-content/themes
İzin verme: /geri izleme
İzin verme: */geri izleme
İzin verme: */*/geri izleme
İzin verme: */*/feed/*/
İzin verme: */feed
İzin verme: /*?*
İzin verme: / etiketi

Kullanıcı aracısı: Yandex
İzin verme: /cgi-bin
İzin verme: /wp-admin
İzin verme: /wp-içerir
İzin verme: /wp-content/plugins
İzin verme: /wp-content/cache
İzin verme: /wp-content/themes
İzin verme: /geri izleme
İzin verme: */geri izleme
İzin verme: */*/geri izleme
İzin verme: */*/feed/*/
İzin verme: */feed
İzin verme: /*?*
İzin verme: / etiketi
ev sahibi: site
.gz
Site Haritası: https://site/sitemap.xml

Yukarıda verilen her şeyi, içine kopyalamanız gerekir. Metin belgesi.txt uzantılı, yani dosya adı robots.txt olmalıdır. Bu metin belgesini, örneğin programı kullanarak oluşturabilirsiniz. Sadece lütfen unutma son üç satırdaki değişiklik adresi web sitenizin adresine. robots.txt dosyası blogun kök dizininde, yani wp-content, wp-admin vb. klasörlerle aynı klasörde bulunmalıdır.

Bunu yaratamayacak kadar tembel olanlar Metin dosyası, sadece robots.txt dosyasını indirebilir ve ayrıca oradaki 3 satırı düzeltebilirsiniz.

Aşağıda ele alacağımız teknik bölümlerde kendinizi çok fazla yüklemenize gerek olmadığını belirtmek isterim. Onları "bilgi", tabiri caizse genel bir bakış açısı için alıntılıyorum, böylece neye ihtiyaç duyulduğunu ve neden olduğunu bilsinler.

Yani çizgi:

kullanıcı aracısı

bazı arama motorları için kuralları belirler: örneğin, “*” (yıldız) kuralların tüm arama motorları için olduğunu ve aşağıdakilerin ne olduğunu gösterir

Kullanıcı aracısı: Yandex

bu kuralların yalnızca Yandex için olduğu anlamına gelir.

izin verme
Burada arama motorları tarafından dizine eklenmesi GEREKMEZ bölümleri "ileriz". Örneğin, https://site/tag/seo sayfasında normal makaleler içeren yinelenen makalelerim (tekrar) var ve yinelenen sayfalar olumsuz etkiliyor arama promosyonu, bu nedenle, bu kuralı kullanarak yaptığımız endekslemeden bu sektörlerin kapatılması son derece arzu edilir:

İzin verme: / etiketi

Yani, yukarıda verilen robots.txt dosyasında, WordPress sitesinin neredeyse tüm gereksiz bölümleri indekslemeye kapatılmıştır, yani her şeyi olduğu gibi bırakın.

Ev sahibi

Burada bahsettiğim sitenin ana aynasını biraz daha yükseğe yerleştirdik.

Site Haritası

Son iki satırda ile oluşturulan en fazla iki site haritasının adresini belirtiyoruz.

Olası sorunlar

Ancak robots.txt dosyasındaki bu satır nedeniyle site gönderilerim artık dizine eklenmedi:

İzin verme: /*?*

Gördüğünüz gibi, robots.txt'deki bu satır, elbette hiç ihtiyacımız olmayan makalelerin dizine eklenmesini yasaklıyor. Bunu düzeltmek için, bu 2 satırı (tüm arama motorları ve Yandex kurallarında) kaldırmanız yeterlidir ve CNC'siz bir WordPress sitesi için son doğru robots.txt şöyle görünecektir:

Kullanıcı aracısı: *
İzin verme: /cgi-bin
İzin verme: /wp-admin
İzin verme: /wp-içerir
İzin verme: /wp-content/plugins
İzin verme: /wp-content/cache
İzin verme: /wp-content/themes
İzin verme: /geri izleme
İzin verme: */geri izleme
İzin verme: */*/geri izleme
İzin verme: */*/feed/*/
İzin verme: */feed
İzin verme: / etiketi

Kullanıcı aracısı: Yandex
İzin verme: /cgi-bin
İzin verme: /wp-admin
İzin verme: /wp-içerir
İzin verme: /wp-content/plugins
İzin verme: /wp-content/cache
İzin verme: /wp-content/themes
İzin verme: /geri izleme
İzin verme: */geri izleme
İzin verme: */*/geri izleme
İzin verme: */*/feed/*/
İzin verme: */feed
İzin verme: / etiketi
ev sahibi: site
Site Haritası: https://site/sitemap.xml

Robots.txt dosyasını doğru derleyip derlemediğimizi kontrol etmek için Yandex Webmaster hizmetini kullanmanızı tavsiye ederim (bu hizmete nasıl kayıt olacağınızı anlattım).

bölüme gidiyoruz Dizin oluşturma ayarları –> Robots.txt analizi:

Zaten orada, “Siteden robots.txt indir” düğmesine tıklayın ve ardından “Kontrol Et” düğmesine tıklayın:

Aşağıdaki mesaja benzer bir şey görürseniz, Yandex için doğru robots.txt dosyasına sahipsiniz:

Öncelikle size robots.txt dosyasının ne olduğunu anlatacağım.

robots.txt- sitenin kök klasöründe bulunan bir dosya, burada Özel Talimatlar arama robotları için. Bu talimatlar, siteye girerken robotun sayfayı/bölümü dikkate almaması yani sayfayı indekslemeden kapatmamız için gereklidir.

robots.txt neden gereklidir?

Robots.txt dosyası, kesinlikle herhangi bir sitenin SEO optimizasyonu için önemli bir gereklilik olarak kabul edilir. Bu dosyanın olmaması, robotlardan gelen yükü olumsuz etkileyebilir ve indekslemeyi yavaşlatabilir ve dahası, site tamamen indekslenmeyecektir. Buna göre kullanıcılar Yandex ve Google üzerinden sayfalara gidemeyecek.

robots.txt'nin arama motorları üzerindeki etkisi?

Arama motorları(özellikle Google) siteyi indexleyecek ama robots.txt dosyası yoksa dediğim gibi tüm sayfalar değil. Eğer böyle bir dosya varsa robotlar bu dosyada belirtilen kurallara göre yönlendirilir. Ayrıca, birkaç tür arama robotu vardır, bazıları kuralı dikkate alabilirse, diğerleri onu görmezden gelir. Özellikle, GoogleBot robotu Host ve Crawl-Delay direktiflerini dikkate almaz, YandexNews robotu yakın zamanda Crawl-Delay direktifini dikkate almayı bırakmıştır ve YandexDirect ve YandexVideoParser robotları robots.txt dosyasındaki genel kabul görmüş direktifleri görmezden gelmektedir. (ancak onlar için özel olarak yazılmış olanları dikkate alın).

Siteye en çok sitenizden içerik yükleyen robotlar yüklenir. Buna göre robota hangi sayfaların indeksleneceğini ve hangilerinin göz ardı edileceğini ve ayrıca sayfalardan hangi zaman aralıklarında içerik yükleyeceğini söylersek (bu, arama motoru indeksinde 100.000'den fazla sayfası olan büyük siteler için daha önemlidir). Bu, robotun siteden içerik dizine eklemesini ve yüklemesini çok daha kolay hale getirecektir.

Wordpress - /wp-admin/ gibi CMS ile ilgili dosyalar arama motorları için gereksiz olarak sınıflandırılabilir. Ayrıca ajax, json betiklerinden sorumlu olan pop-up formlar, bannerlar, captcha çıktıları vb.

Çoğu robot için, tüm Javascript ve CSS dosyalarını indekslemeden kapatmanızı da tavsiye ederim. Ancak GoogleBot ve Yandex için, arama motorları tarafından sitenin uygunluğunu ve sıralamasını analiz etmek için kullanıldığı için bu tür dosyaları dizine eklemek daha iyidir.

robots.txt yönergesi nedir?

direktifler- bunlar arama robotları için kurallardır. Robots.txt ve buna göre yazmak için ilk standartlar 1994'te ve 1996'da genişletilmiş bir standart olarak ortaya çıktı. Ancak, zaten bildiğiniz gibi, tüm robotlar belirli yönergeleri desteklemez. Bu nedenle, sitenin sayfalarını indekslerken ana robotların neleri yönlendirdiğini aşağıda anlattım.

kullanıcı aracısı ne anlama geliyor?

Bu, hangi arama robotlarına daha fazla kuralın uygulanacağını belirleyen en önemli yönergedir.

Tüm robotlar için:

Belirli bir bot için:

Kullanıcı aracısı: Googlebot

Robots.txt dosyasındaki durum önemli değil, hem Googlebot hem de googlebot yazabilirsiniz

Google tarayıcıları

Yandex arama robotları


	Yandex'in ana indeksleme robotu
	Yandex.Images hizmetinde kullanılır
	Yandex.Video hizmetinde kullanılır
	multimedya verileri
	Blog Arama
	"URL Ekle" formu aracılığıyla eklendiğinde bir sayfaya erişen bir tarayıcı
	site simgelerini indeksleyen robot (favicons)
	Yandex.Direct
	Yandex.Metrica
	Yandex.Katalog hizmetinde kullanılır
	Yandex.News hizmetinde kullanılır
YandexImageResizer	Mobil hizmetlerin arama robotu

Arama robotları Bing, Yahoo, Mail.ru, Rambler

Direktiflere İzin Verme ve İzin Verme

Disallow, sitenizin bölümlerini ve sayfalarını dizine eklenmesini engeller. Buna göre, İzin Ver, aksine onları açar.

Bazı özellikler var.

İlk olarak, ek operatörler *, $ ve #'dir. Ne için kullanılırlar?

“*” herhangi bir sayıda karakter ve bunların yokluğudur. Varsayılan olarak, zaten satırın sonundadır, bu nedenle tekrar koymanın bir anlamı yoktur.

“$” - kendinden önceki karakterin en son olması gerektiğini belirtir.

“#” - yorum, bu karakterden sonra gelen her şey robot tarafından yok sayılır.

İzin Verme kullanımına örnekler:

İzin verme: *?s=

İzin verme: /category/

Buna göre, arama robotu aşağıdaki gibi sayfaları kapatacaktır:

Ancak formun sayfaları indekslemeye açık olacaktır:

Şimdi iç içe kuralların nasıl yürütüldüğünü anlamanız gerekiyor. Direktiflerin yazılma sırası çok önemlidir. Kuralların kalıtımı hangi dizinlerin belirtildiğine göre belirlenir yani bir sayfayı/belgeyi indekslemeden kapatmak istiyorsak direktif yazmamız yeterlidir. Bir örneğe bakalım

Bu bizim robots.txt dosyamız

İzin verme: /şablon/

Bu yönerge ayrıca herhangi bir yerde belirtilir ve birkaç site haritası dosyası kaydedebilirsiniz.

robots.txt dosyasında ana bilgisayar yönergesi

Bu yönerge, sitenin ana aynasını (genellikle www ile veya www olmadan) belirtmek için gereklidir. Bunu not et ana bilgisayar yönergesi http:// protokolü olmadan ancak https:// protokolü ile belirtilir. Yönerge yalnızca Yandex ve Mail.ru arama robotları tarafından dikkate alınırken, GoogleBot dahil diğer robotlar kuralı dikkate almaz. Robots.txt dosyasına 1 kez kaydolacak ana bilgisayar

http:// ile örnek

Ev sahibi: www.website.ru

https:// ile örnek

Tarama gecikmesi yönergesi

Arama robotu tarafından site sayfalarının indekslenmesi için zaman aralığını ayarlar. Değer, saniye ve milisaniye cinsinden belirtilir.

Örnek:

Esas olarak, site trafiğinin günde 5.000'den olduğu büyük çevrimiçi mağazalarda, bilgi sitelerinde, portallarda kullanılır. Arama robotunun belirli bir süre içerisinde indeksleme talebinde bulunması gerekmektedir. Bu yönergeyi belirtmezseniz bu durum sunucu üzerinde ciddi bir yük oluşturabilir.

Her site için optimum tarama gecikmesi değeri farklıdır. Arama motorları Mail, Bing, Yahoo için değer ayarlanabilir Minimum değer 0.25, 0.3, çünkü bu arama motoru robotları sitenizi ayda bir, 2 ayda bir vb. (çok nadiren) tarayabilir. Yandex için daha büyük bir değer ayarlamak daha iyidir.

Sitenizin yükü minimum ise, bu yönergeyi belirtmenin bir anlamı yoktur.

Temiz Param Direktifi

Kural ilginçtir çünkü tarayıcıya belirli parametrelere sahip sayfaların dizine eklenmesi gerekmediğini söyler. 2 argüman yazılır: sayfa URL'si ve parametre. Bu yönerge desteklenir arama motoru yandex.

Örnek:

İzin verme: /admin/

İzin verme: /eklentiler/

İzin verme: /arama/

İzin verme: /cart/

İzin verme: *sıralama=

İzin verme: *görünüm=

Kullanıcı aracısı: GoogleBot

İzin verme: /admin/

İzin verme: /eklentiler/

İzin verme: /arama/

İzin verme: /cart/

İzin verme: *sıralama=

İzin verme: *görünüm=

İzin ver: /plugins/*.css

İzin ver: /plugins/*.js

İzin ver: /plugins/*.png

İzin ver: /plugins/*.jpg

İzin ver: /plugins/*.gif

Kullanıcı aracısı: Yandex

İzin verme: /admin/

İzin verme: /eklentiler/

İzin verme: /arama/

İzin verme: /cart/

İzin verme: *sıralama=

İzin verme: *görünüm=

İzin ver: /plugins/*.css

İzin ver: /plugins/*.js

İzin ver: /plugins/*.png

İzin ver: /plugins/*.jpg

İzin ver: /plugins/*.gif

Temiz-Param: utm_source&utm_medium&utm_campaign

Örnekte 3 farklı bot için kurallar yazdık.

robots.txt nereye eklenir?

İlave kök klasör alan. Ayrıca, bir bağlantı ile takip edilebilmesi için:

robots.txt nasıl kontrol edilir?

Yandex Web Yöneticisi

Araçlar sekmesinde, robots.txt dosyasını analiz et'i seçin ve ardından Kontrol Et'i tıklayın.

Google Arama Konsolu

sekmesinde Tarama Seç robots.txt dosya inceleme aracı ve ardından kontrole tıklayın.

Çözüm:

Robots.txt dosyası, tanıtılan her sitede zorunlu olmalıdır ve yalnızca doğru yapılandırması, gerekli dizine eklemeyi almanızı sağlar.

Ve son olarak, herhangi bir sorunuz varsa, makalenin altındaki yorumlarda onlara sorun ve ben de robots.txt'yi nasıl yazdığınızı merak ediyorum.

Kompleks hakkında. Programlar. Ütü. İnternet. pencereler

robots txt dosyasının kaynak kodu. Yandex robotları. Tarama gecikmesi - zayıf sunucular için kronometre

"Robot" için talimatlar

Robots.Txt Sözdizimi

Düzenli ifadeler

Belirli arama botlarını ve bireysel klasörleri engelleme

Neden çalışmıyor ve ne yapmalı

robots.txt ne için?

robots.txt nasıl yapılır

Özelleştirme Kuralları

Dosya sözdizimi

Kullanıcı aracısı yönergesi

Direktiflere İzin Verme ve İzin Verme

Yönergeler Site Haritası, Ana Bilgisayar

Temiz Param Direktifi

Tarama gecikmesi yönergesi

robots.txt hataları

En basit Robots.txt

Direktiflere İzin Verme ve İzin Verme

robots.txt'deki normal ifadeler

Örnek:

Örnek:

Site haritası yönergesi

Ana Bilgisayar Yönergesi

Bitrix için Robots.txt örneği

WordPress robots.txt örneği

robotlar meta etiketleri

Tarama gecikmesi yönergesi

WordPress için Robots.txt

WordPress için Doğru Robots.txt

Olası sorunlar

robots.txt neden gereklidir?

robots.txt'nin arama motorları üzerindeki etkisi?

robots.txt yönergesi nedir?

kullanıcı aracısı ne anlama geliyor?

Google tarayıcıları

Yandex arama robotları

Arama robotları Bing, Yahoo, Mail.ru, Rambler

Direktiflere İzin Verme ve İzin Verme

robots.txt dosyasında ana bilgisayar yönergesi

Tarama gecikmesi yönergesi

Temiz Param Direktifi

robots.txt nasıl kontrol edilir?

Çözüm: