Σπίτι Ενδιαφέρων Ο πηγαίος κώδικας του αρχείου txt του robots. Ρομπότ Yandex. Καθυστέρηση ανίχνευσης - χρονόμετρο για αδύναμους διακομιστές

Ο πηγαίος κώδικας του αρχείου txt του robots. Ρομπότ Yandex. Καθυστέρηση ανίχνευσης - χρονόμετρο για αδύναμους διακομιστές

Το αρχείο robot.txt απαιτείται για τους περισσότερους ιστότοπους.

Κάθε SEO-βελτιστοποιητής θα πρέπει να κατανοεί την έννοια αυτού του αρχείου, καθώς και να μπορεί να συνταγογραφεί τις πιο απαιτούμενες οδηγίες.

Τα σωστά διαμορφωμένα ρομπότ βελτιώνουν τη θέση του ιστότοπου στα αποτελέσματα αναζήτησης και, μεταξύ άλλων μεθόδων προώθησης, είναι ένα αποτελεσματικό εργαλείο SEO.

Για να κατανοήσουμε τι είναι το robot.txt και πώς λειτουργεί, ας θυμηθούμε πώς λειτουργούν οι μηχανές αναζήτησης.

Για να το ελέγξετε, εισαγάγετε τον ριζικό τομέα στη γραμμή διευθύνσεων και, στη συνέχεια, προσθέστε το /robots.txt στο τέλος της διεύθυνσης URL.

Για παράδειγμα, το αρχείο ρομπότ Moz βρίσκεται στη διεύθυνση: moz.com/robots.txt. Μπαίνουμε και παίρνουμε τη σελίδα:

Οδηγίες για το "ρομπότ"

Πώς να δημιουργήσετε ένα αρχείο robots.txt;

3 είδη οδηγιών για το robots.txt.

Εάν διαπιστώσετε ότι το αρχείο robots.txt λείπει, η δημιουργία ενός είναι εύκολη.

Όπως αναφέρθηκε ήδη στην αρχή του άρθρου, αυτό είναι ένα κανονικό αρχείο κειμένου στον ριζικό κατάλογο του ιστότοπου.

Μπορεί να γίνει μέσω του πίνακα διαχείρισης ή ενός διαχειριστή αρχείων, με τον οποίο ο προγραμματιστής συνεργάζεται με αρχεία στον ιστότοπο.

Θα καταλάβουμε πώς και τι να συνταγογραφήσουμε εκεί κατά τη διάρκεια του άρθρου.

Οι μηχανές αναζήτησης λαμβάνουν τρεις τύπους οδηγιών από αυτό το αρχείο:

σαρώστε τα πάντα, δηλαδή πλήρης πρόσβαση(Επιτρέπω);
τίποτα δεν μπορεί να σαρωθεί - πλήρης απαγόρευση (Disallow).
είναι αδύνατη η σάρωση μεμονωμένων στοιχείων (ποια υποδεικνύονται) - μερική πρόσβαση.

Στην πράξη, μοιάζει με αυτό:

Λάβετε υπόψη ότι η σελίδα μπορεί να εισέλθει στο SERP εάν έχει εγκατεστημένο σύνδεσμο σε αυτόν τον ιστότοπο ή έξω από αυτόν.

Για να το κατανοήσουμε καλύτερα αυτό, ας μελετήσουμε τη σύνταξη αυτού του αρχείου.

Robots.Txt Σύνταξη

Robots.txt: πώς μοιάζει;

Σημαντικά σημεία: τι πρέπει να θυμάστε πάντα για τα ρομπότ.

Επτά κοινοί όροι που βρίσκονται συχνά σε ιστότοπους.

Στην απλούστερη μορφή του, το ρομπότ μοιάζει με αυτό:

Πράκτορας χρήστη: [όνομα του συστήματος για το οποίο γράφουμε οδηγίες] Απαγόρευση: Χάρτης ιστότοπου: [αναφέρετε πού έχουμε τον χάρτη ιστότοπου] # Κανόνας 1 Πράκτορας χρήστη: Googlebot Disallow: /prim1/ Χάρτης ιστότοπου: http://www.nashsite.com / sitemap.xml

Μαζί, αυτές οι τρεις γραμμές θεωρούνται τα πιο απλά robots.txt.

Εδώ εμποδίσαμε το ρομπότ να δημιουργήσει ευρετήριο στη διεύθυνση URL: http://www.nashsite.com/prim1/ και υποδείξαμε πού βρίσκεται ο χάρτης ιστότοπου.

Σημείωση: στο αρχείο ρομπότ, το σύνολο οδηγιών για έναν πράκτορα χρήστη (μηχανή αναζήτησης) διαχωρίζεται από το σύνολο οδηγιών για έναν άλλο με αλλαγή γραμμής.

Σε ένα αρχείο με πολλές οδηγίες μηχανών αναζήτησης, κάθε απαγόρευση ή άδεια ισχύει μόνο για τη μηχανή αναζήτησης που καθορίζεται στο συγκεκριμένο μπλοκ γραμμών.

Αυτό σημαντικό σημείοκαι δεν πρέπει να ξεχαστεί.

Εάν το αρχείο περιέχει κανόνες που ισχύουν για πολλαπλούς πράκτορες χρηστών, το σύστημα θα δώσει προτεραιότητα σε οδηγίες που είναι συγκεκριμένες για τη συγκεκριμένη μηχανή αναζήτησης.

Εδώ είναι ένα παράδειγμα:

Στην παραπάνω εικόνα, τα MSNbot, discobot και Slurp έχουν μεμονωμένους κανόνες που θα λειτουργούν μόνο για αυτές τις μηχανές αναζήτησης.

Όλοι οι άλλοι πράκτορες χρήστη ακολουθούν τις γενικές οδηγίες στην ομάδα user-agent: *.

Η σύνταξη robots.txt είναι απολύτως απλή.

Υπάρχουν επτά γενικοί όροι που βρίσκονται συχνά σε ιστότοπους.

Χρήστης-πράκτορας: Η συγκεκριμένη μηχανή αναζήτησης ιστού (ρομπότ μηχανής αναζήτησης) που δίνετε εντολή να ανιχνεύσει. Μια λίστα με τους περισσότερους πράκτορες χρήστη μπορείτε να βρείτε εδώ. Συνολικά, διαθέτει 302 συστήματα, από τα οποία δύο είναι τα πιο σχετικά - το Google και το Yandex.
Disallow: Μια εντολή απαγόρευσης που λέει στον πράκτορα να μην επισκεφτεί τη διεύθυνση URL. Επιτρέπεται μόνο μία γραμμή "απαγόρευσης" ανά διεύθυνση URL.
Allow (ισχύει μόνο για το Googlebot): Η εντολή λέει στο bot ότι μπορεί να αποκτήσει πρόσβαση στη σελίδα ή τον υποφάκελο ακόμα κι αν η μητρική του σελίδα ή ο υποφάκελός του έχει κλείσει.
Καθυστέρηση ανίχνευσης: Πόσα χιλιοστά του δευτερολέπτου πρέπει να περιμένει η μηχανή αναζήτησης πριν φορτώσει και ανιχνεύσει το περιεχόμενο της σελίδας.

Λάβετε υπόψη ότι το Googlebot δεν υποστηρίζει αυτήν την εντολή, αλλά ο ρυθμός ανίχνευσης μπορεί να οριστεί με μη αυτόματο τρόπο στο Google Search Console.

Χάρτης ιστότοπου: Χρησιμοποιείται για την κλήση της τοποθεσίας τυχόν χαρτών XML που σχετίζονται με αυτήν τη διεύθυνση URL. Αυτή η εντολή υποστηρίζεται μόνο από τις Google, Ask, Bing και Yahoo.
Host: αυτή η οδηγία καθορίζει τον κύριο καθρέφτη του ιστότοπου, ο οποίος πρέπει να λαμβάνεται υπόψη κατά την ευρετηρίαση. Μπορεί να γραφτεί μόνο μία φορά.
Clean-param: Αυτή η εντολή χρησιμοποιείται για την αντιμετώπιση διπλού περιεχομένου σε δυναμική διευθυνσιοδότηση.

Κανονικές εκφράσεις

Κανονικές εκφράσεις: πώς μοιάζουν και τι σημαίνουν.

Πώς να ενεργοποιήσετε και να απενεργοποιήσετε την ανίχνευση στο robots.txt.

Στην πράξη, τα αρχεία robots.txt μπορούν να αναπτυχθούν και να γίνουν αρκετά περίπλοκα και δυσκίνητα.

Το σύστημα καθιστά δυνατή τη χρήση κανονικές εκφράσειςνα παρέχει την απαιτούμενη λειτουργικότητα του αρχείου, δηλαδή να λειτουργεί ευέλικτα με σελίδες και υποφακέλους.

* είναι μπαλαντέρ, που σημαίνει ότι η οδηγία λειτουργεί για όλα τα ρομπότ αναζήτησης.
Το $ αντιστοιχεί στο τέλος της διεύθυνσης URL ή της συμβολοσειράς.
# χρησιμοποιείται για σχόλια προγραμματιστών και βελτιστοποιητών.

Ακολουθούν μερικά παραδείγματα του robots.txt για το http://www.nashsite.com

URL Robots.txt: www.nashsite.com/robots.txt

User-agent: * (δηλαδή για όλες τις μηχανές αναζήτησης) Disallow: / (Η κάθετο υποδηλώνει τον ριζικό κατάλογο του ιστότοπου)

Μόλις απαγορεύσαμε σε όλες τις μηχανές αναζήτησης να ανιχνεύουν και να ευρετηριάζουν ολόκληρο τον ιστότοπο.

Πόσο συχνά απαιτείται αυτή η ενέργεια;

Σπάνια, αλλά υπάρχουν φορές που είναι απαραίτητο να μην συμμετέχει ο πόρος Αποτελέσματα αναζήτησης, και οι επισκέψεις πραγματοποιήθηκαν μέσω ειδικών συνδέσμων ή μέσω εταιρικής εξουσιοδότησης.

Έτσι λειτουργούν οι εσωτερικοί ιστότοποι ορισμένων εταιρειών.

Επιπλέον, μια τέτοια οδηγία προβλέπεται εάν η τοποθεσία βρίσκεται υπό ανάπτυξη ή εκσυγχρονισμό.

Εάν πρέπει να επιτρέψετε στη μηχανή αναζήτησης να ανιχνεύει τα πάντα στον ιστότοπο, τότε πρέπει να γράψετε τις ακόλουθες εντολές στο robots.txt:

Πράκτορας χρήστη: * Απαγόρευση:

Δεν υπάρχει τίποτα στην απαγόρευση (απαγόρευση), που σημαίνει ότι όλα είναι δυνατά.

Η χρήση αυτής της σύνταξης στο αρχείο robots.txt επιτρέπει στους ανιχνευτές να ανιχνεύουν όλες τις σελίδες στο http://www.nashsite.com, συμπεριλαμβανομένων αρχική σελίδα, διαχειριστής και επαφές.

Αποκλεισμός συγκεκριμένων ρομπότ αναζήτησης και μεμονωμένων φακέλων

Σύνταξη για τη μηχανή αναζήτησης Google (Googlebot).

Σύνταξη για άλλους πράκτορες αναζήτησης.

Πράκτορας χρήστη: Googlebot Απαγόρευση: /example-subfolder/

Αυτή η σύνταξη καθορίζει μόνο μηχανή αναζήτησης Google(Googlebot) που δεν χρειάζεται να ανιχνεύσετε τη διεύθυνση: www.nashsite.com/example-subfolder/.

Αποκλεισμός μεμονωμένων σελίδων για τα καθορισμένα ρομπότ:

Πράκτορας χρήστη: Bingbot Disallow: /example-subfolder/blocked-page.html

Αυτή η σύνταξη λέει ότι μόνο το Bingbot (το όνομα του προγράμματος ανίχνευσης Bing) δεν πρέπει να επισκέπτεται τη σελίδα στη διεύθυνση: www.nashsite.com /example-subfolder/blocked-page.

Στην πραγματικότητα, αυτό είναι όλο.

Εάν κατακτήσετε αυτές τις επτά εντολές και τα τρία σύμβολα και κατανοήσετε τη λογική της εφαρμογής, μπορείτε να γράψετε το σωστό robots.txt.

Γιατί δεν λειτουργεί και τι να κάνετε

Αλγόριθμος κύριας δράσης.

Άλλες μέθοδοι.

Η κακή συμπεριφορά του robots.txt είναι πρόβλημα.

Μετά από όλα, θα χρειαστεί χρόνος για να εντοπιστεί το σφάλμα και στη συνέχεια να το καταλάβετε.

Ξαναδιαβάστε το αρχείο, βεβαιωθείτε ότι δεν έχετε αποκλείσει τίποτα επιπλέον.

Εάν μετά από λίγο αποδειχθεί ότι η σελίδα εξακολουθεί να βρίσκεται στα αποτελέσματα αναζήτησης, ψάξτε στο Google Webmaster για να δείτε εάν ο ιστότοπος έχει εκ νέου ευρετηριαστεί από τη μηχανή αναζήτησης και ελέγξτε εάν υπάρχουν εξωτερικοί σύνδεσμοι προς την κλειστή σελίδα.

Επειδή αν είναι, τότε θα είναι πιο δύσκολο να το κρύψετε από τα αποτελέσματα αναζήτησης, θα απαιτηθούν άλλες μέθοδοι.

Λοιπόν, πριν χρησιμοποιήσετε, ελέγξτε αυτό το αρχείο με έναν δωρεάν ελεγκτή από την Google.

Η έγκαιρη ανάλυση βοηθά στην αποφυγή προβλημάτων και εξοικονομεί χρόνο.

Κυκλοφόρησε το νέο βιβλίο «Content Marketing in στα κοινωνικά δίκτυα: Πώς να μπείτε στο κεφάλι των συνδρομητών και να ερωτευτείτε την επωνυμία σας.

Το Robots.txt είναι ένα αρχείο κειμένου που περιέχει πληροφορίες για προγράμματα ανίχνευσης που βοηθούν στην ευρετηρίαση σελίδων πύλης.

Περισσότερα βίντεο στο κανάλι μας - μάθετε το διαδικτυακό μάρκετινγκ με τη SEMANTICA

Φανταστείτε ότι βρίσκεστε σε ένα κυνήγι θησαυρού σε ένα νησί. Έχεις χάρτη. Εκεί υποδεικνύεται η διαδρομή: «Πλησιάστε σε μεγάλο κούτσουρο. Από αυτό, κάντε 10 βήματα προς τα ανατολικά και μετά φτάστε στον γκρεμό. Στρίψτε δεξιά, βρείτε τη σπηλιά».

Αυτές είναι οδηγίες. Ακολουθώντας τους ακολουθείς τη διαδρομή και βρίσκεις τον θησαυρό. Το ρομπότ αναζήτησης λειτουργεί επίσης περίπου με τον ίδιο τρόπο όταν ξεκινά την ευρετηρίαση ενός ιστότοπου ή μιας σελίδας. Βρίσκει το αρχείο robots.txt. Διαβάζει ποιες σελίδες πρέπει να ευρετηριαστούν και ποιες όχι. Και ακολουθώντας αυτές τις εντολές, παρακάμπτει την πύλη και προσθέτει τις σελίδες της στο ευρετήριο.

Σε τι χρησιμεύει το robots.txt;

Αρχίζουν να επισκέπτονται τοποθεσίες και να ευρετηριάζουν σελίδες μετά τη μεταφόρτωση του ιστότοπου στο hosting και την εγγραφή του dns. Κάνουν τη δουλειά τους ανεξάρτητα από το αν έχετε τεχνικά αρχείαή όχι. Το Robots υποδεικνύει στις μηχανές αναζήτησης ότι όταν ανιχνεύουν έναν ιστότοπο, πρέπει να λαμβάνουν υπόψη τις παραμέτρους που υπάρχουν σε αυτόν.

Η απουσία αρχείου robots.txt μπορεί να οδηγήσει σε προβλήματα με την ταχύτητα ανίχνευσης του ιστότοπου και την παρουσία σκουπιδιών στο ευρετήριο. Η εσφαλμένη διαμόρφωση αρχείου είναι γεμάτη με τον αποκλεισμό σημαντικών τμημάτων του πόρου από το ευρετήριο και την παρουσία περιττών σελίδων στα αποτελέσματα αναζήτησης.

Όλα αυτά, ως αποτέλεσμα, οδηγούν σε προβλήματα με την προώθηση.

Ας ρίξουμε μια πιο προσεκτική ματιά στις οδηγίες που περιέχονται σε αυτό το αρχείο και πώς επηρεάζουν τη συμπεριφορά του bot στον ιστότοπό σας.

Πώς να φτιάξετε το robots.txt

Πρώτα, ελέγξτε αν έχετε αυτό το αρχείο.

Πληκτρολογήστε γραμμή διεύθυνσηςδιεύθυνση προγράμματος περιήγησης του ιστότοπου και με κάθετο το όνομα του αρχείου, για παράδειγμα, https://www.xxxxx.ru/robots.txt

Εάν το αρχείο υπάρχει, μια λίστα με τις παραμέτρους του θα εμφανιστεί στην οθόνη.

Εάν το αρχείο δεν υπάρχει:

Το αρχείο δημιουργείται σε ένα πρόγραμμα επεξεργασίας απλού κειμένου όπως το Notepad ή το Notepad++.
Πρέπει να ορίσετε το όνομα του ρομπότ, extension.txt. Εισαγάγετε δεδομένα σύμφωνα με τα αποδεκτά πρότυπα μορφοποίησης.
Μπορείτε να ελέγξετε για σφάλματα χρησιμοποιώντας υπηρεσίες όπως ο webmaster Yandex. Εκεί πρέπει να επιλέξετε το στοιχείο "Analyze robots.txt" στην ενότητα "Εργαλεία" και να ακολουθήσετε τις οδηγίες.
Όταν το αρχείο είναι έτοιμο, ανεβάστε το στον ριζικό κατάλογο του ιστότοπου.

Κανόνες προσαρμογής

Οι μηχανές αναζήτησης έχουν περισσότερα από ένα ρομπότ. Ορισμένα bots ευρετηριάζουν μόνο περιεχόμενο κειμένου, μερικά - μόνο γραφικά. Και οι ίδιες οι μηχανές αναζήτησης μπορεί να έχουν διαφορετικά σχήματα για το πώς λειτουργούν τα προγράμματα ανίχνευσης. Αυτό πρέπει να λαμβάνεται υπόψη κατά τη σύνταξη του αρχείου.

Ορισμένοι από αυτούς μπορεί να αγνοούν ορισμένους από τους κανόνες, για παράδειγμα, το GoogleBot δεν ανταποκρίνεται σε πληροφορίες σχετικά με το ποιος καθρέφτης ιστότοπου θεωρείται ο κύριος. Γενικά όμως αντιλαμβάνονται και καθοδηγούνται από το αρχείο.

Σύνταξη αρχείου

Παράμετροι εγγράφου: όνομα του ρομπότ (bot) "User-agent", οδηγίες: επιτρέποντας το "Allow" και απαγορεύοντας το "Disallow".

Τώρα υπάρχουν δύο βασικές μηχανές αναζήτησης: η Yandex και η Google, αντίστοιχα, είναι σημαντικό να ληφθούν υπόψη οι απαιτήσεις και των δύο κατά τη σύνταξη ενός ιστότοπου.

Η μορφή για τη δημιουργία καταχωρήσεων είναι η εξής, σημειώστε τα απαιτούμενα κενά και κενές γραμμές.

Οδηγία για πράκτορες χρήστη

Το ρομπότ αναζητά καταχωρήσεις που ξεκινούν με User-agent, πρέπει να περιέχουν ενδείξεις για το όνομα του ρομπότ αναζήτησης. Εάν δεν προσδιορίζεται, η πρόσβαση στο bot θεωρείται απεριόριστη.

Απαγόρευση και Αποδοχή οδηγιών

Εάν πρέπει να απενεργοποιήσετε τη δημιουργία ευρετηρίου στο robots.txt, χρησιμοποιήστε το Disallow. Με τη βοήθειά του, περιορίζουν την πρόσβαση του bot στον ιστότοπο ή σε ορισμένες ενότητες.

Εάν το robots.txt δεν περιέχει ούτε μία οδηγία "Disallow", θεωρείται ότι επιτρέπεται η ευρετηρίαση ολόκληρου του ιστότοπου. Συνήθως τα bans γράφονται μετά από κάθε bot ξεχωριστά.

Όλες οι πληροφορίες μετά το σύμβολο # είναι σχολιασμοί και δεν είναι αναγνώσιμες από μηχανή.

Το Allow χρησιμοποιείται για να επιτρέπεται η πρόσβαση.

Το σύμβολο του αστερίσκου υποδηλώνει ότι ισχύει για όλα: User-agent: *.

Αυτή η επιλογή, αντίθετα, σημαίνει πλήρη απαγόρευση της ευρετηρίασης για όλους.

Αποτρέψτε την προβολή ολόκληρου του περιεχομένου ενός συγκεκριμένου φακέλου καταλόγου

Για να αποκλείσετε ένα μεμονωμένο αρχείο, πρέπει να καθορίσετε την απόλυτη διαδρομή του

Οδηγίες Χάρτης ιστότοπου, οικοδεσπότης

Για το Yandex, συνηθίζεται να υποδεικνύεται ποιος καθρέφτης θέλετε να ορίσετε ως τον κύριο. Και η Google, όπως θυμόμαστε, το αγνοεί. Εάν δεν υπάρχουν καθρέφτες, απλώς διορθώστε πώς πιστεύετε ότι είναι σωστό να γράψετε το όνομα του ιστότοπού σας με ή χωρίς www.

Οδηγία Clean-param

Μπορεί να χρησιμοποιηθεί εάν οι διευθύνσεις URL των σελίδων του ιστότοπου περιέχουν μεταβλητές παραμέτρους που δεν επηρεάζουν το περιεχόμενό τους (μπορεί να είναι αναγνωριστικά χρήστη, παραπομπές).

Για παράδειγμα, στη διεύθυνση σελίδας "ref" ορίζει την πηγή επισκεψιμότητας, π.χ. υποδεικνύει από πού ήρθε ο επισκέπτης στον ιστότοπο. Η σελίδα θα είναι ίδια για όλους τους χρήστες.

Το ρομπότ μπορεί να υποδειχθεί σε αυτό και δεν θα πραγματοποιήσει λήψη διπλών πληροφοριών. Αυτό θα μειώσει το φόρτο του διακομιστή.

Οδηγία ανίχνευσης καθυστέρησης

Με τη βοήθεια, μπορείτε να προσδιορίσετε με ποια συχνότητα το bot θα φορτώνει σελίδες για ανάλυση. Αυτή η εντολή χρησιμοποιείται όταν ο διακομιστής είναι υπερφορτωμένος και υποδεικνύει ότι η διαδικασία παράκαμψης πρέπει να επιταχυνθεί.

σφάλματα robots.txt

Το αρχείο δεν βρίσκεται στον ριζικό κατάλογο. Το ρομπότ δεν θα το ψάξει πιο βαθιά και δεν θα το λάβει υπόψη του.
Τα γράμματα στον τίτλο πρέπει να είναι μικρά λατινικά.
Λάθος στο όνομα, μερικές φορές χάνουν το γράμμα S στο τέλος και γράφουν robot.
Δεν μπορείτε να χρησιμοποιήσετε κυριλλικούς χαρακτήρες στο αρχείο robots.txt. Εάν πρέπει να καθορίσετε έναν τομέα στα ρωσικά, χρησιμοποιήστε τη μορφή στην ειδική κωδικοποίηση Punycode.
Αυτή είναι μια μέθοδος για τη μετατροπή ονομάτων τομέα σε μια ακολουθία χαρακτήρων ASCII. Για να το κάνετε αυτό, μπορείτε να χρησιμοποιήσετε ειδικούς μετατροπείς.

Αυτή η κωδικοποίηση μοιάζει με αυτό:
website.rf = xn--80aswg.xn--p1ai

Πρόσθετες πληροφορίες σχετικά με το τι πρέπει να κλείσετε στο robot txt και τις ρυθμίσεις σύμφωνα με τις απαιτήσεις των μηχανών αναζήτησης Google και Yandex μπορείτε να βρείτε σε έγγραφα αναφοράς. Διαφορετικά cms μπορεί επίσης να έχουν τα δικά τους χαρακτηριστικά, αυτό πρέπει να ληφθεί υπόψη.

Robots.txt- αυτό είναι ένα αρχείο κειμένου που βρίσκεται στη ρίζα του ιστότοπου - http://site.ru/robots.txt. Ο κύριος σκοπός του είναι να ορίσει ορισμένες οδηγίες στις μηχανές αναζήτησης - τι και πότε να κάνετε στον ιστότοπο.

Το πιο απλό Robots.txt

Το απλούστερο robots.txt , το οποίο επιτρέπει σε όλες τις μηχανές αναζήτησης να ευρετηριάζουν τα πάντα, μοιάζει με αυτό:

Πράκτορας χρήστη: *
Απαγόρευση:

Εάν η οδηγία Απαγόρευση δεν έχει κάθετο στο τέλος, τότε επιτρέπεται η ευρετηρίαση όλων των σελίδων.

Αυτή η οδηγία απαγορεύει πλήρως την ευρετηρίαση του ιστότοπου:

Πράκτορας χρήστη: *
Απαγόρευση: /

User-agent - υποδεικνύει για ποιον προορίζονται οι οδηγίες, ένας αστερίσκος υποδεικνύει ότι για όλα τα PS, για Yandex υποδεικνύει User-agent: Yandex.

Η βοήθεια του Yandex λέει ότι οι ανιχνευτές του επεξεργάζονται User-agent: * , αλλά εάν υπάρχει User-agent: Yandex, ο χρήστης-agent: * αγνοείται.

Απαγόρευση και Αποδοχή οδηγιών

Υπάρχουν δύο κύριες οδηγίες:

Απαγόρευση - απαγόρευση

Επιτρέπω - επιτρέπω

Παράδειγμα:Στο ιστολόγιο, απαγορεύαμε την ευρετηρίαση του φακέλου /wp-content/ όπου βρίσκονται τα αρχεία πρόσθετων, το πρότυπο κ.λπ. Υπάρχουν όμως και εικόνες που πρέπει να ευρετηριαστούν από το PS για να συμμετάσχουν στην αναζήτηση εικόνων. Για να το κάνετε αυτό, πρέπει να χρησιμοποιήσετε το ακόλουθο σχήμα:

Πράκτορας χρήστη: *
Να επιτρέπεται : /wp-content/uploads/ # Να επιτρέπεται η ευρετηρίαση εικόνων στο φάκελο μεταφορτώσεων
Απαγόρευση : /wp-content/

Η σειρά με την οποία χρησιμοποιούνται οι οδηγίες είναι σημαντική για το Yandex, εάν ισχύουν για τις ίδιες σελίδες ή φακέλους. Αν προσδιορίσετε έτσι:

Πράκτορας χρήστη: *
Απαγόρευση : /wp-content/
Να επιτρέπεται : /wp-content/uploads/

Οι εικόνες δεν θα φορτωθούν από το ρομπότ Yandex από τον κατάλογο /uploads/, επειδή εκτελείται η πρώτη οδηγία, η οποία απαγορεύει κάθε πρόσβαση στο φάκελο wp-content.

Η Google το κάνει εύκολα και ακολουθεί όλες τις οδηγίες του αρχείου robots.txt, ανεξάρτητα από την τοποθεσία τους.

Επίσης, μην ξεχνάτε ότι οι οδηγίες με και χωρίς κάθετο έχουν διαφορετικό ρόλο:

Απαγόρευση: /περίπουΑρνείται την πρόσβαση σε ολόκληρο τον κατάλογο site.ru/about/ και οι σελίδες που περιέχουν σχετικά με - site.ru/about.html , site.ru/aboutlive.html, κ.λπ. δεν θα ευρετηριαστούν.

Απαγόρευση: /about/Θα απαγορεύσει στα ρομπότ να ευρετηριάζουν σελίδες στον κατάλογο site.ru/about/ και σελίδες όπως site.ru/about.html κ.λπ. θα είναι διαθέσιμο για ευρετηρίαση.

Κανονικές εκφράσεις στο robots.txt

Υποστηρίζονται δύο χαρακτήρες, αυτοί είναι:

* - υπονοεί οποιαδήποτε σειρά χαρακτήρων.

Παράδειγμα:

Απαγόρευση: /about*θα απαγορεύσει την πρόσβαση σε όλες τις σελίδες που περιέχουν περίπου, κατ' αρχήν, και χωρίς αστερίσκο, μια τέτοια οδηγία θα λειτουργήσει επίσης. Αλλά σε ορισμένες περιπτώσεις αυτή η έκφραση δεν μπορεί να αντικατασταθεί. Για παράδειγμα, σε μια κατηγορία υπάρχουν σελίδες με .html στο τέλος και χωρίς, για να κλείσουμε όλες τις σελίδες που περιέχουν html από την ευρετηρίαση, γράφουμε την ακόλουθη οδηγία:

Απαγόρευση: /about/*.html

Τώρα η σελίδα site.ru/about/live.html έχει κλείσει από ευρετηρίαση και η σελίδα site.ru/about/live είναι ανοιχτή.

Ένα άλλο αναλογικό παράδειγμα:

Πράκτορας χρήστη: Yandex
Να επιτρέπεται : /about/*.html #allow δημιουργία ευρετηρίου
Απαγόρευση : /about/

Όλες οι σελίδες θα κλείσουν, εκτός από τις σελίδες που τελειώνουν σε .html

$ - κόβει τα υπόλοιπα και σηματοδοτεί το τέλος της γραμμής.

Παράδειγμα:

Απαγόρευση: /περίπου- Αυτή η οδηγία robots.txt απαγορεύει την ευρετηρίαση όλων των σελίδων που ξεκινούν με περίπου , καθώς και την απαγόρευση σελίδων στον κατάλογο /about/.

Προσθέτοντας ένα σύμβολο δολαρίου στο τέλος - Disallow: /about$ θα πούμε στα ρομπότ ότι μόνο η σελίδα /about δεν μπορεί να ευρετηριαστεί, αλλά ο κατάλογος /about/, /aboutlive σελίδες, κ.λπ. μπορεί να ευρετηριαστεί.

Οδηγία για τον χάρτη ιστότοπου

Αυτή η οδηγία καθορίζει τη διαδρομή προς τον Χάρτη ιστότοπου, ως εξής:

Χάρτης ιστότοπου: http://site.ru/sitemap.xml

Οδηγία υποδοχής

Καθορίζεται σε αυτή τη φόρμα:

Διοργανωτής: site.ru

Χωρίς http:// , κάθετες και παρόμοια. Εάν έχετε έναν κεντρικό ιστότοπο με mirror με www, τότε γράψτε:

Παράδειγμα Robots.txt για το Bitrix

Πράκτορας χρήστη: *
Απαγόρευση: /*index.php$
Απαγόρευση: /bitrix/
Απαγόρευση: /auth/
Απαγόρευση: /προσωπική/
Απαγόρευση: /upload/
Απαγόρευση: /search/
Απαγόρευση: /*/αναζήτηση/
Απαγόρευση: /*/slide_show/
Απαγόρευση: /*/gallery/*order=*
Απαγόρευση: /*?*
Απαγόρευση: /*&print=
Απαγόρευση: /*register=
Απαγόρευση: /*forgot_password=
Απαγόρευση: /*change_password=
Απαγόρευση: /*login=
Απαγόρευση: /*logout=
Απαγόρευση: /*auth=
Απαγόρευση: /*action=*
Απαγόρευση: /*bitrix_*=
Απαγόρευση: /*backurl=*
Απαγόρευση: /*BACKURL=*
Απαγόρευση: /*back_url=*
Απαγόρευση: /*BACK_URL=*
Απαγόρευση: /*back_url_admin=*
Απαγόρευση: /*print_course=Y
Απαγόρευση: /*COURSE_ID=
Απαγόρευση: /*PAGEN_*
Απαγόρευση: /*PAGE_*
Απαγόρευση: /*SHOWALL
Απαγόρευση: /*show_all=
Κεντρικός υπολογιστής: sitename.com
Χάρτης ιστότοπου: https://www.sitename.ru/sitemap.xml

Παράδειγμα WordPress robots.txt

Αφού προστεθούν όλες οι απαραίτητες οδηγίες που περιγράφονται παραπάνω. Θα πρέπει να καταλήξετε με ένα αρχείο robots όπως αυτό:

Αυτή είναι, θα λέγαμε, η βασική έκδοση του robots.txt για wordpress. Υπάρχουν δύο User-agents εδώ - ένας για όλους και ο δεύτερος για το Yandex, όπου καθορίζεται η οδηγία Host.

μετα-ετικέτες ρομπότ

Είναι δυνατό να κλείσετε μια σελίδα ή έναν ιστότοπο από την ευρετηρίαση όχι μόνο με το αρχείο robots.txt, αυτό μπορεί να γίνει χρησιμοποιώντας τη μετα-ετικέτα.

Πρέπει να το καταχωρήσετε στην ετικέτα και αυτή η μετα-ετικέτα θα απαγορεύσει την ευρετηρίαση του ιστότοπου. Υπάρχουν πρόσθετα στο WordPress που σας επιτρέπουν να ορίσετε τέτοιες μετα-ετικέτες, για παράδειγμα - Platinum Seo Pack. Με αυτό, μπορείτε να κλείσετε οποιαδήποτε σελίδα από την ευρετηρίαση, χρησιμοποιεί μετα-ετικέτες.

Οδηγία ανίχνευσης καθυστέρησης

Με αυτήν την οδηγία, μπορείτε να ορίσετε την ώρα για την οποία θα πρέπει να διακόπτεται το bot αναζήτησης μεταξύ της λήψης σελίδων ιστότοπου.

Πράκτορας χρήστη: *
Καθυστέρηση ανίχνευσης: 5

Το χρονικό όριο μεταξύ δύο φορτώσεων σελίδων θα είναι 5 δευτερόλεπτα. Για να μειώσουν το φόρτο στον διακομιστή, συνήθως το ορίζουν σε 15-20 δευτερόλεπτα. Αυτή η οδηγία είναι απαραίτητη για μεγάλους, συχνά ενημερωμένους ιστότοπους όπου τα ρομπότ αναζήτησης απλώς «ζουν».

Για κανονικούς ιστότοπους/ιστολόγια αυτή η οδηγία δεν είναι απαραίτητη, αλλά μπορείτε να περιορίσετε τη συμπεριφορά άλλων άσχετων ρομπότ αναζήτησης (Rambler, Yahoo, Bing) κ.λπ. Μετά από όλα, επισκέπτονται επίσης τον ιστότοπο και τον ευρετηριάζουν, δημιουργώντας έτσι ένα φόρτο στον διακομιστή.

Γεια σε όλους! Σήμερα θα ήθελα να σας μιλήσω για αρχείο robots.txt. Ναι, πολλά πράγματα γράφονται για αυτόν στο Διαδίκτυο, αλλά, για να είμαι ειλικρινής, εγώ ο ίδιος είμαι πολύ για πολύ καιρόΔεν μπορούσα να καταλάβω πώς να δημιουργήσω το σωστό robots.txt. Κατέληξα να φτιάξω ένα και υπάρχει σε όλα τα blog μου. Δεν παρατηρώ κανένα πρόβλημα με το robots.txt, λειτουργεί μια χαρά.

Robots.txt για WordPress

Και γιατί, στην πραγματικότητα, χρειαζόμαστε το robots.txt; Η απάντηση είναι ακόμα η ίδια -. Δηλαδή, η μεταγλώττιση του robots.txt είναι ένα από τα μέρη βελτιστοποίηση μηχανών αναζήτησης site (παρεμπιπτόντως, πολύ σύντομα θα υπάρξει ένα μάθημα που θα είναι αφιερωμένο σε όλη την εσωτερική βελτιστοποίηση ενός ιστότοπου WordPress. Επομένως, μην ξεχάσετε να εγγραφείτε στο RSS για να μην χάσετε ενδιαφέροντα υλικά.).

Μία από τις λειτουργίες δεδομένο αρχείο – απαγόρευση ευρετηρίασηςπεριττές σελίδες του ιστότοπου. Ορίζει επίσης τη διεύθυνση και ορίζει την κύρια καθρέφτης τοποθεσίας(ιστοσελίδα με www ή χωρίς www).

Σημείωση: για τις μηχανές αναζήτησης, ο ίδιος ιστότοπος με www και χωρίς www είναι εντελώς διαφορετικοί ιστότοποι. Όμως, συνειδητοποιώντας ότι το περιεχόμενο αυτών των τοποθεσιών είναι το ίδιο, οι μηχανές αναζήτησης τους «κολλούν» μεταξύ τους. Επομένως, είναι σημαντικό να καταχωρήσετε τον κύριο καθρέφτη ιστότοπου στο robots.txt. Για να μάθετε ποιος είναι ο κύριος (με www ή χωρίς www), απλώς πληκτρολογήστε τη διεύθυνση του ιστότοπού σας στο πρόγραμμα περιήγησης, για παράδειγμα, με www, εάν ανακατευθυνθείτε αυτόματα στον ίδιο ιστότοπο χωρίς www, τότε ο κύριος καθρέφτης του ο ιστότοπός σας χωρίς www. Ελπίζω να εξήγησα σωστά.

Λοιπόν, αυτό το αγαπητό, κατά τη γνώμη μου, σωστό robots.txt για wordpressΜπορείτε να δείτε παρακάτω.

Σωστό Robots.txt για WordPress

Πράκτορας χρήστη: *
Απαγόρευση: /cgi-bin
Απαγόρευση: /wp-admin
Disallow: /wp-includes
Απαγόρευση: /wp-content/cache
Απαγόρευση: /wp-content/themes
Disallow: /trackback
Απαγόρευση: */trackback
Απαγόρευση: */*/trackback
Απαγόρευση: */*/feed/*/
Απαγόρευση: */ροή
Απαγόρευση: /*?*
Απαγόρευση: /tag

Πράκτορας χρήστη: Yandex
Απαγόρευση: /cgi-bin
Απαγόρευση: /wp-admin
Disallow: /wp-includes
Απαγόρευση: /wp-content/plugins
Απαγόρευση: /wp-content/cache
Απαγόρευση: /wp-content/themes
Disallow: /trackback
Απαγόρευση: */trackback
Απαγόρευση: */*/trackback
Απαγόρευση: */*/feed/*/
Απαγόρευση: */ροή
Απαγόρευση: /*?*
Απαγόρευση: /tag
οικοδεσπότης: ιστότοπος
.gz
Χάρτης ιστότοπου: https://site/sitemap.xml

Όλα όσα δίνονται παραπάνω, πρέπει να τα αντιγράψετε έγγραφο κειμένουμε την επέκταση .txt, δηλαδή, το όνομα του αρχείου θα πρέπει να είναι robots.txt. Μπορείτε να δημιουργήσετε αυτό το έγγραφο κειμένου, για παράδειγμα, χρησιμοποιώντας το πρόγραμμα. Απλά σε παρακαλώ μην ξεχνάς αλλαγή στις τρεις τελευταίες γραμμέςδιεύθυνση στη διεύθυνση του ιστότοπού σας. Το αρχείο robots.txt πρέπει να βρίσκεται στη ρίζα του ιστολογίου, δηλαδή στον ίδιο φάκελο με τους φακέλους wp-content, wp-admin κ.λπ.

Αυτοί που είναι πολύ τεμπέληδες για να το δημιουργήσουν αυτό αρχείο κειμένου, μπορείτε απλώς να κάνετε λήψη του robots.txt και επίσης να διορθώσετε 3 γραμμές εκεί.

Θέλω να σημειώσω ότι στα τεχνικά μέρη, τα οποία θα συζητηθούν παρακάτω, δεν χρειάζεται να φορτώνεστε πολύ. Τους παραθέτω για «γνώση», ας πούμε, μια γενική άποψη, ώστε να ξέρουν τι χρειάζεται και γιατί.

Η γραμμή λοιπόν:

χρήστης-πράκτορας

ορίζει τους κανόνες για ορισμένες μηχανές αναζήτησης: για παράδειγμα, το "*" (αστερίσκος) υποδεικνύει ότι οι κανόνες είναι για όλες τις μηχανές αναζήτησης και ό,τι παρακάτω

Πράκτορας χρήστη: Yandex

σημαίνει ότι αυτοί οι κανόνες είναι μόνο για το Yandex.

Απαγορεύω
Εδώ "σπρώχνετε" ενότητες που ΔΕΝ χρειάζεται να ευρετηριαστούν από τις μηχανές αναζήτησης. Για παράδειγμα, στη σελίδα https://site/tag/seo, έχω διπλότυπα άρθρα (επανάληψη) με κανονικά άρθρα και η αντιγραφή σελίδων επηρεάζει αρνητικά προώθηση αναζήτησης, επομένως, είναι πολύ επιθυμητό αυτοί οι τομείς να πρέπει να είναι κλειστοί από την ευρετηρίαση, κάτι που κάνουμε χρησιμοποιώντας αυτόν τον κανόνα:

Απαγόρευση: /tag

Έτσι, στο robots.txt που δίνεται παραπάνω, σχεδόν όλες οι περιττές ενότητες του ιστότοπου WordPress είναι κλειστές από την ευρετηρίαση, δηλαδή, απλώς αφήστε τα πάντα ως έχουν.

Πλήθος

Εδώ ορίσαμε τον κεντρικό καθρέφτη του ιστότοπου, για τον οποίο μίλησα λίγο ψηλότερα.

Χάρτης ιστότοπου

Στις δύο τελευταίες γραμμές, καθορίζουμε τη διεύθυνση έως και δύο χαρτών ιστότοπου που έχουν δημιουργηθεί με .

Πιθανά προβλήματα

Αλλά λόγω αυτής της γραμμής στο robots.txt, οι αναρτήσεις του ιστότοπού μου δεν ήταν πλέον ευρετηριασμένες:

Απαγόρευση: /*?*

Όπως μπορείτε να δείτε, αυτή ακριβώς η γραμμή στο robots.txt απαγορεύει την ευρετηρίαση άρθρων, την οποία φυσικά δεν χρειαζόμαστε καθόλου. Για να το διορθώσετε, πρέπει απλώς να αφαιρέσετε αυτές τις 2 γραμμές (στους κανόνες για όλες τις μηχανές αναζήτησης και για το Yandex) και το τελικό σωστό robots.txt για έναν ιστότοπο WordPress χωρίς CNC θα μοιάζει με αυτό:

Πράκτορας χρήστη: *
Απαγόρευση: /cgi-bin
Απαγόρευση: /wp-admin
Disallow: /wp-includes
Απαγόρευση: /wp-content/plugins
Απαγόρευση: /wp-content/cache
Απαγόρευση: /wp-content/themes
Disallow: /trackback
Απαγόρευση: */trackback
Απαγόρευση: */*/trackback
Απαγόρευση: */*/feed/*/
Απαγόρευση: */ροή
Απαγόρευση: /tag

Πράκτορας χρήστη: Yandex
Απαγόρευση: /cgi-bin
Απαγόρευση: /wp-admin
Disallow: /wp-includes
Απαγόρευση: /wp-content/plugins
Απαγόρευση: /wp-content/cache
Απαγόρευση: /wp-content/themes
Disallow: /trackback
Απαγόρευση: */trackback
Απαγόρευση: */*/trackback
Απαγόρευση: */*/feed/*/
Απαγόρευση: */ροή
Απαγόρευση: /tag
οικοδεσπότης: ιστότοπος
Χάρτης ιστότοπου: https://site/sitemap.xml

Για να ελέγξετε αν έχουμε μεταγλωττίσει σωστά το αρχείο robots.txt, σας συνιστώ να χρησιμοποιήσετε την υπηρεσία Yandex Webmaster (σας είπα πώς να εγγραφείτε σε αυτήν την υπηρεσία).

Πηγαίνουμε στο τμήμα Ρυθμίσεις ευρετηρίου –> Ανάλυση Robots.txt:

Ήδη εκεί, κάντε κλικ στο κουμπί "Λήψη του robots.txt από τον ιστότοπο" και, στη συνέχεια, κάντε κλικ στο κουμπί "Έλεγχος":

Αν δείτε κάτι σαν το ακόλουθο μήνυμα, τότε έχετε το σωστό robots.txt για το Yandex:

Αρχικά, θα σας πω τι είναι το robots.txt.

Robots.txt- ένα αρχείο που βρίσκεται στον ριζικό φάκελο του ιστότοπου, όπου Ειδικές Οδηγίεςγια ρομπότ αναζήτησης. Αυτές οι οδηγίες είναι απαραίτητες ώστε κατά την είσοδο στον ιστότοπο, το ρομπότ να μην λαμβάνει υπόψη τη σελίδα / ενότητα, με άλλα λόγια, κλείνουμε τη σελίδα από την ευρετηρίαση.

Γιατί χρειάζεται το robots.txt

Το αρχείο robots.txt θεωρείται βασική προϋπόθεση για τη βελτιστοποίηση SEO οποιουδήποτε απολύτως ιστότοπου. Η απουσία αυτού του αρχείου μπορεί να επηρεάσει αρνητικά τη φόρτωση από τα ρομπότ και την αργή ευρετηρίαση, και ακόμη περισσότερο, ο ιστότοπος δεν θα ευρετηριαστεί πλήρως. Κατά συνέπεια, οι χρήστες δεν θα μπορούν να μεταβούν σε σελίδες μέσω του Yandex και της Google.

Επίδραση του robots.txt στις μηχανές αναζήτησης;

Μηχανές αναζήτησης(ειδικά η Google) θα ευρετηριάσει τον ιστότοπο, αλλά αν δεν υπάρχει αρχείο robots.txt, τότε, όπως είπα, όχι όλες οι σελίδες. Εάν υπάρχει τέτοιο αρχείο, τότε τα ρομπότ καθοδηγούνται από τους κανόνες που καθορίζονται σε αυτό το αρχείο. Επιπλέον, υπάρχουν διάφοροι τύποι ρομπότ αναζήτησης, αν κάποιοι μπορούν να λάβουν υπόψη τον κανόνα, τότε άλλοι τον αγνοούν. Συγκεκριμένα, το ρομπότ GoogleBot δεν λαμβάνει υπόψη τις οδηγίες Host και Crawl-Delay, το ρομπότ YandexNews πρόσφατα έπαψε να λαμβάνει υπόψη την οδηγία Crawl-Delay και τα ρομπότ YandexDirect και YandexVideoParser αγνοούν τις γενικά αποδεκτές οδηγίες στο robots.txt (αλλά λάβετε υπόψη αυτά που είναι γραμμένα ειδικά για αυτούς).

Ο ιστότοπος φορτώνεται περισσότερο από ρομπότ που φορτώνουν περιεχόμενο από τον ιστότοπό σας. Αντίστοιχα, αν πούμε στο ρομπότ ποιες σελίδες να ευρετηριάσει και ποιες να αγνοήσει, καθώς και σε ποια χρονικά διαστήματα να φορτώνει περιεχόμενο από σελίδες (αυτό ισχύει περισσότερο για μεγάλους ιστότοπους που έχουν περισσότερες από 100.000 σελίδες στο ευρετήριο της μηχανής αναζήτησης). Αυτό θα διευκολύνει πολύ το ρομπότ να ευρετηριάσει και να φορτώσει περιεχόμενο από τον ιστότοπο.

Τα αρχεία που σχετίζονται με το CMS, για παράδειγμα, στο Wordpress - /wp-admin/, μπορούν να ταξινομηθούν ως περιττά για τις μηχανές αναζήτησης. Επιπλέον, σενάρια ajax, json υπεύθυνα για αναδυόμενες φόρμες, banner, έξοδο captcha και ούτω καθεξής.

Για τα περισσότερα ρομπότ, συνιστώ επίσης να κλείσετε όλα τα αρχεία Javascript και CSS από τη δημιουργία ευρετηρίου. Αλλά για το GoogleBot και το Yandex, είναι καλύτερο να καταχωρίσετε τέτοια αρχεία, καθώς χρησιμοποιούνται από τις μηχανές αναζήτησης για να αναλύσουν την ευκολία του ιστότοπου και την κατάταξή του.

Τι είναι η οδηγία robots.txt;

οδηγίες- αυτοί είναι οι κανόνες για τα ρομπότ αναζήτησης. Τα πρώτα πρότυπα για τη γραφή robots.txt και, κατά συνέπεια, εμφανίστηκαν το 1994 και ένα εκτεταμένο πρότυπο το 1996. Ωστόσο, όπως ήδη γνωρίζετε, δεν υποστηρίζουν όλα τα ρομπότ ορισμένες οδηγίες. Επομένως, παρακάτω έχω περιγράψει από τι καθοδηγούνται τα κύρια ρομπότ κατά την ευρετηρίαση των σελίδων του ιστότοπου.

Τι σημαίνει user-agent;

Αυτή είναι η πιο σημαντική οδηγία που καθορίζει για ποια ρομπότ αναζήτησης θα ισχύουν περαιτέρω κανόνες.

Για όλα τα ρομπότ:

Για ένα συγκεκριμένο bot:

Πράκτορας χρήστη: Googlebot

Η περίπτωση στο robots.txt δεν είναι σημαντική, μπορείτε να γράψετε και Googlebot και googlebot

Ανιχνευτές Google

Ρομπότ αναζήτησης Yandex


	Το κύριο ρομπότ ευρετηρίου της Yandex
	Χρησιμοποιείται στην υπηρεσία Yandex.Images
	Χρησιμοποιείται στην υπηρεσία Yandex.Video
	δεδομένα πολυμέσων
	Αναζήτηση ιστολογίου
	Ένα πρόγραμμα ανίχνευσης που έχει πρόσβαση σε μια σελίδα όταν προστίθεται μέσω της φόρμας "Προσθήκη URL".
	ρομπότ που ευρετηριάζει εικονίδια ιστότοπου (favicons)
	Yandex.Direct
	Yandex.Metrica
	Χρησιμοποιείται στην υπηρεσία Yandex.Catalog
	Χρησιμοποιείται στην υπηρεσία Yandex.News
YandexImageResizer	Αναζήτηση ρομπότ υπηρεσιών κινητής τηλεφωνίας

Αναζήτηση ρομπότ Bing, Yahoo, Mail.ru, Rambler

Απαγόρευση και Αποδοχή οδηγιών

Η απαγόρευση κλείνει ενότητες και σελίδες του ιστότοπού σας από τη δημιουργία ευρετηρίου. Αντίστοιχα, το Allow, αντίθετα, τα ανοίγει.

Υπάρχουν κάποια χαρακτηριστικά.

Πρώτον, οι πρόσθετοι τελεστές είναι οι *, $ και #. Σε τι χρησιμεύουν;

“*” είναι οποιοσδήποτε αριθμός χαρακτήρων και η απουσία τους. Από προεπιλογή, βρίσκεται ήδη στο τέλος της γραμμής, οπότε δεν έχει νόημα να το ξαναβάλουμε.

“$” - υποδεικνύει ότι ο χαρακτήρας πριν από αυτόν πρέπει να είναι τελευταίος.

“#” - σχόλιο, ό,τι έρχεται μετά από αυτόν τον χαρακτήρα αγνοείται από το ρομπότ.

Παραδείγματα χρήσης Disallow:

Απαγόρευση: *?s=

Απαγόρευση: /κατηγορία/

Αντίστοιχα, το ρομπότ αναζήτησης θα κλείσει σελίδες όπως:

Αλλά οι σελίδες της φόρμας θα είναι ανοιχτές για ευρετηρίαση:

Τώρα πρέπει να καταλάβετε πώς εκτελούνται οι ένθετοι κανόνες. Η σειρά με την οποία συντάσσονται οι οδηγίες είναι πολύ σημαντική. Η κληρονομικότητα των κανόνων καθορίζεται από το ποιοι κατάλογοι καθορίζονται, δηλαδή εάν θέλουμε να κλείσουμε μια σελίδα/έγγραφο από την ευρετηρίαση, αρκεί να γράψουμε μια οδηγία. Ας δούμε ένα παράδειγμα

Αυτό είναι το αρχείο μας robots.txt

Απαγόρευση: /template/

Αυτή η οδηγία υποδεικνύεται επίσης οπουδήποτε και μπορείτε να καταχωρήσετε πολλά αρχεία χάρτη ιστότοπου.

Οδηγία κεντρικού υπολογιστή στο robots.txt

Αυτή η οδηγία απαιτείται για τον καθορισμό του κύριου καθρέφτη του ιστότοπου (συχνά με ή χωρίς www). σημειώστε ότι οδηγία υποδοχήςκαθορίζεται χωρίς το πρωτόκολλο http://, αλλά με το πρωτόκολλο https://. Η οδηγία λαμβάνεται υπόψη μόνο από τα ρομπότ αναζήτησης Yandex και Mail.ru, ενώ άλλα ρομπότ, συμπεριλαμβανομένου του GoogleBot, δεν θα λάβουν υπόψη τον κανόνα. Κεντρικός υπολογιστής για εγγραφή 1 φορά στο αρχείο robots.txt

Παράδειγμα με http://

Διοργανωτής: www.website.ru

Παράδειγμα με https://

Οδηγία ανίχνευσης καθυστέρησης

Ορίζει το χρονικό διάστημα για την ευρετηρίαση σελίδων ιστότοπου από το ρομπότ αναζήτησης. Η τιμή καθορίζεται σε δευτερόλεπτα και χιλιοστά του δευτερολέπτου.

Παράδειγμα:

Χρησιμοποιείται κυρίως σε μεγάλα ηλεκτρονικά καταστήματα, ιστότοπους πληροφοριών, πύλες, όπου η επισκεψιμότητα του ιστότοπου είναι από 5.000 ανά ημέρα. Είναι απαραίτητο το ρομπότ αναζήτησης να υποβάλει αίτημα για ευρετηρίαση σε μια συγκεκριμένη χρονική περίοδο. Εάν δεν καθορίσετε αυτήν την οδηγία, τότε αυτό μπορεί να δημιουργήσει σοβαρό φόρτο στον διακομιστή.

Η βέλτιστη τιμή καθυστέρησης ανίχνευσης για κάθε ιστότοπο είναι διαφορετική. Για τις μηχανές αναζήτησης Mail, Bing, Yahoo, η τιμή μπορεί να οριστεί ελάχιστη τιμή 0,25, 0,3, καθώς αυτά τα ρομπότ μηχανών αναζήτησης μπορούν να ανιχνεύουν τον ιστότοπό σας μία φορά το μήνα, 2 μήνες κ.λπ. (πολύ σπάνια). Για το Yandex, είναι καλύτερο να ορίσετε μια μεγαλύτερη τιμή.

Εάν ο φόρτος του ιστότοπού σας είναι ελάχιστος, τότε δεν έχει νόημα να προσδιορίσετε αυτήν την οδηγία.

Οδηγία Clean-param

Ο κανόνας είναι ενδιαφέρον γιατί λέει στον ανιχνευτή ότι οι σελίδες με συγκεκριμένες παραμέτρους δεν χρειάζεται να ευρετηριαστούν. Γράφονται 2 ορίσματα: διεύθυνση URL σελίδας και παράμετρος. Αυτή η οδηγία υποστηρίζεται μηχανή αναζήτησης Yandex.

Παράδειγμα:

Απαγόρευση: /admin/

Απαγόρευση: /plugins/

Απαγόρευση: /search/

Απαγόρευση: /cart/

Απαγόρευση: *ταξινόμηση=

Απαγόρευση: *προβολή=

Πράκτορας χρήστη: GoogleBot

Απαγόρευση: /admin/

Απαγόρευση: /plugins/

Απαγόρευση: /search/

Απαγόρευση: /cart/

Απαγόρευση: *ταξινόμηση=

Απαγόρευση: *προβολή=

Να επιτρέπεται: /plugins/*.css

Να επιτρέπεται: /plugins/*.js

Να επιτρέπεται: /plugins/*.png

Να επιτρέπεται: /plugins/*.jpg

Να επιτρέπεται: /plugins/*.gif

Πράκτορας χρήστη: Yandex

Απαγόρευση: /admin/

Απαγόρευση: /plugins/

Απαγόρευση: /search/

Απαγόρευση: /cart/

Απαγόρευση: *ταξινόμηση=

Απαγόρευση: *προβολή=

Να επιτρέπεται: /plugins/*.css

Να επιτρέπεται: /plugins/*.js

Να επιτρέπεται: /plugins/*.png

Να επιτρέπεται: /plugins/*.jpg

Να επιτρέπεται: /plugins/*.gif

Clean-Param: utm_source&utm_medium&utm_campaign

Στο παράδειγμα, έχουμε γράψει κανόνες για 3 διαφορετικά bots.

Πού να προσθέσω το robots.txt;

Προστέθηκε ριζικό φάκελοιστοσελίδα. Επιπλέον, ώστε να μπορεί να ακολουθηθεί από έναν σύνδεσμο:

Πώς να ελέγξετε το robots.txt;

Yandex Webmaster

Στην καρτέλα Εργαλεία, επιλέξτε Ανάλυση robots.txt και, στη συνέχεια, κάντε κλικ στην επιλογή Έλεγχος

Google Search Console

Στην καρτέλα Ερευναεπιλέγω Εργαλείο επιθεώρησης αρχείων robots.txtκαι μετά κάντε κλικ στον έλεγχο.

Συμπέρασμα:

Το αρχείο robots.txt πρέπει να είναι υποχρεωτικό σε κάθε προωθούμενο ιστότοπο και μόνο η σωστή διαμόρφωσή του θα σας επιτρέψει να λάβετε την απαραίτητη ευρετηρίαση.

Και τέλος, αν έχετε απορίες, ρωτήστε τις στα σχόλια κάτω από το άρθρο και επίσης αναρωτιέμαι, πώς γράφετε το robots.txt;

Ακριβώς για το συγκρότημα. Προγράμματα. Σίδερο. Διαδίκτυο. Windows

Ο πηγαίος κώδικας του αρχείου txt του robots. Ρομπότ Yandex. Καθυστέρηση ανίχνευσης - χρονόμετρο για αδύναμους διακομιστές

Οδηγίες για το "ρομπότ"

Robots.Txt Σύνταξη

Κανονικές εκφράσεις

Αποκλεισμός συγκεκριμένων ρομπότ αναζήτησης και μεμονωμένων φακέλων

Γιατί δεν λειτουργεί και τι να κάνετε

Σε τι χρησιμεύει το robots.txt;

Πώς να φτιάξετε το robots.txt

Κανόνες προσαρμογής

Σύνταξη αρχείου

Οδηγία για πράκτορες χρήστη

Απαγόρευση και Αποδοχή οδηγιών

Οδηγίες Χάρτης ιστότοπου, οικοδεσπότης

Οδηγία Clean-param

Οδηγία ανίχνευσης καθυστέρησης

σφάλματα robots.txt

Το πιο απλό Robots.txt

Απαγόρευση και Αποδοχή οδηγιών

Κανονικές εκφράσεις στο robots.txt

Παράδειγμα:

Παράδειγμα:

Οδηγία για τον χάρτη ιστότοπου

Οδηγία υποδοχής

Παράδειγμα Robots.txt για το Bitrix

Παράδειγμα WordPress robots.txt

μετα-ετικέτες ρομπότ

Οδηγία ανίχνευσης καθυστέρησης

Robots.txt για WordPress

Σωστό Robots.txt για WordPress

Πιθανά προβλήματα

Γιατί χρειάζεται το robots.txt

Επίδραση του robots.txt στις μηχανές αναζήτησης;

Τι είναι η οδηγία robots.txt;

Τι σημαίνει user-agent;

Ανιχνευτές Google

Ρομπότ αναζήτησης Yandex

Αναζήτηση ρομπότ Bing, Yahoo, Mail.ru, Rambler

Απαγόρευση και Αποδοχή οδηγιών

Οδηγία κεντρικού υπολογιστή στο robots.txt

Οδηγία ανίχνευσης καθυστέρησης

Οδηγία Clean-param

Πώς να ελέγξετε το robots.txt;

Συμπέρασμα: