Σπίτι Ερωτήσεις αρχείο txt robots. Πώς να επεξεργαστείτε τα robots txt. Χρησιμοποιώντας ειδικούς χαρακτήρες * και $

αρχείο txt robots. Πώς να επεξεργαστείτε τα robots txt. Χρησιμοποιώντας ειδικούς χαρακτήρες * και $

Δεν υπάρχουν μικρά πράγματα στο SEO. Μερικές φορές μόνο ένα μικρό αρχείο, το Robots.txt, μπορεί να επηρεάσει την προώθηση ιστότοπου.Εάν θέλετε ο ιστότοπός σας να είναι ευρετηριασμένος έτσι ώστε τα ρομπότ αναζήτησης να παρακάμπτουν τις σελίδες που χρειάζεστε, πρέπει να γράψετε προτάσεις για αυτά.

"Είναι δυνατόν?", - εσύ ρωτάς.Μπορεί. Για να γίνει αυτό, ο ιστότοπός σας πρέπει να έχει αρχείο robots.txt.Πώς να φτιάξετε ένα αρχείο ρομπότ, διαμορφώστε και προσθέστε στον ιστότοπο - καταλαβαίνουμε σε αυτό το άρθρο.

Τι είναι το robots.txt και σε τι χρησιμεύει

Το Robots.txt είναι το συνηθισμένο αρχείο κειμένου , το οποίο περιέχει συστάσεις για ρομπότ αναζήτησης: ποιες σελίδες πρέπει να ανιχνεύονται και ποιες όχι.

Σημαντικό: το αρχείο πρέπει να είναι κωδικοποιημένο σε UTF-8, διαφορετικά τα ρομπότ αναζήτησης ενδέχεται να μην το αποδεχτούν.

Ένας ιστότοπος που δεν έχει αυτό το αρχείο θα μπει στο ευρετήριο;Θα γίνει, αλλά τα ρομπότ μπορούν να «αρπάξουν» εκείνες τις σελίδες των οποίων η παρουσία στα αποτελέσματα αναζήτησης είναι ανεπιθύμητη: για παράδειγμα, σελίδες σύνδεσης, πίνακας διαχείρισης, προσωπικές σελίδες χρήστη, ιστότοποι καθρέφτη κ.λπ. Όλα αυτά θεωρούνται «σκουπίδια αναζήτησης»:

Εάν περιλαμβάνονται προσωπικά στοιχεία στα αποτελέσματα αναζήτησης, μπορεί να υποφέρετε τόσο εσείς όσο και ο ιστότοπος. Ένα άλλο σημείο - χωρίς αυτό το αρχείο, η ευρετηρίαση του ιστότοπου θα διαρκέσει περισσότερο.

Στο αρχείο Robots.txt μπορούν να καθοριστούν τρεις τύποι εντολών για αράχνες αναζήτησης:

Απαγορεύεται η σάρωση.
Επιτρέπεται η σάρωση.
η σάρωση επιτρέπεται εν μέρει.

Όλα αυτά είναι γραμμένα χρησιμοποιώντας οδηγίες.

Πώς να δημιουργήσετε το σωστό αρχείο Robots.txt για έναν ιστότοπο

Το αρχείο Robots.txt μπορεί να δημιουργηθεί απλά στο πρόγραμμα Σημειωματάριο, το οποίο είναι διαθέσιμο από προεπιλογή σε οποιονδήποτε υπολογιστή. Η συνταγογράφηση ενός αρχείου θα πάρει ακόμη και έναν αρχάριο το πολύ μισή ώρα (αν γνωρίζετε τις εντολές).

Μπορείτε επίσης να χρησιμοποιήσετε άλλα προγράμματα - Σημειωματάριο, για παράδειγμα. Υπάρχουν επίσης διαδικτυακές υπηρεσίες που μπορούν να δημιουργήσουν το αρχείο αυτόματα. Για παράδειγμα, όπωςCYPR.comή Mediasova.

Απλά πρέπει να καθορίσετε τη διεύθυνση του ιστότοπού σας, για ποιες μηχανές αναζήτησης πρέπει να ορίσετε κανόνες, τον κύριο καθρέφτη (με ή χωρίς www). Στη συνέχεια, η υπηρεσία θα κάνει τα πάντα μόνη της.

Προσωπικά, προτιμώ τον παλιό τρόπο "παππού" - να καταχωρήσω το αρχείο χειροκίνητα στο σημειωματάριο. Υπάρχει επίσης ένας "τεμπέλης τρόπος" - να μπερδέψετε τον προγραμματιστή σας με αυτό 🙂 Αλλά ακόμα και σε αυτήν την περίπτωση, θα πρέπει να ελέγξετε αν όλα είναι γραμμένα εκεί σωστά. Επομένως, ας μάθουμε πώς να μεταγλωττίσετε αυτό το αρχείο και πού πρέπει να βρίσκεται.

Το ολοκληρωμένο αρχείο Robots.txt πρέπει να βρίσκεται στον ριζικό φάκελο του ιστότοπου. Μόνο ένα αρχείο, χωρίς φάκελο:

Θέλετε να ελέγξετε αν υπάρχει στον ιστότοπό σας; Μπήγω γραμμή διεύθυνσηςδιεύθυνση: site.ru/robots.txt. Θα δείτε την παρακάτω σελίδα (αν υπάρχει το αρχείο):

Το αρχείο αποτελείται από πολλά μπλοκ που χωρίζονται με μια εσοχή. Κάθε μπλοκ περιέχει συστάσεις για ρομπότ αναζήτησης διαφορετικών μηχανών αναζήτησης (συν ένα μπλοκ με γενικοί κανόνεςγια όλους), και ένα ξεχωριστό μπλοκ με συνδέσμους προς τον χάρτη ιστότοπου - Χάρτης ιστότοπου.

Δεν χρειάζεται να κάνετε εσοχή μέσα στο μπλοκ με κανόνες για ένα ρομπότ αναζήτησης.

Κάθε μπλοκ ξεκινά με την οδηγία User-agent.

Κάθε οδηγία ακολουθείται από το σύμβολο ":" (άνω τελεία), ένα κενό, μετά το οποίο υποδεικνύεται η τιμή (για παράδειγμα, ποια σελίδα να κλείσει από την ευρετηρίαση).

Πρέπει να καθορίσετε σχετικές διευθύνσεις σελίδων, όχι απόλυτες. Σχετικό - αυτό είναι χωρίς "www.site.ru". Για παράδειγμα, πρέπει να απενεργοποιήσετε την ευρετηρίαση μιας σελίδαςwww.site.ru/shop. Οπότε μετά την άνω τελεία βάζουμε κενό, κάθετο και «ψωνίζουμε»:

Απαγόρευση: /shop.

Ο αστερίσκος (*) υποδηλώνει οποιοδήποτε σύνολο χαρακτήρων.

Το σύμβολο του δολαρίου ($) είναι το τέλος της γραμμής.

Μπορείτε να αποφασίσετε - γιατί να γράψετε ένα αρχείο από την αρχή εάν μπορείτε να το ανοίξετε σε οποιονδήποτε ιστότοπο και απλώς να το αντιγράψετε στον εαυτό σας;

Για κάθε ιστότοπο πρέπει να ορίσετε μοναδικούς κανόνες. Είναι απαραίτητο να ληφθούν υπόψη τα χαρακτηριστικά CMS. Για παράδειγμα, ο ίδιος πίνακας διαχειριστή βρίσκεται στο /wp-admin στη μηχανή WordPress, σε άλλη διεύθυνση θα είναι διαφορετικός. Το ίδιο με τις διευθύνσεις μεμονωμένων σελίδων, με χάρτη τοποθεσίας κ.ο.κ.

Ρύθμιση του αρχείου Robots.txt: ευρετηρίαση, κύριος καθρέφτης, οδηγίες

Όπως έχετε ήδη δει στο στιγμιότυπο οθόνης, η οδηγία User-agent έρχεται πρώτη. Υποδεικνύει για ποιο ρομπότ αναζήτησης θα ισχύουν οι παρακάτω κανόνες.

Χρήστης-πράκτορας: * - κανόνες για όλα τα ρομπότ αναζήτησης, δηλαδή για οποιαδήποτε μηχανή αναζήτησης(Google, Yandex, Bing, Rambler κ.λπ.).

User-agent: Googlebot - Υποδεικνύει τους κανόνες για την αράχνη αναζήτησης Google.

Χρήστης-πράκτορας: Yandex - κανόνες για το ρομπότ αναζήτησης Yandex.

Για ποιο ρομπότ αναζήτησης θα ορίσει πρώτα τους κανόνες, δεν υπάρχει διαφορά. Συνήθως όμως οι συστάσεις για όλα τα ρομπότ γράφονται πρώτα.

Απαγόρευση: Απαγόρευση δημιουργίας ευρετηρίου

Για να απενεργοποιήσετε την ευρετηρίαση του ιστότοπου στο σύνολό του ή μεμονωμένων σελίδων, χρησιμοποιήστε την οδηγία Απαγόρευση.

Για παράδειγμα, μπορείτε να κλείσετε εντελώς τον ιστότοπο από την ευρετηρίαση (εάν ο πόρος ολοκληρώνεται και δεν θέλετε να μπει στα αποτελέσματα αναζήτησης σε αυτήν την κατάσταση). Για να το κάνετε αυτό, γράψτε τα εξής:

Πράκτορας χρήστη: *

απαγόρευση:/

Έτσι, σε όλα τα ρομπότ αναζήτησης απαγορεύεται η ευρετηρίαση περιεχομένου στον ιστότοπο.

Και έτσι μπορείτε να ανοίξετε έναν ιστότοπο για ευρετηρίαση:

Πράκτορας χρήστη: *

Απαγορεύω:

Επομένως, ελέγξτε αν υπάρχει κάθετο μετά την οδηγία Απαγόρευση εάν θέλετε να κλείσετε τον ιστότοπο. Εάν θέλετε να το ανοίξετε αργότερα - μην ξεχάσετε να αφαιρέσετε τον κανόνα (και αυτό συμβαίνει συχνά).

Για να κλείσετε μεμονωμένες σελίδες από τη δημιουργία ευρετηρίου, πρέπει να καθορίσετε τη διεύθυνσή τους. Έχω ήδη γράψει πώς γίνεται:

Πράκτορας χρήστη: *

Απαγόρευση: /wp-admin

Έτσι, ο πίνακας διαχείρισης έκλεισε στον ιστότοπο από προβολές τρίτων.

Τι πρέπει να κλείσετε από την ευρετηρίαση χωρίς αποτυχία:

διοικητική επιτροπή·
προσωπικές σελίδες χρηστών·
καλάθια?
αποτελέσματα αναζήτησης ιστότοπου.
σελίδες σύνδεσης, εγγραφής, εξουσιοδότησης.

Μπορείτε να κλείσετε από την ευρετηρίαση και ορισμένους τύπους αρχείων. Ας υποθέσουμε ότι έχετε ορισμένα αρχεία .pdf στον ιστότοπό σας που δεν θέλετε να καταχωριστούν στο ευρετήριο. Και τα ρομπότ αναζήτησης σαρώνουν πολύ εύκολα τα αρχεία που ανεβαίνουν στον ιστότοπο. Μπορείτε να τα κλείσετε από την ευρετηρίαση ως εξής:

Πράκτορας χρήστη: *

Απαγόρευση: /*. pdf$

Πώς να ανοίξετε έναν ιστότοπο για ευρετηρίαση

Ακόμη και με έναν ιστότοπο εντελώς κλειστό από τη δημιουργία ευρετηρίου, μπορείτε να ανοίξετε τη διαδρομή προς ορισμένα αρχεία ή σελίδες για ρομπότ. Ας υποθέσουμε ότι επανασχεδιάζετε τον ιστότοπο, αλλά ο κατάλογος υπηρεσιών παραμένει άθικτος. Μπορείτε να κατευθύνετε ρομπότ αναζήτησης εκεί, ώστε να συνεχίσουν να ευρετηριάζουν την ενότητα. Για αυτό, χρησιμοποιείται η οδηγία Allow:

Πράκτορας χρήστη: *

Να επιτρέπεται: /υπηρεσίες

απαγόρευση:/

Καθρέφτης του κύριου ιστότοπου

Έως τις 20 Μαρτίου 2018, στο αρχείο robots.txt για το ρομπότ αναζήτησης Yandex, ήταν απαραίτητο να καθοριστεί ο κύριος καθρέφτης ιστότοπου μέσω της οδηγίας Host. Τώρα δεν χρειάζεται να το κάνετε αυτό - είναι αρκετό ρυθμίστε μια ανακατεύθυνση σελίδα προς σελίδα 301 .

Ποιος είναι ο κύριος καθρέφτης; Αυτή είναι η κύρια διεύθυνση του ιστότοπού σας - με ή χωρίς www. Εάν δεν ρυθμίσετε μια ανακατεύθυνση, τότε και οι δύο ιστότοποι θα ευρετηριαστούν, δηλαδή θα υπάρχουν διπλότυπα όλων των σελίδων.

Χάρτης ιστότοπου: χάρτης ιστότοπου robots.txt

Αφού γραφτούν όλες οι οδηγίες για τα ρομπότ, πρέπει να καθορίσετε τη διαδρομή προς τον Χάρτη ιστότοπου. Ο χάρτης ιστότοπου δείχνει στα ρομπότ ότι όλες οι διευθύνσεις URL που πρέπει να ευρετηριαστούν βρίσκονται σε μια συγκεκριμένη διεύθυνση. Για παράδειγμα:

Χάρτης ιστότοπου: site.ru/sitemap.xml

Όταν το ρομπότ ανιχνεύει τον ιστότοπο, θα δει τι αλλαγές έγιναν σε αυτό το αρχείο. Ως αποτέλεσμα, οι νέες σελίδες θα ευρετηριάζονται πιο γρήγορα.

Οδηγία Clean-param

Το 2009, η Yandex εισήγαγε μια νέα οδηγία - Clean-param. Μπορεί να χρησιμοποιηθεί για την περιγραφή δυναμικών παραμέτρων που δεν επηρεάζουν το περιεχόμενο των σελίδων. Τις περισσότερες φορές, αυτή η οδηγία χρησιμοποιείται σε φόρουμ. Υπάρχουν πολλά σκουπίδια εδώ, για παράδειγμα το αναγνωριστικό συνεδρίας, οι παράμετροι ταξινόμησης. Εάν καταχωρίσετε αυτήν την οδηγία, το ρομπότ αναζήτησης Yandex δεν θα κατεβάζει επανειλημμένα πληροφορίες που είναι διπλότυπες.

Μπορείτε να γράψετε αυτήν την οδηγία οπουδήποτε στο αρχείο robots.txt.

Οι παράμετροι που δεν χρειάζεται να λάβει υπόψη το ρομπότ παρατίθενται στο πρώτο μέρος της τιμής μέσω του συμβόλου &:

Clean-param: sid&sort /forum/viewforum.php

Αυτή η οδηγία αποφεύγει τις διπλότυπες σελίδες με δυναμικές διευθύνσεις URL (που περιέχουν ένα ερωτηματικό).

Οδηγία καθυστέρησης ανίχνευσης

Αυτή η οδηγία θα βοηθήσει όσους έχουν αδύναμο διακομιστή.

Η άφιξη ενός ρομπότ αναζήτησης είναι ένα επιπλέον φορτίο στον διακομιστή. Εάν έχετε υψηλή επισκεψιμότητα ιστότοπου, τότε ο πόρος μπορεί απλά να μην αντέξει και να "ξαπλώσει". Ως αποτέλεσμα, το ρομπότ θα λάβει ένα μήνυμα σφάλματος 5xx. Εάν αυτή η κατάσταση επαναλαμβάνεται συνεχώς, ο ιστότοπος μπορεί να αναγνωριστεί από τη μηχανή αναζήτησης ως μη λειτουργικός.

Φανταστείτε ότι εργάζεστε και παράλληλα πρέπει να απαντάτε συνεχώς στις κλήσεις. Η παραγωγικότητά σας τότε πέφτει.

Το ίδιο και με τον διακομιστή.

Ας επιστρέψουμε στην οδηγία. Η καθυστέρηση ανίχνευσης σάς επιτρέπει να ορίσετε μια καθυστέρηση στη σάρωση σελίδων ιστότοπου, προκειμένου να μειώσετε το φόρτο στον διακομιστή. Με άλλα λόγια, ορίζετε την περίοδο μετά την οποία θα φορτώνονται οι σελίδες του ιστότοπου. Αυτή η παράμετρος καθορίζεται σε δευτερόλεπτα, ως ακέραιος αριθμός:

Κάθε blog δίνει τη δική του απάντηση σε αυτό. Επομένως, νεοφερμένοι προώθηση αναζήτησηςσυχνά μπερδεύονται ως εξής:

Τι είδους ρομπότ είναι πρώην;

Αρχείο robots.txtή αρχείο ευρετηρίου- συνηθισμένο Έγγραφο κειμένουσε κωδικοποίηση UTF-8, ισχύει για πρωτόκολλα http, https και FTP. Το αρχείο δίνει συστάσεις για ρομπότ αναζήτησης: ποιες σελίδες / αρχεία πρέπει να ανιχνευθούν.Εάν το αρχείο περιέχει χαρακτήρες όχι σε UTF-8, αλλά σε διαφορετική κωδικοποίηση, τα ρομπότ αναζήτησης ενδέχεται να μην τους επεξεργαστούν σωστά. Οι κανόνες που αναφέρονται στο αρχείο robots.txt ισχύουν μόνο για τον κεντρικό υπολογιστή, το πρωτόκολλο και τον αριθμό θύρας όπου βρίσκεται το αρχείο.

Το αρχείο πρέπει να βρίσκεται στον ριζικό κατάλογο ως έγγραφο απλού κειμένου και να είναι διαθέσιμο στη διεύθυνση: https://site.com.ua/robots.txt.

Σε άλλα αρχεία, συνηθίζεται να επισημαίνεται BOM (Byte Order Mark). Αυτός είναι ένας χαρακτήρας Unicode που χρησιμοποιείται για τον προσδιορισμό της ακολουθίας σε byte κατά την ανάγνωση πληροφοριών. Το κωδικό σύμβολο του είναι U+FEFF. Στην αρχή του αρχείου robots.txt, το σημάδι ακολουθίας byte αγνοείται.

Η Google έχει θέσει ένα όριο στο μέγεθος του αρχείου robots.txt - δεν πρέπει να ζυγίζει περισσότερο από 500 KB.

Εντάξει, αν σας ενδιαφέρουν οι τεχνικές λεπτομέρειες, το αρχείο robots.txt είναι μια περιγραφή Backus-Naur Form (BNF). Αυτό χρησιμοποιεί τους κανόνες του RFC 822.

Κατά την επεξεργασία κανόνων στο αρχείο robots.txt, τα ρομπότ αναζήτησης λαμβάνουν μία από τις τρεις οδηγίες:

μερική πρόσβαση: είναι διαθέσιμη σάρωση μεμονωμένων στοιχείων του ιστότοπου.
πλήρης πρόσβαση: μπορείτε να σαρώσετε τα πάντα.
πλήρης απαγόρευση: το ρομπότ δεν μπορεί να σαρώσει τίποτα.

Κατά τη σάρωση του αρχείου robots.txt, τα ρομπότ λαμβάνουν τις ακόλουθες απαντήσεις:

2xx-η σάρωση ήταν επιτυχής.
3xx-ο ανιχνευτής ακολουθεί την ανακατεύθυνση μέχρι να λάβει άλλη απάντηση. Τις περισσότερες φορές γίνονται πέντε προσπάθειες για το ρομπότ να λάβει μια απάντηση διαφορετική από την απόκριση 3xx, και στη συνέχεια καταγράφεται ένα σφάλμα 404.
4xx-το ρομπότ αναζήτησης πιστεύει ότι είναι δυνατή η ανίχνευση όλου του περιεχομένου του ιστότοπου.
5xx-αξιολογούνται ως προσωρινά σφάλματα διακομιστή, η σάρωση είναι εντελώς απενεργοποιημένη. Το ρομπότ θα έχει πρόσβαση στο αρχείο έως ότου λάβει άλλη απάντηση. Το ρομπότ αναζήτησης Google μπορεί να καθορίσει εάν έχει ρυθμιστεί σωστά ή εσφαλμένα ώστε να επιστρέφει απαντήσεις σε σελίδες του ιστότοπου που λείπουν, δηλαδή εάν αντί για σφάλμα 404 η σελίδα επιστρέψει μια απάντηση 5xx , σε αυτήν την περίπτωση η σελίδα θα υποβληθεί σε επεξεργασία με τον κωδικό απάντησης 404.

Δεν είναι ακόμη γνωστό πώς γίνεται η επεξεργασία του αρχείου robots.txt, το οποίο δεν είναι διαθέσιμο λόγω προβλημάτων διακομιστή με την πρόσβαση στο Διαδίκτυο.

Γιατί χρειάζεστε ένα αρχείο robots.txt

Για παράδειγμα, μερικές φορές τα ρομπότ δεν πρέπει να επισκέπτονται:

σελίδες με προσωπικά στοιχεία των χρηστών στον ιστότοπο·
σελίδες με διάφορες μορφές αποστολής πληροφοριών·
τοποθεσίες καθρέφτη?
σελίδες αποτελεσμάτων αναζήτησης.

Σημαντικό: ακόμα κι αν η σελίδα βρίσκεται στο αρχείο robots.txt, υπάρχει πιθανότητα να εμφανιστεί στα αποτελέσματα αναζήτησης, εάν βρέθηκε σύνδεσμος προς αυτήν μέσα στον ιστότοπο ή κάπου σε έναν εξωτερικό πόρο.

Αυτός είναι ο τρόπος με τον οποίο τα ρομπότ μηχανών αναζήτησης βλέπουν έναν ιστότοπο με και χωρίς αρχείο robots.txt:

Χωρίς το robots.txt, πληροφορίες που θα πρέπει να είναι κρυφές από τα αδιάκριτα βλέμματα μπορούν να εισέλθουν στα αποτελέσματα αναζήτησης και τόσο εσείς όσο και ο ιστότοπος θα υποφέρετε εξαιτίας αυτού.

Αυτός είναι ο τρόπος με τον οποίο το ρομπότ της μηχανής αναζήτησης βλέπει το αρχείο robots.txt:

Η Google βρήκε το αρχείο robots.txt στον ιστότοπο και βρήκε τους κανόνες με τους οποίους πρέπει να ανιχνεύονται οι σελίδες του ιστότοπου

Πώς να δημιουργήσετε ένα αρχείο robots.txt

Με το Σημειωματάριο, το Σημειωματάριο, το Sublime ή οποιοδήποτε άλλο πρόγραμμα επεξεργασίας κειμένου.

Χρήστης-πράκτορας - επαγγελματική κάρτα για ρομπότ

User-agent - ένας κανόνας σχετικά με το ποια ρομπότ πρέπει να δουν τις οδηγίες που περιγράφονται στο αρχείο robots.txt. Στο αυτή τη στιγμήΕίναι γνωστά 302 ρομπότ αναζήτησης

Λέει ότι καθορίζουμε τους κανόνες στο robots.txt για όλα τα ρομπότ αναζήτησης.

Για την Google, το κύριο ρομπότ είναι το Googlebot. Αν θέλουμε να λάβουμε υπόψη μόνο αυτό, η καταχώρηση στο αρχείο θα είναι η εξής:

Σε αυτήν την περίπτωση, όλα τα άλλα ρομπότ θα ανιχνεύουν περιεχόμενο με βάση τις οδηγίες τους για να επεξεργαστούν ένα κενό αρχείο robots.txt.

Για το Yandex, το κύριο ρομπότ είναι... Yandex:

Άλλα ειδικά ρομπότ:

Mediapartners-Google- για την υπηρεσία AdSense·
AdsBot-Google— για να ελέγξετε την ποιότητα της σελίδας προορισμού·
YandexImages— Ευρετήριο Yandex.Pictures.
Εικόνα Googlebot- για φωτογραφίες
YandexMetrika— Ρομπότ Yandex.Metrica.
YandexMedia- ένα ρομπότ που ευρετηριάζει δεδομένα πολυμέσων.
YaDirectFetcher— Yandex.Direct ρομπότ.
Βίντεο Googlebot- για βίντεο
Googlebot για κινητά- για έκδοση για κινητά
YandexDirectDyn— Ρομπότ δημιουργίας δυναμικών banner.
YandexBlogs- ένα ρομπότ αναζήτησης ιστολογίου που ευρετηριάζει αναρτήσεις και σχόλια.
YandexMarket— Ρομπότ Yandex.Market.
YandexNews— Ρομπότ Yandex.News.
YandexDirect— κατεβάζει πληροφορίες σχετικά με το περιεχόμενο των συνεργαζόμενων τοποθεσιών του Δικτύου Διαφήμισης προκειμένου να διευκρινιστεί το αντικείμενό τους για την επιλογή της σχετικής διαφήμισης·
YandexPagechecker— εργαλείο επικύρωσης μικροδεδομένων·
YandexCalendar— Ρομπότ Yandex.Calendar.

Απαγόρευση - τοποθετούμε "τούβλα"

Θα πρέπει να χρησιμοποιείται εάν ο ιστότοπος βρίσκεται σε διαδικασία βελτίωσης και δεν θέλετε να εμφανίζεται στα αποτελέσματα αναζήτησης στην τρέχουσα κατάστασή του.

Είναι σημαντικό να καταργήσετε αυτόν τον κανόνα μόλις ο ιστότοπος είναι έτοιμος να τον δουν οι χρήστες. Δυστυχώς, αυτό έχει ξεχαστεί από πολλούς webmasters.

Παράδειγμα. Πώς να γράψετε έναν κανόνα απαγόρευσης για να συμβουλεύετε τα ρομπότ να μην προβάλλουν τα περιεχόμενα ενός φακέλου /ντοσιέ/:

Αυτή η γραμμή αποτρέπει την ευρετηρίαση όλων των αρχείων με την επέκταση .gif

Επιτρέψτε - κατευθύνετε ρομπότ

Το Allow επιτρέπει τη σάρωση οποιουδήποτε αρχείου/οδηγίας/σελίδας. Ας πούμε ότι είναι απαραίτητο τα ρομπότ να μπορούν να προβάλλουν μόνο σελίδες που ξεκινούν με /catalog και να κλείνουν όλο το άλλο περιεχόμενο. Σε αυτή την περίπτωση, συνταγογραφείται ο ακόλουθος συνδυασμός:

Οι κανόνες "Αδειοδότηση" και "Απαγόρευση" ταξινομούνται κατά μήκος του προθέματος URL (το χαμηλότερο προς το μεγαλύτερο) και εφαρμόζονται διαδοχικά. Εάν περισσότεροι από ένας κανόνες ταιριάζουν σε μια σελίδα, το ρομπότ επιλέγει τον τελευταίο κανόνα στην ταξινομημένη λίστα.

Κεντρικός υπολογιστής - επιλέξτε έναν καθρέφτη ιστότοπου

Ο κεντρικός υπολογιστής είναι ένας από τους υποχρεωτικούς κανόνες για το robots.txt· λέει στο ρομπότ Yandex ποιος από τους καθρέφτες ιστότοπου πρέπει να ληφθεί υπόψη για την ευρετηρίαση.

Site mirror - ένα ακριβές ή σχεδόν ακριβές αντίγραφο του ιστότοπου, διαθέσιμο σε διαφορετικές διευθύνσεις.

Το ρομπότ δεν θα μπερδευτεί όταν βρίσκει καθρέφτες ιστότοπου και θα καταλάβει ότι ο κύριος καθρέφτης καθορίζεται στο αρχείο robots.txt. Η διεύθυνση τοποθεσίας καθορίζεται χωρίς το πρόθεμα "http://", αλλά εάν ο ιστότοπος λειτουργεί σε HTTPS, πρέπει να καθοριστεί το πρόθεμα "https://".

Πώς να γράψετε αυτόν τον κανόνα:

Ένα παράδειγμα αρχείου robots.txt εάν ο ιστότοπος λειτουργεί με το πρωτόκολλο HTTPS:

Χάρτης ιστότοπου - χάρτης ιατρικού ιστότοπου

Ο χάρτης ιστότοπου ενημερώνει τα ρομπότ ότι βρίσκονται όλες οι διευθύνσεις URL ιστοτόπων που απαιτούνται για την ευρετηρίαση http://site.ua/sitemap.xml. Με κάθε ανίχνευση, το ρομπότ θα εξετάζει τις αλλαγές που έγιναν σε αυτό το αρχείο και θα ανανεώνει γρήγορα τις πληροφορίες σχετικά με τον ιστότοπο στις βάσεις δεδομένων της μηχανής αναζήτησης.

Καθυστέρηση ανίχνευσης - χρονόμετρο για αδύναμους διακομιστές

Καθυστέρηση ανίχνευσης - μια παράμετρος με την οποία μπορείτε να ορίσετε την περίοδο μετά την οποία θα φορτωθούν οι σελίδες του ιστότοπου. Αυτός ο κανόνας είναι σχετικός εάν έχετε αδύναμο διακομιστή. Σε αυτή την περίπτωση, είναι δυνατό μεγάλες καθυστερήσειςόταν τα ρομπότ αναζήτησης έχουν πρόσβαση στις σελίδες του ιστότοπου. Αυτή η παράμετρος μετριέται σε δευτερόλεπτα.

Clean-param - Duplicate Content Hunter

Το Clean-param βοηθά στην αντιμετώπιση των παραμέτρων λήψης για την αποφυγή διπλότυπου περιεχομένου που μπορεί να είναι διαθέσιμο σε διαφορετικές δυναμικές διευθύνσεις URL (με ερωτηματικά). Τέτοιες διευθύνσεις εμφανίζονται εάν ο ιστότοπος έχει διαφορετικές ταξινομήσεις, αναγνωριστικά περιόδου σύνδεσης και ούτω καθεξής.

Ας υποθέσουμε ότι η σελίδα είναι διαθέσιμη στις διευθύνσεις:

www.site.com/catalog/get_phone.ua?ref=page_1&phone_id=1

www.site.com/catalog/get_phone.ua?ref=page_2&phone_id=1

www.site.com/catalog/get_phone.ua?ref=page_3&phone_id=1

Σε αυτήν την περίπτωση, το αρχείο robots.txt θα μοιάζει με αυτό:

Εδώ αναφυποδεικνύει από πού προέρχεται ο σύνδεσμος, επομένως γράφεται στην αρχή και μόνο τότε υποδεικνύεται η υπόλοιπη διεύθυνση.

Αλλά προτού προχωρήσετε στο αρχείο αναφοράς, υπάρχουν μερικά ακόμη σημάδια που πρέπει να γνωρίζετε όταν γράφετε ένα αρχείο robots.txt.

Σύμβολα στο robots.txt

Οι κύριοι χαρακτήρες του αρχείου είναι "/, *, $, #".

Με τη χρήση κάθετο "/"δείχνουμε τι θέλουμε να κρύψουμε από τον εντοπισμό από ρομπότ. Για παράδειγμα, εάν υπάρχει μία κάθετο στον κανόνα Απαγόρευση, απαγορεύουμε την ανίχνευση ολόκληρου του ιστότοπου. Με τη βοήθεια δύο κάθετων, μπορείτε να απενεργοποιήσετε τη σάρωση οποιουδήποτε συγκεκριμένου καταλόγου, για παράδειγμα: /catalog/.

Μια τέτοια καταχώρηση λέει ότι απαγορεύουμε τη σάρωση ολόκληρου του περιεχομένου του φακέλου καταλόγου, αλλά αν γράψουμε /catalog, απαγορεύουμε όλους τους συνδέσμους στον ιστότοπο που ξεκινούν με /catalog.

Αστερίσκος "*"σημαίνει οποιαδήποτε ακολουθία χαρακτήρων σε ένα αρχείο. Τοποθετείται μετά από κάθε κανόνα.

Αυτή η καταχώριση λέει ότι όλα τα ρομπότ δεν πρέπει να ευρετηριάζουν κανένα αρχείο .gif στον φάκελο /catalog/

σύμβολο δολλαρίου «$» περιορίζει το εύρος του αστερίσκου. Εάν θέλετε να μην επιτρέψετε ολόκληρο το περιεχόμενο του φακέλου του καταλόγου, αλλά δεν μπορείτε να απαγορεύσετε τις διευθύνσεις URL που περιέχουν /catalog, η καταχώριση στο αρχείο ευρετηρίου θα είναι:

Κατακερματισμός "#"χρησιμοποιείται για σχόλια που αφήνει ο webmaster για τον εαυτό του ή άλλους webmasters. Το ρομπότ δεν θα τα λάβει υπόψη κατά τη σάρωση του ιστότοπου.

Για παράδειγμα:

Πώς μοιάζει το ιδανικό robots.txt;

Το αρχείο ανοίγει το περιεχόμενο του ιστότοπου για ευρετηρίαση, ο κεντρικός υπολογιστής καταχωρείται και καθορίζεται ο χάρτης τοποθεσίας, κάτι που θα επιτρέπει στις μηχανές αναζήτησης να βλέπουν πάντα τις διευθύνσεις που πρέπει να ευρετηριαστούν. Οι κανόνες για το Yandex είναι γραμμένοι χωριστά, καθώς δεν κατανοούν όλα τα ρομπότ την εντολή Host.

Αλλά μην βιαστείτε να αντιγράψετε τα περιεχόμενα του αρχείου στον εαυτό σας - πρέπει να γράφονται μοναδικοί κανόνες για κάθε ιστότοπο, ο οποίος εξαρτάται από τον τύπο του ιστότοπου και το CMS. Επομένως, αξίζει να θυμάστε όλους τους κανόνες κατά τη συμπλήρωση του αρχείου robots.txt.

Πώς να ελέγξετε το αρχείο robots.txt

Εάν θέλετε να μάθετε εάν συμπληρώσατε σωστά το αρχείο robots.txt, ελέγξτε το στα εργαλεία webmaster Googleκαι Yandex. Απλά μπείτε πηγήαρχείο robots.txt στη φόρμα από τον σύνδεσμο και καθορίστε τον ιστότοπο που θα ελεγχθεί.

Πώς να μην συμπληρώσετε το αρχείο robots.txt

Συχνά γίνονται ενοχλητικά λάθη κατά τη συμπλήρωση του αρχείου ευρετηρίου και σχετίζονται με συνηθισμένη απροσεξία ή βιασύνη. Λίγο πιο κάτω είναι ένα διάγραμμα σφαλμάτων που συνάντησα στην πράξη.

2. Εγγραφή πολλών φακέλων/καταλόγων σε μία δήλωση Απαγόρευσης:

Μια τέτοια καταχώρηση μπορεί να μπερδέψει τα ρομπότ αναζήτησης, μπορεί να μην καταλαβαίνουν τι ακριβώς δεν πρέπει να ευρετηριάζουν: είτε τον πρώτο φάκελο είτε τον τελευταίο, επομένως πρέπει να γράψετε κάθε κανόνα ξεχωριστά.

3. Το ίδιο το αρχείο πρέπει να κληθεί μόνο robots.txt,όχι Robots.txt, ROBOTS.TXT ή άλλο.

4. Δεν μπορείτε να αφήσετε κενό τον κανόνα User-agent - πρέπει να πείτε ποιο ρομπότ πρέπει να λάβει υπόψη τους κανόνες που καθορίζονται στο αρχείο.

5. Επιπλέον χαρακτήρες στο αρχείο (κάθετες, αστερίσκοι).

6. Προσθήκη σελίδων στο αρχείο που δεν πρέπει να βρίσκονται στο ευρετήριο.

Μη τυπική χρήση του robots.txt

Εκτός από τις άμεσες λειτουργίες, ένα αρχείο ευρετηρίου μπορεί να γίνει πλατφόρμα δημιουργικότητας και τρόπος εύρεσης νέων υπαλλήλων.

Εδώ είναι ένας ιστότοπος όπου το ίδιο το robots.txt είναι ένας μικρός ιστότοπος με στοιχεία εργασίας, ακόμη και μια ενότητα διαφημίσεων.

Ως πλατφόρμα αναζήτησης ειδικών, το αρχείο χρησιμοποιείται κυρίως από εταιρείες SEO. Και ποιος άλλος μπορεί να ξέρει για την ύπαρξή του; :)

Και η Google έχει ειδικό αρχείο άνθρωποι.txt, ώστε να μην επιτρέπετε τη σκέψη των διακρίσεων σε βάρος των ειδικών από το δέρμα και το κρέας.

συμπεράσματα

Με τη βοήθεια του Robots.txt, μπορείτε να ορίσετε οδηγίες για ρομπότ αναζήτησης, να διαφημίσετε τον εαυτό σας, την επωνυμία σας, να αναζητήσετε ειδικούς. Αυτό είναι ένα εξαιρετικό πεδίο για πειραματισμούς. Το κύριο πράγμα είναι να θυμάστε τη σωστή συμπλήρωση του αρχείου και τυπικά λάθη.

Κανόνες, είναι οδηγίες, είναι επίσης οδηγίες του αρχείου robots.txt:

User-agent - ένας κανόνας σχετικά με το ποια ρομπότ πρέπει να δουν τις οδηγίες που περιγράφονται στο robots.txt.
Το Disallow κάνει μια σύσταση σχετικά με το είδος των πληροφοριών που δεν πρέπει να σαρωθούν.
Ο χάρτης ιστότοπου ενημερώνει τα ρομπότ ότι όλες οι διευθύνσεις URL ιστότοπου που απαιτούνται για την ευρετηρίαση βρίσκονται στη διεύθυνση http://site.ua/sitemap.xml.
Ο κεντρικός υπολογιστής λέει στο ρομπότ Yandex ποιος από τους καθρέφτες του ιστότοπου πρέπει να ληφθούν υπόψη για την ευρετηρίαση.
Το Allow επιτρέπει τη σάρωση οποιουδήποτε αρχείου/οδηγίας/σελίδας.

Σημάδια κατά τη μεταγλώττιση του robots.txt:

Το σύμβολο του δολαρίου "$" περιορίζει το εύρος του σημείου αστερίσκου.
Με τη βοήθεια κάθετου "/" υποδεικνύουμε ότι θέλουμε να κρυφτούμε από τον εντοπισμό από ρομπότ.
Ο αστερίσκος "*" σημαίνει οποιαδήποτε ακολουθία χαρακτήρων στο αρχείο. Τοποθετείται μετά από κάθε κανόνα.
Το σήμα κατακερματισμού "#" χρησιμοποιείται για να υποδηλώσει σχόλια που γράφει ο webmaster για τον εαυτό του ή άλλους webmasters.

Χρησιμοποιήστε το αρχείο ευρετηρίου με σύνεση - και ο ιστότοπος θα βρίσκεται πάντα στα αποτελέσματα αναζήτησης.

Το πρώτο πράγμα που κάνει ένα bot αναζήτησης όταν πρόκειται για τον ιστότοπό σας είναι να αναζητήσει και να διαβάσει το αρχείο robots.txt. Τι είναι αυτό το αρχείο; είναι ένα σύνολο οδηγιών για μια μηχανή αναζήτησης.

Είναι ένα αρχείο κειμένου με επέκταση txt, το οποίο βρίσκεται στον ριζικό κατάλογο του ιστότοπου. Αυτό το σύνολο οδηγιών λέει στο ρομπότ αναζήτησης ποιες σελίδες και αρχεία ιστοτόπων να ευρετηριάσει και ποιες όχι. Υποδεικνύει επίσης τον κύριο καθρέφτη του ιστότοπου και πού να αναζητήσετε τον χάρτη ιστότοπου.

Σε τι χρησιμεύει το αρχείο robots.txt; Για σωστή ευρετηρίαση του ιστότοπού σας. Για να μην υπάρχουν διπλότυπες σελίδες στην αναζήτηση, διάφορες σελίδες υπηρεσιών και έγγραφα. Μόλις ρυθμίσετε σωστά τις οδηγίες στα ρομπότ, θα γλιτώσετε τον ιστότοπό σας από πολλά προβλήματα με την ευρετηρίαση και τον κατοπτρισμό ιστότοπου.

Πώς να συνθέσετε το σωστό robots.txt

Η μεταγλώττιση του robots.txt είναι αρκετά εύκολη, δημιουργούμε ένα έγγραφο κειμένου σε ένα τυπικό σημειωματάριο των Windows. Σε αυτό το αρχείο γράφουμε οδηγίες για τις μηχανές αναζήτησης. Στη συνέχεια, αποθηκεύστε αυτό το αρχείο με το όνομα "robots" και την επέκταση κειμένου "txt". Όλα μπορούν πλέον να μεταφορτωθούν στη φιλοξενία, στο ριζικό φάκελοιστοσελίδα. Λάβετε υπόψη ότι μόνο ένα έγγραφο robot μπορεί να δημιουργηθεί ανά ιστότοπο. Εάν αυτό το αρχείο λείπει στον ιστότοπο, τότε το bot "αποφασίζει" αυτόματα ότι όλα μπορούν να ευρετηριαστούν.

Δεδομένου ότι είναι ένα, περιέχει οδηγίες για όλες τις μηχανές αναζήτησης. Επιπλέον, μπορείτε να γράψετε τόσο ξεχωριστές οδηγίες για κάθε PS, όσο και τη γενική αμέσως για τα πάντα. Ο διαχωρισμός των οδηγιών για διαφορετικά ρομπότ αναζήτησης γίνεται μέσω της οδηγίας User-agent. Θα μιλήσουμε περισσότερα για αυτό παρακάτω.

οδηγίες robots.txt

Το αρχείο "ρομπότ" μπορεί να περιέχει τις ακόλουθες οδηγίες ευρετηρίου: User-agent, Disallow, Allow, Sitemap, Host, Crawl-delay, Clean-param. Ας δούμε κάθε οδηγία με περισσότερες λεπτομέρειες.

Οδηγία για πράκτορες χρήστη

Οδηγία για πράκτορες χρήστη- υποδεικνύει για ποια μηχανή αναζήτησης θα υπάρχουν οδηγίες (ακριβέστερα, για ποιο συγκεκριμένο bot). Αν είναι "*" τότε οι οδηγίες είναι για όλα τα ρομπότ. Εάν αναφέρεται ένα συγκεκριμένο ρομπότ, όπως το Googlebot, τότε οι οδηγίες αφορούν μόνο το κύριο ρομπότ ευρετηρίου της Google. Επιπλέον, εάν υπάρχουν οδηγίες ξεχωριστά για το Googlebot και για όλα τα άλλα PS, τότε η Google θα διαβάσει μόνο τις δικές της οδηγίες και θα αγνοήσει τη γενική. Το bot Yandex θα κάνει το ίδιο. Ας δούμε ένα παράδειγμα καταχώρισης οδηγίας.

Πράκτορας χρήστη: YandexBot - οδηγίες μόνο για το κύριο ρομπότ ευρετηρίου Yandex
User-agent: Yandex - οδηγίες για όλα τα bots Yandex
User-agent: * - οδηγίες για όλα τα bots

Απαγόρευση και Αποδοχή οδηγιών

Απαγόρευση και Αποδοχή οδηγιών- δώστε εντολές τι να ευρετηριαστεί και τι όχι. Το Disallow δίνει την εντολή να μην ευρετηριαστεί μια σελίδα ή μια ολόκληρη ενότητα του ιστότοπου. Και το Allow, αντίθετα, υποδεικνύει τι πρέπει να ευρετηριαστεί.

Απαγόρευση: / - απαγορεύει την ευρετηρίαση ολόκληρου του ιστότοπου
Disallow: /papka/ - απαγορεύει την ευρετηρίαση όλου του περιεχομένου του φακέλου
Disallow: /files.php - απαγορεύει την ευρετηρίαση του αρχείου files.php

Allow: /cgi-bin - επιτρέπει την ευρετηρίαση σελίδων cgi-bin

Είναι δυνατή και συχνά απαραίτητη η χρήση ειδικών χαρακτήρων στις οδηγίες Απαγόρευση και Αποδοχή. Χρειάζονται για τον ορισμό κανονικών εκφράσεων.

Ειδικός χαρακτήρας * - αντικαθιστά οποιαδήποτε ακολουθία χαρακτήρων. Από προεπιλογή προσαρτάται στο τέλος κάθε κανόνα. Ακόμα κι αν δεν το καταχωρίσατε, το PS θα το βάλει μόνο του. Παράδειγμα χρήσης:

Disallow: /cgi-bin/*.aspx - απαγορεύει την ευρετηρίαση όλων των αρχείων με την επέκταση .aspx
Disallow: /*foto - απαγορεύει την ευρετηρίαση αρχείων και φακέλων που περιέχουν τη λέξη foto

Ο ειδικός χαρακτήρας $ - ακυρώνει το εφέ του ειδικού χαρακτήρα "*" στο τέλος του κανόνα. Για παράδειγμα:

Disallow: /example$ - απαγορεύει την ευρετηρίαση '/example', αλλά δεν απαγορεύει το '/example.html'

Και αν γράφετε χωρίς τον ειδικό χαρακτήρα $, τότε η οδηγία θα λειτουργήσει διαφορετικά:

Disallow: /example - δεν επιτρέπει τόσο το '/example' όσο και το '/example.html'

Οδηγία χάρτη ιστότοπου

Οδηγία για τον χάρτη ιστότοπου- έχει σχεδιαστεί για να υποδεικνύει στο ρομπότ της μηχανής αναζήτησης πού βρίσκεται ο χάρτης τοποθεσίας στη φιλοξενία. Η μορφή του χάρτη ιστότοπου θα πρέπει να είναι sitemaps.xml. Απαιτείται ένας χάρτης ιστότοπου για ταχύτερη και πληρέστερη ευρετηρίαση ιστότοπου. Επιπλέον, ένας χάρτης ιστότοπου δεν είναι απαραίτητα ένα αρχείο, μπορεί να υπάρχουν πολλά. Μορφή καταχώρισης οδηγίας:

Χάρτης ιστότοπου: http://site/sitemaps1.xml
Χάρτης ιστότοπου: http://site/sitemaps2.xml

Οδηγία υποδοχής

Οδηγία υποδοχής- υποδεικνύει στο ρομπότ τον κύριο καθρέφτη του ιστότοπου. Ό,τι κι αν υπάρχει στο ευρετήριο κατοπτρισμού του ιστότοπου, πρέπει πάντα να προσδιορίζετε αυτήν την οδηγία. Εάν δεν έχει καθοριστεί, το ρομπότ Yandex θα ευρετηριάσει τουλάχιστον δύο εκδόσεις του ιστότοπου με και χωρίς www. Μέχρι το ρομπότ καθρέφτη να τα κολλήσει μεταξύ τους. Παράδειγμα ηχογράφησης:

Διοργανωτής: www.site
οικοδεσπότης: ιστότοπος

Στην πρώτη περίπτωση, το ρομπότ θα ευρετηριάσει την έκδοση με www, στη δεύτερη περίπτωση χωρίς. Μόνο μία οδηγία Host επιτρέπεται στο αρχείο robots.txt. Εάν γράψετε πολλά από αυτά, το bot θα επεξεργαστεί και θα λάβει υπόψη μόνο το πρώτο.

Μια έγκυρη οδηγία κεντρικού υπολογιστή πρέπει να έχει τα ακόλουθα δεδομένα:
— υποδείξτε το πρωτόκολλο σύνδεσης (HTTP ή HTTPS).
- σωστά γραμμένο Ονομα τομέα(δεν μπορείτε να καταχωρήσετε μια διεύθυνση IP).
- αριθμός θύρας, εάν είναι απαραίτητο (για παράδειγμα, Host: site.com:8080).

Οι λανθασμένες οδηγίες απλώς θα αγνοηθούν.

Οδηγία καθυστέρησης ανίχνευσης

Οδηγία καθυστέρησης ανίχνευσηςσας επιτρέπει να μειώσετε το φόρτο στον διακομιστή. Χρειάζεται σε περίπτωση που ο ιστότοπός σας αρχίσει να πέφτει κάτω από την επίθεση διαφόρων bots. Η οδηγία Crawl-Delay λέει στο bot αναζήτησης να περιμένει μεταξύ του τέλους της λήψης μιας σελίδας και της έναρξης της λήψης μιας άλλης σελίδας του ιστότοπου. Η οδηγία πρέπει να έρχεται αμέσως μετά τις καταχωρίσεις της οδηγίας «Απαγόρευση» ή/και «Αποδοχή». Το ρομπότ αναζήτησης Yandex μπορεί να διαβάσει κλασματικές τιμές. Για παράδειγμα: 1,5 (ενάμιση δευτερόλεπτο).

Οδηγία Clean-param

Οδηγία Clean-paramαπαιτούνται από ιστότοπους των οποίων οι σελίδες περιέχουν δυναμικές παραμέτρους. Μιλάμε για εκείνα που δεν επηρεάζουν το περιεχόμενο των σελίδων. Πρόκειται για διάφορες πληροφορίες υπηρεσίας: αναγνωριστικά περιόδου σύνδεσης, χρήστες, παραπομπές κ.λπ. Έτσι, για να αποφευχθούν τα διπλότυπα αυτών των σελίδων, χρησιμοποιείται αυτή η οδηγία. Θα πει στο PS να μην ανεβάσει ξανά τις πληροφορίες εκ νέου μετακίνησης. Ο φόρτος στον διακομιστή και ο χρόνος που χρειάζεται για να ανιχνεύσει το ρομπότ στον ιστότοπο θα μειωθούν επίσης.

Clean-param: s /forum/showthread.php

Αυτή η καταχώρηση λέει στο PS ότι η παράμετρος s θα θεωρείται ασήμαντη για όλα τα url που ξεκινούν με /forum/showthread.php. Το μέγιστο μήκος εγγραφής είναι 500 χαρακτήρες.

Καταλάβαμε τις οδηγίες, ας προχωρήσουμε στη ρύθμιση των ρομπότ μας.

Ρύθμιση robots.txt

Προχωράμε απευθείας στη ρύθμιση του αρχείου robots.txt. Πρέπει να περιέχει τουλάχιστον δύο καταχωρήσεις:

πράκτορας χρήστη:- υποδεικνύει για ποια μηχανή αναζήτησης θα είναι οι παρακάτω οδηγίες.
Απαγορεύω:- Καθορίζει ποιο τμήμα του ιστότοπου δεν πρόκειται να ευρετηριαστεί. Μπορεί να κλείσει από την ευρετηρίαση τόσο μιας ξεχωριστής σελίδας του ιστότοπου όσο και ολόκληρων ενοτήτων.

Επιπλέον, μπορείτε να καθορίσετε ότι αυτές οι οδηγίες προορίζονται για όλες τις μηχανές αναζήτησης ή για μία συγκεκριμένα. Αυτό καθορίζεται στην οδηγία User-agent. Αν θέλετε όλα τα bots να διαβάζουν τις οδηγίες, βάλτε έναν αστερίσκο

Εάν θέλετε να γράψετε οδηγίες για ένα συγκεκριμένο ρομπότ, αλλά πρέπει να καθορίσετε το όνομά του.

Πράκτορας χρήστη: YandexBot

Ένα απλοποιημένο παράδειγμα ενός σωστά διαμορφωμένου αρχείου ρομπότ θα ήταν:

Πράκτορας χρήστη: *
Απαγόρευση: /files.php
Απαγόρευση: /section/
οικοδεσπότης: ιστότοπος

Οπου, * λέει ότι οι οδηγίες προορίζονται για όλα τα PS?
Απαγόρευση: /files.php- απαγορεύει την ευρετηρίαση του αρχείου file.php.
Απαγόρευση: /foto/- απαγορεύει την ευρετηρίαση ολόκληρης της ενότητας "φωτογραφία" με όλα τα συνημμένα αρχεία.
οικοδεσπότης: ιστότοπος- λέει στα ρομπότ ποιο καθρέφτη να ευρετηριάσουν.

Εάν ο ιστότοπός σας δεν έχει σελίδες που πρέπει να κλείσουν από την ευρετηρίαση, τότε το αρχείο robots.txt θα πρέπει να είναι ως εξής:

Πράκτορας χρήστη: *
Απαγορεύω:
οικοδεσπότης: ιστότοπος

Robots.txt για Yandex (Yandex)

Για να υποδείξετε ότι αυτές οι οδηγίες προορίζονται για τη μηχανή αναζήτησης Yandex, πρέπει να καθορίσετε στην οδηγία παράγοντα χρήστη: Yandex. Επιπλέον, αν γράψουμε "Yandex", τότε ο ιστότοπος θα ευρετηριαστεί από όλα τα ρομπότ Yandex και εάν καθορίσουμε "YandexBot", τότε αυτή θα είναι μια εντολή μόνο για το κύριο ρομπότ ευρετηρίασης.

Είναι επίσης απαραίτητο να καταχωρίσετε την οδηγία "Host", όπου να καθορίσετε τον κύριο καθρέφτη του ιστότοπου. Όπως έγραψα παραπάνω, αυτό γίνεται για την αποφυγή διπλότυπων σελίδων. Το σωστό robots.txt για το Yandex θα είναι έτσι.

Τα περισσότερα από τα ρομπότ είναι καλά σχεδιασμένα και δεν δημιουργούν κανένα πρόβλημα στους ιδιοκτήτες ιστοτόπων. Αλλά εάν το bot είναι γραμμένο από ερασιτέχνη ή "κάτι πήγε στραβά", τότε μπορεί να δημιουργήσει ένα σημαντικό φορτίο στον ιστότοπο που παρακάμπτει. Παρεμπιπτόντως, οι αράχνες δεν εισέρχονται στον διακομιστή καθόλου σαν ιοί - απλώς ζητούν τις σελίδες που χρειάζονται εξ αποστάσεως (στην πραγματικότητα, αυτές είναι ανάλογα των προγραμμάτων περιήγησης, αλλά χωρίς τη λειτουργία περιήγησης σελίδας).

Robots.txt - Οδηγία χρήστη-πράκτορα και ρομπότ μηχανών αναζήτησης

Το Robots.txt έχει μια πολύ απλή σύνταξη, η οποία περιγράφεται με μεγάλη λεπτομέρεια, για παράδειγμα, στο βοήθεια yandexκαι Βοήθεια Google. Συνήθως προσδιορίζει για ποιο ρομπότ αναζήτησης προορίζονται οι ακόλουθες οδηγίες: όνομα ρομπότ (" χρήστης-πράκτορας"), επιτρέποντας (" επιτρέπω") και απαγορευτικό (" Απαγορεύω"), και ο "Χάρτης ιστότοπου" χρησιμοποιείται επίσης ενεργά για να υποδεικνύει στις μηχανές αναζήτησης πού ακριβώς βρίσκεται το αρχείο χάρτη.

Το πρότυπο δημιουργήθηκε πριν από πολύ καιρό και κάτι προστέθηκε αργότερα. Υπάρχουν οδηγίες και κανόνες σχεδιασμού που θα γίνουν κατανοητοί μόνο από τα ρομπότ ορισμένων μηχανών αναζήτησης. Στο RuNet, μόνο το Yandex και η Google ενδιαφέρουν, πράγμα που σημαίνει ότι με τη βοήθειά τους στη σύνταξη του robots.txt θα πρέπει να εξοικειωθείτε με ιδιαίτερη λεπτομέρεια (παρείχα τους συνδέσμους στην προηγούμενη παράγραφο).

Για παράδειγμα, νωρίτερα για τη μηχανή αναζήτησης Yandex ήταν χρήσιμο να υποδείξετε ότι το έργο ιστού σας είναι το κύριο στην ειδική οδηγία "Host", την οποία μόνο αυτή η μηχανή αναζήτησης καταλαβαίνει (καλά, επίσης, το Mail.ru, επειδή έχουν αναζήτηση από Yandex). Είναι αλήθεια, στις αρχές του 2018 Το Yandex εξακολουθεί να ακυρώνει το Hostκαι τώρα οι λειτουργίες του, όπως και άλλων μηχανών αναζήτησης, εκτελούνται με μια ανακατεύθυνση 301.

Ακόμα κι αν ο πόρος σας δεν έχει καθρέφτες, θα είναι χρήσιμο να υποδείξετε ποια από τις ορθογραφίες είναι η κύρια - .

Τώρα ας μιλήσουμε λίγο για τη σύνταξη αυτού του αρχείου. Οι οδηγίες στο robots.txt μοιάζουν με αυτό:

<поле>:<пробел><значение><пробел> <поле>:<пробел><значение><пробел>

Ο σωστός κωδικός πρέπει να περιέχει τουλάχιστον μία οδηγία «Απαγόρευση».μετά από κάθε καταχώρηση "User-agent". Ένα κενό αρχείο προϋποθέτει άδεια για την ευρετηρίαση ολόκληρου του ιστότοπου.

χρήστης-πράκτορας

Οδηγία "User-agent".πρέπει να περιέχει το όνομα του ρομπότ αναζήτησης. Με αυτό, μπορείτε να ρυθμίσετε κανόνες συμπεριφοράς για κάθε συγκεκριμένη μηχανή αναζήτησης (για παράδειγμα, να δημιουργήσετε απαγόρευση δημιουργίας ευρετηρίου ενός ξεχωριστού φακέλου μόνο για το Yandex). Ένα παράδειγμα σύνταξης ενός "User-agent", που απευθύνεται σε όλα τα bots που έρχονται στον πόρο σας, μοιάζει με αυτό:

Πράκτορας χρήστη: *

Εάν θέλετε να ορίσετε "User-agent" συγκεκριμένες συνθήκεςμόνο για ένα ρομπότ, για παράδειγμα, το Yandex, τότε πρέπει να γράψετε ως εξής:

Πράκτορας χρήστη: Yandex

Το όνομα των ρομπότ της μηχανής αναζήτησης και ο ρόλος τους στο αρχείο robots.txt

Bot κάθε μηχανής αναζήτησηςέχει το δικό του όνομα (για παράδειγμα, για ένα rambler είναι StackRambler). Εδώ θα αναφέρω τα πιο διάσημα από αυτά:

Google http://www.google.com Googlebot Yandex http://www.ya.ru Yandex Bing http://www.bing.com/ bingbot

Για μεγάλες μηχανές αναζήτησης, μερικές φορές εκτός από τα κύρια ρομπότ, υπάρχουν επίσης ξεχωριστές περιπτώσεις για την ευρετηρίαση ιστολογίων, ειδήσεων, εικόνων και άλλων. Μπορείτε να λάβετε πολλές πληροφορίες για τους τύπους ρομπότ (για Yandex) και (για Google).

Πώς να είσαι σε αυτή την περίπτωση; Εάν πρέπει να γράψετε έναν κανόνα χωρίς ευρετηρίαση που πρέπει να ακολουθούν όλοι οι τύποι Googlebots, τότε χρησιμοποιήστε το όνομα Googlebot και θα υπακούουν και όλες οι άλλες αράχνες αυτής της μηχανής αναζήτησης. Ωστόσο, μπορείτε να απαγορεύσετε, για παράδειγμα, την ευρετηρίαση εικόνων καθορίζοντας το ρομπότ Googlebot-Image ως παράγοντα χρήστη. Τώρα δεν είναι πολύ σαφές, αλλά με παραδείγματα, νομίζω ότι θα είναι πιο εύκολο.

Παραδείγματα χρήσης των οδηγιών Disallow και Allow στο robots.txt

Επιτρέψτε μου να σας δώσω μερικά απλά παραδείγματα χρήσης οδηγιώνεξηγώντας τις πράξεις του.

Ο παρακάτω κώδικας επιτρέπει σε όλα τα ρομπότ (που υποδεικνύονται με έναν αστερίσκο στο User-agent) να ευρετηριάζουν όλο το περιεχόμενο χωρίς καμία εξαίρεση. Δίνεται κενή οδηγία απαγόρευσης. Πράκτορας χρήστη: * Απαγόρευση:
Ο παρακάτω κώδικας, αντίθετα, απαγορεύει εντελώς σε όλες τις μηχανές αναζήτησης να προσθέτουν σελίδες αυτού του πόρου στο ευρετήριο. Ορίζει αυτό σε Απαγόρευση με "/" στο πεδίο τιμής. Πράκτορας χρήστη: * Απαγόρευση: /
Σε αυτήν την περίπτωση, σε όλα τα bots θα απαγορεύεται η προβολή των περιεχομένων του καταλόγου /image/ (http://mysite.ru/image/ είναι η απόλυτη διαδρομή προς αυτόν τον κατάλογο) Χρήστης-πράκτορας: * Απαγόρευση: /image/
Για να αποκλείσετε ένα αρχείο, θα αρκεί να καταχωρίσετε την απόλυτη διαδρομή του προς αυτό (διαβάστε): User-agent: * Disallow: /katalog1//katalog2/private_file.html
Κοιτάζοντας λίγο μπροστά, θα πω ότι είναι πιο εύκολο να χρησιμοποιήσετε τον χαρακτήρα αστερίσκου (*) για να μην γράψετε την πλήρη διαδρομή:
Disallow: /*private_file.html
Στο παρακάτω παράδειγμα, ο κατάλογος "image" θα απαγορευτεί, καθώς και όλα τα αρχεία και οι κατάλογοι που ξεκινούν με τους χαρακτήρες "image", δηλαδή αρχεία: "image.htm", "images.htm", κατάλογοι: "image" , " images1", "image34", κ.λπ.): User-agent: * Disallow: /image Το γεγονός είναι ότι από προεπιλογή, υπονοείται ένας αστερίσκος στο τέλος της καταχώρισης, ο οποίος αντικαθιστά οποιουσδήποτε χαρακτήρες, συμπεριλαμβανομένης της απουσίας τους. Διαβάστε σχετικά παρακάτω.
Με τη χρήση επιτρέπουν οδηγίεςεπιτρέπουμε την πρόσβαση. Καλό συμπλήρωμα για το Disallow. Για παράδειγμα, με αυτήν την προϋπόθεση, απαγορεύουμε στο ρομπότ αναζήτησης Yandex να πραγματοποιεί λήψη (ευρετηρίαση) όλων εκτός από ιστοσελίδες των οποίων η διεύθυνση ξεκινά με /cgi-bin: User-agent: Yandex Allow: /cgi-bin Disallow: /
Λοιπόν, ή αυτό είναι ένα προφανές παράδειγμα χρήσης της δέσμης Allow and Disallow:
User-agent: * Disallow: /catalog Allow: /catalog/auto
Όταν περιγράφετε διαδρομές για οδηγίες Allow-Disallow, μπορείτε να χρησιμοποιήσετε τα σύμβολα "*" και "$", θέτοντας έτσι ορισμένες λογικές εκφράσεις.
1. Σύμβολο "*"(αστέρι)σημαίνει οποιαδήποτε (συμπεριλαμβανομένης της κενής) ακολουθίας χαρακτήρων. Το ακόλουθο παράδειγμα εμποδίζει όλες τις μηχανές αναζήτησης να δημιουργήσουν ευρετήρια αρχείων με την επέκταση ".php": User-agent: * Disallow: *.php$
2. Γιατί χρειάζεται στο τέλος σύμβολο $ (δολαρίου).? Το γεγονός είναι ότι, σύμφωνα με τη λογική της μεταγλώττισης του αρχείου robots.txt, προστίθεται ένας προεπιλεγμένος αστερίσκος στο τέλος κάθε οδηγίας (δεν υπάρχει, αλλά φαίνεται να υπάρχει). Για παράδειγμα γράφουμε: Disallow: /images
  Υποθέτοντας ότι είναι το ίδιο με:
  Απαγόρευση: /images*
  Εκείνοι. αυτός ο κανόνας απαγορεύει την ευρετηρίαση όλων των αρχείων (ιστοσελίδες, εικόνες και άλλοι τύποι αρχείων) των οποίων η διεύθυνση ξεκινά με /images και οτιδήποτε άλλο ακολουθεί (δείτε το παραπάνω παράδειγμα). Ορίστε λοιπόν σύμβολο $απλώς παρακάμπτει αυτόν τον προεπιλεγμένο (απροσδιόριστο) αστερίσκο στο τέλος. Για παράδειγμα:
  Απαγόρευση: /images$
  Απενεργοποιεί μόνο την ευρετηρίαση του αρχείου /images, όχι το /images.html ή το /images/primer.html. Λοιπόν, στο πρώτο παράδειγμα, απαγορεύαμε την ευρετηρίαση μόνο αρχείων που τελειώνουν σε .php (με τέτοια επέκταση), για να μην πιάσουμε τίποτα επιπλέον:
  Απαγόρευση: *.php$

Σε πολλές μηχανές, οι χρήστες (URL αναγνώσιμες από τον άνθρωπο), ενώ οι διευθύνσεις URL που δημιουργούνται από το σύστημα έχουν ένα ερωτηματικό "?" στη διεύθυνση. Μπορείτε να το χρησιμοποιήσετε και να γράψετε έναν τέτοιο κανόνα στο robots.txt: User-agent: * Disallow: /*?

Ο αστερίσκος μετά το ερωτηματικό υποδηλώνει τον εαυτό του, αλλά, όπως διαπιστώσαμε λίγο πιο πάνω, υπονοείται ήδη στο τέλος. Έτσι, θα απαγορεύσουμε την ευρετηρίαση σελίδων αναζήτησης και άλλων σελίδων υπηρεσίας που δημιουργούνται από τη μηχανή, στις οποίες μπορεί να φτάσει το ρομπότ αναζήτησης. Δεν θα είναι περιττό, επειδή το ερωτηματικό χρησιμοποιείται συχνότερα από το CMS ως αναγνωριστικό περιόδου λειτουργίας, το οποίο μπορεί να οδηγήσει σε διπλότυπες σελίδες που μπαίνουν στο ευρετήριο.

Οδηγίες χάρτη ιστότοπου και κεντρικού υπολογιστή (για Yandex) στο Robots.txt

Προκειμένου να αποφευχθούν δυσάρεστα προβλήματα με τους καθρέφτες ιστότοπου, προηγουμένως είχε προταθεί η προσθήκη της οδηγίας Host στο robots.txt, η οποία έδειξε το bot Yandex στον κύριο καθρέφτη.

Οδηγία κεντρικού υπολογιστή - καθορίζει τον κύριο καθρέφτη ιστότοπου για το Yandex

Για παράδειγμα, πριν, εάν δεν έχουν αλλάξει ακόμη σε ασφαλές πρωτόκολλο, ήταν απαραίτητο να υποδειχθεί στον κεντρικό υπολογιστή όχι η πλήρης διεύθυνση URL, αλλά το όνομα τομέα (χωρίς http://, δηλαδή .ru). Εάν έχετε ήδη μεταβεί στο https, τότε θα χρειαστεί να καθορίσετε την πλήρη διεύθυνση URL (όπως https://myhost.ru).

Ένα θαυμάσιο εργαλείο για την καταπολέμηση του διπλού περιεχομένου - η μηχανή αναζήτησης απλά δεν θα ευρετηριάσει τη σελίδα εάν έχει καταχωρηθεί διαφορετική διεύθυνση URL στο Canonical. Για παράδειγμα, για μια τέτοια σελίδα του ιστολογίου μου (μια σελίδα με σελιδοποίηση), η Canonical παραπέμπει στον ιστότοπο https: // και δεν θα πρέπει να υπάρχουν προβλήματα με την αντιγραφή τίτλων.

Αλλά ξεφεύγω...
Εάν το έργο σας βασίζεται σε οποιονδήποτε κινητήρα, τότε θα εμφανιστεί διπλό περιεχόμενομε μεγάλη πιθανότητα, που σημαίνει ότι πρέπει να το καταπολεμήσετε, συμπεριλαμβανομένης της απαγόρευσης στο robots.txt, και ειδικά στη μετα-ετικέτα, επειδή στην πρώτη περίπτωση, η Google μπορεί να αγνοήσει την απαγόρευση, αλλά δεν μπορεί πλέον να δώσει μια χαρά για τη μετα-ετικέτα (αναφέρθηκε έτσι).
Για παράδειγμα, σε Σελίδες WordPressμε πολύ παρόμοιο περιεχόμενο μπορεί να μπει στο ευρετήριο των μηχανών αναζήτησης εάν επιτρέπεται η ευρετηρίαση τόσο για το περιεχόμενο των κατηγοριών, για το περιεχόμενο του αρχείου ετικετών όσο και για το περιεχόμενο των προσωρινών αρχείων. Αλλά αν χρησιμοποιείτε τη μετα-ετικέτα Robots που περιγράφεται παραπάνω για να δημιουργήσετε μια απαγόρευση για το αρχείο ετικετών και την προσωρινή αρχειοθέτηση (μπορείτε να αφήσετε τις ετικέτες, αλλά να απαγορεύσετε την ευρετηρίαση των περιεχομένων των κατηγοριών), τότε δεν θα προκύψει αντιγραφή περιεχομένου. Πώς να το κάνετε αυτό περιγράφεται από τον σύνδεσμο που δίνεται ακριβώς παραπάνω (στο πρόσθετο OlInSeoPak)
Συνοψίζοντας, θα πω ότι το αρχείο Robots έχει σχεδιαστεί για να ορίζει παγκόσμιους κανόνες για την άρνηση πρόσβασης σε ολόκληρους καταλόγους του ιστότοπου ή σε αρχεία και φακέλους που περιέχουν δοσμένα σύμβολα(με μάσκα). Μπορείτε να δείτε παραδείγματα τέτοιων απαγορεύσεων λίγο υψηλότερα.
Τώρα ας αναλογιστούμε συγκεκριμένα παραδείγματαρομπότ σχεδιασμένα για διαφορετικούς κινητήρες - Joomla, WordPress και SMF. Φυσικά, και οι τρεις επιλογές που δημιουργήθηκαν για διαφορετικά CMS θα διαφέρουν σημαντικά (αν όχι ουσιαστικά) μεταξύ τους. Είναι αλήθεια ότι όλοι θα έχουν μια κοινή στιγμή και αυτή η στιγμή συνδέεται με τη μηχανή αναζήτησης Yandex.
Επειδή Το Yandex έχει αρκετά μεγάλο βάρος στο Runet, τότε πρέπει να λάβετε υπόψη όλες τις αποχρώσεις της δουλειάς του και εδώ Η οδηγία υποδοχής θα βοηθήσει. Θα υποδεικνύει ρητά σε αυτήν τη μηχανή αναζήτησης τον κύριο καθρέφτη του ιστότοπού σας.
Για αυτήν, συνιστάται η χρήση ενός ξεχωριστού ιστολογίου χρήστη-πρακτόρων, που προορίζεται μόνο για το Yandex (User-agent: Yandex). Αυτό οφείλεται στο γεγονός ότι άλλες μηχανές αναζήτησης ενδέχεται να μην κατανοούν το Host και, κατά συνέπεια, η συμπερίληψή του στην εγγραφή παράγοντα χρήστη που προορίζεται για όλες τις μηχανές αναζήτησης (User-agent: *) μπορεί να οδηγήσει σε αρνητικές συνέπειες και εσφαλμένη ευρετηρίαση.
Είναι δύσκολο να πούμε πώς είναι πραγματικά τα πράγματα, επειδή οι αλγόριθμοι αναζήτησης είναι ένα πράγμα από μόνοι τους, επομένως είναι καλύτερα να κάνετε όπως σας συμβουλεύουν. Αλλά σε αυτήν την περίπτωση, θα πρέπει να αντιγράψετε στην οδηγία User-agent: Yandex όλους τους κανόνες που ορίσαμε User-agent: * . Εάν αφήσετε το User-agent: Yandex με ένα κενό Disallow: , τότε με αυτόν τον τρόπο θα επιτρέψετε στο Yandex να πάει οπουδήποτε και να σύρει τα πάντα στο ευρετήριο.
Ρομπότ για WordPress
Δεν θα δώσω παράδειγμα αρχείου που προτείνουν οι προγραμματιστές. Μπορείτε να το παρακολουθήσετε μόνοι σας. Πολλοί bloggers δεν περιορίζουν καθόλου τα ρομπότ Yandex και Google στις βόλτες τους στο περιεχόμενο της μηχανής WordPress. Τις περισσότερες φορές στα ιστολόγια μπορείτε να βρείτε ρομπότ που συμπληρώνονται αυτόματα με ένα πρόσθετο.
Όμως, κατά τη γνώμη μου, πρέπει να βοηθήσει κανείς την αναζήτηση στο δύσκολο έργο του κοσκινίσματος του σίτου από την ήρα. Πρώτον, θα χρειαστεί πολύς χρόνος για τα ρομπότ Yandex και Google να ευρετηριάσουν αυτά τα σκουπίδια και μπορεί να μην υπάρχει καθόλου χρόνος για να προσθέσετε ιστοσελίδες με τα νέα σας άρθρα στο ευρετήριο. Δεύτερον, τα bots που σέρνονται στα ανεπιθύμητα αρχεία του κινητήρα θα δημιουργήσουν ένα επιπλέον φορτίο στον διακομιστή του κεντρικού υπολογιστή σας, κάτι που δεν είναι καλό.
Μπορείτε να δείτε την δική μου έκδοση αυτού του αρχείου μόνοι σας. Είναι παλιό, δεν έχει αλλάξει εδώ και πολύ καιρό, αλλά προσπαθώ να ακολουθήσω την αρχή «μην διορθώνεις ό,τι δεν χάλασε» και εξαρτάται από εσάς να αποφασίσετε: χρησιμοποιήστε το, φτιάξτε το δικό σας ή δείτε από κάποιον άλλο . Είχα ακόμα απαγόρευση δημιουργίας ευρετηρίου σελίδων με σελιδοποίηση εκεί μέχρι πρόσφατα (Disallow: */page/), αλλά πρόσφατα το αφαίρεσα, βασιζόμενος στο Canonical, για το οποίο έγραψα παραπάνω.
Αλλά γενικά, το μόνο σωστό αρχείογια το WordPress, μάλλον δεν υπάρχει. Είναι δυνατόν, βέβαια, να εφαρμοστούν τυχόν προαπαιτούμενα σε αυτό, αλλά ποιος είπε ότι θα ήταν σωστό. Υπάρχουν πολλές επιλογές για ιδανικό robots.txt στον ιστό.
Θα δώσω δύο άκρα:
μπορείτε να βρείτε ένα megafile με λεπτομερείς επεξηγήσεις (το σύμβολο # διαχωρίζει σχόλια που θα ήταν καλύτερα να αφαιρεθούν σε πραγματικό αρχείο): User-agent: * # γενικοί κανόνες για ρομπότ, εκτός από την Yandex και την Google, # επειδή οι κανόνες για αυτούς είναι παρακάτω Απαγορεύεται: /cgi-bin # φάκελος φιλοξενίας Απαγορεύεται: /? # όλες οι επιλογές ερωτήματος στην κύρια σελίδα Απαγόρευση: /wp- # όλα τα αρχεία WP: /wp-json/, /wp-includes, /wp-content/plugins Απαγόρευση: /wp/ # εάν υπάρχει υποκατάλογος /wp/ όπου το CMS είναι εγκατεστημένο (εάν όχι, μπορεί να αφαιρεθεί # κανόνας) Απαγόρευση: *?s= # αναζήτηση Απαγόρευση: *&s= # αναζήτηση Απαγόρευση: /search/ # αναζήτηση Απαγόρευση: /author/ # αρχείο συγγραφέα Απαγόρευση: /users/ # αρχείο συγγραφέων Απαγόρευση: */ trackback # trackbacks, ειδοποιήσεις στα σχόλια όταν εμφανίζεται ένας ανοιχτός σύνδεσμος # άρθρου Απαγόρευση: */feed # όλες οι ροές Απαγορεύεται: */rss # rss feed Απαγορεύεται: */embed # όλες οι ενσωματώσεις Απαγορεύεται: */wlwmanifest .xml # manifest xml αρχείο Windows Live Writer (εάν δεν χρησιμοποιείται, # μπορεί να αφαιρεθεί) Απαγόρευση: /xmlrpc.php # Αρχείο API WordPress Απαγόρευση: *utm= # utm-tagged links Disallow: *openstat= # openstat-tagged links Allow : */uploads # ανοιχτός φάκελος με μεταφορτώσεις αρχείων User-agent: GoogleBot # κανόνες για την Google (μην διπλασιάζονται σχόλια) Απαγόρευση: /cgi-bin Απαγόρευση: /? Disallow: /wp- Disallow: /wp/ Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */ rss Disallow: */embed Disallow: */wlwmanifest.xml Disallow: /xmlrpc.php Disallow: *utm= Disallow: *openstat= Allow: */uploads Allow: /*/*.js # open js scripts into /wp - (/*/ - για προτεραιότητα) Να επιτρέπεται: /*/*.css # άνοιγμα αρχείων css μέσα στο /wp- (/*/ - για προτεραιότητα) Να επιτρέπεται: /wp-*.png # εικόνες σε πρόσθετα, φάκελος προσωρινής μνήμης κ.λπ. Να επιτρέπονται: /wp-*.jpg # εικόνες σε προσθήκες, φάκελο προσωρινής μνήμης κ.λπ. Να επιτρέπονται: /wp-*.jpeg # εικόνες σε προσθήκες, φάκελο προσωρινής μνήμης κ.λπ. Να επιτρέπονται: /wp-*.gif # εικόνες σε πρόσθετα, φάκελο προσωρινής μνήμης κ.λπ. Να επιτρέπεται: /wp-admin/admin-ajax.php # που χρησιμοποιείται από προσθήκες για να μην μπλοκάρει το JS και το CSS Πράκτορας χρήστη: Yandex # κανόνες για το Yandex (μην διπλασιάζονται σχόλια) Να μην επιτρέπεται: /cgi-bin Να μην επιτρέπεται: /? Disallow: /wp- Disallow: /wp/ Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */ rss Disallow: */embed Disallow: */wlwmanifest.xml Disallow: /xmlrpc.php Allow: */uploads Allow: /*/*.js Allow: /*/*.css Allow: /wp-*.png Allow: /wp-*.jpg Allow: /wp-*.jpeg Allow: /wp-*.gif Allow: /wp-admin/admin-ajax.php Clean-Param: utm_source&utm_medium&utm_campaign # Η Yandex συνιστά να μην κλείσετε # από την ευρετηρίαση, αλλά να διαγράψετε παραμέτρους ετικέτας, # Η Google δεν υποστηρίζει τέτοιους κανόνες Clean-Param: openstat # παρόμοια # Καθορίστε ένα ή περισσότερα αρχεία χάρτη ιστότοπου (δεν χρειάζεται να κάνετε διπλότυπα για κάθε παράγοντα χρήστη #). Το Google XML Sitemap δημιουργεί 2 χάρτες ιστότοπου όπως στο παρακάτω παράδειγμα. Χάρτης ιστότοπου: http://site.ru/sitemap.xml Χάρτης ιστότοπου: http://site.ru/sitemap.xml.gz # Καθορίστε τον κύριο καθρέφτη του ιστότοπου, όπως στο παρακάτω παράδειγμα (με WWW / χωρίς WWW, εάν HTTPS # στη συνέχεια γράψτε το πρωτόκολλο, εάν θέλετε να καθορίσετε τη θύρα, καθορίστε). Η εντολή Host κατανοεί # Yandex και Mail.RU, η Google δεν λαμβάνει υπόψη. Διοργανωτής: www.site.ru
Ακολουθεί ένα παράδειγμα μινιμαλισμού: User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php Κεντρικός υπολογιστής: https://site.ru Χάρτης ιστότοπου: https://site. ru/ sitemap.xml

Η αλήθεια μάλλον βρίσκεται κάπου στη μέση. Επίσης, μην ξεχάσετε να καταχωρήσετε τη μετα-ετικέτα Robots για "έξτρα" σελίδες, για παράδειγμα, χρησιμοποιώντας το υπέροχο πρόσθετο - . Θα βοηθήσει επίσης στη δημιουργία του Canonical.
Σωστό robots.txt για Joomla
User-agent: * Disallow: /administrator/ Disallow: /bin/ Disallow: /cache/ Disallow: /cli/ Disallow: /components/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /layouts/ Disallow: /libraries/ Disallow: /logs/ Disallow: /modules/ Disallow: /plugins/ Disallow: /tmp/
Κατ 'αρχήν, σχεδόν τα πάντα λαμβάνονται υπόψη εδώ και λειτουργεί καλά. Το μόνο πράγμα είναι ότι πρέπει να προσθέσετε έναν ξεχωριστό παράγοντα χρήστη: τον κανόνα Yandex για να εισαγάγετε την οδηγία Host που ορίζει τον κύριο καθρέφτη για το Yandex, καθώς και να καθορίσετε τη διαδρομή προς το αρχείο Χάρτη ιστότοπου.
Επομένως, στην τελική μορφή, τα σωστά ρομπότ για το Joomla, κατά τη γνώμη μου, θα πρέπει να μοιάζουν με αυτό:
Πράκτορας χρήστη: Yandex Disallow: /administrator/ Disallow: /cache/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /modules/ Disallow: /plugins/ Disallow: /tmp/ Disallow: /layouts/ Disallow: /cli/ Disallow: /bin/ Disallow: /logs/ Disallow: /components/ Disallow: /component/ Disallow: /component/tags* Disallow: /*mailto/ Disallow: /*.pdf Disallow : /*% Disallow: /index.php Κεντρικός υπολογιστής: vash_sait.ru (ή www.vash_sait.ru) Πράκτορας χρήστη: * Allow: /*.css?*$ Allow: /*.js?*$ Allow: /* .jpg?*$ Allow: /*.png?*$ Disallow: /administrator/ Disallow: /cache/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /modules/ Disallow : /plugins/ Disallow: /tmp/ Disallow: /layouts/ Disallow: /cli/ Disallow: /bin/ Disallow: /logs/ Disallow: /components/ Disallow: /component/ Disallow: /*mailto/ Disallow: /*. pdf Disallow: /*% Disallow: /index.php Χάρτης ιστότοπου: http://path στο χάρτη σας Μορφή XML
Ναι, σημειώστε επίσης ότι στη δεύτερη επιλογή υπάρχουν οδηγίες Να επιτρέπεται, επιτρέποντας την ευρετηρίαση στυλ, σεναρίων και εικόνων. Αυτό γράφτηκε ειδικά για την Google, επειδή το Googlebot του ορκίζεται μερικές φορές ότι η δημιουργία ευρετηρίου αυτών των αρχείων απαγορεύεται σε ρομπότ, για παράδειγμα, από το φάκελο με το θέμα που χρησιμοποιείται. Απειλεί μάλιστα να κατεβάσει την κατάταξη για αυτό.
Επομένως, επιτρέπουμε την εκ των προτέρων ευρετηρίαση ολόκληρου του θέματος χρησιμοποιώντας το Allow. Παρεμπιπτόντως, το ίδιο συνέβη και στο δείγμα αρχείου για το WordPress.

Καλή σου τύχη! Τα λέμε σύντομα στον ιστότοπο των σελίδων του ιστολογίου
Μπορεί να σας ενδιαφέρει
Τομείς με και χωρίς www - το ιστορικό της εμφάνισής τους, χρησιμοποιώντας 301 ανακατευθύνσεις για να τα κολλήσετε μεταξύ τους
Καθρέφτες, διπλότυπες σελίδες και διευθύνσεις URL - έλεγχος του ιστότοπού σας ή ποια θα μπορούσε να είναι η αιτία της κατάρρευσης κατά την προώθηση SEO SEO για αρχάριους: 10 βασικά στοιχεία για έναν τεχνικό έλεγχο ιστότοπου
Bing webmaster - κέντρο για webmasters από τη μηχανή αναζήτησης Bing
Google Webmaster - Search Console Tools (Google Webmaster)
Πώς να αποφύγετε κοινά λάθη κατά την προώθηση μιας ιστοσελίδας
Πώς να προωθήσετε τον ιστότοπο μόνοι σας, βελτιώνοντας την εσωτερική βελτιστοποίηση για λέξεις-κλειδιάκαι την αφαίρεση διπλού περιεχομένου
Yandex Webmaster - ευρετηρίαση, σύνδεσμοι, ορατότητα ιστότοπου, επιλογή περιοχής, έλεγχος συγγραφής και ιών στο Yandex Webmaster

Το αρχείο sitemap.xml και το σωστό robots.txt για τον ιστότοπο είναι δύο υποχρεωτικά έγγραφα που συμβάλλουν στη γρήγορη και πλήρη ευρετηρίαση όλων των απαραίτητων σελίδων του πόρου Ιστού από ρομπότ αναζήτησης. Η σωστή ευρετηρίαση ιστότοπων σε Yandex και Google είναι το κλειδί για την επιτυχημένη προώθηση ιστολογίου στις μηχανές αναζήτησης.

Πώς να φτιάξετε έναν χάρτη ιστότοπου Μορφή XMLκαι γιατί το χρειάζομαι, έγραψα ήδη. Και τώρα ας μιλήσουμε για το πώς να δημιουργήσετε το σωστό robots.txt για έναν ιστότοπο WordPress και γιατί είναι απαραίτητο. Λεπτομερείς πληροφορίεςσχετικά με αυτό το αρχείο μπορείτε να λάβετε από το Yandex και την ίδια την Google, αντίστοιχα, και. Θα θίξω την ίδια την ουσία και θα αγγίξω τις κύριες ρυθμίσεις robots.txt για το WordPress χρησιμοποιώντας το αρχείο μου ως παράδειγμα.

Γιατί χρειάζεστε ένα αρχείο robots.txt για έναν ιστότοπο

Το πρότυπο robots.txt εισήχθη τον Ιανουάριο του 1994. Κατά την ανίχνευση ενός πόρου Ιστού, τα ρομπότ αναζήτησης αναζητούν πρώτα το αρχείο κειμένου robots.txt που βρίσκεται στον ριζικό φάκελο ενός ιστότοπου ή ενός ιστολογίου. Με τη βοήθειά του, μπορούμε να καθορίσουμε ορισμένους κανόνες για τα ρομπότ διαφορετικών μηχανών αναζήτησης, σύμφωνα με τους οποίους θα ευρετηριάσουν τον ιστότοπο.

Η σωστή ρύθμιση του robots.txt θα επιτρέψει:

εξαιρέστε διπλότυπα και διάφορες σελίδες σκουπιδιών από το ευρετήριο.
να επιβάλουμε απαγόρευση της δημιουργίας ευρετηρίου σελίδων, αρχείων και φακέλων που θέλουμε να αποκρύψουμε.
γενικά αρνούνται την ευρετηρίαση σε ορισμένα ρομπότ αναζήτησης (για παράδειγμα, Yahoo, για απόκρυψη πληροφοριών σχετικά με εισερχόμενους συνδέσμους από ανταγωνιστές).
υποδείξτε τον κύριο καθρέφτη του ιστότοπου (με www ή χωρίς www).
καθορίστε τη διαδρομή προς τον χάρτη ιστότοπου sitemap.xml.

Πώς να δημιουργήσετε το σωστό robots.txt για έναν ιστότοπο

Για το σκοπό αυτό, υπάρχουν ειδικές γεννήτριες και πρόσθετα, αλλά είναι πιο σωστό να το κάνετε χειροκίνητα.

Απλά πρέπει να δημιουργήσετε ένα αρχείο απλού κειμένου που ονομάζεται robots.txt χρησιμοποιώντας οποιοδήποτε επεξεργαστής κειμένου(για παράδειγμα, Σημειωματάριο ή Σημειωματάριο ++) και ανεβάστε το στη φιλοξενία στον ριζικό φάκελο του ιστολογίου. Σε αυτό το αρχείο, πρέπει να γράψετε ορισμένες οδηγίες, π.χ. κανόνες ευρετηρίασης για ρομπότ Yandex, Google κ.λπ.

Εάν είστε πολύ τεμπέλης για να ασχοληθείτε με αυτό, τότε παρακάτω θα δώσω ένα παράδειγμα, από την άποψή μου, του σωστού robots.txt για WordPress από το ιστολόγιό μου. Μπορείτε να το χρησιμοποιήσετε αντικαθιστώντας το όνομα τομέα σε τρία σημεία.

Κανόνες και Οδηγίες δημιουργίας Robots.txt

Για επιτυχημένη βελτιστοποίηση μηχανών αναζήτησης blog, πρέπει να γνωρίζετε ορισμένους κανόνες για τη δημιουργία robots.txt:

Η απουσία ή το κενό αρχείο robots.txt σημαίνει ότι οι μηχανές αναζήτησης επιτρέπεται να ευρετηριάζουν όλο το περιεχόμενο του πόρου Ιστού.
Το robots.txt θα πρέπει να ανοίξει στο site.ru/robots.txt σας, δίνοντας στο ρομπότ έναν κωδικό απόκρισης 200 ΟΚ και μέγεθος όχι μεγαλύτερο από 32 KB. Ένα αρχείο που δεν μπορεί να ανοίξει (για παράδειγμα, λόγω σφάλματος 404) ή είναι μεγαλύτερο θα θεωρείται επιτρεπτό.
Ο αριθμός των οδηγιών στο αρχείο δεν πρέπει να υπερβαίνει τις 1024. Το μήκος μιας γραμμής δεν πρέπει να υπερβαίνει τους 1024 χαρακτήρες.
Ένα έγκυρο αρχείο robots.txt μπορεί να έχει πολλές οδηγίες, καθεμία από τις οποίες πρέπει να ξεκινά με μια οδηγία παράγοντα χρήστη και πρέπει να περιέχει τουλάχιστον μία οδηγία απαγόρευσης. Συνήθως γράφουν οδηγίες στο robots.txt για την Google και όλα τα άλλα ρομπότ και ξεχωριστά για το Yandex.

Κύριες οδηγίες robots.txt:

User-agent - υποδεικνύει σε ποιο πρόγραμμα ανίχνευσης απευθύνεται η οδηγία.

Το σύμβολο "*" σημαίνει ότι αυτό ισχύει για όλα τα ρομπότ, για παράδειγμα:

Πράκτορας χρήστη: *

Εάν πρέπει να δημιουργήσουμε έναν κανόνα στο robots.txt για το Yandex, τότε γράφουμε:

Πράκτορας χρήστη: Yandex

Εάν μια οδηγία έχει καθοριστεί για ένα συγκεκριμένο ρομπότ, η οδηγία User-agent: * αγνοείται από αυτό.

Disallow και Allow - αντίστοιχα, απαγορεύουν και επιτρέπουν στα ρομπότ να ευρετηριάζουν τις καθορισμένες σελίδες. Όλες οι διευθύνσεις πρέπει να προσδιορίζονται από τη ρίζα του ιστότοπου, δηλ. ξεκινώντας από την τρίτη κάθετο. Για παράδειγμα:

Απαγόρευση ευρετηρίασης ολόκληρου του ιστότοπου για όλα τα ρομπότ:
Πράκτορας χρήστη: *
απαγόρευση:/
Απαγορεύεται η ευρετηρίαση του Yandex σε όλες τις σελίδες που ξεκινούν με /wp-admin:
Πράκτορας χρήστη: Yandex
Απαγόρευση: /wp-admin
Μια κενή οδηγία Απαγόρευσης επιτρέπει τα πάντα να ευρετηριαστούν και είναι παρόμοια με την Αποδοχή. Για παράδειγμα, επιτρέπω στο Yandex να ευρετηριάζει ολόκληρο τον ιστότοπο:
Πράκτορας χρήστη: Yandex
Απαγορεύω:
Και αντίστροφα, απαγορεύω την ευρετηρίαση όλων των σελίδων από όλα τα ρομπότ αναζήτησης:
Πράκτορας χρήστη: *
επιτρέπω:
Οι οδηγίες Allow and Disallow από το ίδιο μπλοκ User-agent ταξινομούνται κατά μήκος του προθέματος URL και εκτελούνται διαδοχικά. Εάν πολλές οδηγίες είναι κατάλληλες για μία σελίδα του ιστότοπου, τότε εκτελείται η τελευταία στη λίστα. Τώρα η σειρά της γραφής τους δεν έχει σημασία για τη χρήση των οδηγιών από το ρομπότ. Εάν οι οδηγίες έχουν προθέματα ίδιου μήκους, τότε εκτελείται πρώτα το Allow. Οι κανόνες αυτοί τέθηκαν σε ισχύ στις 8 Μαρτίου 2012. Για παράδειγμα, επιτρέπει την ευρετηρίαση μόνο σελίδων που ξεκινούν με /wp-includes:
Πράκτορας χρήστη: Yandex
απαγόρευση:/
Να επιτρέπεται: /wp-includes

Χάρτης ιστότοπου - Καθορίζει τη διεύθυνση URL του χάρτη ιστοτόπου XML. Ένας ιστότοπος μπορεί να έχει πολλούς οδηγίες χάρτη ιστότοπου, το οποίο μπορεί να είναι ένθετο. Όλες οι διευθύνσεις αρχείων χάρτη ιστότοπου πρέπει να προσδιορίζονται στο robots.txt για να επιταχυνθεί η ευρετηρίαση ιστότοπου:

Χάρτης ιστότοπου: http://site/sitemap.xml.gz
Χάρτης ιστότοπου: http://site/sitemap.xml

Host - λέει στο ρομπότ καθρέφτη ποιος καθρέφτης του ιστότοπου θεωρείται ο κύριος.

Εάν ο ιστότοπος είναι διαθέσιμος σε πολλές διευθύνσεις (για παράδειγμα, με www και χωρίς www), τότε δημιουργείται πλήρεις διπλότυπες σελίδες για τις οποίες μπορείτε να μπείτε κάτω από το φίλτρο. Επίσης, σε αυτήν την περίπτωση, δεν μπορεί να ευρετηριαστεί η κύρια σελίδα, αλλά η κύρια, αντίθετα, θα εξαιρεθεί από το ευρετήριο της μηχανής αναζήτησης. Για να αποφευχθεί αυτό, χρησιμοποιείται η οδηγία Host, η οποία προορίζεται στο αρχείο robots.txt μόνο για το Yandex και μπορεί να είναι μόνο μία. Είναι γραμμένο μετά το Disallow and Allow και μοιάζει με αυτό:

οικοδεσπότης: ιστότοπος

Καθυστέρηση ανίχνευσης - ορίζει την καθυστέρηση μεταξύ των λήψεων σελίδων σε δευτερόλεπτα. Χρησιμοποιείται εάν υπάρχει μεγάλο φόρτο και ο διακομιστής δεν έχει χρόνο να επεξεργαστεί αιτήματα. Σε νέους ιστότοπους, είναι προτιμότερο να μην χρησιμοποιείτε την οδηγία Crawl-Delay. Η ίδια γράφει ως εξής:

Πράκτορας χρήστη: Yandex
Καθυστέρηση ανίχνευσης: 4

Clean-param - υποστηρίζεται μόνο από το Yandex και χρησιμοποιείται για την εξάλειψη διπλότυπων σελίδων με μεταβλητές, κολλώντας τις σε μία. Έτσι, το ρομπότ Yandex δεν θα κατεβάζει πολλές φορές παρόμοιες σελίδες, για παράδειγμα, αυτές που σχετίζονται με συνδέσμους παραπομπής. Δεν έχω χρησιμοποιήσει ακόμα αυτήν την οδηγία, αλλά στη βοήθεια robots.txt για το Yandex, στον σύνδεσμο στην αρχή του άρθρου, μπορείτε να διαβάσετε αναλυτικά αυτήν την οδηγία.

Οι ειδικοί χαρακτήρες * και $ χρησιμοποιούνται στο robots.txt για να καθορίσουν τις διαδρομές των οδηγιών Disallow και Allow:

Ο ειδικός χαρακτήρας "*" σημαίνει οποιαδήποτε ακολουθία χαρακτήρων. Για παράδειγμα, Disallow: /*?* σημαίνει απαγόρευση σε οποιεσδήποτε σελίδες όπου εμφανίζεται το "?" στη διεύθυνση, ανεξάρτητα από τους χαρακτήρες που εμφανίζονται πριν και μετά από αυτόν τον χαρακτήρα. Από προεπιλογή, ο ειδικός χαρακτήρας "*" προστίθεται στο τέλος κάθε κανόνα, ακόμα κι αν δεν είναι γραμμένος συγκεκριμένα.
Ο χαρακτήρας "$" ακυρώνει το "*" στο τέλος του κανόνα και σημαίνει αυστηρή αντιστοίχιση. Για παράδειγμα, η οδηγία Disallow: /*?$ θα απαγορεύσει την ευρετηρίαση σελίδων που τελειώνουν με «?».

Παράδειγμα WordPress robots.txt

Ακολουθεί ένα παράδειγμα του αρχείου robots.txt για ένα ιστολόγιο WordPress:

User-agent: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Απαγόρευση: /wp-content/cache Απαγόρευση: /wp-content/themes Απαγόρευση: / trackback Disallow: */trackback Disallow: */*/trackback Disallow: /feed/ Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Disallow: /?s= User-agent: Yandex Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Απαγόρευση: /wp-content/themes Απαγόρευση: /trackback Απαγόρευση: */ trackback Disallow: */*/trackback Disallow: /feed/ Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Disallow: /?.ru/sitemap.xml..xml

Για να μην ξεγελαστείτε με τη δημιουργία του σωστού robots.txt για WordPress, μπορείτε να χρησιμοποιήσετε αυτό το αρχείο. Δεν υπάρχουν προβλήματα με την ευρετηρίαση. Έχω ένα σενάριο προστασίας αντιγραφής, επομένως θα είναι πιο βολικό να κάνετε λήψη του τελικού robots.txt και να το ανεβάσετε στη φιλοξενία σας. Απλώς μην ξεχάσετε να αντικαταστήσετε το όνομα του ιστότοπού μου με το δικό σας στις οδηγίες κεντρικού υπολογιστή και χάρτη ιστότοπου.

Χρήσιμες προσθήκες για τη σωστή διαμόρφωση του αρχείου robots.txt για WordPress

Αν δενδρικά σχόλια είναι εγκατεστημένα στο ιστολόγιό σας στο WordPress, δημιουργούν διπλότυπες σελίδες όπως ?replytocom= . Στο robots.txt, τέτοιες σελίδες κλείνουν με την οδηγία Disallow: /*?*. Αλλά αυτό δεν είναι διέξοδος και είναι καλύτερο να αφαιρέσετε τις απαγορεύσεις, αλλά να αντιμετωπίσετε το replytocom με διαφορετικό τρόπο. Τι, .

Έτσι, το τρέχον robots.txt για τον Ιούλιο του 2014 μοιάζει με αυτό:

Πράκτορας χρήστη: * Disallow: /wp-includes Disallow: /wp-feed Disallow: /wp-content/plugins Απαγόρευση: /wp-content/cache Απαγόρευση: /wp-content/themes Πράκτορας χρήστη: Yandex Disallow: /wp -περιλαμβάνει Απαγόρευση: /wp-feed Απαγόρευση: /wp-content/plugins Απαγόρευση: /wp-content/cache Απαγόρευση: /wp-content/themes Κεντρικός υπολογιστής: site.ru Πράκτορας χρήστη: Googlebot-Image Allow: /wp-content /uploads/ Πράκτορας χρήστη: YandexImages Allow: /wp-content/uploads/ Χάρτης ιστότοπου: http://site.ru/sitemap.xml

Περιέχει επιπλέον κανόνες για ρομπότ ευρετηρίου εικόνων.

Πράκτορας χρήστη: Mediapartners-Google
Απαγορεύω:

Εάν σκοπεύετε να προωθήσετε σελίδες κατηγοριών ή ετικετών, τότε θα πρέπει να τις ανοίξετε για ρομπότ. Για παράδειγμα, σε έναν ιστότοπο ιστολογίου, οι ενότητες δεν κλείνουν από την ευρετηρίαση, καθώς σε αυτές δημοσιεύονται μόνο μικρές ανακοινώσεις άρθρων, κάτι που είναι αρκετά ασήμαντο όσον αφορά την αντιγραφή περιεχομένου. Και αν χρησιμοποιήσετε την έξοδο των εισαγωγικών στη ροή του ιστολογίου, τα οποία είναι γεμάτα με μοναδικές ανακοινώσεις, τότε δεν θα υπάρξει καμία διπλή αναπαραγωγή.

Εάν δεν χρησιμοποιείτε το παραπάνω πρόσθετο, τότε μπορείτε να καθορίσετε στο αρχείο robots.txt την απαγόρευση δημιουργίας ευρετηρίου ετικετών, κατηγοριών και αρχείων. Για παράδειγμα, προσθέτοντας αυτές τις γραμμές:

Απαγόρευση: /author/
Απαγόρευση: /tag
Απαγόρευση: /category/*/*
Απαγόρευση: /20*

Μην ξεχάσετε να ελέγξετε το αρχείο robots.txt στον πίνακα Yandex.Webmaster και, στη συνέχεια, να το ανεβάσετε ξανά στη φιλοξενία.

Εάν έχετε οποιεσδήποτε προσθήκες για τη ρύθμιση του robots.txt, γράψτε σχετικά στα σχόλια. Τώρα παρακολουθήστε ένα βίντεο σχετικά με το τι είναι και πώς να δημιουργήσετε το σωστό robots.txt για τον ιστότοπο, πώς να απενεργοποιήσετε την ευρετηρίαση στο αρχείο robots.txt και να διορθώσετε σφάλματα.

Ακριβώς για το συγκρότημα. Προγράμματα. Σίδερο. Διαδίκτυο. Windows

αρχείο txt robots. Πώς να επεξεργαστείτε τα robots txt. Χρησιμοποιώντας ειδικούς χαρακτήρες * και $

Τι είναι το robots.txt και σε τι χρησιμεύει

Πώς να δημιουργήσετε το σωστό αρχείο Robots.txt για έναν ιστότοπο

Ρύθμιση του αρχείου Robots.txt: ευρετηρίαση, κύριος καθρέφτης, οδηγίες

Απαγόρευση: Απαγόρευση δημιουργίας ευρετηρίου

Πώς να ανοίξετε έναν ιστότοπο για ευρετηρίαση

Καθρέφτης του κύριου ιστότοπου

Χάρτης ιστότοπου: χάρτης ιστότοπου robots.txt

Οδηγία Clean-param

Οδηγία καθυστέρησης ανίχνευσης

Τι είδους ρομπότ είναι πρώην;

Γιατί χρειάζεστε ένα αρχείο robots.txt

Πώς να δημιουργήσετε ένα αρχείο robots.txt

Χρήστης-πράκτορας - επαγγελματική κάρτα για ρομπότ

Απαγόρευση - τοποθετούμε "τούβλα"

Επιτρέψτε - κατευθύνετε ρομπότ

Κεντρικός υπολογιστής - επιλέξτε έναν καθρέφτη ιστότοπου

Χάρτης ιστότοπου - χάρτης ιατρικού ιστότοπου

Καθυστέρηση ανίχνευσης - χρονόμετρο για αδύναμους διακομιστές

Clean-param - Duplicate Content Hunter

Σύμβολα στο robots.txt

Πώς μοιάζει το ιδανικό robots.txt;

Πώς να ελέγξετε το αρχείο robots.txt

Πώς να μην συμπληρώσετε το αρχείο robots.txt

Μη τυπική χρήση του robots.txt

συμπεράσματα

Πώς να συνθέσετε το σωστό robots.txt

οδηγίες robots.txt

Οδηγία για πράκτορες χρήστη

Απαγόρευση και Αποδοχή οδηγιών

Οδηγία χάρτη ιστότοπου

Οδηγία υποδοχής

Οδηγία καθυστέρησης ανίχνευσης

Οδηγία Clean-param

Ρύθμιση robots.txt

Robots.txt για Yandex (Yandex)

Robots.txt - Οδηγία χρήστη-πράκτορα και ρομπότ μηχανών αναζήτησης

χρήστης-πράκτορας

Το όνομα των ρομπότ της μηχανής αναζήτησης και ο ρόλος τους στο αρχείο robots.txt

Παραδείγματα χρήσης των οδηγιών Disallow και Allow στο robots.txt

Οδηγίες χάρτη ιστότοπου και κεντρικού υπολογιστή (για Yandex) στο Robots.txt

Οδηγία κεντρικού υπολογιστή - καθορίζει τον κύριο καθρέφτη ιστότοπου για το Yandex

Ρομπότ για WordPress

Σωστό robots.txt για Joomla

Πώς να δημιουργήσετε το σωστό robots.txt για έναν ιστότοπο

Κανόνες και Οδηγίες δημιουργίας Robots.txt

Παράδειγμα WordPress robots.txt

Χρήσιμες προσθήκες για τη σωστή διαμόρφωση του αρχείου robots.txt για WordPress