집 흥미로운 robots txt 파일의 소스 코드입니다. 얀덱스 로봇. 크롤링 지연 - 약한 서버를 위한 스톱워치

robots txt 파일의 소스 코드입니다. 얀덱스 로봇. 크롤링 지연 - 약한 서버를 위한 스톱워치

robots.txt 파일은 대부분의 사이트에 필요합니다.

각 SEO 최적화 프로그램은 이 파일의 의미를 이해하고 가장 많이 요청되는 지시문을 처방할 수 있어야 합니다.

적절하게 구성된 로봇은 검색 결과에서 사이트의 위치를 향상시키고 다른 프로모션 방법 중에서 효과적인 SEO 도구입니다.

robots.txt가 무엇이고 어떻게 작동하는지 이해하기 위해 검색 엔진이 어떻게 작동하는지 기억합시다.

확인하려면 주소 표시줄에 루트 도메인을 입력한 다음 URL 끝에 /robots.txt를 추가하세요.

예를 들어, Moz 로봇 파일은 moz.com/robots.txt에 있습니다. 입력하고 페이지를 가져옵니다.

"로봇"에 대한 지침

robots.txt 파일을 만드는 방법은 무엇입니까?

robots.txt에 대한 3가지 유형의 지침.

robots.txt 파일이 누락된 경우 쉽게 생성할 수 있습니다.

이 기사의 시작 부분에서 이미 언급했듯이 이것은 사이트의 루트 디렉토리에 있는 일반 텍스트 파일입니다.

관리자 패널이나 파일 관리자를 통해 수행할 수 있으며 프로그래머는 사이트의 파일을 사용합니다.

우리는 기사 과정에서 어떻게 그리고 무엇을 처방해야하는지 알아낼 것입니다.

검색 엔진은 이 파일에서 세 가지 유형의 지침을 수신합니다.

모든 것을 스캔하십시오. 전체 권한(허용하다);
아무것도 스캔할 수 없습니다 - 완전한 금지(허용 안 함);
개별 요소(표시된 요소)를 스캔하는 것은 불가능합니다 - 부분 액세스.

실제로는 다음과 같습니다.

이 사이트나 외부에 링크가 설치되어 있으면 페이지가 SERP에 들어갈 수 있습니다.

이를 더 잘 이해하기 위해 이 파일의 구문을 살펴보겠습니다.

Robots.Txt 구문

Robots.txt: 어떻게 생겼나요?

중요 사항: 로봇에 대해 항상 기억해야 할 사항.

웹사이트에서 자주 볼 수 있는 7가지 일반적인 용어.

가장 간단한 형태의 로봇은 다음과 같습니다.

사용자 에이전트: [지시문을 작성하는 시스템의 이름] 허용하지 않음: 사이트맵: [사이트맵이 있는 위치를 나타냄] # 규칙 1 사용자 에이전트: Googlebot 허용하지 않음: /prim1/ 사이트맵: http://www.nashsite.com / 사이트맵.xml

이 세 줄은 함께 가장 단순한 robots.txt로 간주됩니다.

여기에서 우리는 봇이 URL: http://www.nashsite.com/prim1/을 색인화하는 것을 방지하고 사이트맵이 있는 위치를 표시했습니다.

참고: robots 파일에서 한 사용자 에이전트(검색 엔진)에 대한 지시문 집합은 줄 바꿈으로 다른 사용자 에이전트에 대한 지시문 집합과 구분됩니다.

여러 검색 엔진 지시문이 있는 파일에서 각 금지 또는 권한은 해당 특정 행 블록에 지정된 검색 엔진에만 적용됩니다.

그것 중요한 포인트그리고 잊어서는 안됩니다.

파일에 여러 사용자 에이전트에 적용되는 규칙이 포함되어 있으면 시스템은 지정된 검색 엔진에 특정한 지시문에 우선 순위를 부여합니다.

다음은 예입니다.

위의 그림에서 MSNbot, discobot 및 Slurp에는 이러한 검색 엔진에서만 작동하는 개별 규칙이 있습니다.

다른 모든 사용자 에이전트는 user-agent: * 그룹의 일반 지시문을 따릅니다.

robots.txt 구문은 절대적으로 간단합니다.

웹사이트에서 흔히 볼 수 있는 7가지 일반 용어가 있습니다.

사용자 에이전트: 크롤링하도록 지시하는 특정 웹 검색 엔진(검색 엔진 봇)입니다. 대부분의 사용자 에이전트 목록은 여기에서 찾을 수 있습니다. 총 302개의 시스템이 있으며 그 중 가장 관련성이 높은 두 가지는 Google과 Yandex입니다.
Disallow: 에이전트가 URL을 방문하지 않도록 하는 disallow 명령입니다. URL당 하나의 "disallow" 줄만 허용됩니다.
허용(Googlebot에만 해당): 이 명령은 상위 페이지 또는 하위 폴더가 닫힌 경우에도 페이지 또는 하위 폴더에 액세스할 수 있음을 봇에 알립니다.
크롤링 지연: 페이지 콘텐츠를 로드하고 크롤링하기 전에 검색 엔진이 기다려야 하는 시간(밀리초)입니다.

참고 - Googlebot은 이 명령을 지원하지 않지만 Google Search Console에서 크롤링 속도를 수동으로 설정할 수 있습니다.

사이트맵: 이 URL과 연결된 XML 맵의 위치를 호출하는 데 사용됩니다. 이 명령은 Google, Ask, Bing 및 Yahoo에서만 지원됩니다.
호스트: 이 지시문은 인덱싱할 때 고려해야 하는 사이트의 기본 미러를 지정합니다. 한 번만 쓸 수 있습니다.
Clean-param: 이 명령은 동적 주소 지정에서 중복 콘텐츠를 처리하는 데 사용됩니다.

정규식

정규 표현식: 모양과 의미.

robots.txt에서 크롤링을 활성화 및 비활성화하는 방법.

실제로 robots.txt 파일은 커질 수 있고 상당히 복잡하고 다루기 힘들어질 수 있습니다.

사용할 수 있도록 하는 시스템 정규식파일에 필요한 기능을 제공하기 위해, 즉 페이지 및 하위 폴더에서 유연하게 작동합니다.

*는 와일드카드로, 지시문이 모든 검색 봇에 대해 작동함을 의미합니다.
$는 URL 또는 문자열의 끝과 일치합니다.
# 개발자 및 최적화 프로그램 주석에 사용됩니다.

다음은 http://www.nashsite.com에 대한 robots.txt의 몇 가지 예입니다.

Robots.txt URL: www.nashsite.com/robots.txt

User-agent: * (즉, 모든 검색 엔진용) Disallow: / (슬래시는 사이트의 루트 디렉토리를 나타냄)

우리는 모든 검색 엔진이 전체 사이트를 크롤링하고 인덱싱하는 것을 금지했습니다.

얼마나 자주 이 조치가 필요합니까?

드물지만 자원이 참여하지 않을 필요가 있는 경우가 있다. 검색 결과, 방문은 특별 링크 또는 기업 승인을 통해 이루어졌습니다.

이것이 일부 회사의 내부 사이트가 작동하는 방식입니다.

또한 사이트가 개발 중이거나 현대화 중인 경우 이러한 지침이 규정됩니다.

검색 엔진이 사이트의 모든 것을 크롤링하도록 허용해야 하는 경우 robots.txt에 다음 명령을 작성해야 합니다.

사용자 에이전트: * 허용하지 않음:

금지(불허)에는 아무 것도 없습니다. 즉, 모든 것이 가능합니다.

robots.txt 파일에서 이 구문을 사용하면 크롤러가 http://www.nashsite.com의 모든 페이지를 크롤링할 수 있습니다. 홈페이지, 관리자 및 연락처.

특정 검색 봇 및 개별 폴더 차단

Google 검색 엔진(Googlebot)의 구문입니다.

다른 검색 에이전트에 대한 구문입니다.

사용자 에이전트: Googlebot 허용 안 함: /example-subfolder/

이 구문은 다음을 지정합니다. 구글 검색 엔진(Googlebot) 주소를 크롤링할 필요가 없습니다: www.nashsite.com/example-subfolder/.

지정된 봇에 대한 개별 페이지 차단:

사용자 에이전트: Bingbot 허용 안 함: /example-subfolder/blocked-page.html

이 구문은 Bingbot(Bing 크롤러의 이름)만 www.nashsite.com /example-subfolder/blocked-page의 페이지를 방문해서는 안 된다고 말합니다.

사실 그게 다야.

이 7가지 명령과 3가지 기호를 마스터하고 응용 로직을 이해한다면 올바른 robots.txt를 작성할 수 있습니다.

작동하지 않는 이유와 해결 방법

주요 동작 알고리즘.

다른 방법.

robots.txt의 오작동은 문제입니다.

결국 오류를 식별하고 파악하는 데 시간이 걸립니다.

파일을 다시 읽고 추가로 차단된 항목이 없는지 확인하십시오.

잠시 후 페이지가 여전히 검색 결과에 매달려 있는 것으로 판명되면 Google 웹마스터에서 사이트가 검색 엔진에 의해 다시 색인화되었는지 확인하고 닫힌 페이지에 대한 외부 링크가 있는지 확인합니다.

그렇다면 검색 결과에서 숨기기가 더 어려워지기 때문에 다른 방법이 필요합니다.

글쎄, 사용하기 전에 Google의 무료 테스터로 이 파일을 확인하십시오.

시기 적절한 분석은 문제를 피하고 시간을 절약하는 데 도움이 됩니다.

우리는 새로운 책 "콘텐츠 마케팅 in 소셜 네트워크에서: 구독자의 머리 속에 들어가 브랜드와 사랑에 빠지는 방법.

Robots.txt는 포털 페이지의 색인을 생성하는 데 도움이 되는 크롤러에 대한 정보가 포함된 텍스트 파일입니다.

우리 채널에서 더 많은 비디오 - SEMANTICA로 인터넷 마케팅 배우기

당신이 섬에서 보물찾기를 하고 있다고 상상해보십시오. 지도가 있습니다. 경로가 표시되어 있습니다. "큰 그루터기에 접근하십시오. 그곳에서 동쪽으로 10걸음 이동한 다음 절벽에 도달합니다. 우회전하여 동굴을 찾으십시오."

방향입니다. 그들을 따라 경로를 따라 보물을 찾습니다. 검색 봇은 사이트나 페이지의 인덱싱을 시작할 때도 거의 동일한 방식으로 작동합니다. robots.txt 파일을 찾습니다. 색인을 생성해야 하는 페이지와 색인을 생성하지 않아야 하는 페이지를 읽습니다. 그리고 이러한 명령을 따르면 포털을 우회하고 해당 페이지를 색인에 추가합니다.

robots.txt는 무엇을 위한 것입니까?

그들은 사이트가 호스팅에 업로드되고 dns가 등록된 후 사이트를 방문하고 페이지를 인덱싱하기 시작합니다. 그들은 당신이 가지고 있는지 여부에 관계없이 자신의 일을합니다. 기술 파일아니면. 로봇은 웹사이트를 크롤링할 때 웹사이트에 있는 매개변수를 고려해야 함을 검색 엔진에 알려줍니다.

robots.txt 파일이 없으면 사이트 크롤링 속도와 색인에 가비지 존재에 문제가 발생할 수 있습니다. 잘못된 파일 구성은 색인에서 리소스의 중요한 부분을 제외하고 검색 결과에 불필요한 페이지가 있다는 문제로 가득 차 있습니다.

결과적으로 이 모든 것이 승진 문제로 이어집니다.

이 파일에 어떤 지침이 포함되어 있으며 사이트에서 봇의 동작에 어떤 영향을 미치는지 자세히 살펴보겠습니다.

robots.txt를 만드는 방법

먼저 이 파일이 있는지 확인하십시오.

입력 주소 표시 줄사이트의 브라우저 주소와 슬래시를 통한 파일 이름(예: https://www.xxxxx.ru/robots.txt)

파일이 있는 경우 해당 매개변수 목록이 화면에 나타납니다.

파일이 존재하지 않는 경우:

파일은 메모장 또는 메모장++과 같은 일반 텍스트 편집기에서 생성됩니다.
로봇 이름 extension.txt를 설정해야 합니다. 허용된 형식 표준에 따라 데이터를 입력합니다.
Yandex 웹마스터와 같은 서비스를 사용하여 오류를 확인할 수 있습니다. 거기에서 "도구" 섹션에서 "robots.txt 분석" 항목을 선택하고 프롬프트를 따라야 합니다.
파일이 준비되면 사이트의 루트 디렉터리에 업로드합니다.

사용자 정의 규칙

검색 엔진에는 둘 이상의 로봇이 있습니다. 일부 봇은 색인만 생성 텍스트 내용, 일부 전용 그래픽. 그리고 검색 엔진 자체는 크롤러의 작동 방식에 대해 다른 계획을 가질 수 있습니다. 파일을 컴파일할 때 이 점을 고려해야 합니다.

그들 중 일부는 일부 규칙을 무시할 수 있습니다. 예를 들어 GoogleBot은 기본 미러로 간주되는 사이트 미러에 대한 정보에 응답하지 않습니다. 그러나 일반적으로 파일을 인식하고 안내합니다.

파일 구문

문서 매개변수: 로봇(봇) 이름 "User-agent", 지시문: "허용" 허용 및 "비허용" 금지.

이제 Yandex와 Google의 두 가지 주요 검색 엔진이 있습니다. 사이트를 컴파일할 때 두 가지 요구 사항을 모두 고려하는 것이 중요합니다.

항목 작성 형식은 다음과 같습니다. 필수 공백과 빈 줄에 유의하십시오.

사용자 에이전트 지시문

로봇은 User-agent로 시작하는 항목을 검색하며 검색 로봇의 이름 표시를 포함해야 합니다. 지정하지 않으면 봇 액세스가 제한되지 않은 것으로 간주됩니다.

Disallow 및 Allow 지시문

robots.txt에서 인덱싱을 비활성화해야 하는 경우 Disallow를 사용하세요. 도움을 받아 사이트 또는 일부 섹션에 대한 봇의 액세스를 제한합니다.

robots.txt에 단일 "Disallow" 지시문이 포함되어 있지 않으면 전체 사이트의 색인 생성이 허용된 것으로 간주됩니다. 일반적으로 금지는 각 봇 다음에 별도로 작성됩니다.

# 기호 뒤의 모든 정보는 주석이며 기계가 읽을 수 없습니다.

Allow는 액세스를 허용하는 데 사용됩니다.

별표 기호는 사용자 에이전트: *에 모두 적용됨을 나타냅니다.

반대로 이 옵션은 모든 사람에 대한 인덱싱에 대한 완전한 금지를 의미합니다.

특정 디렉토리 폴더의 전체 내용 보기 방지

단일 파일을 차단하려면 절대 경로를 지정해야 합니다.

지시문 사이트맵, 호스트

Yandex의 경우 기본 미러로 지정하려는 미러를 지정하는 것이 일반적입니다. 그리고 Google은 우리가 기억하듯이 이를 무시합니다. 거울이 없다면 www를 포함하거나 포함하지 않고 웹사이트 이름을 작성하는 것이 옳다고 생각하는 방식을 수정하십시오.

클린 매개변수 지침

웹사이트 페이지의 URL에 콘텐츠에 영향을 미치지 않는 가변 매개변수가 포함된 경우 사용할 수 있습니다(사용자 ID, 참조자일 수 있음).

예를 들어 페이지 주소에서 "ref"는 트래픽 소스를 정의합니다. 방문자가 사이트에 온 위치를 나타냅니다. 페이지는 모든 사용자에게 동일합니다.

로봇은 이를 가리킬 수 있으며 중복 정보를 다운로드하지 않습니다. 이렇게 하면 서버 부하가 줄어듭니다.

크롤링 지연 지시문

도움을 받아 봇이 분석을 위해 페이지를 로드하는 빈도를 결정할 수 있습니다. 이 명령은 서버에 과부하가 걸렸을 때 사용되며 우회 프로세스를 가속화해야 함을 나타냅니다.

robots.txt 오류

파일이 루트 디렉토리에 없습니다. 로봇은 더 깊은 곳을 찾지도 고려하지도 않을 것입니다.
제목의 문자는 작은 라틴어여야 합니다.
이름에 오류가 있어 끝에 S를 놓치고 로봇을 쓰는 경우가 있습니다.
robots.txt 파일에는 키릴 문자를 사용할 수 없습니다. 러시아어로 도메인을 지정해야 하는 경우 특수 Punycode 인코딩 형식을 사용하십시오.
이것은 도메인 이름을 일련의 ASCII 문자로 변환하는 방법입니다. 이렇게하려면 특수 변환기를 사용할 수 있습니다.

이 인코딩은 다음과 같습니다.
웹사이트.rf = xn--80aswg.xn--p1ai

robots txt에서 닫을 항목과 Google 및 Yandex 검색 엔진의 요구 사항에 따른 설정에 대한 추가 정보는 참조 문서에서 찾을 수 있습니다. 다른 cm에도 고유한 특성이 있을 수 있으므로 이를 고려해야 합니다.

로봇.txt- 사이트의 루트에 있는 텍스트 파일입니다. - http://site.ru/robots.txt. 주요 목적은 검색 엔진에 특정 지시문을 설정하는 것입니다. 사이트에서 무엇을 언제 해야 하는지입니다.

가장 단순한 Robots.txt

모든 검색 엔진이 모든 것을 색인화할 수 있도록 하는 가장 단순한 robots.txt는 다음과 같습니다.

사용자 에이전트 : *
허용하지 않음:

Disallow 지시문 끝에 슬래시가 없으면 모든 페이지의 인덱싱이 허용됩니다.

이 지시문은 사이트가 인덱싱되는 것을 완전히 금지합니다.

사용자 에이전트 : *
허용하지 않음: /

사용자 에이전트 - 지시문이 의도된 대상을 나타내고 별표는 모든 PS의 경우 Yandex의 경우 사용자 에이전트: Yandex를 나타냄을 나타냅니다.

Yandex 도움말에 따르면 크롤러가 User-agent: * 를 처리하지만 User-agent: Yandex가 있는 경우 User-agent: *는 무시됩니다.

Disallow 및 Allow 지시문

두 가지 주요 지시문이 있습니다.

금지 - 금지

허용 - 허용

예시:블로그에서는 플러그인 파일, 템플릿 등이 있는 /wp-content/ 폴더의 인덱싱을 금지했습니다. 그러나 이미지 검색에 참여하기 위해 PS에서 인덱싱해야 하는 이미지도 있습니다. 이렇게 하려면 다음 구성표를 사용해야 합니다.

사용자 에이전트 : *
허용 : /wp-content/uploads/ # 이미지가 업로드 폴더에 색인되도록 허용
허용하지 않음 : /wp-content/

지시문이 동일한 페이지 또는 폴더에 적용되는 경우 Yandex에서 지시문이 사용되는 순서가 중요합니다. 다음과 같이 지정하는 경우:

사용자 에이전트 : *
허용하지 않음 : /wp-content/
허용 : /wp-content/uploads/

이미지는 /uploads/ 디렉토리에서 Yandex 로봇에 의해 로드되지 않습니다. 왜냐하면 wp-content 폴더에 대한 모든 액세스를 거부하는 첫 번째 지시문이 실행되고 있기 때문입니다.

Google은 위치에 관계없이 쉽게 robots.txt 파일의 모든 지시를 따릅니다.

또한 슬래시가 있는 지시문과 없는 지시문이 다른 역할을 수행한다는 것을 잊지 마십시오.

허용하지 않음: /about전체 site.ru/about/ 디렉토리에 대한 액세스를 거부하고 about - site.ru/about.html , site.ru/aboutlive.html 등이 포함된 페이지는 색인이 생성되지 않습니다.

허용하지 않음: /about/로봇이 site.ru/about/ 디렉토리의 페이지와 site.ru/about.html 등의 페이지를 인덱싱하는 것을 금지합니다. 인덱싱에 사용할 수 있습니다.

robots.txt의 정규식

다음 두 문자가 지원됩니다.

* - 문자의 순서를 의미합니다.

예시:

허용하지 않음: /about*원칙적으로 별표 없이 about이 포함된 모든 페이지에 대한 액세스를 거부합니다. 이러한 지시문도 작동합니다. 그러나 어떤 경우에는 이 표현을 바꿀 수 없습니다. 예를 들어, 한 카테고리에는 끝에 .html이 있고 없는 페이지가 있습니다. 색인 생성에서 html을 포함하는 모든 페이지를 닫기 위해 다음 지시문을 작성합니다.

허용하지 않음 : /about/*.html

이제 site.ru/about/live.html 페이지가 색인 생성에서 닫히고 site.ru/about/live 페이지가 열립니다.

또 다른 비유 예:

사용자 에이전트 : Yandex
허용 : /about/*.html #인덱싱 허용
허용하지 않음 : /about/

.html로 끝나는 페이지를 제외한 모든 페이지가 닫힙니다.

$ - 나머지를 잘라내고 줄의 끝을 표시합니다.

예시:

허용하지 않음: /about- 이 robots.txt 지시문은 about 으로 시작하는 모든 페이지의 색인 생성을 금지할 뿐만 아니라 /about/ 디렉토리의 페이지도 금지합니다.

끝에 달러 기호를 추가함으로써 - Disallow: /about$ 우리는 로봇에게 /about 페이지만 인덱싱할 수 없고 /about/ 디렉토리, /aboutlive 페이지 등을 인덱싱할 수 있다고 알릴 것입니다. 인덱싱할 수 있습니다.

사이트맵 지침

이 지시문은 다음과 같이 Sitemap에 대한 경로를 지정합니다.

사이트맵 : http://site.ru/sitemap.xml

호스트 지시문

이 형식으로 지정:

호스트: site.ru

http:// , 슬래시 등이 없습니다. www가 있는 기본 미러 사이트가 있는 경우 다음을 작성하십시오.

Bitrix용 Robots.txt 예제

사용자 에이전트: *
허용하지 않음: /*index.php$
허용하지 않음: /bitrix/
허용하지 않음: /auth/
허용하지 않음: /개인/
허용하지 않음: /업로드/
허용하지 않음: /검색/
허용하지 않음: /*/검색/
허용하지 않음: /*/slide_show/
허용하지 않음: /*/gallery/*주문=*
허용하지 않음: /*?*
허용하지 않음: /*&인쇄=
허용하지 않음: /*등록=
허용하지 않음: /*forgot_password=
허용하지 않음: /*change_password=
허용하지 않음: /*로그인=
허용하지 않음: /*로그아웃=
허용하지 않음: /*인증=
허용하지 않음: /*액션=*
허용하지 않음: /*bitrix_*=
허용하지 않음: /*backurl=*
허용하지 않음: /*BACKURL=*
허용하지 않음: /*back_url=*
허용하지 않음: /*BACK_URL=*
허용하지 않음: /*back_url_admin=*
허용하지 않음: /*print_course=Y
허용하지 않음: /*COURSE_ID=
허용하지 않음: /*PAGEN_*
허용하지 않음: /*PAGE_*
허용하지 않음: /*SHOWALL
허용하지 않음: /*show_all=
호스트: sitename.com
사이트맵: https://www.sitename.ru/sitemap.xml

워드프레스 robots.txt 예시

위에서 설명한 모든 필수 지시문이 추가된 후. 다음과 같은 robots 파일로 끝나야 합니다.

말하자면 이것은 wordpress용 robots.txt의 기본 버전입니다. 여기에는 두 개의 사용자 에이전트가 있습니다. 하나는 모든 사람을 위한 것이고 두 번째는 Host 지시문이 지정된 Yandex를 위한 것입니다.

로봇 메타 태그

robots.txt 파일뿐만 아니라 메타 태그를 사용하여 색인 생성에서 페이지 또는 사이트를 닫을 수 있습니다.

<메타 이름 = "로봇" 콘텐츠 = "noindex,nofollow" >

태그에 등록해야 하며 이 메타 태그는 사이트 인덱싱을 금지합니다. WordPress에는 이러한 메타 태그를 설정할 수 있는 플러그인이 있습니다(예: Platinum Seo Pack). 그것으로, 당신은 인덱싱에서 모든 페이지를 닫을 수 있습니다, 그것은 메타 태그를 사용합니다.

크롤링 지연 지시문

이 지시문을 사용하여 사이트 페이지 다운로드 사이에 검색 봇이 중단되어야 하는 시간을 설정할 수 있습니다.

사용자 에이전트 : *
크롤링 지연: 5

두 페이지 로드 사이의 시간 제한은 5초입니다. 서버의 부하를 줄이기 위해 일반적으로 15-20초로 설정합니다. 이 지시문은 검색 봇이 "살아있는" 대규모의 자주 업데이트되는 사이트에 필요합니다.

일반 사이트/블로그의 경우 이 지시문이 필요하지 않지만 다른 관련 없는 검색 로봇(Rambler, Yahoo, Bing) 등의 동작을 제한할 수 있습니다. 결국 그들은 사이트를 방문하여 색인을 생성하므로 서버에 부하가 발생합니다.

안녕하세요 여러분! 오늘은 에 대해 말씀드리고자 합니다 robots.txt 파일. 예, 인터넷에 그에 대해 많은 것이 기록되어 있지만 솔직히 말해서 나 자신이 매우 오랫동안올바른 robots.txt를 만드는 방법을 알 수 없었습니다. 나는 하나를 만들고 내 모든 블로그에 있습니다. robots.txt에 문제가 없는지 확인하고 잘 작동합니다.

WordPress용 Robots.txt

그리고 실제로 robots.txt가 필요한 이유는 무엇입니까? 대답은 여전히 동일합니다 -. 즉, robots.txt를 컴파일하는 것은 검색 엔진 최적화사이트 (그런데 곧 WordPress 사이트의 모든 내부 최적화에 전념할 수업이 있을 것입니다. 따라서 흥미로운 자료를 놓치지 않도록 RSS를 구독하는 것을 잊지 마십시오.)

기능 중 하나 주어진 파일 – 색인 생성 금지사이트의 불필요한 페이지. 또한 주소를 설정하고 주요 내용을 규정합니다. 사이트 미러(www가 있는 웹사이트 또는 www가 없는 웹사이트).

참고: 검색 엔진의 경우 www가 있는 동일한 사이트와 www가 없는 사이트는 완전히 다른 사이트입니다. 그러나 이러한 사이트의 내용이 동일하다는 것을 깨닫고 검색 엔진은 이들을 함께 "접착"합니다. 따라서 robots.txt에 메인 사이트 미러를 등록하는 것이 중요합니다. www가 있는지 또는 www가 없는지 확인하려면 브라우저에 사이트 주소를 입력하기만 하면 됩니다(예: www가 있는 경우 www가 없는 동일한 사이트로 자동 리디렉션되는 경우). www가 없는 사이트 내가 올바르게 설명했기를 바랍니다.

그래서 제 생각에는 이 소중한 WordPress에 대한 올바른 robots.txt아래에서 볼 수 있습니다.

WordPress용 올바른 Robots.txt

사용자 에이전트: *
허용하지 않음: /cgi-bin
허용하지 않음: /wp-admin
허용하지 않음: /wp-includes
허용하지 않음: /wp-content/cache
허용하지 않음: /wp-content/themes
허용하지 않음: /트랙백
허용하지 않음: */트랙백
허용하지 않음: */*/트랙백
허용하지 않음: */*/feed/*/
허용하지 않음: */feed
허용하지 않음: /*?*
허용하지 않음: /태그

사용자 에이전트: Yandex
허용하지 않음: /cgi-bin
허용하지 않음: /wp-admin
허용하지 않음: /wp-includes
허용하지 않음: /wp-content/plugins
허용하지 않음: /wp-content/cache
허용하지 않음: /wp-content/themes
허용하지 않음: /트랙백
허용하지 않음: */트랙백
허용하지 않음: */*/트랙백
허용하지 않음: */*/feed/*/
허용하지 않음: */feed
허용하지 않음: /*?*
허용하지 않음: /태그
호스트: 웹사이트
.gz
사이트맵: https://site/sitemap.xml

위에 주어진 모든 것을 다음으로 복사해야 합니다. 텍스트 문서즉, 파일 이름은 robots.txt여야 합니다. 예를 들어 프로그램을 사용하여 이 텍스트 문서를 작성할 수 있습니다. 그냥 제발 잊지 말아요 마지막 세 줄의 변경귀하의 웹사이트 주소에 대한 주소. robots.txt 파일은 블로그의 루트, 즉 wp-content, wp-admin 등의 폴더와 동일한 폴더에 있어야 합니다.

너무 게으른 사람들은 이것을 만들기 위해 텍스트 파일, robots.txt를 다운로드하고 거기에서 3줄을 수정할 수도 있습니다.

나는 아래에서 논의될 기술적인 부분에서 당신이 자신을 무겁게 로드할 필요가 없다는 점에 주목하고 싶습니다. 나는 그들이 무엇이 필요한지 그리고 왜 필요한지 알 수 있도록 "지식", 말하자면 일반적인 전망을 위해 그것들을 인용합니다.

그래서 라인:

사용자 에이전트

일부 검색 엔진에 대한 규칙 설정

사용자 에이전트: Yandex

이 규칙은 Yandex 전용임을 의미합니다.

허용하지 않음
여기에서 검색 엔진에서 색인을 생성할 필요가 없는 섹션을 "밀어넣습니다". 예를 들어 https://site/tag/seo 페이지에 일반 기사와 중복 기사(반복)가 있고, 중복 페이지는 부정적인 영향을 미칩니다. 검색 프로모션, 따라서 이러한 섹터는 인덱싱에서 폐쇄되어야 하며 이 규칙을 사용하여 수행하는 것이 매우 바람직합니다.

허용하지 않음: /태그

따라서 위에 주어진 robots.txt에서 WordPress 사이트의 거의 모든 불필요한 섹션은 인덱싱에서 닫힙니다. 즉, 모든 것을 그대로 두십시오.

주최자

여기서 우리는 내가 조금 더 높게 이야기한 사이트의 메인 미러를 설정했습니다.

마지막 두 줄에는 로 만든 최대 2개의 사이트맵 주소를 지정합니다.

가능한 문제

하지만 robots.txt의 이 줄 때문에 내 사이트 게시물의 색인이 더 이상 생성되지 않았습니다.

허용하지 않음: /*?*

보시다시피 robots.txt의 바로 이 줄은 기사의 색인 생성을 금지합니다. 물론 전혀 필요하지 않습니다. 이 문제를 해결하려면 이 두 줄(모든 검색 엔진 및 Yandex에 대한 규칙에서)을 제거하면 됩니다. 그러면 CNC가 없는 WordPress 사이트에 대한 최종 올바른 robots.txt는 다음과 같습니다.

사용자 에이전트: *
허용하지 않음: /cgi-bin
허용하지 않음: /wp-admin
허용하지 않음: /wp-includes
허용하지 않음: /wp-content/plugins
허용하지 않음: /wp-content/cache
허용하지 않음: /wp-content/themes
허용하지 않음: /트랙백
허용하지 않음: */트랙백
허용하지 않음: */*/트랙백
허용하지 않음: */*/feed/*/
허용하지 않음: */feed
허용하지 않음: /태그

사용자 에이전트: Yandex
허용하지 않음: /cgi-bin
허용하지 않음: /wp-admin
허용하지 않음: /wp-includes
허용하지 않음: /wp-content/plugins
허용하지 않음: /wp-content/cache
허용하지 않음: /wp-content/themes
허용하지 않음: /트랙백
허용하지 않음: */트랙백
허용하지 않음: */*/트랙백
허용하지 않음: */*/feed/*/
허용하지 않음: */feed
허용하지 않음: /태그
호스트: 웹사이트
사이트맵: https://site/sitemap.xml

robots.txt 파일을 올바르게 컴파일했는지 확인하려면 Yandex 웹마스터 서비스를 사용하는 것이 좋습니다(이 서비스에 등록하는 방법을 알려 드렸습니다).

우리는 섹션으로 이동합니다. 인덱싱 설정 -> Robots.txt 분석:

이미 "사이트에서 robots.txt 다운로드" 버튼을 클릭한 다음 "확인" 버튼을 클릭합니다.

다음 메시지와 같은 내용이 표시되면 Yandex에 대한 올바른 robots.txt가 있는 것입니다.

먼저 robots.txt가 무엇인지 알려드리겠습니다.

로봇.txt- 사이트의 루트 폴더에 있는 파일, 여기서 특별 지시검색 로봇용. 이 지침은 사이트에 들어갈 때 로봇이 페이지/섹션을 고려하지 않도록 하기 위해 필요합니다. 즉, 색인 생성에서 페이지를 닫습니다.

robots.txt가 필요한 이유

robots.txt 파일은 절대적으로 모든 사이트의 SEO 최적화를 위한 핵심 요구 사항으로 간주됩니다. 이 파일이 없으면 로봇의 로드와 느린 인덱싱에 부정적인 영향을 미칠 수 있으며 더욱이 사이트가 완전히 인덱싱되지 않습니다. 따라서 사용자는 Yandex 및 Google을 통해 페이지로 이동할 수 없습니다.

robots.txt가 검색 엔진에 미치는 영향?

검색 엔진(특히 Google) 사이트의 색인을 생성하지만 robots.txt 파일이 없으면 내가 말했듯이 모든 페이지가 아닙니다. 그러한 파일이 있는 경우 로봇은 이 파일에 지정된 규칙에 따라 안내됩니다. 또한 검색 로봇에는 여러 유형이 있습니다. 일부는 규칙을 고려할 수 있으면 다른 로봇은 무시합니다. 특히 GoogleBot 로봇은 Host 및 Crawl-Delay 지시문을 고려하지 않으며 YandexNews 로봇은 최근 Crawl-Delay 지시문을 고려하지 않으며 YandexDirect 및 YandexVideoParser 로봇은 robots.txt에서 일반적으로 허용되는 지시문을 무시합니다. (그러나 그들을 위해 특별히 작성된 것을 고려하십시오).

사이트에서 콘텐츠를 로드하는 로봇이 사이트를 가장 많이 로드합니다. 따라서 로봇에게 색인을 생성할 페이지와 무시할 페이지, 그리고 페이지에서 콘텐츠를 로드할 시간 간격을 알려준다면(검색 엔진 색인에 100,000개 이상의 페이지가 있는 대규모 사이트의 경우 더 중요합니다). 이렇게 하면 로봇이 사이트에서 콘텐츠를 훨씬 쉽게 색인화하고 로드할 수 있습니다.

예를 들어 Wordpress - /wp-admin/에서 CMS와 관련된 파일은 검색 엔진에 불필요한 것으로 분류될 수 있습니다. 또한 팝업 양식, 배너, 보안 문자 출력 등을 담당하는 ajax, json 스크립트.

대부분의 로봇의 경우 인덱싱에서 모든 Javascript 및 CSS 파일을 닫는 것이 좋습니다. 그러나 GoogleBot과 Yandex의 경우 이러한 파일은 검색 엔진에서 사이트의 편의성과 순위를 분석하는 데 사용되므로 색인을 생성하는 것이 좋습니다.

robots.txt 지시문이란 무엇입니까?

지시- 검색 로봇에 대한 규칙입니다. robots.txt를 작성하기 위한 첫 번째 표준은 이에 따라 1994년에, 확장된 표준은 1996년에 나타났습니다. 그러나 이미 알고 있듯이 모든 로봇이 특정 지시문을 지원하는 것은 아닙니다. 따라서 아래에서 사이트의 페이지를 인덱싱할 때 주요 로봇이 안내하는 내용을 설명했습니다.

사용자 에이전트는 무엇을 의미합니까?

이것은 추가 규칙이 적용되는 검색 로봇을 결정하는 가장 중요한 지시문입니다.

모든 로봇의 경우:

특정 봇의 경우:

사용자 에이전트: Googlebot

robots.txt의 대소문자는 중요하지 않습니다. Googlebot과 googlebot을 모두 작성할 수 있습니다.

Google 크롤러

Yandex 검색 로봇


	Yandex의 주요 인덱싱 로봇
	Yandex.Images 서비스에서 사용
	Yandex.Video 서비스에서 사용
	멀티미디어 데이터
	블로그 검색
	"URL 추가" 양식을 통해 추가된 페이지에 액세스하는 크롤러
	사이트 아이콘(파비콘)을 인덱싱하는 로봇
	Yandex.Direct
	Yandex.Metrica
	Yandex.Catalog 서비스에서 사용
	Yandex.News 서비스에서 사용
YandexImageResizer	모바일 서비스 검색 로봇

검색 로봇 Bing, Yahoo, Mail.ru, Rambler

Disallow 및 Allow 지시문

Disallow는 색인 생성에서 사이트의 섹션과 페이지를 닫습니다. 따라서 Allow는 반대로 엽니 다.

몇 가지 기능이 있습니다.

먼저 추가 연산자는 *, $, #입니다. 그들은 무엇을 위해 사용됩니까?

“*” 임의의 수의 문자와 부재입니다. 기본적으로 이미 줄 끝에 있으므로 다시 넣어도 의미가 없습니다.

“$” - 앞에 오는 문자가 마지막에 와야 함을 나타냅니다.

“#” - 코멘트, 이 캐릭터 뒤에 오는 모든 것은 로봇에 의해 무시됩니다.

Disallow 사용 예:

허용하지 않음: *?s=

허용하지 않음: /카테고리/

따라서 검색 로봇은 다음과 같은 페이지를 닫습니다.

그러나 양식의 페이지는 인덱싱을 위해 열립니다.

이제 중첩 규칙이 실행되는 방식을 이해해야 합니다. 지시문이 작성되는 순서는 매우 중요합니다. 규칙의 상속은 지정된 디렉토리에 따라 결정됩니다. 즉, 색인에서 페이지 / 문서를 닫고 싶다면 지시문을 작성하는 것으로 충분합니다. 예를 하나 보자

이것은 robots.txt 파일입니다.

허용하지 않음: /템플릿/

이 지시문은 어디에나 표시되며 여러 사이트맵 파일을 등록할 수 있습니다.

robots.txt의 호스트 지시문

이 지시문은 사이트의 기본 미러를 지정하는 데 필요합니다(종종 www가 있거나 없음). 참고 호스트 지시문 http:// 프로토콜 없이 지정되지만 https:// 프로토콜로 지정됩니다. 이 지시문은 Yandex 및 Mail.ru 검색 로봇에서만 고려되는 반면 GoogleBot을 포함한 다른 로봇은 규칙을 고려하지 않습니다. robots.txt 파일에 1회 등록할 호스트

http://가 있는 예

호스트: www.website.ru

https://가 있는 예

크롤링 지연 지시문

검색 로봇이 사이트 페이지를 인덱싱하는 시간 간격을 설정합니다. 값은 초 및 밀리초 단위로 지정됩니다.

예시:

사이트 트래픽이 하루 5,000부터인 대형 온라인 상점, 정보 사이트, 포털에서 주로 사용됩니다. 검색 로봇은 일정 시간 동안 인덱싱을 요청해야 합니다. 이 지시문을 지정하지 않으면 서버에 심각한 부하가 발생할 수 있습니다.

사이트마다 최적의 크롤링 지연 값이 다릅니다. 검색 엔진 Mail, Bing, Yahoo의 경우 값을 설정할 수 있습니다. 최소값 0.25, 0.3, 이러한 검색 엔진 로봇은 한 달에 한 번, 두 달에 한 번 등(매우 드물게) 사이트를 크롤링할 수 있기 때문입니다. Yandex의 경우 더 큰 값을 설정하는 것이 좋습니다.

사이트 로드가 최소인 경우 이 지시문을 지정할 필요가 없습니다.

클린 매개변수 지침

이 규칙은 특정 매개변수가 있는 페이지는 색인을 생성할 필요가 없다고 크롤러에게 알려주기 때문에 흥미롭습니다. 2개의 인수가 작성되었습니다: 페이지 URL 및 매개변수. 이 지시문은 지원됩니다. 검색 엔진얀덱스.

예시:

허용하지 않음: /admin/

허용하지 않음: /plugins/

허용하지 않음: /검색/

허용하지 않음: /cart/

허용하지 않음: *정렬=

허용하지 않음: *보기=

사용자 에이전트: GoogleBot

허용하지 않음: /admin/

허용하지 않음: /plugins/

허용하지 않음: /검색/

허용하지 않음: /cart/

허용하지 않음: *정렬=

허용하지 않음: *보기=

허용: /plugins/*.css

허용: /plugins/*.js

허용: /plugins/*.png

허용: /plugins/*.jpg

허용: /plugins/*.gif

사용자 에이전트: Yandex

허용하지 않음: /admin/

허용하지 않음: /plugins/

허용하지 않음: /검색/

허용하지 않음: /cart/

허용하지 않음: *정렬=

허용하지 않음: *보기=

허용: /plugins/*.css

허용: /plugins/*.js

허용: /plugins/*.png

허용: /plugins/*.jpg

허용: /plugins/*.gif

클린 매개변수: utm_source&utm_medium&utm_campaign

이 예에서는 3개의 다른 봇에 대한 규칙을 작성했습니다.

robots.txt는 어디에 추가하나요?

에 추가됨 루트 폴더대지. 또한 다음 링크가 올 수 있도록:

robots.txt를 확인하는 방법은 무엇입니까?

얀덱스 웹마스터

도구 탭에서 robots.txt 분석을 선택한 다음 확인을 클릭합니다.

구글 서치 콘솔

탭에서 스캐닝선택하다 robots.txt 파일 검사 도구확인을 클릭합니다.

결론:

robots.txt 파일은 모든 프로모션 사이트에서 필수 파일이어야 하며 올바른 구성을 통해서만 필요한 인덱싱을 얻을 수 있습니다.

마지막으로 질문이 있으면 기사 아래의 댓글로 질문하세요. robots.txt는 어떻게 작성하나요?

단지에 대해. 프로그램들. 철. 인터넷. 창

robots txt 파일의 소스 코드입니다. 얀덱스 로봇. 크롤링 지연 - 약한 서버를 위한 스톱워치

"로봇"에 대한 지침

Robots.Txt 구문

정규식

특정 검색 봇 및 개별 폴더 차단

작동하지 않는 이유와 해결 방법

robots.txt는 무엇을 위한 것입니까?

robots.txt를 만드는 방법

사용자 정의 규칙

파일 구문

사용자 에이전트 지시문

Disallow 및 Allow 지시문

지시문 사이트맵, 호스트

클린 매개변수 지침

크롤링 지연 지시문

robots.txt 오류

가장 단순한 Robots.txt

Disallow 및 Allow 지시문

robots.txt의 정규식

예시:

예시:

사이트맵 지침

호스트 지시문

Bitrix용 Robots.txt 예제

워드프레스 robots.txt 예시

로봇 메타 태그

크롤링 지연 지시문

WordPress용 Robots.txt

WordPress용 올바른 Robots.txt

가능한 문제

robots.txt가 필요한 이유

robots.txt가 검색 엔진에 미치는 영향?

robots.txt 지시문이란 무엇입니까?

사용자 에이전트는 무엇을 의미합니까?

Google 크롤러

Yandex 검색 로봇

검색 로봇 Bing, Yahoo, Mail.ru, Rambler

Disallow 및 Allow 지시문

robots.txt의 호스트 지시문

크롤링 지연 지시문

클린 매개변수 지침

robots.txt를 확인하는 방법은 무엇입니까?

결론: