Борьба с дублями страниц

Владелец может и не подозревать, что на его сайте некоторые страницы имеют копии – чаще всего так и бывает. Страницы открываются, с их содержимым все в порядке, но если только обратить внимание на , то можно заметить, что при одном и том же контенте адреса разные. Что это значит? Для живых пользователей ровным счетом ничего, так как им интересна информация на страницах, а вот бездушные поисковые машины воспринимают такое явление совершенно по-другому – для них это совершенно разные страницы с одинаковым контентом.

Вредны ли дубли страниц? Итак, если рядовой пользователь даже не сможет заметить наличие дублей на вашем сайте, то поисковики это сразу определят. Какой реакции от них ждать? Так как по сути копии видят как разные страницы, то контент на них перестает быть уникальным. А это уже негативным образом сказывается на ранжировании.

Также наличие дублей размывает , который оптимизатор пытался сосредоточить на целевой странице. Из-за дублей, он может оказаться совсем не на той странице, на которую его хотели перенести. То есть эффект от внутренней перелинковки и внешних ссылок может многократно снизиться.

В подавляющем большинстве случаев в возникновении дублей виноваты – из-за неправильных настроек и отсутствия должного внимания оптимизатора генерируются четкие копии. Этим грешат многие CMS, например, Joomla. Для решения проблемы трудно подобрать универсальный рецепт, но можно попробовать воспользоваться одним из плагинов для удаления копий.

Возникновение же нечетких дублей, в которых содержимое не полностью идентично, обычно происходит по вине вебмастера. Такие страницы часто встречаются на сайтах интернет-магазинов, где страницы с карточками товаров отличаются лишь несколькими предложениями с описанием, а весь остальной контент, состоящий из сквозных блоков и прочих элементов, одинаковый.

Многие специалисты утверждают, что небольшое количество дублей не повредит сайту, но если их больше 40-50%, то ресурс при продвижении могут ждать серьезные трудности. В любом случае, даже если копий не так много, стоит заняться их устранением, так вы гарантированно избавитесь от проблем с дублями.

Поиск страниц-копий Существует несколько способов поиска дублированных страниц, но для начала стоит обратиться к нескольким поисковикам и посмотреть, как они видят ваш сайт – нужно лишь сравнить количество страниц в индексе каждого. Сделать это довольно просто, не прибегая ни к каким дополнительным средствам: в «Яндексе» или Google достаточно в строку поиска ввести host:yoursite.ru и посмотреть на количество результатов.




Если после такой простой проверки количество будет сильно отличаться, в 10-20 раз, то это с некоторой долей вероятности может говорить о содержании дублей в одной из них. Страницы-копии могут быть и не виноваты в такой разнице, но тем не менее это дает повод для дальнейшего более тщательного поиска. Если же сайт небольшой, то можно вручную посчитать количество реальных страниц и потом сравнить с показателями из поисковых систем.

Искать дублированные страницы можно по URL в выдаче поисковика. Если у них должны быть ЧПУ, то страницы с URL из непонятных символов, вроде «index.php?s=0f6b2903d», будут сразу выбиваться из общего списка.

Еще один способ определения наличия дублей средствами поисковых систем – это поиск по фрагментам текста. Процедура такой проверки проста: надо ввести фрагмент текста из 10-15 слов с каждой страницы в строку поиска, а затем проанализировать результат. Если в выдаче будет две и более страниц, то копии есть, если же результат будет всего один, то дублей у данной страницы нет, и можно не волноваться.

Логично, что если сайт состоит из большого количества страниц, то такая проверка может превратиться в невыполнимую рутину для оптимизатора. Чтобы минимизировать временные затраты, можно воспользоваться специальными программами. Один из таких инструментов, который наверняка знаком опытным специалистам, – программа Xenu`s Link Sleuth .


Чтобы проверить сайт, необходимо открыть новый проект, выбрав в меню «File» «Check URL», ввести адрес и нажать «OK». После этого программа начнет обработку всех URL сайта. По окончании проверки нужно экспортировать полученные данные в любой удобный редактор и начать поиски дублей.

Кроме вышеперечисленных способов в инструментарии панелей «Яндекс.Вебмастер» и Google Webmaster Tools есть средства для проверки индексации страниц, которыми можно воспользоваться для поиска дублей.

Методы решения проблемы После того как все дубли будут найдены, потребуется их устранение. Это тоже можно сделать несколькими способами, но для каждого конкретного случая нужен свой метод, не исключено, что придется использовать их все.

  • Страницы-копии можно удалять вручную, но такой способ скорее подойдет только для тех дублей, которые и были созданы ручным способом по неосмотрительности вебмастера.
  • Редирект 301 отлично подходит для склеивания страниц-копий, URL которых отличаются наличием и отсутствием www.
  • Решение проблемы с дублями с помощью тега canonical можно применять для нечетких копий. Например, для категорий товаров в интернет-магазине, которые имеют дубли, отличающиеся сортировкой по различным параметрам. Также canonical подойдет для версий страниц для печати и в других подобных случаях. Применяется он довольно просто – для всех копий указывается атрибут rel=”canonical”, а для основной страницы, которая наиболее релевантна, – нет. Код должен выглядеть примерно так: link rel="canonical" href="http://yoursite.ru/stranica-kopiya"/, и стоять в пределах тега head.
  • В борьбе с дублями может помочь настройка файла robots.txt. Директива Disallow позволит закрыть доступ к дублям для поисковых роботов. Подробнее о синтаксисе этого файла вы можете прочитать в нашей рассылки.

Владелец может и не подозревать, что на его сайте некоторые страницы имеют копии – чаще всего так и бывает. Страницы открываются, с их содержимым все в порядке, но если только обратить внимание на URL, то можно заметить, что при одном и том же контенте адреса разные. Что это значит? Для живых пользователей ровным счетом ничего, так как им интересна информация на страницах, а вот бездушные поисковые машины воспринимают такое явление совершенно по-другому – для них это совершенно разные страницы с одинаковым контентом.

Вредны ли дубли страниц?

Итак, если рядовой пользователь даже не сможет заметить наличие дублей на вашем сайте, то поисковики это сразу определят. Какой реакции от них ждать? Так как по сути копии поисковые роботы видят как разные страницы, то контент на них перестает быть уникальным. А это уже негативным образом сказывается на ранжировании.

Также наличие дублей размывает ссылочный вес, который оптимизатор пытался сосредоточить на целевой странице. Из-за дублей, он может оказаться совсем не на той странице, на которую его хотели перенести. То есть эффект от внутренней перелинковки и внешних ссылок может многократно снизиться.

В подавляющем большинстве случаев в возникновении дублей виноваты CMS – из-за неправильных настроек и отсутствия должного внимания оптимизатора генерируются четкие копии. Этим грешат многие CMS, например, Joomla. Для решения проблемы трудно подобрать универсальный рецепт, но можно попробовать воспользоваться одним из плагинов для удаления копий.

Возникновение же нечетких дублей, в которых содержимое не полностью идентично, обычно происходит по вине вебмастера. Такие страницы часто встречаются на сайтах интернет-магазинов, где страницы с карточками товаров отличаются лишь несколькими предложениями с описанием, а весь остальной контент, состоящий из сквозных блоков и прочих элементов, одинаковый.

Многие специалисты утверждают, что небольшое количество дублей не повредит сайту, но если их больше 40-50%, то ресурс при продвижении могут ждать серьезные трудности. В любом случае, даже если копий не так много, стоит заняться их устранением, так вы гарантированно избавитесь от проблем с дублями.

Поиск страниц-копий

Существует несколько способов поиска дублированных страниц, но для начала стоит обратиться к нескольким поисковикам и посмотреть, как они видят ваш сайт – нужно лишь сравнить количество страниц в индексе каждого. Сделать это довольно просто, не прибегая ни к каким дополнительным средствам: в «Яндексе» или Google достаточно в строку поиска ввести host:yoursite.ru и посмотреть на количество результатов.

Если после такой простой проверки количество будет сильно отличаться, в 10-20 раз, то это с некоторой долей вероятности может говорить о содержании дублей в одной из них. Страницы-копии могут быть и не виноваты в такой разнице, но тем не менее это дает повод для дальнейшего более тщательного поиска. Если же сайт небольшой, то можно вручную посчитать количество реальных страниц и потом сравнить с показателями из поисковых систем.

Искать дублированные страницы можно по URL в выдаче поисковика. Если у них должны быть ЧПУ, то страницы с URL из непонятных символов, вроде «index.php?s=0f6b2903d», будут сразу выбиваться из общего списка.

Еще один способ определения наличия дублей средствами поисковых систем – это поиск по фрагментам текста. Процедура такой проверки проста: надо ввести фрагмент текста из 10-15 слов с каждой страницы в строку поиска, а затем проанализировать результат. Если в выдаче будет две и более страниц, то копии есть, если же результат будет всего один, то дублей у данной страницы нет, и можно не волноваться.

Логично, что если сайт состоит из большого количества страниц, то такая проверка может превратиться в невыполнимую рутину для оптимизатора. Чтобы минимизировать временные затраты, можно воспользоваться специальными программами. Один из таких инструментов, который наверняка знаком опытным специалистам, – программа Xenu`s Link Sleuth.

Чтобы проверить сайт, необходимо открыть новый проект, выбрав в меню «File» «Check URL», ввести адрес и нажать «OK». После этого программа начнет обработку всех URL сайта. По окончании проверки нужно экспортировать полученные данные в любой удобный редактор и начать поиски дублей.

Кроме вышеперечисленных способов в инструментарии панелей «Яндекс.Вебмастер» и Google Webmaster Tools есть средства для проверки индексации страниц, которыми можно воспользоваться для поиска дублей.

Методы решения проблемы

После того как все дубли будут найдены, потребуется их устранение. Это тоже можно сделать несколькими способами, но для каждого конкретного случая нужен свой метод, не исключено, что придется использовать их все.

Страницы-копии можно удалять вручную, но такой способ скорее подойдет только для тех дублей, которые и были созданы ручным способом по неосмотрительности вебмастера.

Редирект 301 отлично подходит для склеивания страниц-копий, URL которых отличаются наличием и отсутствием www.

Решение проблемы с дублями с помощью тега canonical можно применять для нечетких копий. Например, для категорий товаров в интернет-магазине, которые имеют дубли, отличающиеся сортировкой по различным параметрам. Также canonical подойдет для версий страниц для печати и в других подобных случаях. Применяется он довольно просто – для всех копий указывается атрибут rel=”canonical”, а для основной страницы, которая наиболее релевантна, – нет. Код должен выглядеть примерно так: link rel="canonical" href="http://yoursite.ru/stranica-kopiya"/, и стоять в пределах тега head.

В борьбе с дублями может помочь настройка файла robots.txt. Директива Disallow позволит закрыть доступ к дублям для поисковых роботов. Подробнее о синтаксисе этого файла вы можете прочитать в выпуске №64 нашей рассылки.

Выводы

Если пользователи воспринимают дубли как одну страницу с разными адресами, то для пауков это разные страницы с дублированным контентом. Страницы-копии – это один из самых распространенных подводных камней, который не могут обойти новички. Их наличие в большом количестве на продвигаемом сайте недопустимо, так как они создают серьезные препятствия для выхода в ТОП.

Поводом для написания этой статьи стал очередной звонок бухгалтера с паникой перед сдачей отчетности по НДС. В прошлом квартале потратил много времени на уборку дублей контрагентов. И вновь они, те же самые и новые. Откуда?

Решил потратить время, и разобраться с причиной, а не следствием. Ситуация с основном актуальна при настроенных автоматических выгрузках через планы обмена из управляющей программы (в моем случае УТ 10.3) в бухгалтерию предприятия (в моем случае 2.0).

Несколько лет тому назад были установлены эти конфигурации, и настроен автоматический обмен между ними. Столкнулись с проблемой своеобразности ведения справочника контрагентов отделом продаж, которые начали заводить дубли контрагентов (с тем же ИНН/КПП/Наименованием) по тем или иным причинам (одного и того же контрагента они раскидывали по разным группам). Бухгалтерия высказала свое "фи", и постановила - нам не важно, что там у них, объединяйте карточки при загрузке в одну. Пришлось вмешаться в процесс переноса объектов правилами обмена. Убрали для контрагентов поиск по внутреннему идентификатору, и оставили поиск по ИНН+КПП+Наименование. Однако и тут всплыли свои подводные камни в виде любителей переименовывать наименования контрагентов (в результате создаются дубли в БП уже самими правилами). Собрались все вместе, обсудили, решили, убедили, что в УТ у нас дубли недопустимы, убрали их, вернулись к стандартным правилам.

Вот только после "причесывания" дублей в УТ и в БП - внутренние идентификаторы у многих контрагентов различались. А так как типовые правила обмена осуществляют поиск объектов исключительно по внутреннему идентификатору, то с очередной порцией документов в БП прилетал и новый дубль контрагента (в случае, если эти идентификаторы различались). Но универсальный обмен данными XML не был бы универсальным, если бы эту проблему обойти было невозможно. Т.к. идентификатор существующего объекта штатными средствами изменить невозможно, то можно обойти эту ситуацию при помощи специального регистра сведений "Соответствие объектов для обмена", который имеется во всех типовых конфигурациях от 1С.

Для того, чтобы не возникало новых дублей алгоритм уборки дублей стал следующим:

1. В БП при помощи обработки "Поиск и замена дублирующихся элементов" (она типовая, ее можно взять из конфигурации Управление торговлей или на диске ИТС, либо выбрать наиболее подходящую среди множества вариаций на самом Инфостарте) нахожу дубль, определяю верный элемент, нажимаю выполнить замену.

2. Получаю внутренний идентификатор единственного (после замены) объекта нашего дубля (набросал специально простенькую обработку для этого, чтобы внутренний идентификатор автоматически копировался в буфер обмена).

3. Открываю в УТ регистр "Соответствие объектов для обмена", делаю отбор по собственной ссылке.

Дубли страниц сайта, их влияние на поисковую оптимизацию. Ручные и автоматизированные способы обнаружения и устранения дублированных страниц.

Влияние дублей на продвижение сайта

Наличие дублей негативно сказывается на ранжировании сайта. Как сказано выше, поисковики видят оригинальную страницу и ее дубль как две отдельные страницы. Контент, продублированный на другой странице, перестает быть уникальным. Кроме того, теряется ссылочный вес продублированной страницы, поскольку ссылка может перенести не на целевую страницу, а на ее дубль. Это касается как внутренней перелинковки, так и внешних ссылок.

По мнению некоторых веб-мастеров, небольшое количество страниц-дублей в целом не нанесет серьезного вреда сайту, но если их число близится к 40-50% от общего объема сайта, неизбежны серьезные трудности в продвижении.

Причины появления дублей

Чаще всего, дубли появляются как следствие некорректных настроек отдельных CMS. Внутренние скрипты движка начинают работать неверно и генерируют копии страниц сайта.

Известно также явление нечетких дублей – страниц, контент которых идентичен только частично. Такие дубли возникают, чаще всего, по вине самого веб-мастера. Это явление характерно для интернет-магазинов, где страницы карточек товаров строятся по одному шаблону, и в конечном итоге различаются между собой лишь несколькими строками текста.

Методы поиска дублированных страниц

Есть несколько способов обнаружения страниц-дублей. Можно обратиться к поисковикам: для этого в Google или «Яндекс» следует ввести в строку поиска команду вида «site:sitename.ru», где sitename.ru – домен Вашего сайта. Поисковик выдаст все проиндексированные страницы сайта, и Вашей задачей будет обнаружить дублированные.

Существует и другой не менее простой способ: поиск по фрагментам текста. Чтобы искать таким способом, нужно добавить в строку поиска небольшой фрагмент текста с Вашего сайта, 10-15 символов. Если в выдаче по искомому тексту будет две или несколько страниц Вашего сайта, обнаружить дубли не составит труда.

Однако, эти способы подходят для сайтов, состоящих из небольшого количества страниц. Если на сайте несколько сотен или даже тысяч страниц, то поиск дублей вручную и оптимизация сайта в целом становится невыполнимыми задачами. Для таких целей есть специальные программы, например, одна из наиболее распространенных - Xenu`s Link Sleuth.

Кроме того, существуют специальные инструменты для проверки состояния индексации в панелях Google Webmaster Tools и «Яндекс.Вебмастер». Ими также модно воспользоваться с целью обнаружения дублей.

Методы устранения дублированных страниц

Устранить ненужные страницы можно также несколькими способами. Для каждого конкретного случая подходит свой метод, но чаще всего, при оптимизации сайта , они применяются в комплексе:

  • удаление дублей вручную – подходит, если все ненужные были обнаружены также вручную;
  • склеивание страниц с помощью редиректа 301 – подходит, если дубли различаются только отсутствием и наличием «www» в URL;
  • применение тега «canonical» - подходит в случае возникновения нечетких дублей (например, упомянутая выше ситуация с карточками товаров в интернет-магазине) и реализуется посредством введения кода вида «link rel="canonical" href="http://sitename.ru/stranica-kopiya"/» в пределы блока head страниц-дублей;
  • правильная настройка файла robots.txt – с помощью директивы “Disallow” можно запретить дублированные страницы для индексации поисковиками.

Заключение

Возникновение страниц-дублей может стать серьезным препятствием в деле оптимизации сайта и вывода его в топ-позиции, поэтому данную проблему необходимо решать на начальной стадии ее возникновения.

Дубли страниц на сайтах или блогах , откуда они берутся и какие проблемы могут создать.
Именно об этом поговорим в этом посте, постараемся разобраться с этим явлением и найти пути минимизации тех потенциальных неприятностей, которые могут принести нам дубли страниц на сайте.

Итак, продолжим.

Что такое дубли страниц?

Дубли страниц на каком-либо веб-ресурсе означает доступ к одной и той же информации по разным адресам. Такие страницы еще называют внутренними дублями сайта.

Если тексты на страница совершенно идентичны, то такие дубли называют полными или четкими. При частичном совпадении дубли называют неполными или нечеткими .

Неполные дубли – это страницы категорий, страницы перечня товаров и тому подобные страницы, содержащие анонсы материалов сайта.

Полные дубли страниц – это версии для печати, версии страниц с разными расширениями, страницы архивов, поиска на сайте, страницы с комментариями так далее.

Источники дублей страниц.

На данный момент большинство дублей страниц порождаются при использовании современных CMS – системами управления контентом, еще их называют движками сайтов.

Это и WordPress, и Joomla, и DLE и другие популярные CMS. Это явление серьезно напрягает оптимизаторов сайтов и вебмастеров и доставляет им дополнительные хлопоты.

В интернет-магазинах дубли могут появиться при показе товаров с сортировкой по различным реквизитам (производителю товара, назначению товара, дате изготовления, цене и т.п.).

Также надо вспомнить о пресловутой приставке WWW и определиться, использовать ли ее в имени домена при создании, развитии, продвижении и раскрутке сайта.

Как видим, источники возникновения дублей могут быть различными, я перечислил только основные, но все они хорошо известны специалистам.

Дубли страниц, негативны.

Несмотря на то, что многие на появление дублей не обращают особого внимания, это явление может создать серьезные проблемы при продвижении сайтов .

Поисковая система может расценить дубли как спам и, вследствие этого, серьезно понизить позиции как этих страниц, так и сайта в целом.

При продвижении сайта ссылками может возникнуть следующая ситуация. В какой-то момент поисковая система расценит как наиболее релевантную страницу-дубль , а не ту, которую Вы продвигаете ссылками и все ваши усилия и затраты будут напрасными.

Но есть люди, которые стараются использовать дубли для наращивания веса на нужные страницы, главную, например, или любую другую.

Методы борьбы с дублями страниц

Как же избежать дублей или как свести на нет негативные моменты при их появлении?
И вообще стоит ли с этим как-то бороться или же все отдать на милость поисковым системам. Пусть сами разбираются, раз они такие умные.

Использование robots.txt

Robots.txt – это файл, размещающийся в корневом каталоге нашего сайта и содержащий директивы для поисковых роботов.

В этих директивах мы указываем какие страницы на нашем сайте индексировать, а какие нет. Также можем указать имя основного домена сайта и файл, содержащий карту сайта.

Для запрещения индексации страниц используется директива Disallow . Именно ее используют вебмастера, для того, чтобы закрыть от индексации дубли страниц, да и не только дубли, а любую другую информацию, не относящуюся непосредственно к содержанию страниц. Например:

Disallow: /search/ — закрываем страницы поиска по сайту
Disallow: /*? — закрываем страницы, содержащие знак вопроса “?”
Disallow: /20* — закрываем страницы архива

Использование файла.htaccess

Файл.htaccess (без расширения) тоже размещается в корневом каталоге сайта. Для борьбы с дублями в этом файле настраивают использование 301 редиректа .
Этот способ хорошо помогает сохранить показатели сайта при смене CMS сайта или изменении его структуры. В результате получается корректная переадресация без потери ссылочной массы. При этом вес страницы по старому адресу будет передаваться странице по новому адресу.
301 редирект применяют и при определении основного домена сайта – с WWW или без WWW.

Использование тега REL = “CANNONICAL”

При помощи этого тега вебмастер указывает поисковику первоисточник, то есть ту страницу, которая должна быть проиндексирована и принимать участие в ранжировании поисковых систем. Страницу принято называть канонической. Запись в HTML-коде будет выглядеть следующим образом:

При использовании CMS WordPress это можно сделать в настройках такого полезного плагина как All in One Seo Pack .

Дополнительные меры борьбы с дублями для CMS WordPress

Применив все вышеперечисленные методы борьбы с дублями страниц на своем блоге у меня все время было чувство, что я сделал не все, что можно. Поэтому покопавшись в интернете, посоветовавшись с профессионалами, решил сделать еще кое-что. Сейчас я это опишу.

Я решил устранить дубли, которые создаются на блоге, при использовании якорей, я о них рассказал в статье «Якоря HTML». На блогах под управлением CMS WordPress якоря образуются при применении тега «#more» и при использовании комментариев . Целесообразность их применения довольно спорная, а вот дубли они плодят явно.
Теперь как я устранил эту проблему.

Сначала займемся тегом #more.

Нашел файл, где он формируется. Вернее мне подсказали.
Это../wp-includes/post-template.php
Затем нашел фрагмент программы:

ID}\» class= \»more-link\»>$more_link_text», $more_link_text);

Фрагмент, отмеченный красным цветом убрал

#more-{$post->ID}\» class=

И получил в итоге строку вот такого вида.

$output .= apply_filters(‘the_content_more_link’, ‘ $more_link_text», $more_link_text);

Убираем якоря комментариев #comment

Теперь перейдем к комментариям. Это уже сам додумал.
Тоже определился с файлом ../wp-includes/comment-template.php
Находим нужный фрагмент программного кода

return apply_filters(‘get_comment_link’, $link . ‘#comment-‘ . $comment->comment_ID , $comment, $args);}

Аналогично фрагмент, отмеченный красным убрал. Очень аккуратно, внимательно, вплоть до каждой точки.

. ‘#comment-‘ . $comment->comment_ID

Получаем в итоге следующую строку программного кода.

return apply_filters(‘get_comment_link’, $link, $comment, $args);
}

Естественно все это проделывал, предварительно скопировав указанные программные файлы к себе на компьютер, чтобы в случае неудачи легко восстановить состояние до изменений.

В результате этих изменений при нажатии на текст «Прочитать остальную часть записи…» у меня формируется страница с каноническим адресом и без добавки к адресу хвоста в виде «#more-….». Также при клике на комментарии у меня формируется нормальный канонический адрес без приставки в виде «#comment-…».

Тем самым количество дублей страниц на сайте несколько уменьшилось. Но что там еще сформирует наш WordPress сейчас сказать не могу. будем отслеживать проблему дальше.

И в заключение предлагаю Вашему вниманию очень неплохое и познавательное видео по этой теме. настоятельно рекомендую посмотреть.

Всем здоровья и успехов. До следующих встреч.

Полезные Материалы: