Блог
Анны Фёдоровой Как зарабатывать в интернете и на своём блоге?

Что такое дублирование контента на блоге и как убрать дубли страниц

2014.05.09
Автор:

Здравствуйте, уважаемые читатели! Сегодня я вам расскажу об одной проблеме как — дублирование контента на блоге.

дублирование контента на блоге

Многие блоггеры стараются писать уникальный контент, защищают его от копирования и стремятся ускорить индексацию блога, поскольку сайты с ворованными статьями попадают под фильтр поисковых систем. Но что если мы сами становимся виновниками того самого фильтра? Ведь дублирование контента может привести не только к занижению позиций страниц вашего блога в поисковой выдаче, но и  к вылету страниц и сайта из индекса. Поэтому в этой статье мы вплотную подойдём к вопросу как убрать дубли страниц.

Что такое дубли страниц – это страницы с одинаковым текстом, которые доступны по разным URL. Т.е. когда один и тот же контент на сайте доступен по разным адресам. Поисковые роботы очень быстро отслеживают такой дублированный контент, поэтому необходимо в срочном порядке избавляться от повторения страниц и  материала на вашем ресурсе.

Сейчас уникальная информация на вашем блоге является неотъемлемым элементом seo — продвижения. Так что если вы хотите вывести ваш сайт в топ поисковой выдачи — нужно проверить наличие дублей. Ведь чаще всего именно дублирование контента мешает продвижению блога, а вы пишите статьи, пишите, покупаете ссылки, а толку никакого. А оказывается, что уникальность контента теряется в пределах вашего же сайта, благодаря наличию таких дублей.

Откуда берутся дубли страниц?

В основном источниками полного или частичного дублированного контента является: RSS лента, архивы, категории, теги. В индексе бывает, присутствуют страницы с параметрами page, php и т.д.

К примеру у меня главная страница выводит 5 анонсов статей и если мы нажимаем вперёд и просматриваем следующие анонсы, то они будут иметь такой адрес: адрес блога/page/2, если ещё нажмём  следующую будет /page/3 и т.д.

дублирование контента

В основном эта проблема наблюдается у тех, кто использует движок WordPress. С метками или тегами происходит тоже самое, если мы ищем статью с помощью меток, то появляется адрес с добавлением tag. Так вот подобные адреса и ссылки страниц создают ненужные дубли, происходит дублирование контента, от которого нужно избавляться.

Но это ещё не всё — слеши так же способствуют добавлению дублей. Например, blog.ru/statja/, а если убрать слеш будет так blog.ru/statja- это вот дубль. Или страницы сайта открываются с www и без него.

Поисковые системы Яндекс, Google, Yahoo, Bing и т.д. воспринимают сайты с www или без www как совершенно разные ресурсы. Поэтому нужно чётко обозначить главное зеркало. У меня, например, главным зеркалом является sozdamblog.ru и если вы наберёте адрес с www, то вас автоматически перекинет на sozdamblog.ru. Обозначить, какое зеркало является главным опять можно с помощью файла роботс  в строке Host. И ещё при помощи инструментов для вебмастеров. В разделе «Настройка индексирования» — «Главное зеркало».

Так хорошо с этим разобрались. Теперь осталось найти дублирование контента на блоге и убрать дубли страниц.

Как определить, что на блоге есть дублирование контента

Можно воспользоваться инструментами Яндекс.Вебмастер и Google и посмотреть количество проиндексированных страниц. В панели вебмастера Яндекса  и Google вы найдёте много нужной информации о вашем блоге. У большинства блоггеров есть аккаунты там и вам советую пользоваться этими полезными инструментами. Если вы ещё не добавились туда, то читаем статью.

В Яндексе выбираем раздел «Индексирование сайта» — «Страницы в поиске». И смотрим проиндексированные URL, есть ли в них дубли страниц. У вас в этом списке не должно быть ничего лишнего, только страницы вашего блога, все опубликованные статьи и ссылка главной страницы. Никаких page, tag, ?replytocom и т.д. На всякий случай просмотрите внутренние ссылки. В инструментах Google не забываем тоже проверить ссылки. И советую поискать дубли страниц с помощью раздела «Оптимизация HTML».

Как убрать дубли страниц

Вначале давайте заглянем в настройки легендарного плагина All In One Seo Pack. Заходим в админку блога и в настройках этого плагина запрещаем индексацию архивов, меток и рубрик.

как убрать дубли страниц

Для того чтобы больше не появлялись дубли страниц нужно составить правильный файл robots.txt. Этот файл указывает поисковым роботам, что нужно индексировать, а что нет. Его нужно создать в самом начале ведения вашего блога, если вы этого ещё не сделали, то срочно делайте. Проверить правильность создания файла  можно в этих же инструментах в анализе robots.txt.

Ваша задача найти дубли страниц во вкладке «Страницы в поиске» и в robots.txt добавить правила, которые будут запрещать ненужные страницы. Сделать это можно с помощью директивы Disallow. Проанализировав адрес, вы поймете, в какой именно директории находится дублированные статьи, и закроете её в robots.txt с помощью:

Disallow: / название директории

И спустя какое-то время поисковой робот проиндексирует и внесёт изменения.

Но есть одно но, если вы что-то закроете в роботс, это вовсе не значит, что поисковики не будут индексировать эти страницы. Если на запрещённую страницу стоит ссылка в тексте вашей статьи, то Google, к примеру, легко сможет посчитать её полезной и пустить в индекс.

Поэтому нужно удалить дубли страниц из индекса с помощью инструментов. В панели Яндекс.Вебмастер нажимаем мои сайты и справа жмём удалить url. И вводим адрес ненужной страницы, после этого она будет удалена из базы и исчезнет из результатов поиска по мере обхода роботом. Тоже самое — проделываем в Google.

А на этом у меня всё. Теперь вы знаете, что такое дублирование контента на блоге и как убрать дубли страниц. Чтобы следить за появлением новых статей, подпишитесь на обновление блога.

P.S. А как избавились от дублирования контента вы? Обязательно напишите в комментариях!

С уважением, Анна Федорова


Комментариев: 1

  1. Роман

    Над блогом приходится много работать — особенно сначала, исправлять множество ошибок, правильно настраивать шаблон, без помощи специалиста не обойтись.

    Ответить

Оставить комментарий: