Они имеют негативное воздействие на ранжирование ресурса в поисковой выдаче, снижают эффективность продвижения посадочных страниц, сбивают настройку ссылочной массы сайта, а также разбавляют трафик. Стоит отметить, что поисковые системы негативно относятся к сайтам, которые имеют дубликаты страниц.
Ниже речь пойдет о основных непрограммных способах удаления дублей.
Избавление эффекта от дубликатов страниц
Обнаружить и удалить дубликаты страниц можно с помощью инструментов вебмастеров от корпораций Google и Yandex. Однако существует множество способов, которые позволяют избежать взаимодействия с этими утилитами.
Склеивание страниц
Этот метод использует редирект 301. Он не удаляет дубли, но благодаря нему основная страница перестает терять трафик, а также внутренний и внешний ссылочный вес. Для этого в файле конфигурации сервера .htaccess следует прописать такую строку:
Redirect 301 /адрес дубля адрес основной страницы
Использование rel=”canonical”
Данный атрибут добавляется в head страницы с помощью такой строки:
<link rel=”canonical”href=”адрес основной страниц”/>
Подобный метод также не удаляет дубликаты, однако он указывает поисковой системе каноническую страницу, которую необходимо проиндексировать.
Редирект 410
Данный метод снова предполагает вмешательство в файл .htaccess. Туда необходимо будет вписать такую строку:
Redirect 410 /tag/адрес дубля
Подобный редирект показывает боту поисковой системы, что страница не существует, поэтому ее индексация невозможна.
Удаление дубликатов вручную
Такой метод подходит для относительно небольших сайтов, которые имеют всего пару сотен страниц. Перелистав все адреса владелец ресурса может быть уверенным, что дублей не осталось. Для объемных сайтов этот метод не подходит, в виду большого количества однообразной работы.
Мета-тег noindex
Этот способ предполагает вмешательство в head странички. Туда мы необходимо будет вписать эту строку:
<meta name=”robots” content=”noindex”>
Если на сайте присутствует большое количество дублей, то этот метод не очень подойдет. Ведь для каждого дубликата добавлять строку придется вручную.
Robots.txt
Если дубли страниц на вашем сайте еще не проиндексированы поисковыми системами, то существует возможность запретить им это делать. Для этого необходимо вмешательство в файл robots.txt. Туда добавляем такую строку:
User-agent: Google (или название другой поисковой системы)
Disallow: адрес дубликата