как быстро найти их и удалить, основные способы и методы — руководство от SEO.RU
Почему дубли страниц — это плохо?
Дубли — это страницы с одинаковым содержимым, т.е. они дублируют друг друга.
Причины, по которым страницы дублируются, могут быть разными:
- автоматическая генерация;
- ошибки в структуре сайта;
- некорректная разбивка одного кластера на две страницы и другие.
Дубли страниц — это плохо для продвижения и раскрутки сайта, даже несмотря на то, что они могут появляться по естественным причинам. Дело в том, что поисковые роботы хуже ранжируют страницы, контент которых мало чем отличается от других страниц. И чем больше таких страниц, тем больше сигналов поисковым ботам, что это сайт не достоин быть в топе выдачи.
Что происходит с сайтом, у которого есть дубликаты страниц?
- Снижается его релевантность. Обе страницы с одинаковым контентом пессимизируются в выдаче, теряют позиции и трафик.
- Снижается процент уникальности текстового контента. Из-за этого понизится уникальность всего сайта.
- Снижается вес URL-адресов сайта. По каждому запросу в выдачу поиска попадает только одна страница, а если таких одинаковых страниц несколько, все теряют в весе.
- Увеличивается время на индексацию. Чем больше страниц, тем больше времени нужно боту, чтобы индексировать ваш сайт. Для крупных сайтов проблемы с индексацией могут сильно сказаться на трафике из поиска.
- Бан от поисковых систем. Можно вообще вылететь из выдачи на неопределенный срок.
В общем, становится понятно, что дубли никому не нужны. Давайте разбираться, как найти и обезвредить дублирующиеся страницы на сайте.
Как найти дубли страниц?
Кирилл Бузаков,
SEO-оптимизатор компании SEO.RU:
«Когда мы получаем в работу сайт, мы проверяем его на наличие дублей страниц, отдающих код 200. Разберем, какие это могут быть дубли.
Возможные типы дублей страниц на сайте
-
Дубли страниц с протоколами http и https.
Например: https://site.ru и http://site.ru -
Дубли с www и без.
Например: https://site.ru и https://www.site.ru -
Дубли со слешем на конце URL и без.
Например: https://site.ru/example/ и https://site.ru/example -
Дубли с множественными слешами в середине либо в конце URL.
Например: https://site.ru/////////, https://site.ru/////////example/ -
Прописные и строчные буквы на различных уровнях вложенности в URL.
Например: https://site.ru/example/ и https://site.ru/EXAMPLE/ -
Дубли с добавлением на конце URL:- index.php;
- home.php;
- index.html;
- home.html;
- index.htm;
- home.htm.
Например: https://site.ru/example/ и https://site.ru/example/index.html -
Дубли с добавлением произвольных символов либо в качестве нового уровня вложенности (в конце или середине URL), либо в существующие уровни вложенности.
Например: https://site.ru/example/saf3qA/, https://site.ru/saf3qA/example/ и https://site.ru/examplesaf3qA/ -
Добавление произвольных цифр в конце URL в качестве нового уровня вложенности.
Например: https://site.ru/example/ и https://site.ru/example/32425/ -
Дубли с добавлением «звездочки» в конце URL.
Например: https://site.ru/example/ и https://site.ru/example/* -
Дубли с заменой дефиса на нижнее подчеркивание или наоборот.
Например: https://site.ru/defis-ili-nizhnee-podchyorkivanie/ и https://site.ru/defis_ili_nizhnee_podchyorkivanie/ -
Дубли с некорректно указанными уровнями вложенности.
Например: https://site.ru/category/example/ и https://site.ru/example/category/ -
Дубли с отсутствующими уровнями вложенности.
Например: https://site.ru/category/example/ и https://site.ru/example/
Как обнаружить дубли страниц?
Поиск дублей страниц можно произвести разными способами. Если вы хотите собрать все-все дубли и ничего не упустить, лучше использовать все нижеперечисленные сервисы совместно. Но для поиска основных достаточно какого-то одного инструмента, выбирайте, какой вам ближе и удобнее.
-
Парсинг сайта в специализированной программе
Для поиска дубликатов подходит программа Screaming Frog SEO Spider. Запускаем сканирование, а после него проверяем дубли в директории URL → Duplicate:
Кроме того, в директории Protocol → HTTP проверяем страницы с протоколом http — есть ли среди них те, у которых Status Code равен 200: -
Онлайн-сервисы.
Первый, подходящий нашим целям сервис, — это ApollonGuru.- Выбираем 5-7 типовых страниц сайта. Например, набор может быть таким: главная, разводящая, карточка товара/страница услуги, статья в блоге, а также другие важные страницы в зависимости от типа сайта.
- Вносим их в поле «Поиск дублей страниц» и нажимаем кнопку «Отправить»:
- Дубли с 200 кодом ответа сервера (смотрим столбец «Код ответа сервера») берем в работу:
Кроме того, необходимо проверять, что с дублей настроены прямые 301 редиректы на основные версии этих же страниц.
Также проверка дублей сайта возможна онлайн-сервисом Check Your Redirects and Statuscode, но он подходит только в том случае, если нужно проанализировать один URL-адрес:
-
Панели веб-мастеров Яндекса и Google.
Найти дублирующиеся страницы можно с помощью собственных инструментов поисковиков — Яндекс.Вебмастера и Google Search Console.
В Яндекс.Вебмастере анализируем раздел «Индексирование», далее — «Страницы в поиске»:
Там можно увидеть текущую индексацию сайта и искомые дубли страниц:
В Search Console анализируем раздел «Покрытие», а именно пункт с исключенными из индекса страницами:
Собираем все дубли в одну таблицу или документ. Затем отправляем их в работу программисту:
Старайтесь подробнее объяснить программисту задачу, так как адресов может быть много».
Как убрать дубли страниц на сайте?
Евгений Костырев,
веб-программист компании SEO.RU:
«С дублирующимися страницами бороться можно разными способами. Если есть возможность, стоит использовать ручной метод. Но такая возможность есть не всегда, потому что здесь нужны серьезные навыки программирования: как минимум, нужно хорошо разбираться в особенностях CMS своего сайта.(.*)index\.(php|html|htm)$ http://site.ru/$1 [R=301,L]
Если же сайт использует Nginx, то правила прописываются в файле nginx.conf. Для перенаправления также нужно прописывать правила с помощью регулярных выражений, например:
location = /index.html {
return 301 https://site.com
}
Вместо index.html можно указать любой другой URL-адрес страницы вашего сайта, с которого нужно сделать редирект.
На этом этапе важно следить за корректностью новой части кода: если в ней будут ошибки, исчезнут не только дубли, но и вообще весь сайт из всего интернета.
Создание канонической страницы
Использование canonical указывает поисковому пауку на ту единственную страницу, которая является оригинальной и должна быть в поисковой выдаче.
Чтобы выделить такую страницу, нужно на всех URL дублей прописать код с адресом оригинальной страницы:
<link rel= “canonical” href= «http://www.site.ru/original-page.html”>
Можно прописывать их вручную, но это займет много времени, поэтому есть смысл использовать плагины. Например, в WordPress это YoastSEO или AllinOneSEOPack.
В 1С-Битрикс это делается с помощью языка программирования PHP в соответствующих файлах. Такая же история и с CMS Joomla: без вмешательства программиста или собственных навыков программирования здесь не обойтись.
Директива Disallow в robots.txt
В файле robots.txt содержатся инструкции для поисковых краулеров, как именно индексировать сайт.
Читать по теме: Как правильно заполнить файл robots.txt: критически важные моменты
Если на сайте есть дубли, можно запретить краулеру их индексировать с помощью директивы:
User-agent: *
Disallow: site.ru/contacts.php?work=225&s=1
Такой способ практически не требует навыков программиста, однако он не подходит, если дублей много: очень много времени уйдет на изменение robots.txt каждого дубля».
Выбирайте способ, исходя из собственных навыков программирования и личных предпочтений, и не давайте поисковикам повод сомневаться в релевантности и качестве вашего сайта.
Как убрать дубли страниц сайта: пошаговая инструкция
В статье про технический аудит сайта мы упомянули, что среди прочего SEO-специалисту важно проверить, а есть ли дубли страниц на продвигаемом им веб-ресурсе. И если они найдутся, то нужно немедленно устранить проблему. Однако там в рамках большого обзора я не хотел обрушивать на голову читателя кучу разнообразной информации, поэтому о том, что такое дубликаты страниц сайта, как их находить и удалять, мы вместе с вами детальнее рассмотрим здесь.
Почему и как дубли страниц мешают поисковому продвижению
Для начала отвечу на вопрос «Как?». Дубликаты страниц сильно затрудняют SEO, т. к. поисковые системы не могут понять, какую из веб-страниц им нужно показывать в выдаче по релевантным запросам. Поэтому чаще всего, чтобы не путаться, они понижают сайт в ранжировании или даже банят его, если проблема имеет массовый характер. После этого должно быть понятно, насколько важно сразу проверить продвигаемый ресурс на дубликаты.
Теперь давайте посмотрим, почему так получается, что дубли создают проблему? Для этого рассмотрим такой простой пример. Взгляните на следующее изображение и определите, какой из овощей наиболее точно соответствует запросу «спелый помидор»?
Хотя овощи немного отличаются размером, но все три из них подходят под категорию «спелого помидора». Поэтому сделать выбор в пользу одно из них довольно сложно.
Такая же дилемма встает перед поисковыми алгоритмами, когда они видят на сайте несколько одинаковых (полных) или почти одинаковых (частичных) копий одной и той же страницы.
Как наличие дублей сказывается на продвижении:
- Чаще всего падает релевантность основной продвигаемой страницы и, соответственно, снижаются позиции по используемым ключевым словам.
- Также могут «прыгать» позиции по ключам из-за того, что поисковик будет менять страницу для показа в поисковой выдаче.
- Если проблема не ограничивается несколькими урлами, а распространяется на весь сайт, то в таком случае Яндекс и Google могут наказать неприятным фильтром.
Понимая теперь, насколько серьезными могут быть последствия, рассмотрим виды дубликатов.
SEO-шников много, профессионалов — единицы. Научитесь технической и поведенческой оптимизации, создавайте семантические ядра и продвигайте проекты в ТОП!
Получить скидку →
Виды дублей
Выше мы уже выяснили, что дубли бывают идентичными (полными) и частичными. Полным называют такой дубликат, когда одну и ту же веб-страницу поисковик находит по различным адресам.
Когда появляются полные дубли:
- Зачастую это происходит, если забыли указать главное зеркало, и весь сайт может показываться в поиске с www и без него, c http и с https. Чтобы устранить эту проблему, читайте здесь детальнее о том, что такое зеркало сайта.
- Кроме того, бывают ситуации, когда возникают дубли главной страницы ввиду особенностей движка или проведенной веб-разработчиком работы. Тогда, к примеру, главная может быть доступна со слешем «/» в конце и без него, с добавлением слов home, start, index.php и т. п.
- Нередко дубли возникают, когда в индекс попадают страницы с динамичными адресами, появляющиеся обычно при использовании фильтров для сортировки и сравнения товаров.
- Часть движков (WordPress, Joomla, Opencart, ModX) сами по себе генерируют дубли. К примеру, в Joomla по умолчанию часть страниц доступна к отображению с разными урлами: mysite.ru/catalog/17 и mysite.ru/catalog/17-article.html и т. п.
- Если для отслеживания сессий применяют специальные идентификаторы, то они также могут индексироваться и создавать копии.
- Иногда в индекс также попадают страницы по адресам, к которым добавлены utm-метки. Такие метки вставляют, чтобы отслеживать эффективность проводимых рекламных кампаний, и по-хорошему они не должны быть проиндексированы. Однако на практике подобные урлы часто можно видеть в поисковой выдаче.
Когда возникают частичные дубли
Полные дубли легко найти и устранить, а вот с частичными уже придется повозиться. Поэтому на рассмотрении их видов стоит остановиться детальнее.
Пагинация страниц
Используя пагинацию страниц, владельцы сайтов делают навигацию для посетителей более простой, но вместе с тем создают проблему для поискового продвижения. Каждая страница пагинации – это фактически дубль зачастую с теми же мета-данными, СЕО-текстом.
К примеру, основная страница имеет вид https://mysite.ru/women/clothes, а у страницы пагинации адрес будет https://mysite.ru/women/clothes/?page=2. Адреса получаются разные, а содержимое будет почти одинаковым.
Блоки новостей, популярных статей и комментариев
Чтобы удержать пользователя на сайте, ему часто предлагают ознакомиться с наиболее интересными новостями, комментариями и статьями. Название этих объектов с частью содержимого обычно размещают по бокам или снизу от основного материала. Если эти куски будут проиндексированы, то поисковик определит, что на некоторых страницах одинаковый контент, а это очень плохо.
На скриншоте видно, как внизу главной страницы сайта размещаются три блока с последними статьями, новостями и отзывами. То есть текстовое содержимое есть в соответствующих разделах сайта, и здесь на главной оно повторяется, создавая частичные дубли.
Версии страниц для печати
Некоторые веб-страницы сайта доступны в обычном варианте и в версии для печати, которая отличается от основной адресом и отсутствием значительной части строк кода, т. к. для печатаемой страницы не нужна значительная часть функционала.
Обычная страница может открываться, например, по адресу https://my-site.ru/page, а у варианта для печати адрес немного изменится и будет похож на такой: https://my-site.ru/page?print.
Сайты с технологией AJAX
На некоторых сайтах, применяемых технологию AJAX, возникают так называемые html-слепки. Сами по себе они не опасны, если нет ошибок в имплантации способа индексирования AJAX-страниц, когда поисковых ботов направляют не на основную страницу, а на html-слепок, где робот индексирует одну и ту же страницу по двум адресам:
- основному;
- адресу html-слепка.
Для нахождения таких html-слепков стоит в основном адресе заменить часть «!#» на такой код: «?_escaped_fragment_=».
Частичные дубли опасны тем, что они не вызывают значительного снижения позиций в один момент, а понемногу портят картину, усугубляя ситуацию день за днем.
Как происходит поиск дублей страниц на сайте
Существует несколько основных способов, позволяющих понять, как найти дубли страниц оптимизатору на сайте:
Вручную
Уже зная, где стоит искать дубликаты, SEO-специалист без особого труда может найти значительную часть копий, попробовав различные варианты урлов.
С применением команды site
Вставляем в адресную строку команду «site:», вводим после нее домен и часть текстового содержания, после чего Google сам выдаст все найденные варианты. На скриншоте ниже видно, что мы ввели первое предложение свежей статьи после команды «site:», и Google показывает, что у основной страницы с материалом есть частичный дубль на главной.
С использованием программ и онлайн-сервисов
Для поиска дублей часто применяют три популярные программы на ПК:
- Xenu – бесплатная;
- NetPeak – от $15 в месяц, но есть 14-дневный trial;
- Screaming Frog – платная (149 фунтов за год), но есть ограниченная бесплатная версия, которой хватает для большинства нужд.
Вот пример того, как ищет дубликаты программа Screaming Frog:
А вот как можно проверить дубли страниц в NetPeak:
Для онлайн-поиска дублей страниц можно использовать специальные веб-сервисы наподобие Serpstat.
Использование Google Search Console и Яндекс Вебмастер
В обновленной версии Google Search Console для поиска дублей смотрим «Предупреждения» и «Покрытие». Там поисковая система сама сообщает о проблемных, на ее взгляд, страницах, которым нужно уделить внимание.
Что касается Yandex, то здесь все намного удобнее. Для поиска дублей заходим в Яндекс Вебмастер, открыв раздел «Индексирование» – «Страницы в поиске». Опускаемся в самый низ, выбираем справа удобный формат файла – XLS или CSV, скачиваем его и открываем. В этом документе все дубликаты в строке «Статус» будут иметь обозначение DUPLICATE.
Как убрать дубли?
Чтобы удалить дубли страниц на сайте, можно использовать разные приемы в зависимости от ситуации. Давайте же с ними познакомимся:
При помощи noindex и nofollow
Самый простой способ – закрыть от индексации, используя метатег <meta name=”robots” content=”noindex,nofollow”/>, который помещают в шапку между открывающим тегом <head> и закрывающим </head>. Попав на страницу с таким метатегом, поисковые алгоритмы не станут ее индексировать и учитывать ссылки, находящиеся здесь.
При добавлении метатега «noindex,nofollow» на страницу, крайне важно, чтобы для нее не была запрещена индексация через файл robots.txt.
При помощи robots.txt
Индексирование отдельных дублей можно запретить в файле robots.txt, используя директиву Disallow. В таком случае примерный вид кода, добавляемого в robots.txt, будет таким:
User-agent: *
Disallow: /dublictate.html
Host: mysite.ru
Через robots.txt удобно запрещать индексацию служебных страниц. Выглядит это следующим образом:
Этот вариант зачастую применяют, если невозможно использовать предыдущий.
При помощи canonical
Еще один удобный способ – применить метатег canonical, который говорит поисковым роботам, что они попали на страницу-дубликат, а заодно указывает, где находится основная страница. Этот метатег помещают в шапку между открывающим тегом <head> и закрывающим </head>, и выглядит он так:
<link rel=”canonical” href=”адрес основной страницы” />
Как убрать дубликаты на страницах с пагинацией
В случае присутствия на сайте многостраничного каталога, на второй и последующих страницах могут возникать частичные дубли. Смотрим, как это может быть:
Выше на скрине 1-я страница каталога, а вот вторая:
То есть на каждой странице дублируется текст и теги: Title и Description.
В таких случаях SEO-специалисту нужно добиться, чтобы:
- текст отображался только на 1-й странице;
- Title и Description были уникальными для каждой страницы, хотя их можно сделать шаблонными с минимальными отличиями;
- в адресах страниц пагинации должны отсутствовать динамические параметры.
Понимая теперь, что такое дубликаты страниц сайта, и как бороться с дублями, вы сможете не допустить попадания в индекс копий, которые будут препятствовать продвижению в поисковых системах. Если после прочтения статьи у вас остались вопросы, или вы хотите дополнить материал своими ценными замечаниями, то обязательно сделайте это в комментариях ниже.
Как убрать дубликаты страниц — Академия SEO (СЕО)
Содержание:
Как избавиться от дублей страниц
После того как были обнаружены копии страничек веб-ресурса, нужно решить, как убрать дублирование. Ведь даже если подобных повторений немного, это все равно негативно скажется на рейтингах Вашего веб-ресурса – поисковики могут наказать Вас снижением позиций. Поэтому важно убрать дубликаты страниц независимо от их количества.
С чего начать удаление дублей страниц
Для начала рекомендуется выявить причину, по которой появилось дублирование контента. Чаще всего это:
- Ошибки при формировании структуры веб-ресурса.
- «Проделки» некоторых современных движков для сайтов, которые при неправильных настройках довольно часто автоматически генерируют копии и хранят их под разными адресами.
- Неправильные настройки фильтров поиска по сайту.
Способы решения выявленных проблем
После выяснения причины, по которой появилось дублирование, и ее устранения нужно принять решение касательно того, как убрать дубли страниц. В большинстве случаев подойдет один из этих методов:
- Удалить дубли страниц вручную. Этот метод подойдет для небольших веб-ресурсов, содержащих до 100–150 страничек, которые вполне можно перебрать самому.
- Настроить robots.txt. Подойдет, чтобы скрыть дубликаты страниц, индексирование которых еще не проводилось. Использование директивы Disallow запрещает ботам заходить на ненужные страницы. Чтобы указать боту Яндекса на то, что ему не следует индексировать странички, содержащие в URL «stranitsa», нужно в robots.txt добавить:
- Использовать мета-тег «noindex». Это не поможет удалить дубли страниц, но скроет их от индексирования, как и в предыдущем способе. Прописывается в HTML-коде странички (в разделе head), про которую должны «забыть» поисковики, в таком виде:
При этом есть один нюанс – если страница-дубликат уже появляется в результатах выдачи, то она будет продолжать это делать до повторной индексации, которая могла быть заблокирована в файле robots.txt.
- Удаление дублей страниц, используя перенаправление 410. Неплохой вариант вместо предыдущих двух способов. Уведомляет зашедшего в гости робота поисковика о том, что странички не существует и отсутствуют данные об альтернативном документе. Вставляется в файл конфигурирования сервера .htaccess в виде:
В результате при попытке зайти по адресу страницы-дубля Вы увидите:
- Указать каноническую страничку для индексации. Для этой цели используется атрибут rel=”canonical”. Добавляется в head HTML-кода страничек, которые являются ненужными копиями.
Это не поможет физически избавиться от дублей страниц, а лишь укажет ботам поисковых систем каноническую (исходную), которой нужна индексация.
- Склеивание страниц. Для этого используется перенаправление 301. Подобный вариант также не поможет убрать дубликаты страниц, но позволит передать нужной страничке до 99% внешнего и внутреннего ссылочного веса. Пример:
Если нет возможности убрать дубли страниц…
… или же Вы не хотите их удалять, можно хотя бы обезопасить странички, которые при помощи внутренней перелинковки связаны с ними. Для этого используется атрибут rel=«nofollow». Если прописать его в ссылках, они больше не будут передавать вес.
Теперь Вы знаете достаточно способов того, как убрать дубли страниц. Если умело их комбинировать, Вы сможете добиться, чтобы не осталось ни единого прецедента дублирования контента. Только после этого можно рассчитывать на максимальную эффективность продвижения Вашего сайта.
Если остались вопросы по данной теме, не забудьте их задать в комментариях!
Как найти и удалить дубли страниц на сайте — Офтоп на vc.ru
Дубли страниц — документы, имеющие одинаковый контент, но доступные по разным адресам. Наличие таких страниц в индексе негативно сказывается на ранжировании сайта поисковыми системами.
{«id»:44410,»url»:»https:\/\/vc.ru\/flood\/44410-kak-nayti-i-udalit-dubli-stranic-na-sayte»,»title»:»\u041a\u0430\u043a \u043d\u0430\u0439\u0442\u0438 \u0438 \u0443\u0434\u0430\u043b\u0438\u0442\u044c \u0434\u0443\u0431\u043b\u0438 \u0441\u0442\u0440\u0430\u043d\u0438\u0446 \u043d\u0430 \u0441\u0430\u0439\u0442\u0435″,»services»:{«facebook»:{«url»:»https:\/\/www.facebook.com\/sharer\/sharer.php?u=https:\/\/vc.ru\/flood\/44410-kak-nayti-i-udalit-dubli-stranic-na-sayte»,»short_name»:»FB»,»title»:»Facebook»,»width»:600,»height»:450},»vkontakte»:{«url»:»https:\/\/vk.com\/share.php?url=https:\/\/vc.ru\/flood\/44410-kak-nayti-i-udalit-dubli-stranic-na-sayte&title=\u041a\u0430\u043a \u043d\u0430\u0439\u0442\u0438 \u0438 \u0443\u0434\u0430\u043b\u0438\u0442\u044c \u0434\u0443\u0431\u043b\u0438 \u0441\u0442\u0440\u0430\u043d\u0438\u0446 \u043d\u0430 \u0441\u0430\u0439\u0442\u0435″,»short_name»:»VK»,»title»:»\u0412\u041a\u043e\u043d\u0442\u0430\u043a\u0442\u0435″,»width»:600,»height»:450},»twitter»:{«url»:»https:\/\/twitter.com\/intent\/tweet?url=https:\/\/vc.ru\/flood\/44410-kak-nayti-i-udalit-dubli-stranic-na-sayte&text=\u041a\u0430\u043a \u043d\u0430\u0439\u0442\u0438 \u0438 \u0443\u0434\u0430\u043b\u0438\u0442\u044c \u0434\u0443\u0431\u043b\u0438 \u0441\u0442\u0440\u0430\u043d\u0438\u0446 \u043d\u0430 \u0441\u0430\u0439\u0442\u0435″,»short_name»:»TW»,»title»:»Twitter»,»width»:600,»height»:450},»telegram»:{«url»:»tg:\/\/msg_url?url=https:\/\/vc.ru\/flood\/44410-kak-nayti-i-udalit-dubli-stranic-na-sayte&text=\u041a\u0430\u043a \u043d\u0430\u0439\u0442\u0438 \u0438 \u0443\u0434\u0430\u043b\u0438\u0442\u044c \u0434\u0443\u0431\u043b\u0438 \u0441\u0442\u0440\u0430\u043d\u0438\u0446 \u043d\u0430 \u0441\u0430\u0439\u0442\u0435″,»short_name»:»TG»,»title»:»Telegram»,»width»:600,»height»:450},»odnoklassniki»:{«url»:»http:\/\/connect.ok.ru\/dk?st.cmd=WidgetSharePreview&service=odnoklassniki&st.shareUrl=https:\/\/vc.ru\/flood\/44410-kak-nayti-i-udalit-dubli-stranic-na-sayte»,»short_name»:»OK»,»title»:»\u041e\u0434\u043d\u043e\u043a\u043b\u0430\u0441\u0441\u043d\u0438\u043a\u0438″,»width»:600,»height»:450},»email»:{«url»:»mailto:?subject=\u041a\u0430\u043a \u043d\u0430\u0439\u0442\u0438 \u0438 \u0443\u0434\u0430\u043b\u0438\u0442\u044c \u0434\u0443\u0431\u043b\u0438 \u0441\u0442\u0440\u0430\u043d\u0438\u0446 \u043d\u0430 \u0441\u0430\u0439\u0442\u0435&body=https:\/\/vc.ru\/flood\/44410-kak-nayti-i-udalit-dubli-stranic-na-sayte»,»short_name»:»Email»,»title»:»\u041e\u0442\u043f\u0440\u0430\u0432\u0438\u0442\u044c \u043d\u0430 \u043f\u043e\u0447\u0442\u0443″,»width»:600,»height»:450}},»isFavorited»:false}
1618
просмотров
Какой вред они могут нанести
- Снижение общей уникальности сайта.
- Затрудненное определение релевантности и веса страниц (поисковая система не может определить, какую страницу из дубликатов необходимо показывать по запросу).
- Зачастую дубли страниц имеют одинаковые мета-теги, что также негативно сказывается на ранжировании.
Как появляются дубликаты
Технические ошибки
К ним относят доступность страниц сайта:
- по www и без www;
- со слэшем на конце и без;
- с index.php и без него;
- доступность страницы при добавлении различных GET-параметров.
Особенности CMS
- страницы пагинации сайта;
- страницы сортировки, фильтрации и поиска товаров;
- передача лишних параметров в адресе страницы.
Важно! Также дубли страниц могут появляться за счет доступности первой страницы пагинации по двум адресам: http://site.ru/catalog/name/?PAGEN_1=1 и http://site.ru/catalog/name/.
Дубликаты, созданные вручную
Один из наиболее частых примеров дублирования страниц — привязка товаров к различным категориям и их доступность по двум адресам. Например: http://site.ru/catalog/velosiped/gorniy/stern-bike/ и http://site.ru/catalog/velosiped/stern-bike/.
Также страницы могут повторяться, если структура сайта изменилась, но старые страницы остались.
Поиск дублей страниц сайта
Существует большое количество методов нахождения дубликатов страниц на сайте. Ниже описаны наиболее популярные способы:
- программа Screaming Frog;
- программа Xenu;
- Google Webmaster: «Вид в поиске» -> «Оптимизация HTML»;
- Google Webmaster: «Сканирование» -> «Оптимизация HTML».
Для программы Screaming Frog и Xenu указывается адрес сайта, и после этого робот собирает информацию о нем. После того, как робот просканирует сайт, выбираем вкладку Page Title — Duplicate, и анализируем вручную список полученных страниц.
С помощью инструмента «Оптимизация HTML» можно выявить страницы с одинаковыми description и title. Для этого в панели Google Webmaster надо выбрать необходимый сайт, открыть раздел «Вид в поиске» и выбрать «Оптимизация HTML».
C помощью инструмента «Параметры URL» можно задать параметры, которые необходимо индексировать в адресах страниц.
Для этого надо выбрать параметр, кликнуть на ссылку «Изменить» и выбрать, какие URL, содержащие данный параметр, необходимо сканировать.
Также, найти все индексируемые дубли одной страницы можно с помощью запроса к поиску Яндекса. Для этого в поиске Яндекса необходимо ввести запрос вида site:domen.ru «фраза с анализируемой страницы», после чего проанализировать вручную все полученные результаты.
Как правильно удалить дубли
Чтобы сайт открывался лишь по одному адресу, например «http://www.site.ru/catalog/catalog-name/», а не по «http://site.ru/catalog/catalog-name/index.php», необходимо корректно настроить 301 редиректы в файле htaccess:
- со страниц без www, на www;
- со страниц без слэша на конце, на «/»;
- со страниц с index.php на страницы со слэшем.
Если вам необходимо удалить дубликаты, созданные из-за особенностей системы управления сайтом, надо правильно настроить файл robots.txt, скрыв от индексации страницы с различными GET-параметрами.
Для того чтобы удалить дублирующие страницы, созданные вручную, нужно проанализировать следующую информацию:
- их наличие в индексе;
- поисковый трафик;
- наличие внешних ссылок;
- наличие внутренних ссылок.
Если неприоритетный документ не находится в индексе, то его можно удалять с сайта.
Если же страницы находятся в поисковой базе, то необходимо оценить, сколько поискового трафика они дают, сколько внешних и внутренних ссылок на них проставлено. После этого остается выбрать наиболее полезную.
После этого необходимо настроить 301-редирект со старой страницы на актуальную и поправить внутренние ссылки на релевантные.
Ждите новые заметки в блоге или ищите на нашем сайте.
Как удалить дубли страниц в WordPress за несколько минут
Что такое дубли страниц?
Очень часто владельцы wordpress сайтов начинают беспокоиться, если не понимают из-за чего отдельные страницы проваливаются в выдаче. Причиной тому могут быть дубли страниц. Это страницы, содержащие материалы с идентичным или похожим контентом. Речь о страницах архивов дат, рубрик, авторов и комментариев. При этом они могут располагаться под разными адресами, что позволяет дублям конкурировать с основной статьей за место в поисковой выдаче. В этом материале мы расскажем как избавиться от дублей страниц.
Создание дублей страниц на сайте
Как мы уже рассказывали ранее, дубли одной конкретной страницы, где размещена одна конкретная статья создаются и в архивах дат, и в рубриках или категориях (могут называться по-разному), а также на страницах с комментариями. Благодаря этому пользователи могут сортировать посты и находить по определенным критериям нужные. Система делает это автоматически.
Давайте посмотрим как это выглядит на примере архива дат. Предположим нам нужно выбрать все статьи за ноябрь. На главной странице сайта кликните на ссылку в виджете с указанием месяца.
Кликнув на ссылку «ноябрь 2018» перед вами появится список из статей, которые были сделаны за указанный месяц. Вот наглядный пример того, что под архивы дат wordpress создает отдельную страницу. Вспоминаем про индексацию лишних страниц поисковиком и об ее негативных для продвижения последствиях. Подробнее мы рассказывали в статье о том, как удалить страницы вложений в wordpress.
Дубли в комментариях
При работе с комментариями вебмастерам следует учитывать, что как таковые, дубли страниц создаются при наличии древовидной системы обсуждения. В том числе если обсуждений очень много и комментариям не хватает места на одной странице, то часть их перемещается на следующие. И в этом случае вам необходимо удалить дубли страниц в wordpress, иначе проиндексированные страницы станут своеобразной ловушкой для пользователей. Они просто попадут на страницу комментариев статьи, а не на саму статью, после чего посетители, скорее всего покинут сайт. SEO-продвижение явно пострадает от большого количества отказов.
Как удалить дубли с помощью плагина WordPress
Чтобы не разбираться с провалами в поисковой выдаче, лучше заранее провести профилактическую работу. А именно удалить дубли страниц в wordpress. Мы предлагаем вам воспользоваться плагином оптимизации сайтов Clearfy. В его арсенале большой спектр полезных функций для удаления дублей страниц. Скачайте данное приложение и установите, так мы сможем рассказать о всех фичах более предметно.
После активации перейдите в меню настроек плагина: «Настройки» => «Clearfy меню» =>
=> далее раздел «SEO» (в левом боковом меню плагина) => вкладка «Дубли страниц»
Начнем по порядку, с удаления архивов дат. Здесь стоит сразу уточнить, что удалять дубли в буквальном смысле мы не будем. Их просто отключат от индексирования. И это важнее, чем избавиться фактически от копий страниц. Если дубликаты не видит поисковик, значит пользователь перейдет на основную, нужную вам для продвижения страницу и не заблудится в многообразии ссылок-клонов. Чтобы запустить функцию нажмите кнопку ВКЛ.
С архивом автора, ситуация такая же, как и с архивом дат: дубли не удаляются, а отключаются от индексации. Также ставится редирект с дубля на основную страницу. Активируйте и эту функцию.
Чтобы удалить метки архивов, нужно поставить редирект со страниц тегов на главную. Для этого активируйте функцию ниже. Аналогично предыдущим. Обратите внимание на серую метку со знаком вопроса. Она указывает на то, что негативных последствий настройка не вызовет.
Для каждой фотографии или видео wordpress создает отдельную «страницу вложений» с возможностью комментирования, что является своеобразным якорем оптимизации. Подробней об этом мы говорили в предыдущей статье. Нажимаем кнопку ВКЛ.
Если у вас на сайте пагинация настроена таким образом, что контент размещается сразу на нескольких страницах, то в конце URL, в том или ином виде, будет добавляться порядковый номер каждой страницы. Clearfy же, предложит вам удалить постраничную навигацию записей. То есть каждая страница одной статьи будет редиректиться на основную. Нажмите кнопку ВКЛ.
Если у вас настроены древовидные комментарии, то их иерархия создаст благоприятные условия для создания копий страниц. Выглядит это так: вы отвечаете на чей-то комментарий и одновременно в URL появляется переменная ?replytocom
— это значит, что поисковик видит в этом не ответ на комментарий, а отдельную страницу, так как адрсе отличается. Удалить дубли страниц в wordpress и выполнить редирект вы можете активировав данную функцию.
Заключение
Время и силы, затраченные на продвижение сайта или отдельных статей могут уйти впустую. Если не позаботиться об удалении дублей страниц заранее. Они индексируются поисковиком и могут составить конкуренцию основным статьям. После прочтения данной статьи мы надеемся, что вы оценили весь спектр представленных функций и теперь вам будет несложно удалить дубли страниц в wordpress.
Ручная проверка сайта на дубли страниц. Как найти и удалить?
При поисковой оптимизации самое главное — не допустить ошибок. И самая распространенная ошибка — это большое количество дублей страниц. Сегодня мы расскажем, как убрать если не все, то 99% всех дублей с сайта простой ручной проверкой.
Что такое дубли страниц
Для начала давайте разберемся — что это такое и откуда они берутся?
Самый простой пример дубля — это домен третьего уровня www. Например, у нас есть сайт — site.ru. Как вы знаете, в браузере можно его вводить следующим образом — www.site.ru. По сути — оба этих варианта абсолютно идентичны, поэтому поисковые системы могут проиндексировать один из вариантов и в итоге при переходе, например, с Google — пользователи будут попадать на страницу www.site.ru, а при переходе с Яндекса — на страницу site.ru.
Почему от них надо избавляться
Есть две основных причины:
1. Внутренние и внешние ссылки.
Запомнить — какое именно зеркало (дубль) страницы используется — практически невозможно. Особенно если над сайтом работает не один человек, а несколько. В итоге, кто-то ссылается на страницу с www, кто-то без. В итоге — вес ссылок размывается и продвигать сайт становится сложнее. Кроме того — сами пользователи добавляют масла в огонь, оставляя ссылки в соцсетях и на форумах на разные дубли.
2. Скачки позиций в поиске
Из-за того, что ссылки ведут на разные зеркала — в поисковиках могут наблюдаться серьезные скачки позиций. Сначала Яндекс посчитает, что страница с www более релевантная, потом вдруг изменит решение и сделает релевантной страницу без www. Как итог — позиции могут сильно прыгать и трафик будет расти не равномерно.
Как удалить дубли страниц
Опять же, есть несколько способов убрать зеркала на сайте. Рассмотрим подробнее каждый из них:
1. 301 редирект
Этот способ чаще всего используется для технических зеркал. Срабатывает он следующим образом — пользователь попадает на сайт с www, а его автоматически перебрасывает на сайт без поддомена.
2. Запрет на индексацию в robots.txt
Используется для запрета индексации отдельных типов зеркал. Например — фильтров в интернет-магазинах, или поисковых страниц вида ?search=…
Для того, чтобы запретить индексацию — достаточно в файле robots.txt дописать строчку:
Disallow: /*?*search=
3. Атрибут rel=»canonical»
Аналогичен предыдущему варианту, но чаще всего используется в системах пагинации (например, просмотр предыдущей и следующей страниц в каталоге магазина). Подробнее об этом методе можно почитать на странице помощи Яндекса.
Попытаемся найти дубли страниц
Теперь, когда мы разобрались что это и как это исправить — найдем все возможные дубли на сайте. Просто добавляйте указанные значения к своему сайту и проверяйте, есть ли дубли. Если страница открывается так же, как и без параметра — значит это явное зеркало.
Примеры:
site.ru -> www.site.ru site.ru -> site.ru/ site.ru -> site.ru/index.php и т.д.
1. Дубли главной страницы
www / на конце /index.php /index.html /index.htm /index /index/ /home.php /home.html /home.htm /home /home/
2. Пагинация
Проверьте, добавлен ли атрибут rel="canonical" на страницах пагинации.
3. UTM-разметка и рекламные параметры:
Добавьте в robots.txt следующий код
Disallow: /*?*openstat= Disallow: /*?*yclid= Disallow: /*?*utm
4. На внутренних страницах сайта
/ на конце .php на конце
5. Страница поиска
Если хотите закрыть страницу поиска от индексации, введите запрос на своем сайте в поисковой форме и найдите параметр вида ?search=запрос. После этого внесите параметр «?search» в robots.txt вот так:
Disallow: /*?*search=
6. Фильтры и сортировка
Для интернет-магазинов и каталогов так же нужно убирать дубли фильтров и сортировок. Просто выберете любой фильтр на сайте и получите ссылку вида ?sort=price. Найдите параметр типа «?sort» и добавьте его в robots.txt следующим образом:
Disallow: /*?*sort
С ручной проверкой — закончено! Можете быть уверены, если вы проверите все вышеперечисленное — то уже избавитесь от большого количества дублей на сайте.
Обратите внимание! Если в индексе поисковиков было много зеркал, то после их удаления — сайт может временно «просесть» в позициях, так что лучше проводить чистку постепенно, чтобы дать возможность Яндексу и Гуглу постепенно переиндексировать сайт.
Поиск дублей страниц сайта | Как проверить онлайн и убрать дубли
Сколько раз делаю технический аудит какого-нибудь клиентского сайта, так обязательно нахожу дубли страниц. Это особенная проблема для больших интернет магазинов. Давайте сейчас разберемся, как эту проблему диагностировать и решить.
Дубли сайта — это страницы с идентичным или почти одинаковым контентом но разными URL.
Дублями могут быть мета-теги title и description, могут быть дубли текста или полного контента, то есть всего содержимого страницы. Наиболее часто дублями бывают страницы пагинации, карточки товаров, страницы фильтра или теги.
Причем частичное совпадение контента допустимо, например, в каких-то карточках товаров могут дублироваться характеристики или какие-то блоки на странице могут дублироваться, например, отзывы. Но если взять сайт в целом, то каждая страница на сайте должна быть уникальной.
От дублей страниц очень много бед для сайта. Например, они понижают общий рейтинг сайта, его общее качество в глазах поисковых систем. В google вообще можно словить фильтр Панду за большое количество дублей.
Например, яндекс идентифицирует дубли, они отображаются в яндекс вебмастере, он просто выплевывает их из выдачи.
А google наоборот их хранит и при достижении какого-то критического значения накладывает фильтр на сайт. В общем, вреда от дублей для сайта много и поэтому от них обязательно нужно избавляться.
Но для начала их нужно идентифицировать, и есть несколько способов поиска и проверки дублей страниц сайта онлайн, я разберу способы ручные и способы автоматизированные. Эти способы являются универсальными и подойдут для любого движка, будь то wordpress, битрикс, opencart, joomla и других.
Проверка дублей через яндекс вебмастер
Самый простой способ, если у вас есть яндекс вебмастер, вы можете зайти в раздел «Индексирование — страницы в поиске».
Выбрать здесь «Исключенные страницы» и посмотреть, нет ли у вас вот такой картины.
Вебмастер показывает, что это дубли, и если такое присутствует, то нужно от этого избавляться. Дальше я покажу, какие есть варианты исправить их.
Поиск через индекс поисковых систем
Следующий способ также ручной — нужно вбить в поисковую строку google такую комбинацию site:santerma.shop (после двоеточия адрес вашего сайта), и покажутся все страницы, которые есть в индексе поисковой системы.
Аналогично работает и в яндексе.
Затем вручную пройтись по сайту и посмотреть, какие есть проблемы. Например, вот видно, есть какие-то дубликаты заголовков — интернет магазин сантехники и водоподготовки САНТЕРМА.
Можно перейти и посмотреть, что это за дубликаты, заголовки у них одинаковые, получается страницы тоже могут быть одинаковые.
Это страницы пагинации, о чем я и говорил, что очень часто дублями является такие страницы. То есть сами страницы не являются дублями, но здесь дубли мета-теги, тайтл у всех этих страниц одинаковый.
Это означает, что вот таких страниц «Интернет магазин сантехники и водоподготовки» очень много, соответственно, эту проблему тоже нужно решать, для страниц пагинации делают rel canonical.
Как проверить дубли с помощью Screaming Frog
Следующий способ, как можно проверить онлайн и найти дубли страниц на сайте, уже является автоматическим, с помощью программы Screaming frog. Загружаем адрес сайта, нажимаем «Старт», и программа начинает парсить весь сайт.
Затем переходим в раздел Page title, нажимаем сортировку, и вот опять видно, что тайтлы полностью идентичные, причем разные url, а тайтлы везде одинаковые.
Это очень грубая ошибка, ее нужно исправлять, то есть тайтл для каждой страницы должен быть уникальным.
Как найти дубли сайта онлайн с помощью Saitreport
Еще один способ, как найти дубли сайта — через сервис Saitreport. Я записывал обзор по этому сервису, посмотрите видео:
Вкратце скажу, что дубли страниц можно найти во вкладке «Контент», спускаемся вниз и здесь вот есть «Полные дубликаты», «Почти дубликаты» и «Очень похожие».
Нас интересуют вот эти полные совпадения и почти дубликаты, особенно полные совпадения, переходим сюда и видим, что достаточно много дублей.
По URL видно, что эта страницы фильтров, две полностью идентичные страницы. Самое главное, чтобы фильтр был закрыт от индексации, чтобы весь этот мусор не попал в индекс. Если это просто находится на сайте, но не в индексе, то ничего страшного нет, но если этот мусор попадет в индекс, то можно легко похерить сайт.
Проверка дублей страниц index.php и index.html
И последний способ найти дубли — проверить файлы index.php и index.html, которые могут отвечать за отображение главной страницы сайта. Часто бывает, что на сайтах эти файлы настроены неправильно.
Чтобы это проверить нужно к адресу главной страницы через слэш прописать index.php. Если все настроено правильно, то должен произойти 301 редирект (сайт перебросит с index.php на главную страницу) или должна открыться страница 404 ошибки.
Но если по адресу site.ru/index.php открывается опять главная страница, то это является дублем, то есть страница site.ru/index.php дублирует главную страницу.
В этом случае нужно проверить внутренние страницы — также через слэш прописать index.php. Скорее всего опять откроются дубли внутренних страниц, иногда открывается опять главная, получаются многократные дубли через неправильную настройку этого файла.
Аналогично нужно проверить файл index.html. Как я сказал, должен произойти или 301 редирект (перебросить на главную страницу) или открыться страница 404 ошибки.
Как убрать дубли
Итак, что теперь делать с этими дублями, которые найдены? Вариантов много, и каждый вариант нужно выбирать в зависимости от ситуации, сайта, потому что один и тот же вариант может подойти одному сайту, но не подойдет другому.
Самое главное, нужно определить, насколько важны эти страницы для продвижения сайта. Есть ли на них трафик или может быть планируется, и дальше действовать в соответствии с этой важностью.
Если эта страницы не важны, то есть варианты:
- закрыть их от индексации;
- настроить на них canonical;
- совсем удалить их сайта.
Если же это страницы важные, то нужно их уникализировать:
- переписать метатеги;
- переписать заголовоки;
- переписать контент;
- сделать каждую страницу уникальный, чтобы она несла пользу посетителю и продвигалась в поиске.
Для закрепления материала, посмотрите более подробное и наглядное видео по поиску дублей:
Итак, я надеюсь, что статья была полезной для вас! Пишите ваши вопросы, комментарии, может что-то не понятно, просто пишите, если статья понравилась, я рад любой обратной связи. Поделитесь ею с друзьями в социальных сетях!
Сергей Моховиков
SEO специалист
Здравствуйте! Я специалист по продвижению сайтов в поисковых системах Яндекс и Google. Веду свой блог и канал на YouTube, где рассказываю самые эффективные технологии раскрутки сайтов, которые применяю сам в своей работе.
Вы можете заказать у меня следующие услуги:
Загрузка…
Полное руководство по удалению дублирующегося контента с вашего сайта
В футболе судья показывает красную карточку, когда замечает пенальти. С Google штраф за дублирующийся контент может полностью разрушить вашу стратегию SEO.
Большая часть вашего успеха в маркетинге зависит от стратегии SEO .
Если вы подниметесь в рейтинге, то ваш сайт и бизнес выиграют от трафика, лидов, и конверсий.
Если вы этого не сделаете, то вы либо посмотрите на другие маркетинговые методы , либо попытаетесь усерднее.
Но, конечно, не только вы хотите попасть в первую десятку результатов Google.
Эти первые места приносят большой доход вашему бизнесу. Итак, вы знаете, что они очень конкурентоспособны.
Это означает, что вам нужно использовать все возможные SEO-сигналы.
И вы знаете, что не хотите штрафов.В спорте вам, возможно, придется просто посидеть несколько минут. Но в бизнесе штрафы могут снизить ваши шансы привлечь клиентов.
Органический поисковый трафик гораздо более распространен, чем платный поиск. , а Google находится на вершине рейтинга поисковых систем.
Другими словами, если вы действительно хотите извлечь выгоду из SEO, сосредоточьтесь на Google.
К сожалению, сосредоточиться на Google недостаточно для автоматического повышения вашего рейтинга.
Помните, что почти каждый маркетолог, имеющий хоть малейшие познания в области SEO, пытается повысить свой рейтинг.
Фактически, 78% маркетологов B2B регулярно практикуют SEO в качестве маркетинговой стратегии.
Это имеет смысл, если задуматься. Преимущества SEO хорошо известны и широко распространены.
Каждый маркетолог пытается получить свой кусок пирога. Включая себя.
Это означает, что для победы нужно быть умнее, быстрее и лучше их.
Потому что этот пирог включает , 61% более дешевых лидов, и 70% переходов по ссылкам.
Меньше всего вам хочется отставать.Вы же не хотите, чтобы все остальные веб-сайты в вашей отрасли рвались вперед, пока вы отстаете.
Тогда все ваши конкуренты побеждают SEO-потенциал — а вы проигрываете.
Это не рецепт успеха.
Но какое отношение все это имеет к дублированному контенту?
Что ж, дублированный контент может повредить вашему рейтингу, если вы его проигнорируете, и принесет пользу вашему рейтингу, если вы его исправите.
На самом деле, дублированный контент может стать вашим билетом на вершину поисковой выдачи.
Что такое дублированный контент?
Может быть, вы слышали, как ваши друзья говорили о дублировании контента.
Или, может быть, вы впервые слышите о ней в этой статье.
Скорее всего, вы слышали этот термин, но все еще немного запутались. Это нормально. Я был немного сбит с толку, когда несколько лет назад впервые узнал о дублированном контенте.
Потерпите меня, и я помогу вам понять, что такое дублированный контент и почему это так важно.
По сути, дублированный контент — это именно то, на что он похож.
Это дубликат уже существующей страницы. И это сильно сбивает с толку поисковые системы.
Когда поисковая система видит несколько страниц с повторяющимся содержанием, она должна решить, какую из них поставить в рейтинг .
Естественно, вы не хотите, чтобы он сделал неправильный выбор.
Каждый повторяющийся фрагмент контента имеет немного другой URL. И хотя вы можете увидеть одно и то же, Google и другие поисковые системы видят несколько разных страниц.
Из-за этого у них разный рейтинг, SEO и даже авторитет страницы . .
Это не только выглядит беспорядочно, но и может навредить SEO страницы, которую вы хотите ранжировать.
Конечно, вы можете подумать, что попадание на несколько позиций в поисковой выдаче приносит вам пользу, но действительно ли это?
Что, если, например, вы могли бы объединить SEO-сок этих двух страниц, чтобы повысить рейтинг одной страницы?
Было бы здорово, правда?
Что ж, позже в этой статье я покажу вам, как это сделать.
С точки зрения того, что такое дублированный контент, вот что говорит Google :
«Дублированный контент обычно относится к основным блокам контента внутри или между доменами, которые либо полностью соответствуют другому контенту, либо в значительной степени похожи. В основном, это не обман по своему происхождению ».
И они определенно правы насчет отсутствия обмана.
Вы не пытаетесь никого обмануть дублированием содержания. Вы, вероятно, даже не подозревали, что на вашем сайте может быть дублированный контент.
Часто вы не создаете его намеренно, но он как бы создает себя.
Если вы хотите проверить свой домен на дублирование контента, вы можете использовать этот инструмент для этого .
Просто введите URL-адрес, который хотите проверить, и нажмите «Выполнить проверку».
Затем на следующей странице будет показано, сколько существует дубликатов страниц введенного вами URL.
Как видите, в настоящее время в Интернете имеется восемь дублированных фрагментов контента для введенного мной URL.
Теперь, когда вы понимаете, что такое дублированный контент и как его найти на собственном веб-сайте, давайте поговорим о том, почему он существует и почему он появляется.
Почему появляется?
Возможно, самая запутанная часть дублированного контента — это то, почему он вообще появляется.
В большинстве случаев вы не пытались намеренно создать копию одной из уже существующих страниц.
И все же на многих сайтах дублируется контент.
Итак, что его создает и откуда?
Здесь я собираюсь показать вам несколько причин неприятного дублирования контента.
Первый способ обнаружения дублированного контента — это когда веб-сайт использует систему URL-адресов, которая создает несколько версий одной и той же страницы.
Страница выглядит идентично всем ее вариантам, но URL-адрес немного отличается.
Что-то вроде этого, например.
Другой пример этого — когда у вас есть один URL страницы с HTTPS, а другой — нет.
Эти страницы больше не одни и те же, а дубликаты друг друга.
Этот выглядит как .
Другой способ непреднамеренного создания дублированного содержимого — публикация версии для печати или HTML уже существующей страницы.
Это отлично подходит для того, чтобы позволить людям распечатывать ваш контент, но не только для вашего SEO и предотвращения дублирования контента.
Конечно, это лишь несколько способов, которыми вы или ваша система создаете дублированный контент.
Но есть много разных способов, как это происходит.
Динамические URL-адреса, старые и забытые версии страницы, распространение контента и идентификаторы сеанса — вот еще несколько причин, по которым эти страницы с дублированным контентом нашли свое место в цифровом мире .
Надеюсь, теперь у вас есть хорошее представление о том, что такое дублированный контент и что его создает.
Но теперь мы обращаем внимание на один из самых важных вопросов о дублировании контента.
Почему это вызывает проблему и насколько она серьезна?
Почему возникает проблема?
Возможно, вы этого не знаете. Но да, дублированный контент вызывает проблемы.
Вы не поверите, но дублирующийся контент на вашем сайте может повредить вашему SEO-рейтингу.
Но не напрямую. Google фактически заявил, что дублированный контент не вредит рейтингу веб-сайта. Но это косвенно сказывается на вашем рейтинге.
Позвольте мне объяснить.
Представьте на мгновение, что у вас есть две страницы с одинаковым содержанием. У одного есть основной URL, а у другого — дубликат.
Теперь, как и в случае, обе страницы имеют свой собственный SEO-сок. Поскольку у них разные URL-адреса, они получали разные обратные ссылки и, следовательно, разные оценки авторитета страницы.
В этом случае у вас есть два варианта.
Оставьте каждого в покое для ранжирования отдельно или комбинируйте их сигналы ранжирования.
Последнее почти всегда лучший вариант, а первое почти всегда ухудшает ваш общий рейтинг для этой страницы.
Просто учтите, что 50% веб-сайтов имеют проблемы с дублирующимся контентом, которые вредит их поисковой оптимизации.
Причина, по которой дублированный контент вредит вашему SEO, проста.
Когда вы оставляете каждую страницу в покое для ранжирования отдельно от ее дубликата, это похоже на отправку половины своей армии на войну в одну войну, а другую половину — в другую.
Вместо этого вы могли бы объединить их силы и выиграть от этого.
Если, например, одна страница — это 3 по шкале от 1 до 10, а дубликат — 4, то их объединение будет 7.
Другими словами, целое намного мощнее отдельных частей.
Если вы оставите решение о том, какие страницы ранжировать, а какие игнорировать, Google, то он может принять неправильное решение.
В идеале вы хотите сообщить Google, какой версии страницы назначить приоритет, а затем направить весь SEO-сок с дублированных страниц на эту каноническую страницу.
Однако, как и в большинстве случаев в жизни, есть несколько способов сделать это.
Вот три способа, которые я рекомендую.
1. Тег rel = canonical
В большинстве случаев тег rel = canonical — лучший способ перенести SEO-эффект с одной страницы на другую.
По сути, это HTML-тег, который вы можете добавить на определенную страницу, который затем сообщает поисковым системам, что это та страница, которую вы хотите проиндексировать Google.
Затем, когда Google находит какие-либо дубликаты страницы, он относит весь SEO-сок из этих дубликатов к канонической странице.
Это означает, что ваш рейтинг повышается, а страница, которая действительно имеет значение, побеждает.
Это похоже на переадресацию 301, но проще в реализации.
Плюс, при этом старая страница не уходит. Google просто распознает это как копию другой страницы.
Иногда не нужно, чтобы старый дубликат исчез. Вы просто хотите собрать все возможности SEO в одном месте.
Если, например, у вас есть HTML-версия страницы для печати, вы не хотите полностью удалять этот дубликат.
Но вы также не хотите, чтобы он в рейтинге.
Для этого отличным решением будет тег rel = canonical.
Вот как это выглядит в коде вашего веб-сайта.
И еще раз .
Если вы используете веб-сайт WordPress, добавить этот тег довольно просто.
Прежде всего, есть несколько плагинов, которые позволят вам сделать это с легкостью. Вы можете просмотреть некоторые из этих здесь .
Если вы хотите сделать это вручную для своего основного домена, просто добавьте этот код в заголовок вашего шаблона темы .
Просто не забудьте заменить часть «bybe.net» на свой собственный URL.
Тогда Google будет знать, на какую страницу отправить весь этот дубликат SEO, и ваш рейтинг немедленно улучшится.
2. 301 редирект
Иногда вам не нужно, чтобы дубликат вашей веб-страницы оставался на виду.
Может быть, вы хотите, чтобы существовала только основная версия страницы, а эти дубликаты просто загромождают ваше онлайн-пространство и атмосферу вашего посетителя.
Тем не менее, вы, вероятно, хотите, чтобы основная страница извлекала выгоду из SEO-сока ее дубликатов.
Но разве такое возможно? Чтобы уничтожить повторяющиеся страницы и при этом повысить SEO на основной странице?
Да. Да, это так.
И это возможно благодаря 301 редиректу.
Эти щенки позволяют вам сообщать поисковым системам, что всякий раз, когда кто-то пытается посетить страницу A, вы хотите, чтобы они отправляли этих людей на страницу B вместо .
Однако переадресация 301 по-прежнему не удаляет страницу A.Вместо этого он просто перенаправляет посетителей на страницу B.
Другими словами, никто никогда не сможет увидеть страницу A, но она по-прежнему помогает странице B повысить рейтинг.
Поскольку он не удаляется, весь его SEO-ресурс автоматически присваивается странице, на которую выполняется перенаправление.
И поисковые системы точно знают, что делать, если вы 301 перенаправляете страницу.
Однако будьте осторожны при использовании перенаправления 302. Это только временные переадресации, тогда как 301 редирект является постоянным.
Вот как поисковая система вычисляет редирект 301.
Если вы решите, что переадресация 301 является правильным выбором для вашей ситуации с дублированным контентом, то вот список различных плагинов WordPress , которые вы можете использовать для создания переадресации.
Для WordPress самый простой и безопасный вариант — плагин.
3. Задайте пассивные параметры в Google Search Console
К сожалению, иногда очень торопишься.
Хотя я не рекомендую использовать пассивные параметры в долгосрочной перспективе, это может быть полезной краткосрочной стратегией.
Когда вы устанавливаете определенные URL-адреса как пассивные для Google, это означает, что робот-сканер Google игнорирует этот URL-адрес.
Понятно, что это может помочь удалить дублирующийся контент.
Если у вас есть несколько странных и беспорядочных результатов, отображаемых в поисковой выдаче, вы можете просто быстро удалить некоторые из них.
Однако, возможно, ваша команда разработчиков слишком занята, чтобы добавить теги rel = canonical к сотням различных страниц, а затем указать их в правильном направлении.
В конце концов, это огромная работа, и ваша команда разработчиков уже достаточно занята.
Если вы хотите пометить некоторые страницы как пассивные, перейдите в Google Search Console и нажмите «Параметры URL» в левой части экрана.
Затем нажмите «Добавить параметр».
Введите URL страницы, которую вы хотите пометить как пассивную, и выберите «Нет: не влияет на содержание страницы (например, отслеживает использование)».
Нажмите «Сохранить», и этот URL будет теперь помечен как пассивный в результатах поиска Google.
Это означает, что он не может отображаться, когда люди ищут ваш сайт.
Это может быть полезно, когда ваша команда разработчиков занята или когда вас не беспокоят потенциальные преимущества для SEO от связывания этой страницы с другим каноническим URL.
Это, конечно же, провал этой стратегии.
URL-адрес, который вы храните, не получает преимуществ SEO от дубликатов, которые существуют в настоящее время.
Однако это может быть не такой уж большой проблемой, если дубликаты, которые вы удаляете из поля зрения Google, являются новыми или имеют очень низкий авторитет страницы.
В таком случае это может быть одним из лучших решений для удаления дублированного контента из вашего домена.
Если, однако, это только временное решение, призванное помочь занятой команде разработчиков, обязательно вернитесь и используйте тег rel = canonical или 301 редирект, когда у вас будет время.
Заключение
Уф. Это было много.
Но теперь вы понимаете, что такое дублированный контент, почему он появляется, почему это проблема и даже как его можно безопасно удалить.
Потому что вот чего вы не хотите.
Вы не хотите, чтобы весь этот дублированный контент вредил вашему SEO, и вы определенно не хотите удалять его неправильно и еще больше вредить вашему SEO.
Помните о трех упомянутых мною здесь стратегиях при удалении дублированного контента и выберите ту, которая лучше всего соответствует вашим текущим потребностям.
Тег rel = canonical лучше всего подходит почти во всех случаях, но это может занять приличное количество времени, если вам нужно исправить много страниц.
Редирект 301 отлично подходит, если вы хотите, чтобы посетители не могли просматривать дублированный контент, но при этом у основной страницы есть выгода от SEO дублирования.
Помните, однако, что это решение займет у вас больше всего времени из всех возможных.
А пассивные параметры могут быть отличным краткосрочным решением, если у вас в настоящее время нет времени на настройку переадресации 301 или тегов rel = canonical.
Но одно можно сказать наверняка.
Если вы не имеете дело с дублирующимся контентом на своем веб-сайте, это может повредить вашему рейтингу и, следовательно, вашему бизнесу.
Не позволяйте этому случиться.
Какую стратегию вы используете для удаления дублированного контента из своего домена?
Узнайте, как мое агентство может привлечь огромное количество трафика на ваш веб-сайт
- SEO — разблокируйте огромное количество SEO-трафика. Смотрите реальные результаты.
- Контент-маркетинг — наша команда создает эпический контент, которым будут делиться, получать ссылки и привлекать трафик.
- Paid Media — эффективные платные стратегии с четкой окупаемостью инвестиций.
Заказать звонок
Как найти и удалить повторяющееся содержимое
При внедрении оптимизации поисковых систем (SEO) и внесении полезных обновлений на свой веб-сайт вы можете непреднамеренно создать другие проблемы в процессе. Одной из этих проблем может быть дублированный контент, который, если его не устранить, со временем может навредить вашей SEO-ценности и рейтингу в поисковых системах.
Из этой статьи вы узнаете, как найти повторяющееся содержание, что обычно вызывает дублирование содержания и как удалить его со своего сайта.
Прочтите или перейдите в раздел, о котором вы хотите узнать больше:
Влияние на SEO и рейтинг
Как найти дублированный контент
Причины дублированного контента
Способы удаления дублированного контента
Что такое дублированный контент?
Дублированный контент возникает, когда уже существующую веб-страницу можно найти по нескольким URL-адресам. Когда на сайте есть дублированный контент, поисковые системы могут запутаться в том, какой URL является исходным или предпочтительным фрагментом контента.
Влияние на SEO и рейтинг
Из-за путаницы, вызывающей дублирование контента, роботы поисковых систем, любой рейтинг, ссылочная стоимость и авторитетность страницы, которую получает страница, могут в конечном итоге разделиться между дублированными URL. Это происходит потому, что роботам поисковых систем предоставляется возможность выбирать веб-страницу, которая, по их мнению, должна ранжироваться по определенному ключевому слову, и не всегда выбирают один и тот же URL-адрес каждый раз. Это приводит к тому, что каждый вариант URL получает разные ссылки, оценки авторитета страницы и рейтинг.
На протяжении многих лет было много недоразумений по поводу того, наказывает ли Google (и другие поисковые системы) сайты за дублированный контент. Не волнуйтесь, они не наказывают сайты!
Google понимает, что подавляющее большинство дублированного контента создается не намеренно — 50% веб-сайтов имеют проблемы с дублированным контентом! Однако, поскольку Google стремится отображать в результатах поиска разнообразный набор веб-сайтов, а не один и тот же контент дважды, их роботы-сканеры вынуждены выбирать, какую версию ранжировать.Этот выбор косвенно вредит SEO и рейтингу вашей веб-страницы.
Дублированный контент на вашем сайте может привести к трем основным проблемам:
- Более низкий рейтинг в результатах поиска
- Плохое взаимодействие с пользователем
- Снижение органического трафика
Чтобы удалить дублирующийся контент с вашего веб-сайта и предотвратить дальнейший ущерб со стороны SEO, вам сначала нужно определить, какие страницы дублируются.
Как найти повторяющееся содержимое
Есть несколько способов найти дублирующийся контент на вашем сайте.Вот три бесплатных способа найти дублированный контент, отслеживать, какие страницы имеют несколько URL-адресов, и узнать, какие проблемы вызывают появление дублированного контента на вашем сайте. Это пригодится, когда вы удалите повторяющиеся страницы.
Консоль поиска Google
Google Search Console — это мощный бесплатный инструмент в вашем распоряжении. Настройка консоли поиска Google для SEO поможет обеспечить видимость эффективности ваших веб-страниц в результатах поиска. Используя вкладку «Результаты поиска» в разделе «Производительность», вы можете найти URL-адреса, которые могут вызывать проблемы с дублированным контентом.
Обратите внимание на следующие распространенные проблемы:
- Версии HTTP и HTTPS одного и того же URL-адреса
- версий одного URL с www и без www
- URL с косой чертой «/» и без нее
- URL с параметрами запроса и без них
- URL с заглавными буквами и без них
- Запросы с длинным хвостом и ранжирование нескольких страниц
Вот пример того, что вы можете найти:
На изображении выше видно, что версии HTTP и HTTPS главной страницы Blue Frog занимают место в результатах поиска и получают клики.
http://www.bluefrogdm.com/ https://www.bluefrogdm.com/
Следите за URL-адресами, которые вы обнаруживаете с проблемами дублирования. Мы рассмотрим способы их устранения позже!
«Сайт:» Поиск
Перейдя в поиск Google и набрав «site:», за которым следует URL-адрес вашего веб-сайта, вы сможете увидеть все страницы, которые Google проиндексировал и которые могут занять место в результатах поиска.
Вот что появляется, когда вы вводите «site: bluefrogdm.com / blog »в строку поиска Google:
Как видите, появляются две почти идентичные страницы блога Blue Frog. Это важный момент, на который следует обратить внимание: хотя эти страницы технически не являются дублирующимися страницами, они содержат одинаковый тег заголовка и мета-описание, что может привести к каннибализации ключевых слов и конкуренции за ранжирование между двумя страницами — схожим проблемам, возникающим при дублировании страниц.
Проверка дублированного содержимого
SEO Review Tools создали эту бесплатную программу проверки дублированного контента, чтобы помочь веб-сайтам бороться со скрапингом контента.Введя свой URL-адрес в их инструмент проверки, вы можете получить обзор внешних и внутренних URL-адресов, которые дублируют введенный URL-адрес.
Вот что было обнаружено, когда я вставил « https://www.bluefrogdm.com/ » в чекер:
Обнаружение внешнего дублированного контента очень важно. Внешний дублированный контент может возникнуть, когда другой домен веб-сайта «крадет» контент вашего сайта, что также называется парсингом контента. При обнаружении вы можете отправить запрос на удаление в Google и удалить дублированную страницу.
Причины дублирования содержимого
Существует множество причин, по которым может создаваться дублированный контент (в основном непреднамеренно). Понимание различных вариантов URL-адресов, которые могут существовать, может помочь вам определить ваши собственные URL-адреса с повторяющимися страницами.
Совет: Когда вы обнаружите URL-адреса с дублированным содержанием, обратите внимание на другие аспекты URL-адресов вашего веб-сайта, для которых можно использовать оптимизацию!
Варианты URL
Различия в URL-адресах могут быть связаны с идентификаторами сеанса, параметрами запроса и заглавными буквами.Когда URL-адрес использует параметры, которые не изменяют содержимое страницы, это может привести к созданию дублированной страницы.
Например: https://bluefrogdm.com/blog/local-seo-series/ и https://bluefrogdm.com/blog/local-seo-series/?source=ppc оба приводят к точному одна и та же страница, но к ним обращаются по разным URL-адресам, что приводит к дублированию страницы содержимого.
ID сеанса работают аналогичным образом. Чтобы отслеживать посетителей на вашем сайте, вы можете использовать идентификаторы сеанса, чтобы узнать, что делал пользователь, пока он был на сайте, и куда они пошли.Для этого идентификатор сеанса добавляется к URL-адресу каждой страницы, на которую они нажимают. Добавленный идентификатор сеанса создает новый URL-адрес той же страницы и, таким образом, считается дублированным контентом.
Заглавные буквы часто не добавляются намеренно, но важно убедиться, что ваши URL-адреса согласованы и используют строчные буквы. Например, страницы bluefrogdm.com/blog и bluefrogdm.com/Blog будут считаться дублированными страницами.
HTTP против HTTPS и www против без www
Добавляя сертификаты SSL на свой сайт, вы защищаете свой сайт, что дает вам возможность использовать HTTPS вместо HTTP.Однако это приводит к тому, что на каждой из них будут существовать повторяющиеся страницы вашего веб-сайта. Точно так же контент вашего веб-сайта доступен как с www, так и без www.
Все следующие URL-адреса ведут на одну и ту же страницу, но будут считаться совершенно разными URL-адресами для сканеров поисковых систем:
https://bluefrogdm.com http://bluefrogdm.com
www.bluefrogdm.com bluefrogdm.com
Должна быть доступна только одна из вышеперечисленных версий; все остальные должны быть перенаправлены на предпочтительную версию.
Соскобленное или скопированное содержимое
Когда другие веб-сайты «крадут» контент с другого сайта, это называется парсингом контента. Если Google или другие поисковые системы не могут идентифицировать исходный фрагмент контента, они могут в конечном итоге ранжировать страницу, скопированную с вашего сайта.
Скопированный контент часто встречается на сайтах с описанием продуктов и описанием их производителей. Если один и тот же продукт продается на нескольких сайтах и все сайты используют описания производителя, то дублированный контент можно найти на нескольких страницах разных сайтов.
Способы удаления повторяющегося содержимого
Удаление повторяющегося содержания поможет вам убедиться, что нужная страница доступна и проиндексирована поисковыми роботами. Однако вы можете не захотеть полностью удалять все типы повторяющегося контента. В некоторых случаях вы просто хотите сообщить поисковым системам, какая версия является оригинальной. Вот несколько способов управления дублирующимся контентом на вашем сайте:
Rel = «канонический» тег
Атрибут rel = canonical — это фрагмент кода, который сообщает сканерам поисковой системы, что страница является дублированной версией указанного URL.Затем поисковые системы будут отправлять все ссылки и рейтинги на указанный URL-адрес, поскольку они будут считать его «оригинальным» фрагментом контента.
Одно замечание: использование тега rel = canonical не удалит дублированную страницу из результатов поиска, оно просто сообщит сканерам поисковой системы, какая из них является оригинальной и куда должны идти показатели контента и ссылочный вес.
Rel = canonical теги полезно использовать, когда дублированную версию не нужно удалять, например URL-адреса с параметрами или завершающие косые черты.
Вот пример из сообщения в блоге HubSpot:
Как видите, HubSpot указал, что исходная версия страницы — blog.hubspot.com/marketing/a-brief-history-of-search-seo . Это сообщает поисковым системам, что просмотр страницы должен быть направлен на этот URL-адрес, а не на длинный URL-адрес с параметрами отслеживания в конце.
301 редирект
Использование 301 редиректа — лучший вариант, если вы не хотите, чтобы дублированная страница была доступна.Когда вы реализуете 301 редирект, он сообщает сканеру поисковой системы, что весь трафик и значения SEO должны идти со страницы A на страницу B.
Решая, какую страницу оставить, а какие страницы перенаправить, ищите страницу, которая является наиболее эффективной и оптимизированной. Когда вы возьмете несколько страниц, которые соревнуются за позиции в рейтинге, и объедините их в один фрагмент контента, вы создадите более сильную и более релевантную страницу, которую предпочтут поисковые системы и пользователи.
переадресации 301 могут помочь не только с дублированием контента, следуйте этим советам, чтобы настроить и использовать переадресацию 301 для повышения вашего SEO.
Роботы Meta Noindex, следуйте тегу
Метатег robots — это фрагмент кода, который вы добавляете в HTML-заголовок страницы, которую хотите исключить из индексов поисковой системы. Когда вы добавляете код «content = noindex, follow», вы указываете поисковым системам сканировать ссылки на странице, но это также не позволяет им добавлять эти ссылки в свои индексы.
Метатег noindex для роботов особенно полезен при разбиении на страницы дублированного контента. Разбиение на страницы происходит, когда контент размещается на нескольких страницах, что приводит к появлению нескольких URL-адресов. Добавление кода «noindex, следовать» на страницы позволит роботам поисковых систем сканировать страницы, но не будет ранжировать страницы в результатах поиска.
Вот пример дублирования контента в результате разбивки на страницы:
На изображении выше вы можете видеть, что блог Blue Frog имеет несколько страниц содержания, что приводит к тому, что эти страницы появляются в результатах поиска.Добавление метатега robots позволит сканировать эти страницы, но предотвратит их появление в результатах поиска.
Бонусные советы по предотвращению дублирования контента
Чтобы предотвратить создание дублированного контента, убедитесь, что вы заранее настроены для своих страниц. Вот две вещи, которые вы можете сделать для борьбы с созданием дублированного контента:
Согласованность внутренних ссылок
Хорошая стратегия внутренних ссылок важна для повышения вашей SEO-ценности на странице.Однако важно убедиться, что вы соответствуете структуре URL-адресов в вашей стратегии создания ссылок.
Например, если вы решили, что канонической версией вашей домашней страницы является www.bluefrogdm.com/ , тогда все внутренние ссылки на домашнюю страницу должны быть https://www.bluefrogdm.com/ , а не https: / /bluefrogdm.com/ (разница заключается в отсутствии домена верхнего уровня www).
Поддерживайте согласованность со следующими общими вариантами URL:
- HTTP против HTTPS
- www и не www
- Завершающая косая черта: пример.com vs example.com/
Если одна внутренняя ссылка использует завершающую косую черту, а другая ссылка на ту же страницу — нет, вы создадите дублированное содержимое страницы.
Использовать самореференциальный канонический тег
Чтобы предотвратить очистку содержимого, вы можете добавить метатег rel = canonical, указывающий на URL-адрес, на котором уже находится страница; это создает самоканоническую страницу. Добавление тега rel = canonical сообщит поисковым системам, что текущая страница является исходной частью контента.
При копировании сайта HTML-код берется из исходного фрагмента контента и добавляется к другому URL-адресу. Если тег rel = canonical включен в HTML-код, он, скорее всего, также будет скопирован на дублированный сайт, таким образом сохраняя исходную страницу в качестве канонической версии. Важно отметить, что это дополнительная защита, которая будет работать только в том случае, если парсеры контента копируют эту часть HTML-кода.
Домашняя страница
Blue Frog содержит тег rel = canonical, указывающий на URL главной страницы.Это сообщает поисковым системам, что этот URL является исходным, на случай, если парсер контента попытается скопировать страницу для себя.
Дублирующийся контент часто создается не намеренно, но может косвенно повредить вашей SEO-ценности и потенциалу ранжирования, если оставить его без внимания. Находя дублированный контент на вашем сайте и управляя им, вы можете гарантировать, что сканеры поисковых систем точно знают, что им делать, когда они обнаруживают дублированный контент с вашего сайта. Чем более активны вы вначале, тем меньше проблем будет в долгосрочной перспективе.
SEO: 2 хороших способа удаления дублирующегося контента и 8 плохих
Дублированный контент — это две или более страниц, содержащих одинаковый или очень похожий текст. Дублированный контент разделяет авторитет ссылки и, таким образом, снижает рейтинг страницы в обычных результатах поиска.
Допустим, на веб-сайте есть две идентичные страницы, каждая с 10 внешними входящими ссылками. Этот сайт мог бы использовать силу 20 ссылок для повышения рейтинга отдельной страницы. Вместо этого на сайте две страницы с 10 ссылками.Ни то, ни другое не было бы так высоко.
Дублированный контент также вредит бюджету сканирования и, в противном случае, приводит к раздуванию индексов поисковых систем.
Сайты электронной торговли создают дублированный контент. Это побочный продукт настроек платформы и технологических решений. Ниже приведены два хороших способа удалить дублирующийся контент из индексов поисковых систем — и восемь способов, которых следует избегать.
Удалить проиндексированное повторяющееся содержимое
Чтобы исправить проиндексированный дублированный контент, (i) объедините авторитет ссылки на одной странице и (ii) побудите поисковые системы удалить дублирующую страницу из своего индекса.Есть два хороших способа сделать это.
- 301 редирект — лучший вариант. 301 перенаправляет, объединяет авторитет ссылок, ускоряет деиндексацию, а также перенаправляет пользователя на новую страницу. Google заявил, что назначает 100% ссылок на новую страницу с перенаправлением 301. Но Bing и другие поисковые системы более сдержанны. Тем не менее, используйте 301 редирект только тогда, когда страница была окончательно удалена.
- Канонические теги. «Канонический» — модное слово для обозначения того, что признано единой истиной. При поисковой оптимизации канонические теги определяют, какую страницу следует проиндексировать, и назначают ссылки на них. Теги — это предложений для поисковых систем, а не команды вроде 301 редиректа. Поисковые системы обычно уважают канонические теги для действительно дублированного контента.
Канонические теги — следующий лучший вариант, когда (i) переадресация 301 непрактична или (ii) дублирующаяся страница должна оставаться доступной — например, если у вас есть две страницы сетки продуктов, одна отсортирована по убыванию и другие от низкого к высокому, вы не захотите перенаправлять один на другой.
8 способов избежать
По моему опыту, некоторые опции, которые удаляют — или утверждают, что удаляют — дублированный контент из поисковых индексов, не рекомендуются.
- 302 перенаправляет сигнал о временном перемещении, а не о постоянном. В течение многих лет Google заявлял, что 302 редиректа передают 100 процентов авторитетности ссылок. Однако 302-е не требуют деиндексации. Поскольку они требуют тех же усилий для реализации, что и 301, перенаправления 302 следует использовать только тогда, когда перенаправление действительно временное и когда-нибудь будет удалено.
- Переадресация JavaScript рассматривается Google как действительная — по прошествии нескольких дней или недель для завершения обработки. Но нет особых причин использовать переадресацию JavaScript, если у вас нет доступа к серверу для 301-й секунды.
- Мета-обновления видны покупателям в виде короткого всплеска или мультисекундной загрузки страницы на их экране перед тем, как браузер загрузит новую страницу. Это плохой выбор из-за неприятного пользовательского опыта и времени рендеринга, необходимого Google для их обработки как перенаправления.
- 404 ошибки показывают, что запрошенного файла нет на сервере, что побуждает поисковые системы деиндексировать эту страницу. Но 404 также удаляют связанный авторитет ссылки страницы. По возможности попробуйте 301 перенаправить удаленную страницу.
- Мягкие ошибки 404 возникают, когда сервер 302 перенаправляет неверный URL-адрес на то, что выглядит как страница с ошибкой, которая затем возвращает ответ заголовка сервера 200 OK. Например, предположим, что example.com/page/ был удален и должен возвращать ошибку 404.Вместо этого он 302 перенаправляет на страницу, которая выглядит как страница с ошибкой (например, www.example.com/error-page/ ), но возвращает ответ 200 OK.
Ответ 302 непреднамеренно сообщает поисковым системам, что www.example.com/page/ ушел, но может вернуться, поэтому страница должна оставаться проиндексированной. Более того, ответ 200 сообщает поисковым системам, что www.example.com/error-page/ является допустимой страницей для индексации. Таким образом, мягкие 404-адреса еще больше раздувают индекс, приводя к тому, что индексируется не один неверный URL, а два.
- Инструменты поисковых систем. Google и Bing предоставляют инструменты для удаления URL. Однако, поскольку оба требуют, чтобы отправленный URL-адрес возвращал действительную ошибку 404, инструменты являются резервным шагом после удаления страницы с вашего сервера.
- Мета-роботы тег noindex находится в заголовке HTML-файла. Атрибут noindex указывает ботам не индексировать страницу. При применении после индексации страницы это может в конечном итоге привести к деиндексации, но это может занять месяцы.К сожалению, авторитет ссылки умирает из-за способности движков индексировать страницу. А поскольку поисковые системы должны продолжать сканировать страницу, чтобы убедиться, что атрибут noindex по-прежнему присутствует, этот параметр не уменьшает «мертвый вес» страниц из индекса. (Обратите внимание, кстати, что атрибут nofollow метатега robots не влияет на индексацию этой страницы.)
- Robots.txt disallow не требует деиндексации.Страницы, которые запрещены после того, как они были проиндексированы, больше не сканируются роботами поисковых систем, но они могут или не могут оставаться в индексе. Однако маловероятно, что эти страницы будут отображаться в результатах поиска, если поиск по ним не выполняется по URL, поскольку поисковые системы больше не будут сканировать страницу.
Хотя они и не идеальны для удаления проиндексированного содержания, мета-роботы noindex и robots.txt запрещают использование и должны предотвращать индексацию нового дублированного содержания.Их применение, однако, требует выявления дублированного контента до запуска нового сайта, и они не на 100 процентов эффективны.
Ваша лучшая ставка
Если вам нужен надежный метод деиндексации, лучше всего подойдет перенаправление 301 или ошибка 404, потому что сервер больше не загружает контент, обнаруженный на этой странице. Если вам нужно деиндексировать страницу, и используют авторитет ссылки, используйте 301 редирект.
Как удалить дубликаты в Excel для очистки данных
Повторяющиеся значения могут быть проблемой, особенно если вы имеете дело с большим набором данных.
То, что выглядит как список из 100 элементов, может быть только 70, если вы удалите элементы, которые присутствуют в списке более одного раза.
Excel поставляется со встроенным инструментом, который упрощает и ускоряет очистку данных. Вот как это работает.
Ознакомьтесь с продуктами, упомянутыми в этой статье:
Microsoft Office (от 149,99 по лучшей цене)
MacBook Pro (от 1299.99 в Best Buy)
Lenovo IdeaPad (от 299,99 в Best Buy)
Как удалить дубликаты в Excel для одного столбца
Если у вас есть повторяющиеся данные, которые вы хотите удалить из одного столбца в наборе данных, начните с нажатия на столбец, который вы хотите удалить.
1. Щелкните «Данные» в верхнем меню окна Excel, чтобы открыть ленту меню «Данные».
2. Щелкните «Удалить дубликаты».
3. Появится всплывающее окно. Если ваш столбец включает заголовок, убедитесь, что установлен флажок «Мой список содержит заголовки».
4. Появится окно с сообщением, сколько дубликатов было удалено и сколько осталось. Нажмите «ОК», чтобы закрыть окно.
Щелкните «ОК».»
Лаура МакКэми / Business Insider
5. Excel удалит только точные дубликаты. В этом примере второй Square неправильно написан как Squarre, поэтому после удаления дубликатов оба написания Square остаются.
6. Вы также можете выделить диапазон ячеек и удалить дубликаты.
7. При вычитании диапазона удаляются только дубликаты в пределах диапазона.В этом случае квадрат удаляется, но дубликаты круга и треугольника остаются.
Вы также можете удалить дубликаты в нескольких столбцах.
Как удалить дубликаты в Excel для нескольких столбцов
1. Сначала удалите все дубликаты в столбце A. Поместите курсор в столбец и щелкните правой кнопкой мыши, чтобы удалить дубликаты.
2. Щелкните «Удалить дубликаты».«Когда появится всплывающее окно, нажмите« ОК ».
3. Удаляются только дубликаты в столбце A, но значение« синий »по-прежнему отображается дважды в столбце B.
4. Если вы хотите Удалите дубликаты из нескольких столбцов, начните с щелчка по одному из столбцов.
5. Щелкните «Удалить дубликаты». Щелкните поле рядом со столбцом A, чтобы снять флажок. Нажмите «ОК».
Снимите флажок рядом с столбцом A.Лаура МакКэми / Business Insider
6. В дополнение к трем строкам, которые имели одинаковую комбинацию формы / цвета, на этот раз вы также удалили значение «Прямоугольник» из столбца A, потому что это была вторая строка, которая включала «синий» в столбце B. нет повторяющихся форм или цветов.
«Удалить дубликаты» — мощный инструмент.Используйте его осторожно. Как отмечалось выше, вы можете пропустить дубликаты, если они не точны, или вы можете удалить значения, которые хотите сохранить. Однако, если вы допустили ошибку, вы можете быстро восстановить данные, удерживая «Control» + «Z» на ПК или «command» + «Z» на клавиатуре Mac, чтобы отменить операцию.
Как удалить внешний дублированный контент с других веб-сайтов
Тратить время и силы на красивый и оригинальный контент для своего веб-сайта может быть невероятно неприятно, только чтобы понять, что он был скопирован другим сайтом.
Подражание может быть самой искренней формой лести, но для среднего веб-мастера это всего лишь заноза в заднице.
Потому что, когда дело доходит до контента веб-сайта, имитация (в форме дублированного контента) может отрицательно сказаться на вашем рейтинге, посещаемости и, в конечном итоге, на конверсии. И хотя это кажется безнадежным делом, — это , что вы можете с этим поделать.
Мы расскажем вам все, что вам нужно знать о внешнем дублированном контенте; от того, почему он влияет на ваш рейтинг, как найти его в Интернете и как действительно удалить его с других сайтов.
Два типа дублированного контента
1. Внутреннее дублированное содержимое
Несмотря на то, что это более распространенный тип дублированного контента на сайте, его, как правило, легче исправить из-за внутренней проблемы (например, поскольку два URL-адреса совпадают, но, например, тот, который имеет косую черту в конце). Таким образом, если правильные люди разбираются с этим, это не должно вызывать слишком сильной головной боли, но все же требует исправления. Вы можете узнать больше об устранении внутренних проблем с дублированием контента здесь.
2. Внешний дублированный контент
Этот тип дублированного контента действительно вызывает расстройство и является основным предметом обсуждения сегодня.
Это когда другой сайт использует вашу исходную копию на своем сайте, либо дословно, либо достаточно похоже, чтобы Google заметил, что содержание почти такое же. В результате вы можете понизить рейтинг.
Несмотря на то, что это внешняя проблема, вы все равно можете решить ее правильно и убедиться, что ваши рейтинги вернулись к нормальному состоянию, если они были затронуты.
Почему внешний дублированный контент может повлиять на ваш рейтинг:
Цель Google — предоставить пользователям максимально удобное взаимодействие с пользователем. При этом они не хотят, чтобы их пользователи видели идентичную информацию, повторяющуюся в одних и тех же результатах поиска. Это означает, что при наличии идентичной информации они должны решить, какую версию контента они хотят отображать в своих результатах поиска.
Итак, теперь вы конкурируете с другим сайтом за идентичную информацию (которая изначально принадлежала вам), и вы рискуете, что ваша страница окажется ниже, чем страница с дублирующего сайта (это может быть связано с тем, что дублирующая страница имеет высший авторитет домена).
Но почему Google не может определить, какой контент является оригинальным? Вы могли подумать, что они должны знать, какая страница была проиндексирована первой, и затем рассматривать эту страницу как исходную.
К сожалению, это не так.
Веб-мастера часто сообщают об этом в Google, утверждая, что нам не нужно беспокоиться о внешнем дублированном содержании, поскольку они сами с этим разберутся. Но, судя по нашему опыту, этого не произошло, и трафик наших клиентов имеет тенденцию к снижению, если мы сами что-то не сделаем с этим.
Как найти внешний дублированный контент:
Онлайн-инструменты
Мы используем Copyscape, который является отличным инструментом для поиска внешнего дублированного контента. Вы просто вставляете URL-адреса своих веб-страниц в окно поиска, и вуаля — вы увидите все страницы в Интернете, содержащие контент, который слишком похож на ваш (или полностью идентичен).
Судя по опыту, результаты могут фактически занижать степень дублирования вашего контента сайтом.Поэтому, как только сайты-дубликаты будут обнаружены, важно потратить некоторое время на то, чтобы самостоятельно изучить их содержание.
Copyscape поставляется с ограниченной бесплатной версией, а также с премиум-версией, за которую нужно платить, но она дает больше результатов и предлагает больше функций.
Ручной поиск
Хотя это может занять некоторое время, это наиболее эффективный способ поиска дублированного контента без использования онлайн-инструментов.На самом деле это довольно просто — вам просто нужно вставить части вашего контента в строку поиска Google (не более 1-2 предложений) и нажать клавишу ВВОД. Вы также можете добавить в поиск кавычки, чтобы найти полностью идентичный контент.
Надеюсь, вы быстро просканируете страницу 1 и не увидите ничего подозрительного. Уф.
Если вам не повезло, вы увидите именно тот контент, который вы искали, жирным шрифтом, прямо под заголовком страницы другого веб-сайта. Проклятие.
Ваш контент настолько хорош, что его дублировали.
Но не волнуйтесь — вы не беспомощны. К счастью, Google на вашей стороне и имеет специальную команду, которая более чем желает видеть справедливость и решать проблему, если вы следуете правильным процедурам.
Удаление дублированного контента с других сайтов:
Для этого вам потребуется выполнить основной двухэтапный процесс:
Шаг 1. Попросите дублирующий сайт удалить дублированный контент
Этот шаг может показаться немного слабым , но важно сначала обратиться к дублирующему веб-сайту по двум причинам:
Во-первых, ответственные люди могут даже не знать об этой проблеме, что означает, что это может быть просто вина непослушного или небрежного автора контента.Было бы несправедливо, если бы целый веб-сайт или бизнес страдали от последствий для Google из-за халатности одного человека.
Во-вторых, даже если ответственные люди намеренно дублировали ваш контент, нельзя сказать, знали ли они, что это отрицательно скажется на вашем рейтинге (хотите верьте, хотите нет, но не все знают, что означает все это SEO).
Таким образом, хотя это может показаться невероятно злонамеренным действием, важно помнить, что у каждой истории есть две стороны.
При обмене с дублирующим веб-сайтом важно указать, где именно, по вашему мнению, они скопировали ваш контент, а также что произойдет, если они проигнорируют ваш запрос (будет обсуждаться на шаге 2).
Если все пойдет хорошо, веб-сайт соглашается удалить дублирующийся контент, приносит свои извинения за забавное недоразумение, и вы идете разными путями.
Но если нет, необходимо принять более решительные меры…
Шаг 2. Отправьте уведомление DMCA в Google
Вот тогда все становится серьезным.Подавая запрос в соответствии с Законом о защите авторских прав в цифровую эпоху, вы просите Google удалить страницы с дублированным содержанием из индекса Google.
Так что нет, они не могут фактически удалить контент с дублирующего веб-сайта, но если его нет в индексе Google, он как бы исчез (и, что наиболее важно, это больше не повлияет на ваш рейтинг).
Все начинается здесь, на странице Google под названием: Удаление содержания из Google.
Вот пошаговый процесс, которому вы должны следовать, щелкнув ссылку выше:
- Выберите «Интернет-поиск»
- Выберите «У меня есть юридическая проблема, не упомянутая выше» (последний вариант)
- Выберите: «Я обнаружил контент, который может нарушать мои авторские права»
- Выберите первый вариант (конечно, только если это правда).
- Выберите «другое»
- Щелкните гиперссылку для «этой формы» внизу страницы, чтобы отправить уведомление DMCA в Google.
- Уделите 5 минут, чтобы прочитать все инструкции и узнать, каким именно способом Google хочет, чтобы вы отправили свое уведомление. Не расстраивайтесь, если этот шаг покажется вам хлопотным — вы почти у цели!
Группе Google потребуется около недели, чтобы просмотреть ваше уведомление DMCA и ответить; Надеюсь, вместе с новостью о том, что они удалят страницы с дублирующимся содержанием из индекса Google.
Мы были очень впечатлены временем отклика команды Google, мы ответили нам в среднем через 4 дня!
Если вы подаете жалобу от имени правообладателя, Google может попросить вас дополнительно доказать, как именно вы имеете право подавать уведомление DMCA от его имени. Если это произойдет, мне будет совсем холодно.
Просто попросите правообладателя отправить вам письмо, подтверждающее, что вы уполномочены подать уведомление от его имени.
В идеале письмо должно включать дату, подпись и фирменный бланк компании, прикрепленное в виде PDF-файла, который затем можно передать команде Google.Обратите внимание, что это не официальные требования Google, а то, что мы считаем лучшим и что сработало для нас в прошлом.
Этот процесс может показаться набором технической ерунды, но мы уверены, что, выполнив эти шаги, вы увидите, что ваши проблемы с дублированным контентом будут решены в кратчайшие сроки, что восстановит ваш рейтинг и, что более важно, конверсию вашего веб-сайта. .
Мы заметили немедленные улучшения на веб-сайтах наших клиентов после того, как Google удалил повторяющееся содержание из их индекса, и твердо намерены решить эту проблему как можно скорее.
Помните, не расстраивайтесь, когда вы узнаете о внешнем дублированном контенте. Это битва, ждущая твоей победы.
Теги: дублированный контент, SEO
Как удалить дубликаты в Google Таблицах
Допустим, у вас есть список адресов электронной почты, которые вы собрали с помощью формы на своем веб-сайте. Вы хотите знать, сколько адресов электронной почты вы получили, но беспокоитесь, что кто-то, возможно, заполнил форму дважды, что приведет к завышению ваших чисел.
Когда вы работаете с большими объемами данных в электронной таблице, вы обязательно должны иметь повторяющиеся записи. Будь то человеческая ошибка или роботы, которые поместили их туда, эти дубликаты могут испортить ваши рабочие процессы, документацию и анализ данных.
Google Таблицы теперь предлагают встроенную функцию удаления дубликатов. Здесь мы покажем вам, как удалить дубликаты в Google Таблицах с помощью этого инструмента, а затем предложим более продвинутые альтернативы, если это не поможет.
Следуйте инструкциям по этому руководству , попробовав для себя инструкции из этой демонстрационной электронной таблицы.Обязательно нажмите Файл > Сначала сделайте копию .
Удаление дубликатов из таблиц Google с помощью встроенной функции
Встроенная функция предлагает базовые функции удаления повторяющихся ячеек. Для этого выделите данные, которые вы хотите включить, и нажмите Данные > Удалить дубликаты .
На этом этапе у вас будет возможность выбрать, есть ли у данных строку заголовка, и подтвердить, с каким диапазоном вы хотите работать.
После того, как вы сделали свой выбор, нажмите Удалить дубликаты , и работа будет выполнена. Это сообщит вам, сколько дубликатов было удалено.
Удаление дубликатов из Google Таблиц с помощью формулы
Если вы хотите удалить дубликаты, но сохранить исходные данные там, где они есть, вы можете использовать формулу Уникальная. Это позволяет вам найти уникальные записи, т. Е. , а не дублированных, а затем избавиться от остальных.
Удалите дубликаты из одного столбца
Допустим, вы хотите извлечь только уникальные адреса электронной почты из Sheet1 в нашей демонстрационной электронной таблице.
Шаг 1
Решите, где вы хотите разместить ваши дедуплицированные данные, то есть ваш чистый набор данных после удаления дубликатов. В нашем примере мы создали для этой цели новый лист: Sheet3.
Щелкните ячейку в верхнем левом углу листа. (Если вы решите поместить данные в другое место, убедитесь, что внизу и справа от выбранной ячейки достаточно места, потому что формула перезапишет все, что есть в данный момент.)
Шаг 2
Введите = UNIQUE (
в строку формул (правильная формула появляется, когда вы начинаете вводить слово).
Шаг 3
Вернитесь на лист с вашими данными (Sheet1). Выберите столбец, из которого вы хотите удалить дубликаты, щелкнув букву в верхней части столбца (в данном случае B). Обратите внимание, что формула автоматически добавляет диапазон.
Теперь все, что вам нужно сделать, это ввести конечную скобку, )
, чтобы завершить формулу. Ваша формула в конечном итоге будет выглядеть так:
= UNIQUE (Sheet1! B: B)
Step 4
Нажмите Enter, и появятся уникальные записи из выбранного столбца, начиная с ячейки, в которой вы ввел формулу.
Step 5
Теперь вы можете использовать эти дедуплицированные данные где угодно. Убедитесь, что при копировании и вставке в другое место в Google Таблицах вы выбираете Правка > Специальная вставка > Вставить только значения . В противном случае вы скопируете формулу вместо результатов.
Удаление повторяющихся строк из листа
Процесс удаления повторяющихся строк аналогичен, с той лишь разницей, что вы выбираете диапазон ячеек.Выполните описанный выше процесс, но для шага 3 выберите строки , из которых вы хотите удалить дубликаты.
В нашем примере таблицы выделите строки 1-26 Листа 1, чтобы удалить любые повторяющиеся записи.
Чтобы включить определенные строки, которые не находятся рядом друг с другом, выберите каждую строку с помощью команды , кнопки
на Mac или ctrl
в Windows.
Удаление дубликатов из Google Таблиц с помощью надстройки
Метод формулы прост, но что, если вы хотите решить проблемы с дубликатами помимо простого их удаления, например:
Выявление дубликатов (не их удаление)
Удаление обоих экземпляров дублированных данных
Сравнение данных на листах
Игнорирование строки заголовка
Автоматическое копирование или перемещение уникальных пользователей в другое место
Удаление любых дубликатов данных или удаление любых дубликатов данных вся строка с повторяющимися данными
Игнорирование регистра букв (например,g., поиск дубликатов, даже если один в верхнем регистре, а один в нижнем)
Если вам нужно решить любую из этих ситуаций — или если у вас более надежный набор данных, чем в приведенном выше примере, используйте надстройку Удалить дубликаты вместо этого.
Установите надстройку
Сначала установите надстройку. Щелкните Надстройки на панели инструментов Google Таблиц и выберите Получить надстройки . Найдите и выберите надстройку «Удаление дубликатов», предлагаемую Ablebits.com (бесплатно в течение 30 дней; 59 долларов США.60 за пожизненную подписку или 33,60 доллара в год).
Авторизуйте надстройку при появлении запроса. Следуйте инструкциям, и надстройка будет немедленно добавлена в вашу учетную запись.
Если вы используете несколько учетных записей Google, например личную и рабочую учетные записи, установите надстройку отдельно для каждой учетной записи.
Теперь, когда вы щелкните Надстройки , наведите указатель мыши на Удалить дубликаты, и вы увидите два варианта:
Найти дубликаты или уникальные имена
Если вы выберете первый вариант, вы сможете найти либо дубликаты или уникальных записей и выполните над ними ряд действий.
Шаг 1
Выберите диапазон ячеек для поиска. Надстройка запустится с автоматического определения того, какой диапазон вы можете захотеть посмотреть, но вы можете переопределить это, вручную введя номера ячеек или щелкнув значок электронной таблицы в текстовом поле и выбрав ячейки на самом листе.
В нашем примере электронной таблицы выберите столбцы A и B листа Sheet1.
Если вы используете надстройку впервые или думаете, что можете использовать эти данные снова, выберите «Создать резервную копию листа» (в этом представлении), чтобы не потерять ценные данные. данные.Функция истории версий в Google Таблицах всегда позволит вам вернуться, но лучше безопасно, чем сожалеть.
Шаг 2
Решите, какой тип значений вы хотите найти. Вы можете выбрать только уникальных пользователей, имитируя формулу = UNIQUE (
, или вы можете найти дубликаты.
) В любом случае у вас также есть возможность найти первое вхождение дубликатов. Почему вы выбрали это? пытались определить, кто в вашем офисе говорит на языке, на котором никто в офисе не говорит.Если бы у вас были все записи в электронной таблице (имя в столбце A, язык в столбце B), удаление только второго экземпляра дубликатов не помогло бы вам, потому что у вас все равно остались бы языки, на которых говорит более одного человека. Но если вы удалите дубликаты , включая первое вхождение , у вас останутся языки, на которых говорит только один человек.
Шаг 3
Теперь вы собираетесь подтвердить несколько деталей. Например, вы хотите пропустить пустые ячейки? У вашего диапазона есть строка заголовка, которую вы хотите игнорировать? Вы хотите игнорировать варианты прописных и строчных букв?
Не стесняйтесь поэкспериментировать с этим дополнением.Если в какой-то момент вы передумаете по поводу своего выбора, вы всегда можете нажать Назад .
Шаг 4
Теперь у вас есть варианты того, что вы можете делать со значениями, найденными на предыдущих шагах. Наиболее полезными мы считаем:
Заливка цветом. Это позволяет идентифицировать дубликатов или уникальных пользователей, не предпринимая с ними никаких действий. Таким образом, вы можете выделить для себя и своей команды всякий раз, когда есть повторяющиеся данные.
Скопируйте в другое место.Это позволяет вам сохранить текущие данные как есть и переместить новые данные либо внутри текущего рабочего листа («Пользовательское расположение»), либо на новый рабочий лист в текущей электронной таблице, либо даже в совершенно новую электронную таблицу.
Очистить значения или удалить строки в выделенном фрагменте. Это особенно полезно, если вы хотите удалить уникальных пользователей и оставить только дубликаты.
Шаг 5
Нажмите «Готово», и все.
Сравнить столбцы или листы
Если вы хотите сравнить два столбца на одном листе или хотите сравнить данные на двух листах, выберите Сравнить столбцы или листы при запуске надстройки.
Шаг 1
Сначала выберите лист, на котором происходит ваш первый набор данных. Если у вас только один лист, вам все равно нужно выполнить этот шаг.
На этом же шаге выберите свой диапазон. Это может быть целый столбец или какой-то другой набор данных (таблица).
Шаг 2
Выберите лист и столбец или таблицу, которые содержат ваш второй набор данных .
Шаг 3
Теперь выберите, ищете ли вы дубликаты или уникальные посетители.
Обратите внимание, что надстройка определяет дубликаты и уникальные объекты в зависимости от того, какая таблица или набор данных их содержат. Дубликаты — это значения в Таблице 1, которые также существуют в Таблице 2. Уникальные — это значения, которые находятся в Таблице 1, но НЕ в Таблице 2.
Итак, если вы искали значения, которые находятся в Таблице 2, но не в Таблице 1, вы Я хочу вернуться и поменять местами, какой набор данных вы выбираете первым.
Шаг 4
Теперь выберите столбцы для сравнения.
В разделе «Столбцы таблицы 1» выберите столбцы из первого набора данных, которые вы хотите включить в сравнение.
В разделе «Столбцы таблицы 2» выберите из раскрывающегося списка, какой столбец из второго набора данных вы сравниваете.
Возможно, вы сравните яблоки с яблоками, т. Е. Столбец A на листе Sheet1 с столбцом A на листе Sheet2 и столбец B на листе Sheet1 с столбцом B на листе Sheet2. Но если вы работаете с двумя листами, которые организованы по-разному, у вас есть возможность настроить.
Шаг 5
Выберите, что вы хотите сделать с найденными значениями, и нажмите Готово .
Потратьте некоторое время на то, чтобы поиграть с нашей демонстрационной таблицей, и вы увидите, насколько легко найти, удалить или отформатировать дубликаты — или уникальные — в Google Таблицах, без скриптов.
Как удалить дубликаты в Excel — удалить повторяющиеся строки за несколько кликов
Excel имеет множество приложений, таких как отслеживание запасов, ведение списка рассылки, создание отчетов о продажах и многие другие.
По мере роста базы данных одна из основных проблем, с которыми сталкиваются многие пользователи, — это получение повторяющихся значений и строк.Это может сделать ваши расчеты неточными и заставить людей усомниться в вашей компетентности.
В конечном итоге вы можете предоставить сводный отчет с повторяющимися значениями или даже дважды отправить письмо одному и тому же человеку. Поэтому вам нужно будет найти и удалить дубликаты, чтобы избежать этих мелких ошибок, которые могут иметь серьезные последствия.
Удалить дубликаты
Поскольку эта проблема возникает часто, на ленте есть специальная команда, которая упрощает работу с дубликатами. Так обстоит дело с последними версиями пакета Microsoft Office, такими как Excel 2007 до 2016.
Выберите таблицу, с которой вы будете работать
Во-первых, вам нужно выбрать целевые ячейки, поскольку инструмент можно использовать для удаления дубликатов во всех строках или частично совпадающих записей.
Вы можете сделать это, выбрав таблицу и нажав Ctrl + A. Вы должны убедиться, что исходный файл сохранен, поскольку процесс удаляет дубликаты безвозвратно.
Щелкните вкладку данных в верхней части экрана
После выбора диапазона проверьте верхнюю часть экрана и щелкните вкладку данных.Будут показаны различные команды, и затем вы должны проверить «удалить дубликаты» и щелкнуть по нему.
На экране появится небольшое диалоговое окно. Первая строка выбирается автоматически, поскольку установлен флажок «Мои данные имеют заголовок». Если заголовка нет и данные начинаются с строки 1 , снимите этот флажок.
Нажмите кнопку OK, чтобы удалить дубликаты.
Теперь вся таблица выделена, поэтому вам следует продолжить и нажать кнопку OK. Это удалит все дубликаты.Сведения об удалении отображаются на экране с оставшимися уникальными значениями и отображается количество удаленных повторяющихся записей.
Однако, если вы хотите удалить частичных дубликатов на основе определенных столбцов, вы должны выбрать их, оставив остальные. Если таблица содержит много столбцов, лучше всего отменить выбор всех, а затем просто выбрать те, которые требуют удаления дубликатов.
По завершении нажмите OK. Затем дублированная информация будет удалена, а подробности отобразятся на экране.
Вариант 2. Использование расширенных фильтров в Excel
Значок расширенного фильтра помогает выявлять и удалять дубликаты в Excel. Это можно использовать в последнем пакете Microsoft Office и версии 2003 года. Вам нужно открыть электронную таблицу Excel и выбрать все, нажав Ctrl + A.
Щелкните вкладку данных, затем кнопку «Дополнительно» под разделом сортировки и фильтрации
Затем вам следует щелкнуть вкладку «Данные» в верхней части экрана, где находятся различные разделы. появляются под ним.Найдите раздел сортировки и фильтрации и нажмите кнопку «Дополнительно».
На экране появится диалоговое окно, в котором вы можете выбрать «копировать в другое место» или «отфильтровать список на месте». Последний скрывает все строки с дубликатами, а первый создает копию записей.
Настройте диапазон данных в «диапазоне списка»
В диалоговом окне есть поле диапазона списка с данными, заполненными Excel. Если вы хотите изменить диапазон, вы можете сделать это, отрегулировав его под «диапазоном списка».’
Оставление диапазона критериев пустым и копирование в поле полезно только в том случае, если вы выбрали копирование в другое место. В противном случае оставьте поле пустым для параметра «Фильтровать список на месте».
Отметьте поле «Только уникальные записи».
В том же диалоговом окне есть поле с надписью «Только уникальные записи» — отметьте это поле. Это указывает Excel, что нужно отфильтровывать дубликаты, сохраняя уникальные записи.
Щелкните OK, чтобы удалить дубликаты
После того, как вы выполнили этот процесс, вы можете нажать кнопку OK, чтобы избавиться от дубликатов.Тогда документ будет содержать повторяющиеся данные, за исключением тех, которые были удалены.
Поскольку процесс предполагает, что в документе есть заголовки, если строка 1 st содержит дубликат, он не будет удален. Удалите его вручную, если это не заголовок.
Когда вы используете расширенный процесс фильтрации, вы можете удалить дубликаты только во всей таблице, поскольку нет возможности сделать это частично. Однако вы можете удалить дубликаты и одновременно создать копию данных.
Помимо встроенных средств удаления дубликатов, вы можете использовать надстройки, такие как средство удаления дубликатов Ablebits, чтобы избавиться от дубликатов. Инструмент универсален и может выполнять и другие функции. Он работает во всех операционных системах и всех версиях Excel. Здесь мы сосредоточимся на одном способе использования инструмента, который требует всего 2 щелчка мыши.
Выберите ячейку в интересующей таблице
Отметьте таблицу, в которой вам нужно выполнить дедупликацию записей, и в данных Ablebits нажмите «dedupe table».Это выбирает всю таблицу, и диалоговое окно открывается со всеми столбцами, выбранными автоматически.
Выберите удаление дубликатов из раскрывающегося списка под полем «Выбрать действие»
В правом нижнем углу есть раскрывающийся список под полем выбора действия. Выберите вариант удаления дубликата и нажмите ОК. Повторяющиеся значения будут удалены, за исключением 1 st вхождений.
Удаление дубликатов в ключевых столбцах
Процесс в два щелчка мыши можно использовать для удаления дубликатов в определенных строках в ключевых столбцах.Для этого снимите флажки с других столбцов, оставив отмеченными те, которые вы хотите удалить. Выполните два пункта выше, и дубликаты будут удалены.
Действие выбора можно использовать для других операций, таких как копирование дубликатов в другое место без их удаления. Используйте раскрывающееся меню, чтобы выбрать соответствующий вариант, чтобы ваш лист Excel был аккуратным и без ошибок.
Final Word
Удалить дубликаты в Excel просто с помощью трех вариантов, выделенных выше. Процесс прост, и с помощью этого руководства вы можете сделать это с помощью нескольких щелчков мышью, чтобы получить исчерпывающую справку по заданию и помощь в работе от Excel.
Когда вы работаете в Excel, вы всегда должны очищать набор данных, исключая любые непрофессиональные ошибки.
Добавить комментарий