Содержание

Запрет индексации сайта поисковыми системами. Самостоятельно проверяем и меняем файл robots.txt. Зачем закрывать сайт от индексации?

Зачем закрывать сайт от индексации? Проверяем и меняем файл robots.txt самостоятельно.

Ответ

Для закрытия всего сайта от индексации во всех поисковых системах необходимо в файле robots.txt прописать следующую директиву:

Disallow: /

Далее, подробнее разберемся в вопросе подробнее и ответим на
другие вопросы:

  • Процесс индексации что это?
  • Зачем закрывать сайт от индексации?
  • Инструкции по изменению файла robots.txt
  • Проверка корректности закрытия сайта от
    индексации
  • Альтернативные способы закрыть сайт от поисковых
    систем

Оглавление

Процесс индексации

Индексация сайта — это процесс добавления данных вашего ресурса в индексную базу поисковых систем. Ранее мы подробно разбирали вопрос индексации сайта в Яндекс и Google.

Именно в этой базе и происходит поиск информации в тот
момент, когда вы вводите любой запрос в строку поиска:

Именно из индексной базы поисковая система в момент ввода запроса производит поиск информации.

Если сайта нет в индексной базе поисковой системе = тогда
сайте нет и в поисковой выдаче. Его невозможно будет найти по поисковым
запросам.

В каких случаях может потребоваться исключать сайт из баз поисковых систем?

Зачем закрывать сайт от индексации

Причин, по которым необходимо скрыть сайт от поисковых
систем может быть множество. Мы не можем знать личных мотивов всех вебмастеров.
Давайте выделим самые основные объективные причины, когда закрытие сайта от
индексации оправданно.

Сайт еще не готов

Ваш сайт пока не готов для просмотра целевой аудиторией. Вы
находитесь в стадии разработки (или доработки) ресурса. В таком случае его
лучше закрыть от индексации. Тогда сырой и недоработанный ресурс не попадет в
индексную базу и не испортит «карму» вашему сайту.  Открывать сайт лучше после его полной
готовности и наполненности контентом.

Сайт узкого содержания

Ресурс предназначен для личного пользования или для узкого круга посетителей. Он не должен быть проиндексирован поисковыми системами. Конечно, данные такого ресурса можно скрыть под паролем, но это не всегда необходимо. Часто, достаточно закрыть его от индексации и избавить от переходов из поисковых систем случайных пользователей.

Переезд сайта или аффилированный ресурс

Вы решили изменить главное зеркало сайта. Мы закрываем от индексации старый домен и открываем новый. При этом меняем главное зеркало сайта. Возможно у Вас несколько сайтов по одной теме, а продвигаете вы один, главный ресурс.

Стратегия продвижения

Возможно, Ваша стратегия предусматривает продвижение ряда доменов, например, в разных регионах или поисковых системах. В этом случае, может потребоваться закрытие какого-либо домена в какой-либо поисковой системе.

Другие мотивы

Может быть целый ряд других личных причин закрытия сайта от индексации поисковыми системами. Можете написать в комментариях Вашу причину закрытия сайта от индексации.

Закрываем сайт от индексации в robots.txt

Обращение к Вашему сайту поисковой системой начинается с
прочтения содержимого файла robots.txt. Это служебный файл со специальными
правилами для поисковых роботов.

Подробнее о директивах robots.txt:

Самый простой и быстрый способ это при первом обращении к
вашему ресурсу со стороны поисковых систем (к файлу robots.txt) сообщить
поисковой системе о том, что этот сайт закрыт от индексации. В зависимости от
задач, сайт можно закрыть в одной или нескольких поисковых системах. Вот так:

Закрыть во всех системах Закрыть только в Яндекс Закрыть только в Google
User-agent: *
Disallow: /
User-agent: Yandex
Disallow: /
User-agent: Googlebot
Disallow: /

Инструкция по изменению файла robots.

txt

Мы не ставим целью дать подробную инструкцию по всем
способам подключения к хостингу или серверу, укажем самый простой способ на наш
взгляд.

Файл robots.txt всегда находится в корне Вашего сайта.
Например, robots.txt сайта iqad.ru будет
находится по адресу:

https://iqad.ru/robots.txt

Для подключения к сайту, мы должны в административной панели
нашего хостинг провайдера получить FTP (специальный протокол передачи файлов
по сети) доступ: <ЛОГИН> И <ПАРОЛЬ>.

Авторизуемся в панели управления вашим хостингом и\или сервером, находим раздел FTP и создаем ( получаем ) уникальную пару логин \ пароль.

В описании
раздела или в разделе помощь, необходимо
найти
и сохранить необходимую информацию для подключения по FTP к серверу,
на котором размещены файлы Вашего сайта. Данные отражают информацию, которую
нужно указать в FTP-клиенте:

  • Сервер (Hostname) – IP-адрес сервера, на котором размещен Ваш аккаунт
  • Логин (Username) – логин от FTP-аккаунта
  • Пароль (Password) – пароль от FTP-аккаунта
  • Порт (Port) – числовое значение, обычно 21

Далее, нам потребуется любой FTP-клиент, можно
воспользоваться бесплатной программой filezilla (https://filezilla. ru/).
Вводим данные в соответствующие поля и нажимаем подключиться.

FTP-клиент filezilla интуитивно прост и понятен: вводим cервер (host) + логин (имя пользователя) + пароль + порт и кнопка {быстрое соединение}. В поле справа находим файл robots.txt и изменяем его. Не забудьте сохранить изменения.

После подключения прописываем необходимые директивы. См.
раздел:

Закрываем сайт от индексации в robots.txt

Проверка корректности закрытия сайта от индексации

После того, как вы внесли все необходимые коррективы в файл robots.txt
необходимо убедится в том, что все сделано верно. Для этого открываем файл
robots.txt
на вашем сайте.

Инструменты iqad

В арсенале команды IQAD есть набор бесплатных инструментов для SEO-оптимизаторов. Вы можете воспользоваться бесплатным сервисом просмотра файла robots.txt:

Проверить индексацию

Самостоятельно

Открыть самостоятельно, файл находится корне Вашего сайта, по адресу:

www. site.ru/robots.txt

Где www.site.ru – адрес Вашего сайта.

Сервис Я.ВЕБМАСТЕР

Бесплатный сервис Я.ВЕБМАСТЕР — анализ robots.txt.

Бесплатный сервис ЯНДЕКС.ВЕБМАСТЕР проверит ваш robots.txt, покажет какими секциями Вашего файла пользуется поисковая система Яндекс:

Так же, в сервисе можно проверить запрещена ли та или иная страница вашего сайта к индексации:

Достаточно в специальное поле внести интересующие Вас страницы и ниже отобразится результат.

Альтернативные способы закрыть сайт от поисковых систем

Помимо классического
способа с использованием файла robots.txt можно прибегнуть и к другим, не
стандартным, подходам. Однако у них есть ряд недостатков.

  1. Вы можете
    отдавать поисковым роботам отличный от 200 код ответа сервера. Но это не
    гарантирует 100% исключения сайта из индекса. Какое-то время робот может
    хранить копию Ваших страниц и отдавать именно их.  
  2. С помощью специального
    meta тега: <meta name=»robots»>

<meta name=»robots» content=»noindex, nofollow»>

Но
так как метатег размещается и его действие относиться только к 1 странице, то
для полного закрытия сайта от индексации Вам придется разместить такой тег на
каждой странице Вашего сайта.

Недостатком
этого может быть несовершенство поисковых систем и проблемы с индексацией
ресурса. Пока робот не переиндексирует весь сайт, а на это может потребоваться
много времени, иногда несколько месяцев, часть страниц будет присутствовать в
поиске.

  • Использование
    технологий, усложняющих индексацию Вашего сайта. Вы можете спрятать контент
    Вашего сайта под AJAX или скриптами. Таким образом поисковая система не сможет
    увидеть контент сайта. При этом по названию сайта или по открытой части в
    индексе поисковиков может что-то хранится. Более того, уже завра новое
    обновление поисковых роботов может научится индексировать такой контент.  
  • Скрыть все
    данные Вашего сайта за регистрационной формой. При этом стартовая страница в
    любом случае будет доступна поисковым роботам.

Заключение

Самым простым способом закрыть сайт от индексации,  во всех поисковых системах, необходимо в файле
robots.txt прописать следующую директиву:

Disallow: /

«robots.txt» это служебный файл со специальными правилами для поисковых роботов.

Файл robots.txt всегда находится в корне Вашего сайта. Для изменения
директив файла Вам потребуется любой FTP-клиент.

Помимо классического способа с использованием файла robots.txt можно прибегнуть и к другим, не стандартным, подходам. Однако у них есть ряд недостатков. Для проверки текущих директив Вашего сайта предлагаем воспользоваться бесплатным сервисом просмотра файла robots.txt:

Проверить индексацию

Настройка индексирования.

Какие страницы закрывать от поисковых роботов и как это лучше делать

Статья из блога АРТИЗАН-ТИМ.

Каким бы продуманным не был сайт, он всегда будет иметь страницы, нежелательные для индексации. Обработка таких документов поисковыми роботами снижает эффект SEO-оптимизации и может ухудшать позиции сайта в выдаче. В профессиональном лексиконе оптимизаторов за такими страницами закрепилось название «мусорные». На наш взгляд этот термин не совсем корректный, и вносит путаницу в понимание ситуации.

Мусорными страницами уместнее называть документы, не представляющие ценности ни для пользователей, ни для поисковых систем. Когда речь идет о таком контенте, нет смысла утруждаться с закрытием, поскольку его всегда легче просто удалить. Но часто ситуация не столь однозначна: страница может быть полезной с т.з. пользовательского опыта и в то же время нежелательной для индексации. Называть подобный документ «мусорным» — неправильно.

Такое бывает, например, когда разные по содержанию страницы создают для поисковиков иллюзию дублированного контента. Попав в индекс такой «псевдодубль» может привести к сложностям с ранжированием. Также некоторые страницы закрывают от индексации с целью рационализации краулингового бюджета. Количество документов, которые поисковики способны просканировать на сайте, ограниченно определенным лимитом. Чтобы ресурсы краулеров тратились исключительно на важный контент, и он быстрее попадал в индекс, устанавливают запрет на обход неприоритетных страниц.

Как закрыть страницы от индексации: три базовых способа

Добавление метатега Robots

Наличие атрибута noindex в html-коде документа сигнализирует поисковым системам, что страница не рекомендована к индексации, и ее необходимо изъять из результатов выдачи. В начале html-документа в блоке <head> прописывают метатег:

Эта директива воспринимается краулерами обеих систем — страница будет исключена из поиска как в Google, так и в «Яндексе» даже если на нее проставлены ссылки с других документов.

Варианты использования метатега Robots

Закрытие в robots.

txt

Закрыть от индексации отдельные страницы или полностью весь сайт (когда это нужно — мы поговорим ниже) можно через служебный файл robots.txt. Прописав в нем одну из директив, поисковым системам будет задан рекомендуемый формат индексации сайта. Вот несколько основных примеров использования robots.txt

Запрет индексирования сайта всеми поисковыми системами:

User-agent: *
Disallow: /

Закрытие обхода для одного поисковика (в нашем случае «Яндекса»):

User-agent: Yandex
Disallow: /

Запрет индексации сайта всеми поисковыми системами, кроме одной:

User-agent: *
Disallow: /
User-agent: Yandex
Allow: /

Закрытие от индексации конкретной страницы:

User-agent: *
Disallow: / #частичный или полный URL закрываемой страницы

Отдельно отметим, что закрытие страниц через метатег Robots и файл robots.txt — это лишь рекомендации для поисковых систем. Оба этих способа не дают стопроцентных гарантий, что указанные документы не будут отправлены в индекс.

Настройка HTTP-заголовка X-Robots-Tag

Указать поисковикам условия индексирования конкретных страниц можно через настройку HTTP-заголовка X-Robots-Tag для определенного URL на сервере вашего сайта.

Заголовок X-Robots-Tag запрещает индексирование страницы

Что убирать из индекса?

Рассмотрев три основных способа настройки индексации, теперь поговорим о том, что конкретно нужно закрывать, чтобы оптимизировать краулинг сайта.

Документы PDF, DOC, XLS

На многих сайтах помимо основного контента присутствуют файлы с расширением PDF, DOC, XLS. Как правило, это всевозможные договора, инструкции, прайс-листы и другие документы, представляющие потенциальную ценность для пользователя, но в то же время способные размывать релевантность страницы из-за попадания в индекс большого объема второстепенного контента. В некоторых случаях такой документ может ранжироваться лучше основной страницы, занимая в поиске более высокие позиции. Именно поэтому все объекты с расширением PDF, DOC, XLS целесообразно убирать из индекса. Удобнее всего это делать в robots.txt.

Страницы с версиями для печати

Страницы с текстом, отформатированным под печать — еще один полезный пользовательский атрибут, который в то же время не всегда однозначно воспринимается поисковиками. Такие документы часто распознаются краулерами как дублированный контент, оказывая негативный эффект для продвижения. Он может выражаться во взаимном ослаблении позиций страниц и нежелательном перераспределении ссылочного веса с основного документа на второстепенный. Иногда поисковые алгоритмы считают такие дубли более релевантными, и вместо основной страницы в выдаче отображают версию для печати, поэтому их уместно закрывать от индексации.

Страницы пагинации

Нужно ли закрывать от роботов страницы пагинации? Данный вопрос становится камнем преткновения для многих оптимизаторов в первую очередь из-за диаметрально противоположных мнений на этот счет. Постраничный вывод контента на страницах листинга однозначно нужен, поскольку это важный элемент внутренней оптимизации. Но в необработанном состоянии страницы пагинации могут восприниматься как дублированный контент со всеми вытекающими последствиями для ранжирования.

Первый подход к решению этой проблемы — настройка метатега Robots. С помощью noindex, follow из индекса исключают все страницы пагинации кроме первой, но не запрещают краулерам переходить по ссылкам внутри них. Второй вариант обработки не предусматривает закрытия страниц. Вместо этого настраивают атрибуты rel=”canonical”, rel=”prev” и rel=”next”. Опыт показывает, что оба этих подхода имеют право на жизнь, хотя в своей практике мы чаще используем первый вариант.

Страницы служебного пользования

Технические страницы, предназначенные для административного использования, также целесообразно закрывать от индексации. Например, это может быть форма авторизации для входа в админку или другие служебные страницы. Удобнее всего это делать через директиву в robots.txt. Документы, к которым необходимо ограничить доступ, можно указывать списком, прописывая каждый с новой строки.

Директива в robots.txt на запрет индексации всеми поисковиками нескольких страниц

Формы и элементы для зарегистрированных пользователей

Речь идет об элементах, которые ориентированы на уже существующих клиентов, но не представляют ценности для остальных пользователей. К ним относят: страницы регистрации, формы заявок, корзину, личный кабинет и т.д. Индексацию таких элементов целесообразно ограничить как минимум из соображений оптимизации краулингового бюджета. На сайтах электронной коммерции отдельное внимание уделяют закрытию страниц, содержащих персональные данные клиентов.

Закрытие сайта во время технических работ

Создавая сайт с нуля или проводя его глобальную реорганизацию, например перенося на новую CMS, желательно разворачивать проект на тестовом сервере и закрывать его от сканирования всеми поисковыми системами в robots. txt. Это уменьшит риск попадания в индекс ненужных документов и другого тестового мусора, который в дальнейшем сможет навредить поисковому продвижению сайта.

Заключение

Настройка индексирования отдельных страниц — важный компонент поисковой оптимизации. Вне зависимости от технических особенностей каждый сайт имеет документы, нежелательные для попадания в индекс. Какой контент лучше скрывать от роботов и как это делать в каждом конкретном случае — мы подробно рассказали выше. Придерживаясь этих рекомендаций, вы оптимизируете ресурсы поисковых краулеров, обеспечите быстрые и эффективные обходы приоритетных страниц, и что самое важное — обезопаситесь от возможных проблем с ранжированием.

Читайте по теме:
Как оптимизировать страницы категорий онлайн-магазинов? 
SEO-оптимизация главной страницы интернет-магазина. Подробное руководство

Как закрыть контент от индексации — пошаговое руководство

Иногда возникают такие ситуации, когда нужно Закрыть от индексации часть контента. Пример такой ситуации мы рассматривали здесь.

Также, иногда нужно:

  • Скрыть от поиска техническую информацию
  • Закрыть от индекса не уникальный контент
  • Скрыть сквозной,повторяющийся внутри сайта, контент
  • Закрыть мусорные страницы, которые нужны пользователям, но для робота выглядят как дубль

Постараемся в данной статье максимально подробно расписать инструменты при помощи которых можно закрывать контент от индексации.

Закрываем от индексации домен/поддомен:

Для того, чтобы закрыть от индексации домен, можно использовать:

1.   Robots.txt

В котором прописываем такие строки.

User-agent: *

Disallow: /

При помощи данной манипуляции мы закрываем сайт от индексации всеми поисковыми системами.

При необходимости Закрыть от индексации конкретной поисковой системой, можно добавить аналогичный код, но с указанием Юзерагента.

User-agent: yandex

Disallow: /

Иногда, же бывает нужно наоборот открыть для индексации только какой-то конкретной ПС. В таком случае нужно составить файл Robots.txt в таком виде:

User-agent: *

Disallow: /

User-agent: Yandex

Allow: /

Таким образом мы позволяем индексировать сайт только однайо ПС. Однако минусом есть то, что при использовании такого метода, все-таки 100% гарантии не индексации нет. Однако, попадание закрытого таким образом сайта в индекс, носит скорее характер исключения.

Для того, чтобы проверить корректность вашего файла Robots.txt можно воспользоваться данным инструментом просто перейдите по этой ссылке http://webmaster.yandex.ru/robots.xml.

Статья в тему: Robots.txt — инструкция для SEO

2. Добавление Мета-тега Robots

Также можно закрыть домен от индексации при помощи Добавления к Код каждой страницы Тега:

META NAME=»ROBOTS» CONTENT=»NOINDEX, NOFOLLOW»

Куда писать META-тег “Robots”

Как и любой META-тег он должен быть помещен в область HEAD HTML страницы:

Данный метод работает лучше чем Предыдущий, темболее его легче использовать точечно нежели Вариант с Роботсом. Хотя применение его ко всему сайту также не составит особого труда.

3. Закрытие сайта при помощи .htaccess

Для Того, чтобы открыть доступ к сайту только по паролю, нужно добавить в файл .htaccess, добавляем такой код:

После этого доступ к сайту будет возможен только после ввода пароля.

Защита от Индексации при таком методе является стопроцентной, однако есть нюанс, со сложностью просканить сайт на наличие ошибок. Не все парсеры могут проходить через процедуру Логина.

Закрываем от индексации часть текста

Очень часто случается такая ситуация, что необходимо закрыть от индексации Определенные части контента:

  • меню
  • текст
  • часть кода.
  • ссылку

Скажу сразу, что распространенный в свое время метод при помощи тега <noindex> не работает.

<noindex>Тут мог находится любой контент, который нужно было закрыть</noindex>

Однако существует альтернативный метод закрытия от индексации, который очень похож по своему принципу, а именно метод закрытия от индексации при помощи Javascript.

Закрытие контента от индексации при помощи Javacascript

При использовании данного метода текст, блок, код, ссылка или любой другой контент кодируется в Javascript, а далее Данный скрипт закрывается от индексации  при помощи Robots.txt

Такой Метод можно использовать для того, чтобы скрыть например Меню от индексации, для лучшего контроля над распределением ссылочного веса. К примеру есть вот такое меню, в котором множество ссылок на разные категории. В данном примере это — порядка 700 ссылок, если не закрыть которые можно получить большую кашу при распределении веса.

Данный метод гугл не очень то одобряет, так-как он всегда говорил, что нужно отдавать одинаковый контент роботам и пользователям. И даже рассылал письма в средине прошлого года о том, что нужно открыть для индексации CSS и JS файлы.

Подробнее об этом можно почитать тут.

Однако в данный момент это один из самых действенных методов по борьбе с индексацией нежелательного контента.

Точно также можно скрывать обычный текст, исходящие ссылки, картинки, видео материалы, счетчики, коды. И все то, что вы не хотите показывать Роботам, или что является не уникальным.

Как закрыть от индексации конкретную страницу:

Для того, чтобы закрыть от индекса конкретную страницу чаще всего используются такие методы:

  • Роботс txt
  • Мета robots noindex

В случае первого варианта закрытия страницы в данный файл нужно добавить такой текст:

User-agent: ag

Disallow: http://site.com/page

Таким образом данная страница не будет индексироваться с большой долей вероятности. Однако использование данного метода для точечной борьбы со страницами, которые мы не хотим отдавать на индексацию не есть оптимальным.

Так, для закрытия одной страницы от индекса лучше воспользоваться тегом

META NAME=»ROBOTS» CONTENT=»NOINDEX, NOFOLLOW»

Для этого просто нужно добавить в область HEAD HTML страницы. Данный метод позволяет не перегружать файл robots. txt лишними строчками.

Ведь если Вам нужно будет закрыть от индекса не 1 страницу, а к примеру 100 или 200 , то нужно будет добавить 200 строк в этот файл. Но это в том случае, если все эти страницы не имеют общего параметра по которому их можно идентифицировать. Если же такой параметр есть, то их можно закрыть следующим образом.

Закрытие от индексации Раздела по параметру в URL

Для этого можно использовать 2 метода:

Рассмотрим 1 вариант

К примеру, у нас на сайте есть раздел, в котором находится неуникальная информация или Та информация, которую мы не хотим отдавать на индексацию и вся эта информация находится в 1 папке или 1 разделе сайта.

Тогда для закрытия данной ветки достаточно добавить в Robots.txt такие строки:

Если закрываем папку, то:

Disallow: /папка/

Если закрываем раздел, то:

Disallow: /Раздел/*

Также можно закрыть определенное расшерение файла:

User-agent: *

Disallow: /*. js

Данный метод достаточно прост в использовании, однако как всегда не гарантирует 100% неиндексации.

Потому лучше в добавок делать еще закрытие при помощи

META NAME=»ROBOTS» CONTENT=»NOINDEX”

Который должен быть добавлен в секцию Хед на каждой странице, которую нужно закрыть от индекса.

Точно также можно закрывать от индекса любые параметры Ваших УРЛ, например:

?sort

?price

?”любой повторяющийся параметр”

Однозначно самым простым вариантом является закрытие от индексации при помощи Роботс.тхт, однако, как показывает практика — это не всегда действенный метод.

Методы, с которыми нужно работать осторожно:

Также существует достаточно грубый метод Закрытия чего — либо от роботов, а именно запрет на уровне сервера на доступ робота к конкретному контенту.

1. Блокируем все запросы от нежелательных User Agents

Это правило позволяет заблокировать нежелательные User Agent, которые могут быть потенциально опасными или просто перегружать сервер ненужными запросами.

В данному случае плохим ботом можно указать Любую поисковую машину, парсер либо что либо еще.

Подобные техники используются например для скрытия от робота Ахрефса ссылки с сайта, который был создан/сломан, чтобы конкуренты сеошники не увидели истинных источников ссылочной массы сайта.

Однако это метод стоит использовать если вы точно знаете, что хотите сделать и здраво оцениваете последствия от этих действий.

Использование HTTP-заголовка X-Robots-Tag

Заголовок X-Robots-Tag, выступает в роли элемента HTTP-заголовка для определенного URL. Любая директива, которая может использоваться в метатеге robots, применима также и к X-Robots-Tag.

В X-Robots-Tag перед директивами можно указать название агента пользователя. Пример HTTP-заголовка X-Robots-Tag, который запрещает показ страницы в результатах поиска различных систем:

В заключение

Ситуации, когда необходимо закрыть контент от индексации случаются довольно часто, иногда нужно почистить индекс, иногда нужно скрыть какой-то нежелательный материал, иногда нужно взломать чужой сайт и в роботсе указать disalow all, чтобы выбросить сайт зеркало из индекса.

Основные и самые действенные методы мы рассмотрели, как же их применять — дело вашей фантазии и целей, которые вы преследуете.

Хорошие статьи в продолжение:

— Стоит ли открывать рубрики для индексации, если в разных рубриках выводятся одни и те же посты?

— Как открывать страницы поиска в интернет магазине — руководство

А что вы думаете по этому поводу? Давайте обсудим в комментариях!)

Оцените статью

Загрузка…

Какие страницы сайта следует закрывать от индексации поисковых систем

Индексирование сайта – это процесс, с помощью которого поисковые системы, подобные Google и Yandex, анализируют страницы веб-ресурса и вносят их в свою базу данных. Индексация выполняется специальным ботом, который заносит всю необходимую информацию о сайте в систему – веб-страницы, картинки, видеофайлы, текстовый контент и прочее. Корректное индексирование сайта помогает потенциальным клиентам легко найти нужный сайт в поисковой выдаче, поэтому важно знать обо всех тонкостях данного процесса.

В сегодняшней статье я рассмотрю, как правильно настроить индексацию, какие страницы нужно открывать для роботов, а какие нет.

Почему важно ограничивать индексацию страниц

Заинтересованность в индексации есть не только у собственника веб-ресурса, но и у поисковой системы – ей необходимо предоставить релевантную и, главное, ценную информацию для пользователя. Чтобы удовлетворить обе стороны, требуется проиндексировать только те страницы, которые будут интересны и целевой аудитории, и поисковику.

Прежде чем переходить к списку ненужных страниц для индексации, давайте рассмотрим причины, из-за которых стоит запрещать их выдачу. Вот некоторые из них:

  1. Уникальность контента – важно, чтобы вся информация, передаваемая поисковой системе, была неповторима. При соблюдении данного критерия выдача может заметно вырасти. В противном случае поисковик будет сначала искать первоисточник – только он сможет получить доверие.
  2. Краулинговый бюджет – лимит, выделяемый сайту на сканирование. Другими словами, это количество страниц, которое выделяется каждому ресурсу для индексации. Такое число обычно определяется для каждого сайта индивидуально. Для лучшей выдачи рекомендуется избавиться от ненужных страниц.

В краулинговый бюджет входят: взломанные страницы, файлы CSS и JS, дубли, цепочки редиректов, страницы со спамом и прочее.

Что нужно скрывать от поисковиков

В первую очередь стоит ограничить индексирование всего сайта, который еще находится на стадии разработки. Именно так можно уберечь базу данных поисковых систем от некорректной информации. Если ваш веб-ресурс давно функционирует, но вы не знаете, какой контент стоит исключить из поисковой выдачи, то рекомендуем ознакомиться с нижеуказанными инструкциями.

PDF и прочие документы

Часто на сайтах выкладываются различные документы, относящиеся к контенту определенной страницы (такие файлы могут содержать и важную информацию, например, политику конфиденциальности).

Рекомендуется отслеживать поисковую выдачу: если заголовки PDF-файлов отображаются выше в рейтинге, чем страницы со схожим запросом, то их лучше скрыть, чтобы открыть доступ к наиболее релевантной информации. Отключить индексацию PDF и других документов вы можете в файле robots.txt.

Разрабатываемые страницы

Стоит всегда избегать индексации разрабатываемых страниц, чтобы рейтинг сайта не снизился. Используйте только те страницы, которые оптимизированы и наполнены уникальным контентом. Настроить их отображение можно в файле robots.txt.

Копии сайта

Если вам потребовалось создать копию веб-ресурса, то в этом случае также необходимо все правильно настроить. В первую очередь укажите корректное зеркало с помощью 301 редиректа. Это позволит оставить прежний рейтинг у исходного сайта: поисковая система будет понимать, где оригинал, а где копия. Если же вы решитесь использовать копию как оригинал, то делать это не рекомендуется, так как возраст сайта будет обнулен, а вместе с ним и вся репутация.

Веб-страницы для печати

Иногда контент сайта требует уникальных функций, которые могут быть полезны для клиентов. Одной из таких является «Печать», позволяющая распечатать необходимые страницы на принтере. Создание такой версии страницы выполняется через дублирование, поэтому поисковые роботы могут с легкостью установить копию как приоритетную. Чтобы правильно оптимизировать такой контент, необходимо отключить индексацию веб-страниц для печати. Сделать это можно с использованием AJAX, метатегом <meta name=»robots» content=»noindex, follow»/> либо в файле robots.txt.

Формы и прочие элементы сайта

Большинство сайтов сейчас невозможно представить без таких элементов, как личный кабинет, корзина пользователя, форма обратной связи или регистрации. Несомненно, это важная часть структуры веб-ресурса, но в то же время она совсем бесполезна для поисковых запросов. Подобные типы страниц необходимо скрывать от любых поисковиков.

Страницы служебного пользования

Формы авторизации в панель управления и другие страницы, используемые администратором сайта, не несут никакой важной информации для обычного пользователя. Поэтому все служебные страницы следует исключить из индексации.

Личные данные пользователя

Вся персональная информация должна быть надежно защищена – позаботиться о ее исключении из поисковой выдачи нужно незамедлительно. Это относится к данным о платежах, контактам и прочей информации, идентифицирующей конкретного пользователя.

Страницы с результатами поиска по сайту

Как и в случае со страницами, содержащими личные данные пользователей, индексация такого контента не нужна: веб-страницы результатов полезны для клиента, но не для поисковых систем, так как содержат неуникальное содержание.

Сортировочные страницы

Контент на таких веб-страницах обычно дублируется, хоть и частично. Однако индексация таких страниц посчитается поисковыми системами как дублирование. Чтобы снизить риск возникновения таких проблем, рекомендуется отказаться от подобного контента в поисковой выдаче.

Пагинация на сайте

Пагинация – без нее сложно представить существование любого крупного веб-сайта. Чтобы понять ее назначение, приведу небольшой пример: до появления типичных книг использовались свитки, на которых прописывался текст. Прочитать его можно было путем развертывания (что не очень удобно). На таком длинном холсте сложно найти нужную информацию, нежели в обычной книге. Без использования пагинации отыскать подходящий раздел или товар также проблематично.

Пагинация позволяет разделить большой массив данных на отдельные страницы для удобства использования. Отключать индексирование для такого типа контента нежелательно, требуется только настроить атрибуты rel=»canonical», rel=»prev» и rel=»next». Для Google нужно указать, какие параметры разбивают страницы – сделать это можно в Google Search Console в разделе «Параметры URL».

Помимо всего вышесказанного, рекомендуется закрывать такие типы страниц, как лендинги для контекстной рекламы, страницы с результатами поиска по сайту и поиск по сайту в целом, страницы с UTM-метками.

Какие страницы нужно индексировать

Ограничение страниц для поисковых систем зачастую становится проблемой – владельцы сайтов начинают с этим затягивать или случайно перекрывают важный контент. Чтобы избежать таких ошибок, рекомендуем ознакомиться с нижеуказанным списком страниц, которые нужно оставлять во время настройки индексации сайта.

  1. В некоторых случаях могут появляться страницы-дубликаты. Часто это связано со случайным созданием дублирующих категорий, привязкой товаров к нескольким категориям и их доступность по различным ссылкам. Для такого контента не нужно сразу же бежать и отключать индексацию: сначала проанализируйте каждую страницу и посмотрите, какой объем трафика был получен. И только после этого настройте 301 редиректы с непопулярных страниц на популярные, затем удалите те, которые совсем не эффективны.
  2. Страницы смарт-фильтра – благодаря им можно увеличить трафик за счет низкочастотных запросов. Важно, чтобы были правильно настроены мета-теги, 404 ошибки для пустых веб-страниц и карта сайта.

Соблюдение индексации таких страниц может значительно улучшить поисковую выдачу, если ранее оптимизация не проводилась.

Как закрыть страницы от индексации

Мы детально рассмотрели список всех страниц, которые следует закрывать от поисковых роботов, но о том, как это сделать, прошлись лишь вскользь – давайте это исправлять. Выполнить это можно несколькими способами: с помощью файла robots.txt, добавления специальных метатегов, кода, сервисов для вебмастеров, а также с использованием дополнительных плагинов. Рассмотрим каждый метод более детально.

Способ 1: Файл robots.txt

Данный текстовый документ – это файл, который первым делом посещают поисковики. Он предоставляет им информацию о том, какие страницы и файлы на сайте можно обрабатывать, а какие нет. Его основная функция – сократить количество запросов к сайту и снизить на него нагрузку. Он должен удовлетворять следующим критериям:

  • наименование прописано в нижнем регистре;
  • формат указан как .txt;
  • размер не должен превышать 500 Кб;
  • местоположение – корень сайта;
  • находится по адресу URL/robots.txt, при запросе сервер отправляет в ответ код 200.

Прежде чем переходить к редактированию файла, рекомендую обратить внимание на ограничивающие факторы.

  • Директивы robots.txt поддерживаются не всеми поисковыми системами. Большинство поисковых роботов следуют тому, что написано в данном файле, но не всегда придерживаются правил. Чтобы полностью скрыть информацию от поисковиков, рекомендуется воспользоваться другими способами.
  • Синтаксис может интерпретироваться по-разному в зависимости от поисковой системы. Потребуется узнать о синтаксисе в правилах конкретного поисковика.
  • Запрещенные страницы в файле могут быть проиндексированы при наличии ссылок из прочих источников. По большей части это относится к Google – несмотря на блокировку указанных страниц, он все равно может найти их на других сайтах и добавить в выдачу. Отсюда вытекает то, что запреты в robots.txt не исключают появление URL и другой информации, например, ссылок. Решить это можно защитой файлов на сервере при помощи пароля либо директивы noindex в метатеге.

Файл robots.txt включает в себя такие параметры, как:

  • User-agent – создает указание конкретному роботу.
  • Disallow – дает рекомендацию, какую именно информацию не стоит сканировать.
  • Allow – аналогичен предыдущему параметру, но в обратную сторону.
  • Sitemap – позволяет указать расположение карты сайта sitemap.xml. Поисковый робот может узнать о наличии карты и начать ее индексировать.
  • Clean-param – позволяет убрать из индекса страницы с динамическими параметрами. Подобные страницы могут отдавать одинаковое содержимое, имея различные URL-страницы.
  • Crawl-delay – снижает нагрузку на сервер в том случае, если посещаемость поисковых ботов слишком велика. Обычно используется на сайтах с большим количеством страниц.

Теперь давайте рассмотрим, как можно отключить индексацию определенных страниц или всего сайта. Все пути в примерах – условные. 

Пропишите, чтобы исключить индексацию сайта для всех роботов:


User-agent: *

Disallow: /

Закрывает все поисковики, кроме одного:


User-agent: *

Disallow: /

User-agent: Google

Allow: /

Запрет на индексацию одной страницы:


User-agent: *

Disallow: /page.html

Закрыть раздел:


User-agent: *

Disallow: /category

Все разделы, кроме одного:


User-agent: *

Disallow: /

Allow: /category

Все директории, кроме нужной поддиректории:


User-agent: *

Disallow: /direct

Allow: /direct/subdirect

Скрыть директорию, кроме указанного файла:


User-agent: *

Disallow: /category

Allow: photo. png

Заблокировать UTM-метки:


User-agent: *

Disallow: *utm=

Заблокировать скрипты:


User-agent: * 

Disallow: /scripts/*.js

Я рассмотрел один из главных файлов, просматриваемых поисковыми роботами. Он использует лишь рекомендации, и не все правила могут быть корректно восприняты.

Способ 2: HTML-код

Отключение индексации можно осуществить также с помощью метатегов в блоке <head>. Обратите внимание на атрибут «content», он позволяет:

  • активировать индексацию всей страницы;
  • деактивировать индексацию всей страницы, кроме ссылок;
  • разрешить индексацию ссылок;
  • индексировать страницу, но запрещать ссылки;
  • полностью индексировать веб-страницу.

Чтобы указать поискового робота, необходимо изменить атрибут «name», где устанавливается значение yandex для Яндекса и googlebot – для Гугла. Yandex» search_bot

Способ 4: Для WordPress

На CMS запретить индексирование всего сайта или страницы гораздо проще. Рассмотрим, как это можно сделать.

Как скрыть весь сайт

Открываем административную панель WordPress и переходим в раздел «Настройки» через левое меню. Затем перемещаемся в «Чтение» – там находим пункт «Попросить поисковые системы не индексировать сайт» и отмечаем его галочкой.

В завершение кликаем по кнопке «Сохранить изменения» – после этого система автоматически отредактирует файл robots.txt.

Как скрыть отдельную страницу

Для этого необходимо установить плагин Yoast SEO. После этого открыть страницу для редактирования и промотать в самый низ – там во вкладке «Дополнительно» указать значение «Нет».

Способ 5: Сервисы для вебмастеров

В Google Search Console мы можем убрать определенную страницу из поисковика. Для этого достаточно перейти в раздел «Индекс Google» и удалить выбранный URL.

Процедура запрета на индексацию выбранной страницы может занять некоторое время. Аналогичные действия можно совершить в Яндекс.Вебмастере. 

На этом статья подходит к концу. Надеюсь, что она была полезной. Теперь вы знаете, что такое индексация сайта и как ее правильно настроить. Удачи!

Запрет индексации через robots.txt — Seonity


Запрет индексации через robots.txt – это один из важных инструментов SEO-продвижения. Он нужен для запрета индексирования роботами поисковых систем технических страниц, конфиденциальных данных и любых страниц и файлов которым не место в индексе. Поисковые системы судят о сайте на основе тех данных, которые попали в базу. Если туда попали «рыбные» тексты, страницы с недоделанным функционалом или ошибками, то весь сайт может получить понижение позиций как плохой, ненадежный. Переиндексация может занять длительное время, так что лучше не допускать попадания в базу ненужных страниц вообще.

Общая информация о файле robots.txt


Файл robots.txt – это документ, который содержит подробные указания для поисковых роботов об индексации сайта. К нему предъявляются следующие требования:


  1. robots.txt должен находиться в корне сайта. Отсутствие файла и контроля за индексацией приводят к индексированию закрытых данных и дублей страниц.


  2. В нем должны быть указаны запреты на индексацию служебных страниц и страниц, содержащих личные и коммерческие данные, ссылка на файл sitemap.xml, основное зеркало сайта.


  3. Кириллица не используется. Все кириллические записи должны быть преобразованы в Punycode.


  4. Параметр User-Agent используется в тех случаях, когда нужно запретить или разрешить индексацию только для определенного робота или поисковой системы (например, закрыть все, кроме картинок).


  5. Закрывает от индексации в robots. txt команда Disallow, открывает команда Allow. Команда Allow имеет более высокий приоритет, чем Disallow.

Как через robots.txt закрыть весь сайт от индексации


Запрет индексации всего сайта через robots.txt обычно применяется во время разработки или редизайна сайта.


Чтобы закрыть сайт от индексации всеми поисковыми системами, необходимо сделать запись:


User-agent: *

Disallow: /


Чтобы в robots.txt закрыть сайт от индексации поисковой системой, к примеру, Яндекс, то запись будет иметь следующий вид:


User-agent: Yandex

Disallow: /

Как закрыть отдельные страницы, директории и файлы


В robots.txt можно закрыть от индексации или открыть для поисковой системы отдельные файлы и директории (к примеру, если вы добавляете товары в определенный раздел каталога и не хотите пока, чтобы туда заходили люди). Также эта команда нужна для того чтобы убрать из индекса разнообразные служебные страницы, страницы с конфиденциальной информацией, дубликаты страниц, логи, статистику и др.


В этом случае команда будет выглядеть следующим образом:


User-agent: *


Disallow: /folder/ #закрываем папку


Аllow: /folder/file.php #открываем отдельный файл в закрытой папке


Disallow: *.jpg #закрываем картинки с расширением .jpg

Как закрыть страницу от индексации через мета-тег?


Файл robots.txt содержит в себе рекомендации для поисковых систем, поэтому поисковик может их не выполнять. Наибольшим приоритетом считается использование мета-тега robots. Запись выглядит следующим образом:


<head>


<meta name=»robots» content=»noindex»/>


# Или:


<meta name=»robots» content=»none»/>


</head>


Вместо «robots» можно использовать имя конкретного поискового робота (альтернатива User-Agent):


<meta name=»googlebot» content=»noindex»/>


<meta name=»yandex» content=»none»/>

Поддержание гигиены сайта и своевременное закрытие
ненужных страниц – это очень важно, поэтому не стоит полностью игнорировать ни
мета-теги, ни robots. txt!

Запрет индексации страниц/директорий через robots.txt

Все поисковые роботы при заходе на сайт в первую очередь ищут файл robots.txt. Это текстовый файл, находящийся в корневой директории сайта (там же где и главный файл index., для основного домена/сайта, это папка public_html), в нем записываются специальные инструкции для поисковых роботов.

Эти инструкции могут запрещать к индексации папки или страницы сайта, указать роботу на главное зеркало сайта, рекомендовать поисковому роботу соблюдать определенный временной интервал индексации сайта и многое другое

Если файла robotx.txt нет в каталоге вашего сайта, тогда вы можете его создать.
Чтобы запретить индексирование сайта через файл robots.txt, используются 2 директивы: User-agent и Disallow.

  • User-agent: УКАЗАТЬ_ПОИСКОВОГО_БОТА
  • Disallow: / # будет запрещено индексирование всего сайта
  • Disallow: /page/ # будет запрещено индексирование директории /page/

Примеры:

Запретить индексацию вашего сайта ботом MSNbot

User-agent: MSNBot  
Disallow: /  

Запретить индексацию вашего сайта ботом Yahoo

User-agent: Slurp  
Disallow: /  

Запретить индексацию вашего сайта ботом Yandex

User-agent: Yandex  
Disallow: /  

Запретить индексацию вашего сайта ботом Google

User-agent: Googlebot  
Disallow: /  

Запретить индексацию вашего сайта для всех поисковиков

User-agent: *  
Disallow: /  

Запрет индексации папок cgi-bin и images для всех поисковиков

User-agent: *  
Disallow: /cgi-bin/  
Disallow: /images/  

Теперь как разрешить индексировать все страницы сайта всем поисковикам (примечание: эквивалентом данной инструкции будет пустой файл robots. txt):

User-agent: *  
Disallow:  

Пример:

Разрешить индексировать сайт только ботам Yandex, Google, Rambler с задержкой 4сек между опросами страниц.

User-agent: *  
Disallow: /  

User-agent: Yandex  
Crawl-delay: 4  
Disallow:  

User-agent: Googlebot  
Crawl-delay: 4  
Disallow:  

User-agent: StackRambler  
Crawl-delay: 4  
Disallow:  

Запретить индексацию страниц/директорий (robots.txt) — База знаний

Все поисковые роботы при заходе на сайт в первую очередь ищут файл robots.txt. Это текстовый файл, находящийся в корневой директории сайта (там же где и главный файл index., для основного домена/сайта, это папка public_html), в нем записываются специальные инструкции для поисковых роботов. Эти инструкции могут запрещать к индексации папки или страницы сайта, указать роботу на главное зеркало сайта, рекомендовать поисковому роботу соблюдать определенный временной интервал индексации сайта и многое другое

Если файла robotx. txt нет в каталоге вашего сайта, тогда вы можете его создать.
Чтобы запретить индексирование сайта через файл robots.txt, используются 2 директивы: User-agent и Disallow.

User-agent: УКАЗАТЬ_ПОИСКОВОГО_БОТА
Disallow: / # будет запрещено индексирование всего сайта
Disallow: /page/ # будет запрещено индексирование директории /page/

Примеры:

1. Запретить индексацию вашего сайта ботом MSNbot

User-agent: MSNBot
Disallow: /

2. Запретить индексацию вашего сайта ботом Yahoo

User-agent: Slurp
Disallow: /
3. Запретить индексацию вашего сайта ботом Yandex

User-agent: Yandex
Disallow: /

4. Запретить индексацию вашего сайта ботом Google

User-agent: Googlebot
Disallow: /

5. Запретить индексацию вашего сайта для всех поисковиков

User-agent: *
Disallow: /

6. Усложняем задачу и например Яндексу запрещаем индексировать папки cgi-bin и images, а Апорту файлы myfile1.htm и myfile2.htm в директории subdir (название папки где расположены файлы myfile1. htm и myfile2.htm)

User-agent: Yandex
Disallow: /cgi-bin/
Disallow: /images/

User-agent: Aport
Disallow: /subdir/myfile1.htm
Disallow: /subdir/myfile2.htm

7. Запрет индексации папок cgi-bin и images для всех поисковиков
User-agent: *
Disallow: /cgi-bin/
Disallow: /images/

Теперь как разрешить индексировать все страницы сайта всем поисковикам (примечание: эквивалентом данной инструкции будет пустой файл robots.txt):

User-agent: *
Disallow:

P.S. Для различных CMS, в интернете можно найти рекомендации, какие директории лучше закрыть от индексации поисковиками., в большей степени это нужно ради безопасности и уменьшения нагрузки на сервер.

Robots.txt Введение и руководство | Центр поиска Google

Что такое файл robots.txt?

Файл robots.txt сообщает сканерам поисковых систем, какие страницы или файлы он может или
не могу запросить с вашего сайта. Это используется в основном для того, чтобы избежать перегрузки вашего сайта
Запросы; , это не механизм для защиты веб-страницы от Google.
Чтобы веб-страница не попала в Google, вы должны использовать
директив noindex ,
или защитите свою страницу паролем.

Для чего используется robots.txt?

Файл

robots.txt используется в основном для управления трафиком сканера на ваш сайт, а обычно для защиты страницы от Google, в зависимости от типа файла:

Тип страницы Управление движением Скрыть от Google Описание
Интернет-страница

Для веб-страниц (HTML, PDF или другие форматы, не относящиеся к мультимедиа, которые может читать Google), robots. txt можно использовать для управления обходным трафиком, если вы считаете, что ваш сервер будет перегружен запросами от поискового робота Google, или чтобы избежать сканирования неважных или похожих страниц на вашем сайте.

Вы не должны использовать robots.txt как средство, чтобы скрыть свои веб-страницы от результатов поиска Google. Это связано с тем, что, если другие страницы указывают на вашу страницу с описательным текстом, ваша страница все равно может быть проиндексирована без посещения страницы. Если вы хотите заблокировать свою страницу из результатов поиска, используйте другой метод, например защиту паролем или директиву noindex .

Если ваша веб-страница заблокирована файлом robots.txt , она все равно может отображаться в результатах поиска, но результат поиска не будет иметь описания и будет выглядеть примерно так. Файлы изображений, видеофайлы, PDF-файлы и другие файлы, отличные от HTML, будут исключены. Если вы видите этот результат поиска для своей страницы и хотите его исправить, удалите запись robots.txt, блокирующую страницу. Если вы хотите полностью скрыть страницу от поиска, воспользуйтесь другим методом.

Медиа-файл

Используйте роботов.txt для управления трафиком сканирования, а также для предотвращения появления изображений, видео и аудио файлов в результатах поиска Google. (Обратите внимание, что это не помешает другим страницам или пользователям ссылаться на ваш файл изображения / видео / аудио.)

Файл ресурсов Вы можете использовать robots.txt для блокировки файлов ресурсов, таких как неважные изображения, скрипты или файлы стилей, , если вы считаете, что страницы, загруженные без этих ресурсов, не пострадают от потери .Однако, если отсутствие этих ресурсов затрудняет понимание страницы поисковым роботом Google, вы не должны блокировать их, иначе Google не сможет хорошо проанализировать страницы, которые зависят от этих ресурсов.

Пользуюсь услугами хостинга сайтов

Если вы используете службу хостинга веб-сайтов, такую ​​как Wix, Drupal или Blogger, вам может не потребоваться (или у вас будет возможность) напрямую редактировать файл robots.txt. Вместо этого ваш провайдер может открыть страницу настроек поиска или какой-либо другой механизм, чтобы сообщить поисковым системам, сканировать ли вашу страницу или нет.

Чтобы узнать, просканировала ли ваша страница Google, найдите URL-адрес страницы в Google.

Если вы хотите скрыть (или показать) свою страницу от поисковых систем, добавьте (или удалите) любые требования для входа на страницу, которые могут существовать, и выполните поиск инструкций по изменению видимости вашей страницы в поисковых системах на вашем хостинге, например: wix скрыть страницу от поисковых систем

Узнайте об ограничениях robots.

txt

Прежде чем создавать или редактировать robots.txt, вы должны знать ограничения этого метода блокировки URL.Иногда вам может потребоваться рассмотреть другие механизмы, чтобы гарантировать, что ваши URL-адреса не будут найдены в Интернете.

  • Директивы Robots.txt могут поддерживаться не всеми поисковыми системами.
    Инструкции в файлах robots.txt не могут принудить сканер к вашему сайту, он должен им подчиняться. В то время как робот Googlebot и другие известные поисковые роботы подчиняются инструкциям из файла robots.txt , другие поисковые роботы могут этого не делать. Поэтому, если вы хотите защитить информацию от поисковых роботов, лучше использовать другие методы блокировки, такие как защита паролем личных файлов на вашем сервере.
  • Разные сканеры по-разному интерпретируют синтаксис
    Хотя уважаемые веб-сканеры следуют директивам в файле robots. txt , каждый сканер может интерпретировать директивы по-разному. Вы должны знать правильный синтаксис для обращения к различным поисковым роботам, поскольку некоторые из них могут не понимать определенные инструкции.
  • Роботизированная страница все еще может быть проиндексирована, если на нее есть ссылки с других сайтов
    В то время как Google не будет сканировать и индексировать контент, заблокированный robots.txt , мы все равно можем найти и проиндексировать запрещенный URL, если на него есть ссылки из других мест в Интернете. В результате URL-адрес и, возможно, другая общедоступная информация, такая как текст привязки в ссылках на страницу, по-прежнему может отображаться в результатах поиска Google. Чтобы правильно предотвратить появление вашего URL в результатах поиска Google, вам следует защитить паролем файлы на своем сервере или использовать метатег noindex или заголовок ответа (или полностью удалить страницу).

Тестирование страницы на наличие роботов.txt блоки

Вы можете проверить, заблокирована ли страница или ресурс правилом robots.txt.

Для проверки директив noindex используйте инструмент проверки URL.

Индексирование поиска блоков

с помощью noindex

Вы можете предотвратить появление страницы в поиске Google, включив метатег noindex в HTML-код страницы или вернув заголовок noindex в HTTP-запросе. Когда робот Googlebot в следующий раз просканирует эту страницу и увидит тег или заголовок, он полностью исключит эту страницу из результатов поиска Google, независимо от того, ссылаются ли на нее другие сайты.

Важно : Чтобы директива noindex вступила в силу, страница не должна блокироваться файлом robots. txt. Если страница заблокирована файлом robots.txt, поисковый робот никогда не увидит директиву noindex , и эта страница все равно может отображаться в результатах поиска, например, если на нее ссылаются другие страницы.

Использование noindex полезно, если у вас нет root-доступа к вашему серверу, так как он позволяет вам контролировать доступ к вашему сайту на постраничной основе.

Внедрение

noindex

Есть два способа реализовать noindex : как метатег и как заголовок ответа HTTP. У них такой же эффект; выберите способ, более удобный для вашего сайта.

Тег

Чтобы запретить большинству поисковых роботов поисковых систем индексировать страницу на вашем сайте, поместите следующий метатег в раздел своей страницы:

  
  

Чтобы запретить только веб-сканерам Google индексировать страницу:

    

Вы должны знать, что некоторые поисковые роботы могут интерпретировать директиву noindex по-разному. В результате ваша страница может по-прежнему отображаться в результатах других поисковых систем.

Подробнее о метатеге noindex .

Помогите нам определить ваши метатеги

Мы должны просканировать вашу страницу, чтобы увидеть ваши метатеги. Если ваша страница по-прежнему отображается в результатах, возможно, мы не сканировали ваш сайт с тех пор, как вы добавили тег. Вы можете запросить у Google повторное сканирование вашей страницы с помощью инструмента проверки URL. Другая причина может заключаться в том, что ваш файл robots.txt блокирует этот URL для поисковых роботов Google, поэтому мы не видим тег. Чтобы разблокировать свою страницу от Google, вы должны отредактировать файл robots.txt. Вы можете редактировать и тестировать файл robots.txt с помощью инструмента robots.txt Tester .

Вместо метатега вы также можете вернуть заголовок X-Robots-Tag со значением noindex или none в своем ответе. Вот пример HTTP-ответа с X-Robots-Tag , инструктирующим сканеры не индексировать страницу:

HTTP / 1.1 200 ОК
  (…)
   X-Robots-Тег: noindex
   (…)  

Подробнее о заголовке ответа noindex .

Файл Robots.txt [Примеры 2021] - Moz

Что такое файл robots.txt?

Robots.txt - это текстовый файл, который веб-мастера создают, чтобы проинструктировать веб-роботов (обычно роботов поисковых систем), как сканировать страницы на своем веб-сайте. Файл robots.txt является частью протокола исключения роботов (REP), группы веб-стандартов, которые регулируют, как роботы сканируют Интернет, получают доступ и индексируют контент, а также предоставляют этот контент пользователям.REP также включает в себя такие директивы, как мета-роботы, а также инструкции для страницы, подкаталога или сайта о том, как поисковые системы должны обрабатывать ссылки (например, «следовать» или «nofollow»).

На практике файлы robots.txt указывают, могут ли определенные пользовательские агенты (программное обеспечение для веб-сканирования) сканировать части веб-сайта. Эти инструкции сканирования определяются как «запрещающие» или «разрешающие» поведение определенных (или всех) пользовательских агентов.

Базовый формат:

 User-agent: [имя user-agent] Disallow: [строка URL-адреса, которую нельзя сканировать] 

Вместе эти две строки считаются полными robots.txt - хотя один файл robots может содержать несколько строк пользовательских агентов и директив (например, запрещает, разрешает, задержки сканирования и т. д.).

В файле robots.txt каждый набор директив пользовательского агента отображается как дискретный набор , разделенных разрывом строки:

В файле robots.txt с несколькими директивами пользовательского агента, каждая из которых запрещает или разрешает правило только применяется к агентам-пользователям, указанным в этом конкретном наборе, разделенном разрывом строки. Если файл содержит правило, которое применяется более чем к одному пользовательскому агенту, поисковый робот только обратит внимание на (и будет следовать директивам в) наиболее конкретной группе инструкций .

Вот пример:

Msnbot, discobot и Slurp все вызываются специально, поэтому только пользовательские агенты будут обращать внимание на директивы в своих разделах файла robots.txt. Все остальные пользовательские агенты будут следовать директивам в группе user-agent: *.

Пример robots.txt:

Вот несколько примеров использования robots.txt для сайта www.example.com:

URL файла Robots.txt: www.example.com/robots.txt

Блокировка всех поисковых роботов для доступа ко всему содержимому

 Агент пользователя: * Disallow: / 

Использование этого синтаксиса в файле robots.txt укажет всем поисковым роботам не сканировать страницы www. example. .com, включая домашнюю страницу.

Разрешение всем поисковым роботам доступа ко всему контенту

 User-agent: * Disallow: 

Использование этого синтаксиса в файле robots.txt указывает поисковым роботам сканировать все страницы на www.example.com, включая домашнюю страницу.

Блокировка определенного поискового робота из определенной папки

 User-agent: Googlebot Disallow: / example-subfolder / 

Этот синтаксис сообщает только поисковому роботу Google (имя агента пользователя Googlebot) не сканировать страницы, которые содержат строку URL www.example.com/example-subfolder/.

Блокировка определенного поискового робота с определенной веб-страницы

 Пользовательский агент: Bingbot Disallow: /example-subfolder/blocked-page.html 

Этот синтаксис сообщает только поисковому роботу Bing (имя агента пользователя Bing) избегать сканирование конкретной страницы www. example.com/example-subfolder/blocked-page.html.

Как работает robots.txt?

Поисковые системы выполняют две основные задачи:

  1. сканирование Интернета для обнаружения контента;
  2. Индексирование этого контента, чтобы его могли обслуживать искатели, ищущие информацию.

Чтобы сканировать сайты, поисковые системы переходят по ссылкам с одного сайта на другой - в конечном итоге просматривая многие миллиарды ссылок и веб-сайтов. Такое ползание иногда называют «пауками».”

После перехода на веб-сайт, но перед его сканированием поисковый робот будет искать файл robots.txt. Если он найдет его, сканер сначала прочитает этот файл, прежде чем продолжить просмотр страницы. Поскольку файл robots.txt содержит информацию о , как должна сканировать поисковая система, найденная там информация будет указывать дальнейшие действия поискового робота на этом конкретном сайте. Если файл robots.txt содержит , а не директивы, запрещающие действия пользовательского агента (или если на сайте нет файла robots. txt), он перейдет к сканированию другой информации на сайте.

Другой быстрый файл robots.txt, который необходимо знать:

(более подробно обсуждается ниже)

  • Чтобы его можно было найти, файл robots.txt должен быть помещен в каталог верхнего уровня веб-сайта.

  • Robots.txt чувствителен к регистру: файл должен называться «robots.txt» (не Robots.txt, robots.TXT и т. Д.).

  • Некоторые пользовательские агенты (роботы) могут игнорировать ваш robots.txt файл. Это особенно характерно для более гнусных поисковых роботов, таких как вредоносные роботы или парсеры адресов электронной почты.

  • Файл /robots.txt является общедоступным: просто добавьте /robots.txt в конец любого корневого домена, чтобы увидеть директивы этого веб-сайта (если на этом сайте есть файл robots.txt!). Это означает, что любой может видеть, какие страницы вы просматриваете или не хотите сканировать, поэтому не используйте их для сокрытия личной информации пользователя.

  • Каждый субдомен в корневом домене использует отдельных роботов.txt файлы. Это означает, что и blog.example.com, и example.com должны иметь свои собственные файлы robots.txt (по адресу blog.example.com/robots.txt и example.com/robots.txt).

  • Обычно рекомендуется указывать расположение любых карт сайта, связанных с этим доменом, в нижней части файла robots.txt. Вот пример:

Технический синтаксис robots.txt

Синтаксис Robots.txt можно рассматривать как «язык» файлов robots.txt. Есть пять общих терминов, которые вы, вероятно, встретите в файле robots.К ним относятся:

  • User-agent: Конкретный веб-сканер, которому вы даете инструкции для сканирования (обычно это поисковая система). Список большинства пользовательских агентов можно найти здесь.

  • Disallow: Команда, используемая для указания агенту пользователя не сканировать определенный URL. Для каждого URL разрешена только одна строка «Disallow:».

  • Разрешить (Применимо только для робота Googlebot): команда, сообщающая роботу Googlebot, что он может получить доступ к странице или подпапке, даже если его родительская страница или подпапка может быть запрещена.

  • Crawl-delay: Сколько секунд сканер должен ждать перед загрузкой и сканированием содержимого страницы. Обратите внимание, что робот Googlebot не подтверждает эту команду, но скорость сканирования можно установить в консоли поиска Google.

  • Карта сайта: Используется для вызова местоположения любой карты сайта XML, связанной с этим URL. Обратите внимание, что эта команда поддерживается только Google, Ask, Bing и Yahoo.

Сопоставление с шаблоном

Когда дело доходит до фактических URL-адресов для блокировки или разрешения, robots.txt могут быть довольно сложными, поскольку они позволяют использовать сопоставление с образцом для охвата диапазона возможных вариантов URL. И Google, и Bing соблюдают два регулярных выражения, которые можно использовать для идентификации страниц или подпапок, которые SEO хочет исключить. Эти два символа - звездочка (*) и знак доллара ($).

  • * - это подстановочный знак, который представляет любую последовательность символов.
  • $ соответствует концу URL-адреса

Google предлагает здесь большой список возможных синтаксисов и примеров сопоставления с образцом.

Где находится файл robots.txt на сайте?

Когда бы они ни заходили на сайт, поисковые системы и другие роботы, сканирующие Интернет (например, сканер Facebook Facebot), знают, что нужно искать файл robots.txt. Но они будут искать этот файл в только в одном конкретном месте : в основном каталоге (обычно в корневом домене или на домашней странице). Если пользовательский агент посещает www.example.com/robots.txt и не находит там файла роботов, он будет считать, что на сайте его нет, и продолжит сканирование всего на странице (и, возможно, даже на всем сайте. ).Даже если страница robots.txt и существует ли , скажем, по адресу example.com/index/robots.txt или www.example.com/homepage/robots.txt, она не будет обнаружена пользовательскими агентами и, следовательно, сайт будет обрабатываться так, как если бы он вообще не имел файла robots.

Чтобы гарантировать, что ваш файл robots.txt найден, всегда включайте его в свой основной каталог или корневой домен.

Зачем нужен robots.txt?

Файлы Robots.txt управляют доступом поискового робота к определенным областям вашего сайта.Хотя это может быть очень опасным, если вы случайно запретите роботу Googlebot сканировать весь ваш сайт (!!), в некоторых ситуациях файл robots.txt может оказаться очень полезным.

Вот некоторые распространенные варианты использования:

  • Предотвращение появления дублированного контента в результатах поиска (обратите внимание, что мета-роботы часто являются лучшим выбором для этого)
  • Сохранение конфиденциальности целых разделов веб-сайта (например, промежуточного сайта вашей группы разработчиков)
  • Предотвращение показа страниц результатов внутреннего поиска в общедоступной поисковой выдаче
  • Указание местоположения карты (карт) сайта
  • Запрет поисковым системам индексировать определенные файлы на вашем сайте (изображения, PDF-файлы и т. )
  • Указание задержки сканирования для предотвращения перегрузки ваших серверов, когда сканеры загружают несколько частей контента одновременно

Если на вашем сайте нет областей, к которым вы хотите контролировать доступ агента пользователя, вы не можете вообще нужен файл robots.txt.

Проверка наличия файла robots.txt

Не уверены, есть ли у вас файл robots.txt? Просто введите свой корневой домен и добавьте /robots.txt в конец URL-адреса. Например, файл роботов Moz находится по адресу moz.ru / robots.txt.

Если страница .txt не отображается, значит, у вас нет (активной) страницы robots.txt.

Как создать файл robots.txt

Если вы обнаружили, что у вас нет файла robots.txt или вы хотите изменить свой, создание его - простой процесс. В этой статье от Google рассматривается процесс создания файла robots.txt, и этот инструмент позволяет вам проверить, правильно ли настроен ваш файл.

Хотите попрактиковаться в создании файлов роботов? В этом сообщении блога рассматриваются некоторые интерактивные примеры.

Лучшие практики SEO

  • Убедитесь, что вы не блокируете какой-либо контент или разделы своего веб-сайта, которые нужно просканировать.

  • Ссылки на страницах, заблокированных файлом robots.txt, переходить не будут. Это означает 1.) Если на них также не ссылаются другие страницы, доступные для поисковых систем (т. Е. Страницы, не заблокированные через robots.txt, мета-роботы или иным образом), связанные ресурсы не будут сканироваться и не могут быть проиндексированы. 2.) Никакой ссылочный капитал не может быть передан с заблокированной страницы на место назначения ссылки.Если у вас есть страницы, на которые вы хотите передать средства, используйте другой механизм блокировки, отличный от robots.txt.

  • Не используйте robots.txt для предотвращения появления конфиденциальных данных (например, личной информации пользователя) в результатах поисковой выдачи. Поскольку другие страницы могут напрямую ссылаться на страницу, содержащую личную информацию (таким образом, в обход директив robots. txt в вашем корневом домене или домашней странице), она все равно может быть проиндексирована. Если вы хотите заблокировать свою страницу из результатов поиска, используйте другой метод, например защиту паролем или метадирективу noindex.

  • Некоторые поисковые системы имеют несколько пользовательских агентов. Например, Google использует Googlebot для обычного поиска и Googlebot-Image для поиска изображений. Большинство пользовательских агентов из одной и той же поисковой системы следуют одним и тем же правилам, поэтому нет необходимости указывать директивы для каждого из нескольких сканеров поисковой системы, но возможность делать это позволяет вам точно настроить способ сканирования содержания вашего сайта.

  • Поисковая система кэширует содержимое robots.txt, но обычно обновляет кэшированное содержимое не реже одного раза в день.Если вы изменили файл и хотите обновить его быстрее, чем это происходит, вы можете отправить свой URL-адрес robots.txt в Google.

Robots.txt против мета-роботов против x-роботов

Так много роботов! В чем разница между этими тремя типами инструкций для роботов? Во-первых, robots.txt - это фактический текстовый файл, тогда как мета и x-роботы - это метадирективы. Помимо того, что они есть на самом деле, все три выполняют разные функции. Файл robots.txt определяет поведение сканирования всего сайта или каталога, тогда как мета и x-роботы могут определять поведение индексации на уровне отдельной страницы (или элемента страницы).


Продолжайте учиться

Приложите свои навыки к работе

Moz Pro может определить, блокирует ли ваш файл robots.txt доступ к вашему веб-сайту. Попробовать >>

Robots.txt - Все, что нужно знать оптимизаторам поисковой системы

В этом разделе нашего руководства по директивам роботов мы более подробно рассмотрим текстовый файл robots.txt и то, как он может быть используется для инструктирования поисковых роботов. Этот файл особенно полезен для , управляющего бюджетом сканирования и проверки того, что поисковые системы проводят время на вашем сайте эффективно и сканируют только важные страницы.

Для чего нужен txt-файл robots?

Файл robots.txt предназначен для того, чтобы сообщить сканерам и роботам, какие URL-адреса им не следует посещать на вашем веб-сайте. Это важно, чтобы помочь им избежать сканирования страниц низкого качества или застревания в ловушках сканирования, где потенциально может быть создано бесконечное количество URL-адресов, например, раздел календаря, который создает новый URL-адрес для каждого дня.

Как объясняет Google в своем руководстве по спецификациям robots.txt , формат файла должен быть простым текстом в кодировке UTF-8.Записи (или строки) файла должны быть разделены CR, CR / LF или LF.

Следует помнить о размере файла robots.txt, поскольку поисковые системы имеют свои собственные ограничения на максимальный размер файла. Максимальный размер для Google - 500 КБ.

Где должен существовать файл robots.txt?

Файл robots.txt всегда должен существовать в корне домена, например:

Этот файл относится к протоколу и полному домену, поэтому robots.txt на https: // www.example.com не влияет на сканирование http://www.example.com или https://subdomain.example.com ; у них должны быть собственные файлы robots.txt.

Когда следует использовать правила robots.txt?

В общем, веб-сайты должны стараться как можно реже использовать robots.txt для контроля сканирования. Лучшее решение - улучшить архитектуру вашего веб-сайта и сделать его чистым и доступным для поисковых роботов. Однако с помощью robots.txt, если это необходимо для предотвращения доступа сканеров к некачественным разделам сайта, рекомендуется, если эти проблемы не могут быть устранены в краткосрочной перспективе.

Google рекомендует использовать robots. txt только при возникновении проблем с сервером или при проблемах с эффективностью сканирования, например, когда робот Google тратит много времени на сканирование неиндексируемого раздела сайта.

Вот несколько примеров страниц, сканирование которых может быть нежелательно:

  • Страницы категорий с нестандартной сортировкой , так как это обычно создает дублирование со страницей основной категории
  • Пользовательский контент , который нельзя модерировать
  • Страницы с конфиденциальной информацией
  • Страницы внутреннего поиска , так как таких страниц результатов может быть бесконечное количество, что создает неудобства для пользователя и расходует бюджет сканирования

Когда нельзя использовать robots.текст?

Файл robots.txt - полезный инструмент при правильном использовании, однако в некоторых случаях это не лучшее решение. Вот несколько примеров того, когда не следует использовать robots. txt для управления сканированием:

1. Блокировка Javascript / CSS

Поисковые системы должны иметь доступ ко всем ресурсам на вашем сайте, чтобы правильно отображать страницы, что является необходимой частью поддержания хорошего рейтинга. Файлы JavaScript, которые кардинально меняют взаимодействие с пользователем, но запрещены для сканирования поисковыми системами, могут привести к ручным или алгоритмическим штрафам.

Например, если вы показываете рекламное межстраничное объявление или перенаправляете пользователей с помощью JavaScript, к которому поисковая система не может получить доступ, это может рассматриваться как маскировка, и рейтинг вашего контента может быть соответствующим образом скорректирован.

2. Блокировка параметров URL

Вы можете использовать robots.txt для блокировки URL-адресов, содержащих определенные параметры, но это не всегда лучший способ действий. Лучше обрабатывать их в консоли поиска Google, поскольку там есть больше параметров для конкретных параметров, чтобы сообщить Google о предпочтительных методах сканирования.

Вы также можете разместить информацию во фрагменте URL ( / page # sort = price ), поскольку поисковые системы не сканируют его. Кроме того, если необходимо использовать параметр URL, ссылки на него могут содержать атрибут rel = nofollow, чтобы предотвратить попытки поисковых роботов получить к нему доступ.

3. Блокировка URL с обратными ссылками

Запрет URL-адресов в файле robots.txt предотвращает передачу ссылочного веса на веб-сайт. Это означает, что если поисковые системы не могут переходить по ссылкам с других веб-сайтов, поскольку целевой URL-адрес запрещен, ваш веб-сайт не получит авторитет, который передаются по этим ссылкам, и, как следствие, вы не сможете получить такой высокий рейтинг в целом.

4. Получение деиндексированных проиндексированных страниц

Использование Disallow не приводит к деиндексированию страниц, и даже если URL-адрес заблокирован и поисковые системы никогда не сканировали страницу, запрещенные страницы все равно могут быть проиндексированы. Это связано с тем, что процессы сканирования и индексирования в значительной степени разделены.

5. Настройка правил, игнорирующих поисковые роботы социальных сетей

Даже если вы не хотите, чтобы поисковые системы сканировали и индексировали страницы, вы можете захотеть, чтобы социальные сети имели доступ к этим страницам, чтобы можно было создать фрагмент страницы.Например, Facebook попытается посетить каждую страницу, размещенную в сети, чтобы они могли предоставить соответствующий фрагмент. Помните об этом при настройке правил robots.txt.

6. Блокировка доступа с промежуточных сайтов или сайтов разработки

Использование robots.txt для блокировки всего промежуточного сайта - не лучшая практика. Google рекомендует не индексировать страницы, но разрешить их сканирование, но в целом лучше сделать сайт недоступным для внешнего мира.

7. Когда нечего блокировать

Некоторым веб-сайтам с очень чистой архитектурой не нужно блокировать поисковые роботы с каких-либо страниц. В этой ситуации вполне приемлемо не иметь файла robots.txt и возвращать статус 404 по запросу.

Синтаксис и форматирование Robots.txt

Теперь, когда мы узнали, что такое robots.txt и когда его следует и не следует использовать, давайте взглянем на стандартизованный синтаксис и правила форматирования, которых следует придерживаться при написании файла robots.txt.

Комментарии

Комментарии - это строки, которые полностью игнорируются поисковыми системами и начинаются с # .Они существуют, чтобы вы могли писать заметки о том, что делает каждая строка вашего robots.txt, почему она существует и когда была добавлена. В общем, рекомендуется задокументировать назначение каждой строки вашего файла robots.txt, чтобы ее можно было удалить, когда она больше не нужна, и не изменять, пока она еще необходима.

Указание агента пользователя

Блок правил может применяться к определенным пользовательским агентам с помощью директивы « User-agent ». Например, если вы хотите, чтобы определенные правила применялись к Google, Bing и Яндекс. но не Facebook и рекламные сети, этого можно достичь, указав токен пользовательского агента, к которому применяется набор правил.

У каждого искателя есть собственный токен агента пользователя, который используется для выбора совпадающих блоков.

Поисковые роботы

будут следовать наиболее конкретным правилам пользовательского агента, установленным для них, с именами, разделенными дефисами, а затем вернутся к более общим правилам, если точное соответствие не будет найдено. Например, Googlebot News будет искать соответствие " googlebot-news ", затем " googlebot ", затем " * ".

Вот некоторые из наиболее распространенных токенов пользовательских агентов, с которыми вы можете столкнуться:

  • * - Правила применяются к каждому боту, если нет более конкретного набора правил
  • Googlebot - Все сканеры Google
  • Googlebot-News - Поисковый робот для новостей Google
  • Googlebot-Image - сканер изображений Google
  • Mediapartners-Google - сканер Google AdSense
  • Bingbot - сканер Bing
  • Яндекс - сканер Яндекса
  • Baiduspider - гусеничный робот Baidu
  • Facebot - поисковый робот Facebook
  • Twitterbot - поисковый робот Twitter

Этот список токенов пользовательских агентов ни в коем случае не является исчерпывающим, поэтому, чтобы узнать больше о некоторых сканерах, взгляните на документацию, опубликованную Google , Bing , Yandex , Baidu , Facebook и Twitter .

При сопоставлении токена пользовательского агента с блоком robots.txt регистр не учитывается. Например. «Googlebot» будет соответствовать токену пользовательского агента Google «Googlebot».

URL с сопоставлением с шаблоном

У вас может быть определенная строка URL-адреса, которую вы хотите заблокировать от сканирования, поскольку это намного эффективнее, чем включение полного списка полных URL-адресов, которые следует исключить в файле robots.txt.

Чтобы помочь вам уточнить пути URL, вы можете использовать символы * и $. Вот как они работают:

  • * - Это подстановочный знак, представляющий любое количество любого символа.Он может быть в начале или в середине пути URL, но не обязателен в конце. Вы можете использовать несколько подстановочных знаков в строке URL, например, « Disallow: * / products? * Sort = ». Правила с полными путями не должны начинаться с подстановочного знака.
  • $ - Этот символ обозначает конец строки URL-адреса, поэтому « Disallow: * / dress $ » будет соответствовать только URL-адресам, оканчивающимся на « / dress », а не « / dress? Parameter ».

Стоит отметить, что robots.txt чувствительны к регистру, что означает, что если вы запретите URL-адреса с параметром « search » (например, « Disallow: *? search = »), роботы все равно могут сканировать URL-адреса с разными заглавными буквами, например «? Search = ничего ».

Правила директивы сопоставляются только с путями URL и не могут включать протокол или имя хоста. Косая черта в начале директивы совпадает с началом пути URL. Например. « Disallow: / start » будет соответствовать www.example.com/starts .

Если вы не добавите начало директивы, совпадающей с / или * , она ни с чем не будет соответствовать. Например. « Disallow: start » никогда ни с чем не будет соответствовать.

Чтобы помочь наглядно представить, как работают разные правила для URL, мы собрали для вас несколько примеров:

Robots.txt Ссылка на карту сайта

Директива карты сайта в файле robots. txt сообщает поисковым системам, где найти XML-карту сайта, которая помогает им обнаруживать все URL-адреса на веб-сайте.Чтобы узнать больше о файлах Sitemap, ознакомьтесь с нашим руководством по аудиту карт сайта и расширенной настройке .

При включении карт сайта в файл robots.txt следует использовать абсолютные URL-адреса (например, https://www.example.com/sitemap.xml ) вместо относительных URL (например, /sitemap.xml ). Это также Стоит отметить, что карты сайта не обязательно должны размещаться в одном корневом домене, они также могут размещаться во внешнем домене.

Поисковые системы обнаружат и могут сканировать карты сайта, перечисленные в вашем файле robots.txt, однако эти карты сайта не будут отображаться в Google Search Console или Bing Webmaster Tools без отправки вручную.

Robots.txt Блокирует

Правило «запрета» в файле robots.txt может использоваться разными способами для различных пользовательских агентов. В этом разделе мы рассмотрим некоторые из различных способов форматирования комбинаций блоков.

Важно помнить, что директивы в файле robots.txt - это всего лишь инструкции. Вредоносные сканеры проигнорируют ваших роботов.txt и сканировать любую часть вашего сайта, которая является общедоступной, поэтому запрет не следует использовать вместо надежных мер безопасности.

Несколько блоков пользовательского агента

Вы можете сопоставить блок правил с несколькими пользовательскими агентами, указав их перед набором правил, например, следующие запрещающие правила будут применяться как к Googlebot, так и к Bing в следующем блоке правил:

User-agent: googlebot
User-agent: bing
Disallow: / a

Расстояние между блоками директив

Google игнорирует пробелы между директивами и блоками.В этом первом примере будет выбрано второе правило, даже если есть пробел, разделяющий две части правила:

[код]
User-agent: *
Disallow: / disallowed /

Запретить: / test1 / robots_excluded_blank_line
[/ code]

Во втором примере робот Googlebot-mobile унаследует те же правила, что и Bingbot:

[код]
Пользовательский агент: googlebot-mobile

User-agent: bing
Disallow: / test1 / deepcrawl_excluded
[/ code]

Блоки раздельные комбинированные

Объединяются несколько блоков с одним и тем же пользовательским агентом. Таким образом, в приведенном ниже примере верхний и нижний блоки будут объединены, и роботу Googlebot будет запрещено сканировать « / b » и « / a ».

User-agent: googlebot
Disallow: / b

User-agent: bing
Disallow: / a

User-agent: googlebot
Disallow: / a

Robots.txt Разрешить

«Разрешающее» правило robots.txt явно дает разрешение на сканирование определенных URL. Хотя это значение по умолчанию для всех URL-адресов, это правило можно использовать для перезаписи запрещающего правила.Например, если « / location » не разрешено, вы можете разрешить сканирование « / locations / london » с помощью специального правила « Allow: / locations / london ».

Robots.txt Приоритизация

Когда к URL-адресу применяется несколько разрешающих и запрещающих правил, применяется самое длинное правило соответствия. Давайте посмотрим, что произойдет с URL « / home / search / shirts » при следующих правилах:

Disallow: / home
Allow: * search / *
Disallow: * рубашки

В этом случае сканирование URL разрешено, потому что правило разрешения состоит из 9 символов, а правило запрета - только из 7. Если вам нужно разрешить или запретить конкретный URL-путь, вы можете использовать *, чтобы сделать строку длиннее. Например:

Disallow: ******************* / рубашки

Если URL-адрес соответствует и разрешающему правилу, и запрещающему правилу, но правила имеют одинаковую длину, запрещение будет выполнено. Например, URL « / search / shirts » будет запрещен в следующем сценарии:

Disallow: / search
Allow: * рубашки

Роботы.txt Директивы

Директивы уровня страницы (которые мы рассмотрим позже в этом руководстве) - отличные инструменты, но проблема с ними заключается в том, что поисковые системы должны сканировать страницу, прежде чем смогут прочитать эти инструкции, что может потреблять бюджет сканирования.

Директивы Robots.txt могут помочь снизить нагрузку на бюджет сканирования, поскольку вы можете добавлять директивы непосредственно в файл robots.txt, а не ждать, пока поисковые системы просканируют страницы, прежде чем принимать меры. Это решение намного быстрее и проще в использовании.

Следующие директивы robots.txt работают так же, как директивы allow и disallow, в том, что вы можете указать подстановочные знаки ( * ) и использовать символ $ для обозначения конца строки URL.

Robots.txt NoIndex

Robots.txt noindex - полезный инструмент для управления индексированием поисковой системы без использования бюджета сканирования. Запрещение страницы в robots.txt не означает, что она удаляется из индекса, поэтому для этой цели гораздо эффективнее использовать директиву noindex.

Google официально не поддерживает noindex в robots.txt, и вам не следует полагаться на него, потому что, хотя он работает сегодня, он может не работать завтра. Этот инструмент может быть полезен и должен использоваться в качестве краткосрочного исправления в сочетании с другими долгосрочными элементами управления индексами, но не в качестве критически важной директивы. Взгляните на тесты, проведенные ohgm и Stone Temple , которые доказывают, что эта функция работает эффективно.

Вот пример использования robots.txt noindex:

[код]
User-agent: *
NoIndex: / directory
NoIndex: / *? * Sort =
[/ code]

Помимо noindex, Google в настоящее время неофициально подчиняется нескольким другим директивам индексирования, когда они помещаются в robots.txt. Важно отметить, что не все поисковые системы и сканеры поддерживают эти директивы, а те, которые поддерживают, могут перестать поддерживать их в любой момент - не следует полагаться на их постоянную работу.

Обычные роботы.txt, проблемы

Есть несколько ключевых проблем и соображений, касающихся файла robots.txt и его влияния на производительность сайта. Мы нашли время, чтобы перечислить некоторые ключевые моменты, которые следует учитывать при работе с robots.txt, а также некоторые из наиболее распространенных проблем, которых вы, надеюсь, можете избежать.

  1. Иметь запасной блок правил для всех ботов - Использование блоков правил для определенных строк пользовательского агента без резервного блока правил для каждого другого бота означает, что ваш сайт в конечном итоге встретит бота, у которого нет никаких наборов правил для следить.
  2. I t Важно, чтобы файл robots.txt поддерживался в актуальном состоянии. - Относительно частая проблема возникает, когда файл robots.txt устанавливается на начальной стадии разработки веб-сайта, но не обновляется по мере роста веб-сайта, что означает, что потенциально полезные страницы запрещены.
  3. Помните о перенаправлении поисковых систем через запрещенные URL-адреса - Например, / продукт > / запрещенный > / категория
  4. Чувствительность к регистру может вызвать множество проблем - Веб-мастера могут ожидать, что какой-то раздел веб-сайта не будет сканироваться, но эти страницы могут сканироваться из-за альтернативного регистра i.е. «Disallow: / admin» существует, но поисковые системы сканируют « / ADMIN ».
  5. Не запрещать URL-адреса с обратными ссылками - Это предотвращает переход PageRank на ваш сайт от других, которые ссылаются на вас.
  6. Задержка сканирования может вызвать проблемы с поиском - Директива « crawl-delay » заставляет сканеры посещать ваш веб-сайт медленнее, чем им хотелось бы, а это означает, что ваши важные страницы могут сканироваться реже, чем это необходимо. Эта директива не соблюдается Google или Baidu, но поддерживается Bing и Яндексом.
  7. Убедитесь, что robots.txt возвращает код состояния 5xx только в том случае, если весь сайт не работает. - Возвращение кода состояния 5xx для /robots.txt указывает поисковым системам, что веб-сайт не работает на техническое обслуживание. Обычно это означает, что они снова попытаются сканировать веб-сайт позже.
  8. Disallow Robots.txt переопределяет инструмент удаления параметров. - Помните, что ваши правила robots.txt могут переопределять обработку параметров и любые другие подсказки по индексации, которые вы могли дать поисковым системам.
  9. Разметка окна поиска дополнительных ссылок будет работать с заблокированными страницами внутреннего поиска - Страницы внутреннего поиска на сайте не должны сканироваться, чтобы разметка окна поиска дополнительных ссылок работала.
  10. Запрещение перенесенного домена повлияет на успех миграции - Если вы запретите перенесенный домен, поисковые системы не смогут отслеживать перенаправления со старого сайта на новый, поэтому миграция маловероятна быть успешным.

Роботы для тестирования и аудита.txt

Учитывая, насколько опасным может быть файл robots.txt, если содержащиеся в нем директивы не обрабатываются должным образом, есть несколько различных способов проверить его, чтобы убедиться, что он настроен правильно. Взгляните на это руководство о том, как проверять URL-адреса, заблокированные файлом robots.txt , а также на эти примеры:

  • Используйте DeepCrawl - запрещенных страниц и Запрещенные URL (не просканированные) Отчеты могут показать вам, какие страницы блокируются поисковыми системами вашими роботами.txt файл.
  • Используйте Google Search Console - с помощью инструмента GSC robots. txt тестера вы можете увидеть последнюю кэшированную версию страницы, а также с помощью инструмента Fetch and Render просмотреть рендеры от пользовательского агента Googlebot, а также пользовательский агент браузера. На заметку: GSC работает только с пользовательскими агентами Google, и можно тестировать только отдельные URL.
  • Попробуйте объединить идеи обоих инструментов, выбрав выборочную проверку запрещенных URL-адресов, которые DeepCrawl пометил в роботах GSC.txt, чтобы уточнить конкретные правила, которые приводят к запрету.

Monitoring Robots.txt Changes

Когда над сайтом работает много людей и возникают проблемы, если хотя бы один символ неуместен в файле robots.txt, постоянный мониторинг вашего robots.txt имеет решающее значение. Вот несколько способов проверить наличие проблем:

  • Проверьте Google Search Console, чтобы увидеть текущий файл robots.txt, который использует Google. Иногда robots. txt может быть доставлен условно на основе пользовательских агентов, поэтому это единственный способ увидеть, что именно видит Google.
  • Проверьте размер файла robots.txt, если вы заметили существенные изменения, чтобы убедиться, что он не превышает установленный Google предел в 500 КБ.
  • Перейдите к отчету о статусе индекса в Google Search Console в расширенном режиме, чтобы проверить изменения файла robots.txt с количеством запрещенных и разрешенных URL-адресов на вашем сайте.
  • Запланируйте регулярное сканирование с помощью DeepCrawl, чтобы отслеживать количество запрещенных страниц на вашем сайте на постоянной основе, чтобы вы могли отслеживать изменения.

Далее: Директивы по роботам на уровне URL

Автор

Рэйчел Костелло

Рэйчел Костелло - технический менеджер по поисковой оптимизации и контенту DeepCrawl. Чаще всего она пишет и говорит обо всем, что касается SEO.

Google отменяет поддержку Robots.

txt Noindex

Google официально объявила, что GoogleBot больше не будет подчиняться директиве Robots.txt, связанной с индексированием. Издатели полагаются на роботов.txt необходимо удалить директиву noindex до 1 сентября 2019 г. и начать использовать альтернативу.

Robots.txt Noindex Неофициально

Директива noindex robots.txt не поддерживается, потому что это не официальная директива.

Google в прошлом поддерживал эту директиву robots.txt, но теперь это будет не так. Обратите на это должное внимание и руководствуйтесь соответствующим образом.

Google в основном подчиняется директиве Noindex

StoneTemple опубликовал статью, в которой отмечалось, что Google в основном подчиняется роботам.txt директива noindex.

В то время они пришли к следующему выводу:

«В конечном итоге директива NoIndex в Robots.txt довольно эффективна. Он работал в 11 из 12 протестированных нами случаев. Это может сработать для вашего сайта, и благодаря тому, как он реализован, он дает вам возможность предотвратить сканирование страницы, а также удалить ее из индекса.

Очень полезная концепция. Однако наши тесты не показали 100-процентного успеха, поэтому это не всегда работает ».

Это уже не так.Директива noindex robots.txt больше не поддерживается.

Это официальный твит Google:

«Сегодня мы прощаемся с недокументированными и неподдерживаемыми правилами в robots.txt.

Если вы полагались на эти правила, узнайте о возможных вариантах в нашем блоге».

Это соответствующая часть объявления:

«В интересах поддержания здоровой экосистемы и подготовки к возможным будущим выпускам с открытым исходным кодом мы удаляем весь код, который обрабатывает неподдерживаемые и неопубликованные правила (например, noindex) 1 сентября 2019 г.«

Как управлять сканированием?

В официальном блоге Google перечислены пять способов управления индексированием:

  1. Noindex в метатегах robots
  2. 404 и 410 коды состояния HTTP
  3. Защита паролем
  4. Disallow в robots. txt
  5. Search Console Remove URL tool

Реклама

Продолжить чтение ниже

Прочтите официальное объявление Google здесь:
https: // webmasters.googleblog.com/2019/07/a-note-on-unsupported-rules-in-robotstxt.html

Прочтите официальный твит Google здесь
https://twitter.com/googlewmc/status/1145950977067016192

SEO : Управление сканированием и индексированием с помощью протокола исключения роботов

Индексирование предшествует ранжированию в обычном поиске. Но есть страницы, которые поисковые системы не должны индексировать и ранжировать. Вот здесь-то и вступает в игру «протокол исключения роботов».

REP может исключать и включать сканеров поисковых систем.Таким образом, это способ заблокировать ботов или приветствовать их - или и то, и другое. REP включает технические инструменты, такие как файл robots.txt, карты сайта XML, а также метаданные и директивы заголовков.

REP может исключать и включать сканеров поисковых систем.

Имейте в виду, однако, что выполнение поискового робота REP является добровольным. Хорошие боты подчиняются, например, из основных поисковых систем.

К сожалению, плохие боты не беспокоят. Примеры - парсеры, собирающие информацию для повторной публикации на других сайтах.Ваш разработчик должен блокировать плохих ботов на уровне сервера.

Протокол исключения роботов был создан в 1994 году Мартином Костером, основателем трех первых поисковых систем, который был разочарован стресс-сканерами, создаваемыми на его сайте. В 2019 году Google предложил REP в качестве официального интернет-стандарта.

У каждого метода REP есть возможности, сильные и слабые стороны. Вы можете использовать их по отдельности или в комбинации для достижения целей сканирования.

Robots.txt

роботов Walmart.com.txt «запрещает» ботам доступ ко многим областям своего сайта.

Файл robots.txt - это первая страница, которую посещают хорошие боты на сайте. Он находится в одном месте и на всех сайтах называется одинаково («robots.txt»), как в site.com/robots.txt .

Используйте файл robots.txt, чтобы роботы избегали определенных разделов или страниц на вашем сайте. Когда хорошие боты сталкиваются с этими запросами, они обычно подчиняются.

Например, вы можете указать страницы, которые боты должны игнорировать, такие как страницы корзины покупок, страницы благодарности и профили пользователей.Но вы также можете запросить, чтобы боты сканировали определенные страницы в заблокированном разделе.

В своей простейшей форме файл robots.txt содержит только два элемента: пользовательский агент , и директиву. Большинство сайтов хотят индексироваться. Итак, самый распространенный файл robots.txt содержит:

User-agent: *
Disallow:

Звездочка - это подстановочный знак, обозначающий «все», означающий в этом примере, что директива применяется ко всем ботам. Пустая директива Disallow указывает на то, что ничего запрещать нельзя.

Вы можете ограничить user-agent определенными ботами. Например, следующий файл запретит роботу Googlebot индексировать весь сайт, что приведет к невозможности ранжирования в обычном поиске.

User-agent: googlebot
Disallow: /

Вы можете добавить столько строк запретов и разрешений, сколько необходимо. Следующий пример файла robots.txt требует, чтобы Bingbot не сканировал какие-либо страницы в каталоге / user-account , кроме страницы входа пользователя.

User-agent: bingbot
Disallow: / user-account *
Allow: /user-account/log-in.htm

Вы также можете использовать файлы robots.txt, чтобы запрашивать задержки сканирования, когда боты слишком быстро переходят на страницы вашего сайта и влияют на производительность сервера.

Для каждого протокола веб-сайта (HTTPS, HTTP), домена (site.com, mysite.com) и субдомена (www, shop, без субдомена) требуется собственный файл robots.txt, даже если содержание одинаковое. Например, файл robots.txt на https: // shop.site.com не работает для контента, размещенного по адресу http://www.site.com .

При изменении файла robots.txt всегда проверяйте его с помощью инструмента тестирования robots.txt в консоли поиска Google, прежде чем размещать его в реальном времени. Синтаксис robots.txt сбивает с толку, а ошибки могут иметь катастрофические последствия для результатов обычного поиска.

Подробнее о синтаксисе см. На сайте Robotstxt.org.

XML-файлы Sitemap

XML-карта сайта

Apple.com содержит ссылки на страницы, которые Apple хочет сканировать ботами.

Используйте карту сайта XML, чтобы уведомить сканеров поисковых систем о ваших наиболее важных страницах. После проверки файла robots.txt вторая остановка для сканеров - это ваша XML-карта сайта. Карта сайта может иметь любое имя, но обычно находится в корне сайта, например site.com/sitemap.xml .

Помимо идентификатора версии и открывающего и закрывающего тега urlset , карты сайта XML должны содержать теги и , которые идентифицируют каждый URL-адрес, который должны сканировать боты, как показано на изображении выше. Другие теги могут определять дату последнего изменения страницы, частоту изменений и приоритет.

Карты сайта

XML просты. Но помните о трех важных вещах.

  • Ссылка только на канонические URL-адреса - те, которые вы хотите ранжировать, в отличие от URL-адресов для дублированного контента.
  • Обновляйте файлы карты сайта как можно чаще, желательно в автоматическом режиме.
  • Сохраняйте размер файла менее 50 МБ, а количество URL-адресов - менее 50 000.

XML-карты сайта легко забыть.Карты сайта часто содержат старые URL-адреса или дублированный контент. Проверяйте их точность не реже одного раза в квартал.

Многие сайты электронной коммерции имеют более 50 000 URL. В этих случаях создайте несколько файлов карты сайта XML и свяжите их все в индексе карты сайта. Сам индекс может ссылаться на 50 000 файлов Sitemap каждая с максимальным размером 50 МБ. Вы также можете использовать сжатие gzip, чтобы уменьшить размер каждой карты сайта и индекса.

Карты сайта

XML также могут включать видеофайлы и изображения для оптимизации поиска изображений и поиска видео.

Боты не знают, как вы назвали свою XML-карту сайта. Таким образом, включите URL-адрес карты сайта в ваш файл robots.txt, а также загрузите его в Google Search Console и Bing Webmaster Tools.

Дополнительные сведения о XML-файлах Sitemap и их сходстве с HTML-картами сайта см. В разделе «SEO: HTML, XML-карты сайта».

Для получения дополнительной информации о синтаксисе и ожиданиях карты сайта XML см. Sitemaps.org.

Директивы по метаданным и заголовкам

Файлы Robots.txt и карты сайта XML обычно исключают или включают сразу несколько страниц.Метаданные REP работают на уровне страницы, в метатеге в заголовке HTML-кода или как часть HTTP-ответа, который сервер отправляет с отдельной страницей.

На странице корзины покупок Lululemon используется метатег robots, который указывает сканерам поисковых систем не индексировать страницу и не передавать авторитетность ссылки через ее ссылки.

Наиболее распространенные атрибуты REP включают:

  • Noindex. Не индексировать страницу, на которой расположена директива.
  • Nofollow. Не передавать авторитет ссылки из ссылок на странице.
  • Подписаться. Передавать авторитет ссылок из ссылок на странице, даже если страница не проиндексирована.

При использовании в метатеге роботов синтаксис выглядит так:

Хотя он применяется на уровне страницы - воздействуя на одну страницу за раз, - метатег robots можно масштабируемо вставить в шаблон, который затем разместит этот тег на каждой странице.

Атрибут nofollow в теге привязки останавливает поток полномочий ссылки, например:

Сумка для покупок

Метатег robots находится в исходном коде страницы. Но его директивы могут применяться к типам файлов, отличным от HTML, таким как PDF-файлы, используя его в ответе HTTP. Этот метод отправляет директиву robots как часть ответа сервера при запросе файла.

При использовании в HTTP-заголовке сервера команда будет выглядеть так:

X-Robots-Tag: noindex, nofollow

Как и метатеги robots, директива robots применяется к отдельным файлам.Но он может применяться к нескольким файлам - таким как все файлы PDF или все файлы в одном каталоге - через корень вашего сайта .htaccess или httpd.conf файл в Apache или файл .conf на Nginx .

Полный список атрибутов роботов и примеры фрагментов кода см. На сайте разработчиков Google.

Сканер должен получить доступ к файлу, чтобы обнаружить директиву robots. Следовательно, хотя атрибуты, связанные с индексацией, могут эффективно ограничивать индексацию, они не делают ничего для сохранения бюджета сканирования вашего сайта.

Если у вас много страниц с директивами noindex , запрет на сканирование в файле robots. txt поможет лучше заблокировать сканирование, чтобы сохранить ваш бюджет сканирования. Однако поисковые системы медленно деиндексируют контент с помощью запрета robots.txt, если контент уже проиндексирован.

Если вам нужно деиндексировать контент и ограничить его сканирование ботами, начните с атрибута noindex (для деиндекса), а затем примените запрет в файле robots.txt, чтобы предотвратить доступ сканеров к нему в дальнейшем.

Блокировать страницы или сообщения блога от индексации поисковыми системами

Есть несколько способов запретить поисковым системам индексировать определенные страницы вашего сайта. Рекомендуется тщательно изучить каждый из этих методов, прежде чем вносить какие-либо изменения, чтобы гарантировать, что только нужные страницы заблокированы для поисковых систем.

Обратите внимание: : эти инструкции заблокируют URL-адрес страницы от индексации для поиска.Узнайте, как настроить URL-адрес файла в инструменте управления файлами, чтобы заблокировать его от поисковых систем.

Файл Robots.txt

Ваш файл robots.txt - это файл на вашем веб-сайте, который сканеры поисковых систем читают, чтобы узнать, какие страницы они должны и не должны индексировать. Узнайте, как настроить файл robots.txt в HubSpot.

Google и другие поисковые системы не могут задним числом удалять страницы из результатов после реализации метода файла robots.txt. Хотя это говорит ботам не сканировать страницу, поисковые системы могут индексировать ваш контент (например,g., если на вашу страницу есть входящие ссылки с других сайтов). Если ваша страница уже была проиндексирована и вы хотите удалить ее из поисковых систем задним числом, рекомендуется вместо этого использовать метод метатега «Без индекса».

Метатег «Без индекса»

Обратите внимание: : , если вы решите использовать метод метатега «Без индекса», имейте в виду, что его не следует комбинировать с методом файла robots.txt. Поисковым системам необходимо начать сканирование страницы, чтобы увидеть метатег «Без индекса» и файл robots. txt вообще предотвращает сканирование.

Мета-тег "без индекса" - это строка кода, введенная в раздел заголовка HTML-кода страницы, который сообщает поисковым системам не индексировать страницу.

  

Консоль поиска Google

Если у вас есть учетная запись Google Search Console , вы можете отправить URL-адрес для удаления из результатов поиска Google. Обратите внимание, что это будет применяться только к результатам поиска Google.

Если вы хотите заблокировать файлы в файловом менеджере HubSpot (например, PDF-документ) от индексации поисковыми системами, вы должны выбрать подключенный субдомен для файла (ов) и использовать URL-адрес файла для блокировки веб-сканеров.

Как HubSpot обрабатывает запросы от пользовательского агента

Если вы устанавливаете строку пользовательского агента для проверки сканирования вашего веб-сайта и видите сообщение об отказе в доступе, это ожидаемое поведение. Google все еще сканирует и индексирует ваш сайт.

Причина, по которой вы видите это сообщение, заключается в том, что HubSpot разрешает запросы от пользовательского агента googlebot только с IP-адресов, принадлежащих Google.Чтобы защитить сайты, размещенные на HubSpot, от злоумышленников или спуферов, запросы с других IP-адресов будут отклонены. HubSpot делает то же самое и с другими сканерами поисковых систем, такими как BingBot, MSNBot и Baiduspider.

SEO

Целевые страницы

Блог

Настройки учетной записи

Страницы веб-сайта

.