Содержание

Как запретить индексацию страницы с помощью robots.txt?

От автора: У вас на сайте есть страницы, которые вы бы не хотели показывать поисковым системам? Из этой статье вы узнаете подробно о том, как запретить индексацию страницы в robots.txt, правильно ли это и как вообще правильно закрывать доступ к страницам.

Итак, вам нужно не допустить индексацию каких-то определенных страниц. Проще всего это будет сделать в самом файле robots.txt, добавив в него необходимые строчки. Хочу отметить, что адреса папок мы прописывали относительно, url-адреса конкретных страниц указывать таким же образом, а можно прописать абсолютный путь.

Допустим, на моем блоге есть пару страниц: контакты, обо мне и мои услуги. Я бы не хотел, чтобы они индексировались. Соответственно, пишем:

User-agent: *
Disallow: /kontakty/
Disallow: /about/
Disallow: /uslugi/

User-agent: *

Disallow: /kontakty/

Disallow: /about/

Disallow: /uslugi/

Практический курс по верстке адаптивного сайта с нуля!

Изучите курс и узнайте, как верстать современные сайты на HTML5 и CSS3

Узнать подробнее

Естественно, указываем настоящие url-адреса. Если же вам необходимо не индексировать страничку //blog.ru/about-me, то в robots.txt нужно прописать так:

Другой вариант

Отлично, но это не единственный способ закрыть роботу доступ к определенным страничкам. Второй – это разместить в html-коде специальный мета-тег. Естественно, разместить только в тех записях, которые нужно закрыть. Выглядит он так:

<meta name = «robots» content = «noindex,nofollow»>

<meta name = «robots» content = «noindex,nofollow»>

Тег должен быть помещен в контейнер head в html-документе для корректной работы. Как видите, у него два параметры. Name указывается как робот и определяет, что эти указания предназначены для поисковых роботов.

Параметр же content обязательно должен иметь два значения, которые вписываются через запятую. Первое – запрет или разрешение на индексацию текстовой информации на странице, второе – указание насчет того, индексировать ли ссылки на странице.

Таким образом, если вы хотите, чтобы странице вообще не индексировалась, укажите значения noindex, nofollow, то есть не индексировать текст и запретить переход по ссылкам, если они имеются. Есть такое правило, что если текста на странице нет, то она проиндексирована не будет. То есть если весь текст закрыт в noindex, то индексироваться нечему, поэтому ничего и не будет попадать в индекс.

Кроме этого есть такие значения:

noindex, follow – запрет на индексацию текста, но разрешение на переход по ссылкам;

index, nofollow – можно использовать, когда контент должен быть взят в индекс, но все ссылки в нем должны быть закрыты.

index, follow – значение по умолчанию. Все разрешается.

Запрещается использовать более двух значений. Например:

<meta name = «robots» content = «noindex,nofollow, follow»>

<meta name = «robots» content = «noindex,nofollow, follow»>

И любые другие. В этом случае мы видим противоречие.

Итог

Наиболее удобным способом закрытия страницы для поискового робота я вижу использование мета-тега. В таком случае вам не нужно будет постоянно, сотни раз редактировать файл robots.txt, чтобы открыть или закрыть очередной url, а это решение принимается непосредственно при создании новых страниц.

Практический курс по верстке адаптивного сайта с нуля!

Изучите курс и узнайте, как верстать современные сайты на HTML5 и CSS3

Узнать подробнее

Хотите узнать, что необходимо для создания сайта?

Посмотрите видео и узнайте пошаговый план по созданию сайта с нуля!

Смотреть

Запрет индексации страниц/директорий через robots.txt

Все поисковые роботы при заходе на сайт в первую очередь ищут файл robots.txt. Это текстовый файл, находящийся в корневой директории сайта (там же где и главный файл index., для основного домена/сайта, это папка public_html), в нем записываются специальные инструкции для поисковых роботов.

Эти инструкции могут запрещать к индексации папки или страницы сайта, указать роботу на главное зеркало сайта, рекомендовать поисковому роботу соблюдать определенный временной интервал индексации сайта и многое другое

Если файла robotx.txt нет в каталоге вашего сайта, тогда вы можете его создать.
Чтобы запретить индексирование сайта через файл robots.txt, используются 2 директивы: User-agent и Disallow.

  • User-agent: УКАЗАТЬ_ПОИСКОВОГО_БОТА
  • Disallow: / # будет запрещено индексирование всего сайта
  • Disallow: /page/ # будет запрещено индексирование директории /page/

Примеры:

Запретить индексацию вашего сайта ботом MSNbot

User-agent: MSNBot  
Disallow: /  

Запретить индексацию вашего сайта ботом Yahoo

User-agent: Slurp  
Disallow: /  

Запретить индексацию вашего сайта ботом Yandex

User-agent: Yandex  
Disallow: /  

Запретить индексацию вашего сайта ботом Google

User-agent: Googlebot  
Disallow: /  

Запретить индексацию вашего сайта для всех поисковиков

User-agent: *  
Disallow: /  

Запрет индексации папок cgi-bin и images для всех поисковиков

User-agent: *  
Disallow: /cgi-bin/  
Disallow: /images/  

Теперь как разрешить индексировать все страницы сайта всем поисковикам (примечание: эквивалентом данной инструкции будет пустой файл robots. txt):

User-agent: *  
Disallow:  

Пример:

Разрешить индексировать сайт только ботам Yandex, Google, Rambler с задержкой 4сек между опросами страниц.

User-agent: *  
Disallow: /  

User-agent: Yandex  
Crawl-delay: 4  
Disallow:  

User-agent: Googlebot  
Crawl-delay: 4  
Disallow:  

User-agent: StackRambler  
Crawl-delay: 4  
Disallow:  

Как закрыть сайт от индексации в robots.txt

Автор
wbooster

На чтение
3 мин

Просмотров

1707

Опубликовано

В процессе проведения редизайна или же разработки ресурса нередко бывают ситуации, когда требуется предотвратить посещение поисковых роботов и по сути, закрыть ресурс от индексации. Сделать это можно посредством закрытия сайта в коне сайта. в данном случае используется текстовый файл robots.txt.

Файл находится на файловом хранилище Вашего сайта, найти его можно с помощью файловых менеджеров, через хостинг (файловый менеджер на хостинге) или через админку сайта (доступно не во всех CMS).

kak-zakryt-sajt-v-robots-txt.img

Данные строки закроют сайт от индексации поисковым роботом Google:

User-agent: Google

Disallow: /

А с помощью данных строк, мы закроем сайт для всех поисковых систем.

User-agent: *

Disallow: /

Закрытие отдельной папки

Также существует возможность в указанном файле осуществить процесс закрытия конкретной папки. Посредством таких действий осуществляется закрытие всех файлов, которые присутствуют в указанной папке. Прописывается следующее:

User-agent: *

Disallow: /papka/

Можно будет в такой ситуации отдельно указать на те файлы в папке, которые могут быть открыты для дальнейшей индексации.

Если же вы хотите закрыть не только конкретную папку, а также все вложенные внутри папки, то используйте звездочку на конце папке:

User-agent: *

Disallow: /papka/*

Если же у вас 2 правила, которые могут конфликтовать между собой, то в данном случае поисковые роботы выставят приоритет по наиболее длинной строчке. То есть, для роботов, нет последовательности строчек.

Цифрами мы обозначили, по какому приоритету будет идти строчки:

То есть, в данном случае папка /papka/kartinki/logotip/ будет закрыта, однако остальные файлы и папки в /papka/kartinki/ будут открыты.

Закрытие отдельного файла

Тут все производится в том же формате, как и при закрытии папки, но в процессе указания конкретных данных, нужно четко определить файл, который вы хотели бы скрыть от поисковой системы.

User-agent: *

Disallow: /papka/kartinka.jpg

Если же вы хотите закрыть папку, однако открыть доступ к файлу, то используйте директиву Allow:

User-agent: *

Allow: /papka/kartinka.jpg

Disallow: /papka/

Проверка индекса документа

Чтобы осуществить проверку нужно воспользоваться специализированным сервисом Яндекс.Вебмастер.

Скрытие картинок

Чтобы картинки, расположенные на страницах вашего интернет ресурса, не попали в индекс, рекомендуется в robots. txt, ввести команду – Disallow, а также указать четкий формат картинок, которые не должны посещаться поисковым роботом.

User-Agent: *

Disallow: *.jpg

Disallow: *.png

Disallow: *.gif

Можно ли закрыть поддомен?

Опять же используется директория Disallow, при этом указания на закрытие должно осуществляться исключительно в файле robots.txt конкретного поддомена. Дубли на поддоменне при использовании CDN могут стать определенной проблемой. В данном случае обязательно нужно использовать запрещающий файл с указанием четко определенных дублей, чтобы они не появлялись в индексе и не влияли на продвижение интернет ресурса.

Чтобы осуществить блокировку других поисковых систем вместо Yandex, нужно будет указать данные поискового робота. Для этого можно воспользоваться специализированными программами, чтобы иметь четкие назначения роботов той или же иной системы.

Закрытие сайта или же страницы при помощи мета-тега

Можно процесс закрытия осуществить посредством применения мета-тега robots. В определенных ситуациях данный вариант закрытия считается более предпочтительным, так как он влияет на различные поисковые системы и требует введение определенного кода (в коде обязательно прописываются данные конкретного поискового робота).

Как правило, данную строку пишут в теге <head> или </footer>:

<meta name=”robots” content=”noindex, nofollow”/>

Или

<meta name=”robots” content=”none”/>

Также, мы можем написать отдельное правило для каждого поискового паука:

Google:

<meta name=”googlebot” content=”noindex, nofollow”/>

Яндекс:

<meta name=”yandex” content=”none”/>

Как закрыть сайт от индексации Google, Яндекс в robots txt ✔ PROject SEO

Многие вебмастера при работе с сайтом могут вносить правки, которые сильно сказываются на его дизайне и функционале. В некоторых случаях это может быть связано с разработкой нового оформления для проекта, добавлении различных фишек и т. п. В результате возникает ситуация, когда требуется закрыть сайт от индексации в поисковых системах, чтобы поисковые боты не видели веб-сайт на стадии разработки.

На помощь в данном случае придет файл robots.txt, который должен лежать в корневой папке проекта. Чтобы закрыть сайт от индексации во всех поисковых системами потребуется разместить в файл robots.txt следующие строки:

User-agent: *

Disallow: /

Иногда вы можете запретить индексировать сайт отдельным поисковым роботам (у каждого поисковика имеется свой), для этого потребуется вместо звездочки в robots.txt прописать обращение к поисковому роботу.

  • Yandex – для Яндекса
  • Googlebot – для Google.

Запретить индексацию папки или директории сайта

С помощью роботса также можно закрывать отдельные разделы сайта. Для этого следует добавить вот такие значения:

User-agent: *

Disallow: /name/

Где name – название папки. Это запретит индексацию всех адресов сайта, которые расположены внутри раздела name.

При этом можно дополнительно прописать инструкцию, которая позволит открыть для индексации отдельный файл. Для этого прописываем следующие строки:

User-agent: *

Disallow: /name/

Allow: /name/page_1

В результате роботы поисковых систем не будут сканировать все содержимое папки name, кроме раздела page_1.

Данную инструкцию также можно отдельно прописывать для поисковых ботов.

Запретить индексацию изображений

С помощью роботса можно без проблем закрыть индексацию изображений на сайте. Для этого разместите в файле строку Dissallow: с указанием формата изображений, который не должен быть проиндексирован поисковыми ботами. Например:

Disallow: *.png

Закрыть от индексации поддомены

Поисковые системы распознают все поддомены как отдельные сайты. Поэтому необходимо на каждом из них размещать свой роботс. Находится он в корневой папке вашего поддомена. Чтобы закрыть от индексации нужный вам поддомен, добавьте файл robots.txt инструкцию, которая была указана выше.

Список дополнительных директив, которые используются в файле robots.txt

Помимо стандартных директив, Google, Яндекс и прочие поисковики знают еще несколько.

  • Sitemap – распознается всеми поисковиками. Данная директива дает возможность указать путь к карте сайта в формате sitemap.xml.
  • Clean-param – эта директива распознается только Яндексом. С ее помощью можно запретить индексацию get-параметров вашего сайта, которые приводят к дублированию страниц. Например, при наличии на той или иной странице utm-меток, она будет иметь одинаковый контент при разных url.
  • Crawl-delay – распознается большинством поисковых систем. С ее помощью вы можете указать минимальное значение времени, за которое с сервера будет произведено скачивание 2-х файлов.

Инструкции для других поисковых систем

С помощью строки User-agent: вы можете обратиться в robots. txt к разным известных поисковых систем. Каждая из них имеет своего робота, который проводит сканирование страниц сайта. Помимо стандартных обращений к Яндексу и Google, которые были описаны выше, можно прописать обращения и к другим поисковым ботам.

  • Бинг – MSNBot;
  • Yahoo – Slurp;

Закрыть страницу от индексации

Помимо файла robots.txt можно запретить к индексации ту или иную страницу проекта. Для этого используется мета-тег robots, который должен быть прописан в html-коде сайта. Поисковики воспринимают его, и он имеет довольно высокий приоритет. Для того чтобы запретить индексирование URL, добавьте в код следующие строки:

<meta name=»robots» content=»noindex, nofollow»/>

Или

<meta name=»robots» content=»noindex, follow»/>

Также можно использовать альтернативный вариант:

<meta name=»robots» content=»none»/>

Мета тег дает возможность обращаться к поисковым ботам. Для этого нужно заменить в нем строчку robots на yandex или googlebot.

КнопкаОписание
Стартовый наборПозволяет задать набор стандартных правил и ограничений (закрываются от индексации административные страницы, личные данные пользователя, отладочная информация).


Если часть стандартного набора уже задана, то будут добавлены только необходимые отсутствующие инструкции.
Запретить файл/папку (Disallow)Позволяет составить инструкции, запрещающие индексировать файлы и папки по маске пути.


При нажатии на кнопку открывается форма со списком уже имеющихся инструкций запрета индексации. В открывшейся форме кнопка […] позволяет выбрать файлы или папки, которые индексировать не нужно.
Разрешить файл/папку (Allow)Позволяет указать файлы и папки, разрешенные для индексации.


При нажатии на кнопку открывается форма со списком путей к файлам и папкам, разрешенных для индексации. В открывшейся форме кнопка […] позволяет выбрать файлы или папки, которые должны быть проиндексированы.
Главное зеркало (Host)Позволяет задать адрес главного зеркала сайта. Главное зеркало необходимо обязательно указывать, если сайт обладает несколькими зеркалами.
Интервал между запросами (Crawl-delay)Служит для указания минимального временного интервала (в сек.) между запросами поискового робота.
Карта сайтаПозволяет задать ссылку к файлу карты сайта sitemap. xml.

КнопкаОписание
Запретить файл/папку (Disallow)Позволяет составить инструкции, запрещающие индексировать файлы и папки по маске пути.


При нажатии на кнопку открывается форма со списком уже имеющихся инструкций запрета индексации. В открывшейся форме кнопка […] позволяет выбрать файлы или папки, которые индексировать не нужно.
Разрешить файл/папку (Allow)Позволяет указать файлы и папки, разрешенные для индексации.


При нажатии на кнопку открывается форма со списком путей к файлам и папкам, разрешенных для индексации. В открывшейся форме кнопка […] позволяет выбрать файлы или папки, которые должны быть проиндексированы.
Главное зеркало (Host)Позволяет задать адрес главного зеркала сайта. Главное зеркало необходимо обязательно указывать, если сайт обладает несколькими зеркалами.

Важно! Для каждого файла robots.txt обрабатывается только одна директива Host.

Интервал между запросами (Crawl-delay)Служит для указания минимального временного интервала (в сек.) между запросами поискового робота.

КнопкаОписание
Запретить файл/папку (Disallow)Позволяет составить инструкции, запрещающие индексировать файлы и папки по маске пути.


При нажатии на кнопку открывается форма со списком уже имеющихся инструкций запрета индексации. В открывшейся форме кнопка […] позволяет выбрать файлы или папки, которые индексировать не нужно.
Разрешить файл/папку (Allow)Позволяет указать файлы и папки, разрешенные для индексации.


При нажатии на кнопку открывается форма со списком путей к файлам и папкам, разрешенных для индексации. В открывшейся форме кнопка […] позволяет выбрать файлы или папки, которые должны быть проиндексированы.
Главное зеркало (Host)Позволяет задать адрес главного зеркала сайта. Главное зеркало необходимо обязательно указывать, если сайт обладает несколькими зеркалами.

Важно! Для каждого файла robots.txt обрабатывается только одна директива Host.


Влияние robots. txt на разные типы файлов
Интернет-страница

Вы можете использовать файл robots.txt для веб-страниц (HTML, PDF или другие
мультимедийные форматы, которые может читать Google),
для управления обходным трафиком, если вы думаете, что ваш сервер будет перегружен запросами
от поискового робота Google или чтобы не сканировать неважные или похожие страницы вашего сайта.

Не используйте файл robots.txt как средство, чтобы скрыть свои веб-страницы от поиска Google.
полученные результаты.

Если другие страницы указывают на вашу страницу с описательным текстом, Google все равно может проиндексировать
URL без посещения страницы. Если вы хотите заблокировать свою страницу из поиска
результатов, используйте другой метод, например защиту паролем или
noindex .

Если ваша веб-страница заблокирована файлом robots.txt , ее URL-адрес все еще может
появляются в результатах поиска, но результат поиска будет
нет описания.
Файлы изображений, видеофайлы, PDF-файлы и другие файлы, отличные от HTML, будут исключены. Если ты видишь
этот результат поиска для вашей страницы и хотите исправить это, удалите запись robots.txt
блокировка страницы. Если вы хотите полностью скрыть страницу от поиска, используйте
другой метод.

Медиа-файл

Используйте файл robots.txt для управления трафиком сканирования, а также для предотвращения изображений, видео и
аудиофайлы не появляются в результатах поиска Google. Это не помешает другим страницам или
пользователей от ссылки на ваше изображение / видео / аудио файл.

Файл ресурсов Вы можете использовать файл robots.txt, чтобы заблокировать файлы ресурсов, такие как неважное изображение, сценарий,
или файлы стилей, , если вы считаете, что страницы, загруженные без этих ресурсов, не будут
существенно повлияет убыток
. Однако если их отсутствие
ресурсы затрудняют понимание страницы поисковым роботом Google, не блокируйте
их, иначе Google не сможет хорошо анализировать страницы, зависящие от
эти ресурсы.