Главная /
Блог /
Как закрыть сайт или его часть от индексации в поисковых системах?
SEO
#SEO
#Продвижение

Как закрыть сайт или его часть от индексации в поисковых системах?

Пошаговый разбор
Автор: Андрей Мережко
Ведущий SEO-оптимизатор
~ 15мин
Поделиться статьей
easy
сложность:
20.12.2022
В каких случаях может потребоваться закрыть сайт (или его отдельную часть) от индексации:
Кроме того, стоит учитывать краулинговый бюджет, который представляет собой лимит на обход страниц сайта роботами поисковых систем в течение суток. Если на сайте большое кол-во индексируемых мусорных страниц, то робот будет расходовать лимиты обхода впустую. В результате, действительно важные и приоритетные страницы могут долго время оставаться непроиндексированными, что негативно повлияет на ранжирование сайта и снизит эффект от оптимизации.
Таким образом, изначально некачественный / неподготовленный контент необходимо закрыть от индексации до момента его полноценной доработки, чтобы в дальнейшем не пришлось исправлять последствия пессимизации и возвращаться, по сути, в отправную точку.
Если сайт не соответствует критериям качества на момент его оценки поисковыми роботами – то велика вероятность получить пессимизацию, заключающуюся в применении поисковыми системами понижающего коэффициента при определении релевантности его документов. Следствием пессимизации являются низкие позиции сайта в выдаче, как итог – большие усилия при оптимизации сайта в дальнейшем.
Индексация – это процесс сканирования сайта поисковыми роботами и добавления данных о нем в поисковую базу (на основе анализа содержимого страниц).

Что такое индексация и в каких случаях может потребоваться ее запрет

при наличии мусорной информации, не представляющей ценности (например, служебная информация, технические страницы).
при наличии дублирующего контента на сайте, который необходим для поведенческих показателей, но может негативно сказаться при оценке текстовой релевантности документа;
при наличии неуникального контента (на момент его доработки лучше запретить его индексирование);
при создании тестовой версии, которая дублирует контент основного сайта и которая необходима только для тестирования доработок перед их внесением на основную версию;
на стадии разработки (когда контент ресурса еще не подготовлен для показа пользователям и поисковым роботам для оценки его релевантности);
Что можно закрыть от индексации:
часть текста определенной страницы;
раздел сайта;
отдельную страницу (документ);
сайт или же его поддомен полностью;
ссылки.
медиа-контент (графику, аудио или видео);
файл (например, .pdf);
сквозной блок;

Способы закрытия сайта или его части от индексации

Закрыть сайт полностью (или же его отдельную часть) можно следующими способами:
настройка в CMS;
правка файла robots.txt;
правка кода страниц;
применение HTTP заголовка X-Robots-Tag.
правка кода в настройках сервера;
Ниже представлено описание каждого способа с примерами в зависимости от того, что конкретно нужно запретить к индексации.

Как закрыть весь сайт от индексации

Чтобы закрыть сайт для всех роботов, нужно добавить в файл следующую директиву:
01.
Запрет индексации всего сайта через robots.txt

User-agent: * 
Disallow: /

Если нужно закрыть сайт только для определенной поисковой системы (или же, например, разрешить только для одной), то нужно добавить в robots.txt отдельный блок для нее. Возможны разные вариации, ниже – примеры:
разрешено индексирование всем поисковым системам (в т.ч. Яндексу), кроме Google:


User-agent: * 
Allow: /
 
User-agent: Googlebot
Disallow: /

запрещено индексирование для всех поисковых систем, кроме Яндекса:

User-agent: * 
Disallow: /
 
User-agent: Yandex
Allow: /

Аналогичным образом будет работать запрет к индексации для поддоменов, у каждого из которых – свой файл robots.txt (вносим изменения в файл того поддомена, индексацию которого нужно запретить).
Cкрыть сайт от индексации также можно с помощью добавление мета-тега в код каждой его страницы:
02.
Запрет индексации всего сайта через мета-тег «robots»

<html>
    <head>
        <meta name="robots" content="noindex, nofollow" />
    </head>
    <body>...</body>
</html>

Что означают директивы:
nofollow: команда не переходить по ссылкам на странице (при этом, важно понимать, что робот все равно может узнать о ссылках, если они, например, размещены на других страницах).
noindex: команда не индексировать текст страницы;
При этом, можно запретить индексацию только одной поисковой системе:
для робота Яндекса:

<meta name="yandex" content=" noindex, nofollow "/>
для робота Google:

<meta name="googlebot" content="noindex, nofollow"/>

С помощью настроек CMS также можно закрыть сайт от краулеров.
03.
Запрет индексации всего сайта через CMS
На примере Word Press:
aв панели администратора выбираем «Настройки» > «Чтение» и выбираем пункт «Попросить поисковые системы не индексировать сайт»:
noindex: команда не индексировать текст страницы;
Также можно воспользоваться плагинами, например – Yoast SEO.
Ограничить индексацию также можно на уровне сервера. Для этого в корневой папке сайта в файле .htaccess потребуется добавить следующий код:
04.
Запрет индексации всего сайта через файл .htaccess
для робота Яндекса:

SetEnvIfNoCase User-Agent "^Yandex" search_bot

для робота Google:

SetEnvIfNoCase User-Agent "^Googlebot" search_bot
Запрет для каждой поисковой системы должен быть размещен с новой строки, пример:

SetEnvIfNoCase User-Agent "^Yandex" search_bot
SetEnvIfNoCase User-Agent "^Googlebot" search_bot
SetEnvIfNoCase User-Agent "^Yahoo" search_bot

Запретить краулерам обход сайта можно с помощью добавления в корне в файл .htaccess строки:
05.
Запрет индексации всего сайта через HTTP заголовок X-Robots-Tag

Header set X-Robots-Tag "noindex, nofollow"
В результате в каждый ответ сайта будет добавляться HTTP заголовок, запрещающий поисковым системам его индексацию.
Следующим способом запрета индексации является использование модуля mod_rewrite.
Ниже приведен пример блокировки для ботов Google и Яндекса:
06.
Запрет индексации всего сайта через mod_rewrite

RewriteEngine On
 
RewriteCond %{HTTP_USER_AGENT} Yandex [NC]
RewriteCond %{HTTP_USER_AGENT} Google [NC, OR]
RewriteRule ^ - [F]

Отказать роботам в обходе можно с помощью настройки доступа к сайту по паролю.
В корневой файл .htaccess потребуется добавить:
07.
Запрет индексации всего сайта через авторизацию

AuthType Basic
AuthName "Password Protected Area"
AuthUserFile /home/user/www-auth/.htpasswd
Require valid-user

В корне сайта создаем home/user/www-pass/.htpasswd (htpasswd – это файл с паролем, который нужно задать самостоятельно).
Далее требуется добавить пользователя в файл паролей htpasswd (USERNAME – это имя пользователя для авторизации):

htpasswd - c /home/user/www-auth/.htpasswd USERNAME

Как закрыть папку сайта (категорию) от индексации

Запретить сканирование конкретной папки сайта краулерам поисковых систем можно следующими способами:
с помощью robots.txt:

User-agent: *
Disallow: /category/

При этом, если определенный документ закрытой папки все-таки должен индексироваться (или же подкатегория), то необходимо использовать открывающие и закрывающие директивы в robots.txt совместно:

User-agent: *
Аllow: /category/123
Disallow: /category/

с помощью мета-тег «robots»:
Доступ к индексации раздела можно запретить, прописав в коде каждой страницы:

<meta name="robots" content="noindex, nofollow" />
с помощью настройки CMS:
Закрыть доступ к конкретному разделу также можно с помощью плагинов (напр., Yoast SEO при работе с Word Press).
Открыв страницу редактирования и проскроллив ее до окна плагина – необходимо настроить режим индексации на вкладке «Дополнительно».
с помощью настройки сервера:
!
ВАЖНО: Если принято решение использовать данный вариант, то папка должна быть разрешена к индексации в robots.txt (в противном случае – если папка также будет заблокирована в robots.txt, то у бота не будет возможности увидеть X-Robots-Tag: noindex тег ответа).
Чтобы запретить доступ на уровне сервера с помощью заголовка X-Robots-Tag, необходимо добавить файл .htaccess с указанной ниже строкой в необходимую категорию:

Header set X-Robots-Tag "noindex, nofollow"
с помощью mod_rewrite:
Также для блокировки папки можно воспользоваться модулем mod_rewrite (при отработке для сканеров поисковых систем будет отдаваться 403 код ответа). В примере – запрет индексации папки category/:

RewriteEngine On
 
RewriteCond %{HTTP_USER_AGENT} Google [NC, OR]
RewriteCond %{HTTP_USER_AGENT} Yandex [NC]
RewriteRule ^ category/ - [F]

Как закрыть страницу сайта от индексации

Запретить индексацию конкретной страницы можно следующими способами:
с помощью robots.txt:

User-agent: Yandex
Disallow: /category/123.html

с помощью мета-тег «robots», прописав в коде страницы:

<meta name="robots" content="noindex, nofollow" />
с помощью настройки CMS – по аналогии с примером, указанным для папок;
с помощью настройки сервера:
Прописываем в файле .htaccess любой из ответов сервера для страницы, индексацию которой необходимо запретить:
– ответ сервера: 410 – Ресурс недоступен (окончательно удален);
– ответ сервера: 403 – Доступ к ресурсу запрещен (Forbidden).
с помощью mod_rewrite:
В примере ниже будет заблокирована страница со слагом /kak-proverit-indeksatsiyu-stranitsy/:

RewriteEngine  on
RewriteCond %{REQUEST_URI}  "kak-proverit-indeksatsiyu-stranitsy"
RewriteRule ^.* -  [F, L]

Как закрыть файл от индексации

Рассмотрим ситуацию, когда необходимо запретить индексацию всех .pdf-файлов на сайте (закрытие графики и иных файлов – аналогично).
Способы, с помощью которых это можно сделать:
с помощью robots.txt:

User-agent: Yandex
Disallow: /*.pdf

с помощью настройки сервера через заголовок:
Чтобы закрыть от индексации все файлы .pdf, необходимо в файле .htaccess прописать следующее:

<Files ~ "\.pdf$">
  Header set X-Robots-Tag "noindex, nofollow"
</Files>

<FilesMatch> позволяет осуществлять поиск на сайте файлов с помощью регулярных выражений (в контексте примера – .pdf), а стоящий перед ним $ указывает на то, что выражение находится в конце строки.

Результатом отработки станет поиск всех .pdf - файлов и их закрытие от индексации с помощью noindex. Более того – директива nofollow запретит переходить по размещенным в файлах ссылкам.
!
ВАЖНО: Если принято решение использовать данный вариант, то файл должен быть разрешен к индексации в robots.txt (в противном случае – если файл также будет заблокирован в robots.txt, то у бота не будет возможности увидеть X-Robots-Tag: noindex тег ответа).
с помощью mod_rewrite:
Рассмотрим ситуацию, когда необходимо запретить индексацию всех .pdf-файлов на сайте (закрытие графики и иных файлов – аналогично).

<Files ~ "\.pdf$">
  Header set X-Robots-Tag "noindex, nofollow"
</Files>

Если, например, к запрету нужно добавить файлы расширения .gif:

<Files ~ "\.(pdf|gif)$">
  Header set X-Robots-Tag "noindex"
</Files>

Как закрыть ссылку от индексации

с помощью скрипта:
Необходимо выполнить донастройку таким образом, чтобы в исходном коде страницы не было <a href="" ___> </a>, вывод блока был реализован следующим образом: <div class="lin"> </div>.
Далее при формировании страницы скриптом выводилось содержимое данного блока в виде ссылок. Скрипт же необходимо закрыть от индексации, например, с помощью файла robots.txt.
с помощью атрибута rel="nofollow":
Необходимо прописать атрибут для внешней ссылки, как будет выглядеть:
<a href="" rel="nofollow" target="_blank">текст ссылки</a>.
При этом, может быть такое, что контент страницы уже закрыт с помощью <meta name="robots" content="noindex"/>. Но для закрытия ссылок этого недостаточно, т.к. в мета-теге нет nofollow (т.е. несмотря на запрет индексации контента, боты все равно будут переходить по ссылкам страницы, т.к. сами ссылки – доступны).
В таких случаях необходимо дополнять мета-тег – приводить его к виду:
<meta name="robots" content="noindex, nofollow"/> или <meta name="robots" content="none"/> ("none" эквивалентен "noindex, nofollow").
!
ВАЖНО: Закрытие от индексации ссылок должно быть оправдано, т.к. запрещая переход по ним – направляется негативный сигнал роботам поисковых систем о том, что со ссылками что-то не так (ненадежный контент акцептора, ссылка на сайт с плохой репутацией или же посыл того, что ссылка – платная).

Как закрыть часть контента от индексации

закрытие текста от индексации с помощью noindex:
Суть метода заключается в помещении определенной части текста (напр., пассажа страницы или сквозного блока) в тег noindex.
Пример использования:
Минусы данного решения:
<noindex>Текст, индексирование которого запрещаем</noindex>
– в ряде случае, Яндекс не учитывает noindex;
– при злоупотреблении можно получить пессимизацию (подробнее – ниже);
– Google не принимает его во внимание в тексте в принципе.
!
ВАЖНО: Noindex – это крайняя мера, рекомендуется использовать только в тех случаях, когда это оправдано. Злоупотреблением noindex может привести к пессимизации, т.к. будет направлен однозначный негативный сигнал поисковым системам – посыл, что значительную часть контента страницы принимать во внимание при расчете релевантности документа – не нужно (что, с большей долей вероятности, будет принято за манипулятивную технику или же приведет к тому, что контент будет воспринят, как некачественный).
закрытие текста от индексации с помощью JavacaScript:
Суть способа заключается в кодировке элемента (напр., текст, блок) в JavaScript и в последующем закрытии его от индексации, например, в robots.txt.
Несмотря на то, что данный метод – один из самых действенных при запрете индексации части контента, его нужно использовать с осторожностью, т.к. сайт должен отдавать одинаковый контент роботам и пользователям (напр., Google даже осуществлял рассылку с рекомендацией открыть для индексации JS и CSS файлы).

Как узнать, закрыт ли сайт или его страница от индексации

Способы, с помощью которых можно проверить индексацию сайта или его отдельной страницы:
с помощью поисковых операторов;
панели вебмастера (Я.Вебмастер, Google Search Console);
с помощью плагинов.

Проверка индексации с помощью панелей поисковых систем (Я.Вебмастер + Search Console)

Чтобы проверить индексацию страниц сайта в Яндексе, можно воспользоваться инструментом «Проверка ответа сервера», который позволяет узнать, доступен ли сайт для роботов Яндекса:
Информацию по статусу страницы в поисковой базе и последнем обходе можно получить, воспользовавшись инструментом «Проверить статус URL»:
Для ускорения обхода конкретной страницы можно воспользоваться инструментом «Переобход страниц»:

Дневной лимит страниц, которые можно направить на переобход, – индивидуален и определяется поисковой системой автоматически.

Ведущий SEO-оптимизатор
Автор: Андрей Мережко
Чтобы проверить индексацию страниц сайта в Google – можно воспользоваться инструментом «Проверка URL» в Google Search Console, который позволяет узнать статус страницы в индексе поисковой системы:
Также с помощью отчета «Индексирование» панели можно получить полную информацию о всех проиндексированных и непроиндексированных страницах (а также причины этого):
Для ускорения обхода конкретной страницы можно запросить индексирование через одноименный инструмент панели:

Проверка индексации с помощью поисковых операторов

Проверить наличие конкретной страницы в индексе Яндекса можно с помощью оператора «url:», для наглядности – поиск в индексе страницы https://www.dns-shop.ru/catalog/ сайта DNS:
Если же мы введем несуществующую страницу, то поиск результатов не даст:
Для Google аналогичным образом работает оператор «allinurl:», который находит страницы, содержащие все указанные слова в адресе (для наглядности – поиск в индексе страницы https://www.dns-shop.ru/catalog/ сайта DNS):
При вводе несуществующей страницы, поиск также не даст результатов:

Проверка индексации с помощью расширений и онлайн-сервисов

Наиболее популярным плагином, с помощью которого, в том числе, можно проверить индексацию сайта – является RDS bar:
Также проверить индексацию можно с помощью онлайн-сервисов, например:
https://serphunt.ru/indexing/;
https://pr-cy.ru/;
https://arsenkin.ru/tools/indexation/.