Полное руководство по Robots.txt и метатегу Noindex

Полное руководство по Robots.txt и метатегу Noindex

Файл Robots.txt и мета-тег Noindex важны для SEO-продвижения. Они информируют Google, какие страницы надо сканировать, а какие – индексировать(выводить в результатах поиска).

При помощи данных средств можно ограничить содержимое веб-сайта, доступное для индексации.

Что такое файл Robots.txt?

Robots.txt – это файл, который указывает поисковым роботам(к примеру, Googlebot и Bingbot), какие страницы веб-сайта не должны сканироваться.

Чем полезен файл Robots.txt?

Файл robots.txt сообщает роботам системам, какие страницы могут быть просканированы. Но не может контролировать их поведение и скорость сканирования веб-сайта. Этот файл, по сути, представляет собой набор инструкций для поисковых роботов о том, к каким частям веб-сайта доступ ограничен.

Но не все поисковые системы выполняют директивы файла robots.txt. Если у вас остались вопросы насчет robots.txt, ознакомьтесь с часто задаваемыми вопросами о роботах.

Как создать файл Robots.txt?

По умолчанию файл robots.txt выглядит следующим образом:

Полное руководство по Robots.txt и метатегу Noindex

Можно легко создать собственный файл robots.txt в любом редакторе, который поддерживает формат.txt. С его помощью можно заблокировать второстепенные веб-страницы веб-сайта. Файл robots.txt – это метод сэкономить лимиты, которые могут пойти на сканирование иных разделов веб-сайта.

Директивы для сканирования поисковыми системами

User-Agent: определяет поискового робота, для которого будут применяться ограничения в сканировании URL-адресов. Например, Googlebot, Bingbot, Ask, Yahoo.

Disallow: определяет адреса страниц, которые запрещены для сканирования.

Allow: только Googlebot придерживается данной директивы. Она разрешает анализировать страницу, несмотря на то, что сканирование родительской веб-страницы запрещено.

Sitemap: указывает путь к файлу sitemap веб-сайта.

Правильное использование универсальных символов

В файле robots.txt символ(*) используется для обозначения любой последовательности символов.

Директива для всех типов поисковых роботов:

User-agent:*

Также символ * можно использовать, чтобы запретить все URL-адреса кроме родительской страницы.

User-agent:*

Disallow: /authors/*

Disallow: /categories/*

Это означает, что все URL-адреса дочерних страниц авторов и страниц категорий заблокированы за исключением главных страниц данных разделов.

Ниже приведен пример правильного файла robots.txt:

User-agent:*Disallow: /testing-page/Disallow: /account/Disallow: /checkout/Disallow: /cart/Disallow: /products/page/*Disallow: /wp/wp-admin/Allow: /wp/wp-admin/admin-ajax.php Sitemap: yourdomainhere.com/sitemap.xml

После того, как отредактируете файл robots.txt, разместите его в корневой директории веб-сайта. Благодаря данному поисковый робот увидит файл robots.txt сразу же после захода на веб-сайт.

Что такое Noindex?

Noindex – это метатег, который запрещает поисковым системам индексировать страницу.

Как применять метатег Noindex?

Существует три метода добавления Noindex на страницы:

Метатег «robots»

Разместите приведенный ниже программный код в раздел <head> страницы:

<meta name=”robots” content=”noindex”>

Он сообщает всем типам поисковых роботов об условиях индексации страницы. Если необходимо запретить индексацию страницы только для определенного робота, поместите его название в значение атрибута name.

Чтобы запретить индексацию страницы для Googlebot:

<meta name=”googlebot” content=”noindex”>

Чтобы запретить индексацию страницы для Bingbot:

<meta name=”bingbot” content=”noindex”>

Также можно без проблем разрешить или запретить роботам переход по ссылкам, размещенным на странице.

Чтобы разрешить переход по ссылкам на странице:

<meta name=”robots” content=”noindex,follow”>

Чтобы запретить поисковым роботам сканировать ссылки на странице:

<meta name=”robots” content=”noindex,nofollow”>

X-Robots-Tag

x-robots-tag может управлять индексацией страницы через HTTP-заголовок. Этот тег также указывает поисковым системам не выводить определенные типы файлов в результатах поиска. К примеру, картинки и иные медиа-файлы.

Для этого у вас должен быть доступ к файлу.htaccess. Директивы в метатеге «robots» также применимы к x-robots-tag.

Блокировка индексации через YoastSEO

Плагин YoastSEO в WordPress автоматом генерирует приведенный выше код. Для этого на странице записи перейдите в интерфейсе YoastSEO в параметра публикации, щелкнув по значку шестеренки. Далее в опции «Разрешить поисковым системам показывать эту публикацию в результатах поиска?» выберите «Нет».

Полное руководство по Robots.txt и метатегу Noindex

Также можно без проблем задать тег noindex для страниц категорий. Для этого зайдите в плагин Yoast, в «Вид поиска». Если в разделе «Показать категории в результатах поиска» выбрать «Нет», тег noindex будет размещен на всех страницах категорий.

Полное руководство по Robots.txt и метатегу Noindex

Лучшие примеры использования

  • Чтобы проиндексированная страница была удалена из результатов поиска, убедитесь, что она не заблокирована в файле robots.txt. И только потом добавляйте тег noindex. Иначе Googlebot не сможет увидеть тег на странице. Если заблокировать страницу без тега noindex, она все равно будет выводиться в результатах поиска:
Полное руководство по Robots.txt и метатегу Noindex
  • Добавление директивы sitemap в файл robots.txt технически не требуется, но считается хорошей практикой.
  • После обновления файла robots.txt рекомендуется проверить, не заблокированы ли важные страницы. Это можно сделать при помощи txt Tester в Google Search Console.
  • Используйте инструмент проверки URL-адреса в Google Search Console, чтобы увидеть статус индексации страницы.
  • Также можно проверить, проиндексировал ли Google ненужные страницы. Это можно легко сделать при помощи отчета в Google Search Console. Ещё одной альтернативой может быть использование оператора «site». Это команда Google, которая выводит все страницы веб-сайта, доступные в результатах поиска.
Полное руководство по Robots.txt и метатегу Noindex

Добавляем Noindex в Robots.txt

В последнее время в SEO-сообществе было много недоразумений по поводу использования noindex в robots.txt. Но представители Google много раз говорили, что поисковая система не поддерживают данный метатег. И все же многие люди настаивают на том, что он все ещё работает. Но лучше избегать его использования.

Заблокированная страница все равно может быть проиндексирована, если кто-то на нее ссылается

Заблокированные через robots.txt страницы, не могут быть проиндексированы, даже если кто-то на них ссылается.

Чтобы быть уверенным, что страница без содержимого случайно не появится в результатах поиска, Джон Мюллер рекомендует размещать на данных веб-страницах noindex даже после того, как вы заблокировали их в robots.txt.

Заключение

Использование файла robots.txt улучшает не только SEO, но и пользовательский опыт. Для этого реализуйте приведенные выше практики.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *