Что такое файл robots.txt и зачем нужен

Что такое robots.txt

Как правило, в работе вебмастера и SEO-специалиста есть необходимость знать о том, что такое robots.txt, уметь с ним работать и уметь пользоваться им. Специалист по оптимизации и продвижению сайтов – это универсальный мастер, который должен обладать навыками из разных областей в сфере IT.

В этой статье мы разберемся с тем, как настроить файл robots.txt.

Robots.txt – это текстовый файл с описанием правил доступа к вашему сайту. При желании, редактировать этот документ можно и компьютере, например в блокноте, а также непосредственно на хостинге. Кстати, роботс относится к технической оптимизации сайта.

Что такое robots.txt

Представим, что наш файл robots.txt — это настоящий робот. При посещении сайта роботами поисковых систем, они используют Robots.txt. В этот момент он им говорит о том, где можно ходить, а где нельзя. В случае, если вы отдадите команду, чтобы он никого не впускал, то и сайт не будет проиндексирован.

Если на сайте этот файл отсутствует, то создаем его и загружаем в корень сайта. Найти и проверить его просто, ведь он находится в корне сайта. Дополните адрес своего сайта /robots.txt и получите его. Также, вы можете его проверить на стороннем сервисе, например вебмастер от яндекса. Также, в вебмастере вы можете посмотреть актуальный роботс любого сайта.

Анализ robots.txt в яндекс

Какой смысл в robots.txt?

В случае отсутствия в системе robots.txt, робот поисковой системы блуждает по сайту как ему заблагорассудится. Поисковые роботы могут забраться на технические страницы, которые не нужны для индексации, на страницы фильтров и т.д., тем самым в индекс может попасть много нежелательных страниц. Robots.txt позволит скрыть от индексации

  • Дубли;
  • Документы, которые находятся в служебных файлах.
  • Неполезные для посетителей файлы;
  • Содержимое страниц, на которых нет уникального контента (например политика конфиденциальности).

С помощью правильно составленного файла роботс создается впечатление для поисковых роботов, что на сайте всегда чисто и аккуратно.

Настройка директив robots.txt

Директивы в роботс — это инструкции написаны для роботов поисковых систем. Давайте разберем подробнее, что нужно прописывать и какие директивы бывают.

Что такое User Agent

User Agent — это главное правило, которое определяет, какой робот смотрит директивы. Иными словами, с помощью этого, вы указываете, что именно к этому роботу поисковой системе или сервису относятся правила.

User agent: *

Стандартное правило, которое означает, что все роботы смотрят следующие директивы.

User agent: Yandex

User agent: Google

Правила, которые находятся после User agent: Yandex, понимает и учитывает только робот яндекса. При User agent: Google, учитывает правила поисковой робот Гугла.

Disallow и allow

Используя Disallow, мы скрываем ненужные страницы от индексирования, а вписав правило с директивой Allow разрешаем индексировать их. Например, мы можем закрыть от индексации все ссылки с wp-admin, но если у нас после wp-admin идет в URL blog, то нам нужно его открыть, как раз для этого и нужен Allow. При этом, последовательность написания неважна.

User agent: *

Disallow: *wp-admin*

Allow: *blog*

Также, поисковые роботы воспринимают только английский, поэтому вы можете писать в роботсе на русском, чтобы в дальнейшем понимать что и зачем проставлено, но перед этим нужно поставить #.

Так же существуют операторы, помогающие уточнить наши правила.

  • * — Это означает, что может быть любая последовательность символов, либо отсутствие их перед и после указанного правила.
  • $ — С помощью этого знака можно прервать цепочку из символов, то есть своеобразная точка.

Директива Sitemap

С этим правилом всё просто. Мы показываем поисковому роботу карту сайта, в которой содержатся страницы, которые нужно проиндексировать.

Sitemap: https://site.ru/sitemap.xml

Директива Clean-param

Для того чтобы избежать индексации дублей, нам понадобится использовать директиву Clean-param. К примеру, если вы продвигаетесь в интернете через контекстную рекламу то у вас будут URL адреса  с utm- метками. По сути своей, они являются дублями оригиналов, не смотря на то, что у них разные адреса. Для того чтобы такие страницы не плодились, мы можем закрыть их с помощью этой директивы.

Clean-Param: utm_source&utm_medium&utm_campaign

Закрытие сайта от индексации

В первую очередь это необходимо, если вы используете тестовый домен, например при смене дизайна или изменения структуры. Неготовый, неоптимизированный сайт необходимо закрыть от поисковых роботов. Либо, если мы хотим, чтобы определенный робот не заходил на наш сайт, то также закрываем от него через это.

User-agent: *
Disallow: /

Это правило закрывает для всех индексацию сайта.

User-agent: Yandex
Disallow: /

User-agent: Google
Disallow: *wp-admin*

А это правило, закрывает сайт от яндекса, но открывает для гугла, но закрывает для гугла технические файлы сайта.

Как проверить настройки роботса

Чтобы проверить правильно ли вы настроили Robots, достаточно перейти все в тот же яндекс вебмастер и ввести адрес сайта. Помимо того, что вы увидите актуальный роботс, вы сможете проверить правильно ли он заполнен и протестировать какие страницы открыты, а какие нет.

 

Анализ robots.txt результат проверки

Здесь мы видим все текущие ошибки. Если ошибок нет, то в результаты анализа на ошибки нельзя будет нажать.

Анализ robots.txt

 

Выбираем из списка адреса, которые нам нужны. Нажимаем «Проверить». Для индексации данных адресов страниц инструмент сообщит нам, разрешено ли для индексации данные адреса страниц. В столбце «Результат» мы увидим причину, по которой страница недоступна к индексации. Если страница доступна, то там будет зеленая галочка.

Здесь вы найдете множество вариантов для реализации своих творческих способностей. Используйте звездочку или знак доллара и закройте от индексации страницы, которые не приносят пользу посетителям. Внимательно проверяйте, не закрыты ли от индексации важные страницы.

Правильный robots.txt для WordPress

Предлагаю вашему вниманию стандартный роботс для сайта на wordpress:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: *plugins*
Disallow: *cache*
Disallow: /wp-json/
Disallow: *xmlrpc.php
Disallow: *?
Disallow: /?s=
Allow: *.css
Allow: *.js
Sitemap: https://site.ru/sitemap.xml # тут вставьте URL своего сайта

Правильный robots.txt для Joomla

Предлагаю вашему вниманию стандартный роботс для сайта на Joomla:

User-agent: *
Disallow: *administrator*
Disallow: *bin*
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Sitemap: https://site.ru/sitemap.xml

Правильный robots.txt для Bitrix

Предлагаю вашему вниманию стандартный роботс для сайта на Bitrix:

User-agent: *
Disallow: /*index.php$
Disallow: /bitrix/
Disallow: /auth/
Disallow: /personal/
Disallow: /upload/
Disallow: /search/
Disallow: /*/search/
Disallow: /*/slide_show/
Disallow: /*/gallery/*order=*
Disallow: *?*
Disallow: /*&print=
Disallow: /*register=
Disallow: /*forgot_password=
Disallow: /*change_password=
Disallow: /*login=
Disallow: /*logout=
Disallow: /*auth=
Disallow: /*action=*
Disallow: /*bitrix_*=
Disallow: /*backurl=*
Disallow: /*BACKURL=*
Disallow: /*back_url=*
Disallow: /*BACK_URL=*
Disallow: /*back_url_admin=*
Disallow: /*print_course=Y
Disallow: /*COURSE_ID=
Disallow: *PAGEN*
Disallow: /*PAGE_*
Disallow: /*SHOWALL
Disallow: /*show_all=
Sitemap: http://www.sitename.ru/sitemap.xml\

Заключение

Правильно составленный и настроенный файл robots.txf может помочь в продвижении сайта, а также положительно отразится на его индексации. При желании избавиться от ненужных страниц иди путей к файлам, можно воспользоваться файлом robots.txt. Он поможет вам в этом.

Понравилась статья? Поделиться с друзьями:
Добавить комментарий