Структура и назначение файла robots.txt

Для чего нужен файл robots. txt? Как помочь поисковым роботам лучше ориентироваться на сайте? Этим важным вопросам будет посвящёна данная статья. Допустим мы только создали свой блог, пишем в него исправно свои статьи и терпеливо ждём, когда нас начнут индексировать поисковые роботы. Проходит некоторое время и, о чудо, мы в индексе. Только есть одна проблема. Дело в том, что, оказывается, далеко не вся информация, содержащаяся на нашем ресурсе предназначена для индексации. В используемых нами CMS (WordPress, Joomla) имеются целые разделы, которые совершенно ни к чему показывать роботам. А некоторая информация дублируется на блоге несколько раз.

Скажем некую статью Х мы можем прочитать непосредственно в разделе "Статьи", она будет доступна в разделе "Архивы", плюс ко всему её ещё можно будет найти по меткам. А это очень нехорошо! Чтобы избежать подобных ситуаций, специально предназначен файл robots. txt. Он представляет собой обычный текстовый файл, который можно создать в любом блокноте. Его главной функцией является координация действий поисковых роботов на вашем ресурсе. То есть попросту говоря, он указывает им что индексировать, а что нет. Только стоит сразу оговорить такой момент - не все роботы учитывают прописанные им правила. Иногда надо прибегать к помощи htaccess.

Структура файла robots. txt

Для начала следует выделить основные поля файла. Скажу сразу, что не все из них являются обязательными (только первые два).
  • User-agent - в этой директиве мы указываем для каких роботов предназначена эта секция. Т. е. попросту говоря, мы пишем тут имя поискового робота. Для Яндекса - Yandex, для Google - Googlebot. Если пишем правила для всех - ставим "*", о регулярных выражениях и шаблонах чуть позже.
  • Disallow - это запрещающая директива. Если нам нужно закрыть от индексации какой-то файл или содержимое папки, мы не прописываем здесь все пути к разделу сайта. Вместо этого используются шаблоны.
  • Allow - разрешающая директива. Используется в том случае, когда в каком-то множестве, закрытом от индексации нам нужно открыть некое подмножество для индексирования роботами.
  • Sitemap - подсказывает, где можно найти карту сайта.
  • Crawl-delay - в данном поле указываем время. Это число будет количеством секунд между запросами при обходе поисковиками нашего сайта. Директива используется не часто, но если ваш ресурс высоконагруженный и медленный, то её вполне можно применять.
  • Host - эта директива введена Яндексом. Прописывать её следует только в секции для Yandex. Здесь мы указываем главное зеркало нашего сайта.

    Немного о шаблонах

    При написании файла robots. txt широко используются различные шаблоны. Ниже описаны самые главные. Если вы хотите запретить роботу индексировать весь ваш сайт, то для этого используем регулярное выражение "/", и будет выглядеть это следующим образом: Disallow: / Если же наоборот вам надо чтобы индексировалось всё на вашем сайте, то оставляете поле значения директивы Disallow пустым.

    Если нужно закрыть от индексации каталог "foto" используем запись следующего вида: Disallow: /foto/ Но когда вы не поставите наклонную черту в конце, вы тем самым запретите индексировать все файлы и директории, которые будут начинаться с "foto", то есть "foto. jpg", "fotography. png", "foto1" и т. д. Так что тут надо быть очень осторожным.

    В случае, когда у вас возникла необходимость запретить индексацию всех файлов на сайте с расширением doc, используется следующая шаблон: Disallow: /*. doc$ Этим самым мы говорим роботу, что нельзя индексировать всё, что начинается с "/", потом идёт сколько угодно символов (это наша "*") и заканчивается . doc. Т. е. после буквы "с" не должно быть никаких символов (смысл регулярного выражения "$"). Но в том случае, когда расширение будет ". docs", эта информация будет разрешена для индексирования.

    Также стоит упомянуть про то, что в файле robots. txt очень важна последовательность директив Disallow и Allow. Что выше, то и важнее. Помните про это. После того как вы написали все правила для роботов, файл robots. txt всегда можно проверит, к примеру, в Вебмастере Яндекса (кстати там же можно почитать о нём более подробно). Загрузить туда его можно вручную, либо указать путь с сайта. Находится этот файл всегда в корне сайта. На любом сайте вы всегда можете набрать http://site.com/robots. txt и вы увидите, как выглядит там файл robots. txt.
  • © 2020 All Rights Reserved.