robots.txt – это важный файл в текстовом формате, который имеет служебное назначение и указывает поисковым системам, какие страницы индексировать, а какие нет. Также в данном файле можно настроит частоту обращений ботов на сайт. Благодаря грамотной настройке этого файла можно снизить нагрузку, которые оказывают на ресурс роботы ПС.
В файле содержится набор директив и их значений. Примечания разделяются решеткой #.
Как указать, для какого робота действует указание?
В начале каждого блока прописывается директива User-agent и бот, для которого она предназначена. К примеру, User-agent: YandexBot – так будет начинаться блок указаний для бота Яндекса, отвечающего за индексацию страниц. Если сводка правил относится ко всем ботам без исключения, это будет выглядеть следующим образом: User-agent: *
Как настроить индексацию страниц?
Для этого в файле robot.txt существуют правила Disallow и Allow. Допустим, вам нужно, чтобы робот Google не индексировал конкретный раздел, при этом один из подразделов подлежит индексации.
User-agent: Google
Disallow: /название раздела
Allow: /название раздела/название подраздела
Для закрытия или открытия доступа к нескольким разделам, нужно прописывать директиву для каждого раздела отдельно.
Директива Disallow может запретить доступ к ресурсу нежелательных ботов, которые создают лишнюю нагрузку. Кроме поисковых ботов сайт могут посещать поисковые боты, которые собирают информацию для конкурентов. К ним относятся SemrushBot, BLEXBot и другие. Прописуем так:
User-agent: SemrushBot
User-agent: BLEXBot
Disallow: /
Здесь можно указать любой нежелательный бот. И еще один момент, если после Disallow ничего не указано, это значит «ничего не запрещать».
Как настроить индексацию Sitemap?
Если на сайте есть файл sitemap.xml, нужно разрешить к нему доступ в robots.txt указать путь к этому файлу.
User-agent: *
Disallow:
Sitemap: https://yorsite-name.com/название папки/sitemap.xml
Как указать на основное зеркало сайта?
Для этого существует директива Host и работает она по отношению к ботам Яндекса. Знак $, который стоит рядом с названием каталога, означает, что команда относится конкретно к указанному каталогу.
User-agent: Yandex
Disallow: /catalog/new
Host: https://my-site.com
Как настроить интервалы между посещениями сайта роботом?
Для этого существует команда Crawl-delay рядом с которой указывается интервал в секундах.
User-agent: Yandex
Disallow:
Crawl-delay: 1