Все «правильные» поисковые роботы понимают и соблюдают некий набор правил, который можно установить для них с помощью файла robots.txt. Файл robots.txt размещается в корневой директории сайта и описывает правила поведения для поисковых роботов. Придерживающийся стандартов робот сначала проверяет url «site.ru/robots.txt», и если файл существует – анализирует его содержимое.
Как это работает?
Файл robots.txt предназначен для указания всем поисковым роботам (паукам) индексировать информационные сервера так, как определено в этом файле. Синтаксис файла позволяет задавать правила поведения и запретные области, как для всех, так и для определённых, роботов.
К файлу robots.txt предъявляются специальные требования, не выполнение которых может привести к неправильному считыванию роботом поисковой системы или вообще к игнорированию данного файла.
- Файл должен быть размещен в корневом каталоге сайта.
- Имя файла не должно содержать заглавных букв.
- Записи в файле разделяются одной или несколькими пустыми строками.
- Комментарии в файле robots.txt начинаются знаком “#” и заканчиваются окончанием строки.
Что же написать?
Файл robots.txt задавать поисковым роботам различные директивы, пожалуй основные это:
- User-agent: – указывает имя робота котором предписаны все последующие правила.
- Disallow: – позволяет запретить определенные зоны сайта к индексации.
- Sitemap: – позволяет указать путь к вашему файлу sitemaps.xml.
- Crawl-delay: – для уменьшения нагрузки на сервер позволяет задать поисковому роботу минимальный период времени (в секундах) между концом закачки одного документа и началом закачки следующего.
- Host: – позволяет указать главное зеркало вашего сайта.
Важно знать какие виды записей поддерживаются той или иной поисковой системой:
Каждая запись имеет свое предназначение и может встречаться несколько раз, в зависимости от количества закрываемых от индексации страниц или (и) директорий и количества роботов, к которым Вы обращаетесь.
Любая строка в robots.txt, начинающаяся с символа «#», считается комментарием. Разрешено использовать комментарии в конце строк с директивами, но некоторые роботы могут неправильно распознать данную строку.
Пример
И напоследок давайте разберем в качестве примера некий абстрактный сайт. У сайта есть форум в подпапке site.ru/forum который владелец сайты желал бы запретить к индексации.
Файл robots.txt у такого сайта должен был бы выглядеть следующим образом:
User-agent: *
Disallow: /forum# так мы запретили всем поисковым системам индексировать форум
User-agent: Webalta
Disallow: /User-Agent: Slurp
Disallow: /User-Agent: msnbot
Disallow: /# так мы запретили индексирование сайта нескольким роботам перегружающим сервер
User-agent: Yandex
Disallow: /forum
Crawl-delay: 5
Host: site.ru# так мы запретили Яндексу индексировать форум, определили для него главное зеркало сайта и уменьшили нагрузку на сервер при индексировании.
Помните, правильное составление файла robots.txt, может повлиять на продвижение сайта в поисковых системах.


