Как правильно оформлять файл robots.txt
SEO-продвижение
сайтов
Контекстная
реклама
Продвижение в
соцсетях
Анализ и аудит
любых сайтов
Как правильно оформлять файл robots.txt

Как правильно оформлять файл robots.txt

Robots.txt – наиболее важный из аспектов оптимизации любого сайта.

Не верно настроенный или отсутствующий Robots.txt может пагубно сказаться на результатах продвижения — плохая индексация, переиндексация и повышенного внимания со стороны поисковых роботов, а следовательно нагрузки на ресурс. 

Проблемы с индексацией могут вылиться в плохие позиции в поисковых системах (ПС). Что бы этого избежать, постараемся разобраться в нюансах создания и его верной настройки.

Индексация Robots.txt

Не верно представление о том, что если нет Robots.txt то и сайт не будет индексироваться. Нет, вне зависимости от его наличия сайт будет виден ПС, важно то, как они будут видеть ваш ресурс и какими правилами будут руководствоваться при индексации. Именно правила и диктует файл Robots.txt, и роботы поисковиком будут их воспринимать, за редким исключением. Есть некоторые правила, которые могут быть специфичными для определенной ПС. Например: бот Google не воспринимает директиву Crawl-Delay и Host, а новостной бот Яндекс игнорирует Crawl-Delay. Помимо этих моментов, вы можете увидеть полный список исключений на сайте Яндекс.

Основную нагрузку для сайта создают поисковые роботы считывающие контент на вашем ресурсе. Отсюда следует, что показывая боту что на ресурсе нужно индексировать, что игнорировать, задавая интервалы индексации, мы можем регулировать нагрузку на сайт и улучшить его индексацию, формируя четкий список приоритетов.

Robots.txt — приоритеты.

В первую очередь мы закрываем от индексации различные скрипты Ява и Аякс, формы обратной связи, корзину, баннеры и прочий динамичный интерактив который не несет полезного контента. Личный кабинет пользователя обязан быть закрыт, так как обладает персональными данными, админка сайта не является открытой директорией для считывания ПС.

Нужно учесть, что некоторые боты ПС могут сделать выводы об удобстве сайта на основании той же Явы и CSS сайта. Поэтому, будьте осторожны в закрытии этих аспектов.

Директивы файла Robots.txt

Директива = правило для ПС. Есть несколько вариаций от разных годов выпуска и редакций, но рассматривать их нам смысла нет. Мы постараемся привязываться к самим правилам, а не к стандартам директив.

User-agent — основная используемая в robots.txt директива. Она показывает для каких из роботов действуют следующие правила.

User-agent: * - так будет выглядеть директива доступная роботам всех ПС

User-agent: GoogleBot — так, например, директива открытая только для Google.

В Robots.txt не важен регистр, вы можете писать как GoogleBot так и googlebot – они будут равнозначны.

Еще одними важными директивами является Disallow и Allow

Первый, Disallow, закрывает оказанную страницу или раздел от индексации.

Второй — Allow, напротив, открывает для индексации страницы в принудительном порядке.

У них есть дополнительные операторы, отвечающий каждый за свой функционал:

* — произвольное количество символов или их отсутствие. Стоит после оператора по умолчанию, даже если не написано.

$ — символ перед этим оператором — последний.

# — оператор комментария. Любой текст после него не будет учитываться

Учитывайте то, что порядок написания операторов не принципиален. Определение что требуется закрыть, а что открыть, определяется по адресам директорий. Если целью стоит, например, что бы все файлы с расширением .txt были закрыты для индексации, мы будем вынуждены прописывать директивы отдельно для каждой папки и файла.

Sitemap — Указывает пусть к xml sitemap в формате адреса. Адресов может быть несколько, и указываться они могут произвольно в файле robots, в любом его месте.

Host – директива для указания зеркал сайта. Например с www или без него. Прописывать нужно без HTTP но с HTTPS если защищенный протокол есть. GoogleBot эта директива не воспринимается и прописана в robots.txt она должна быть только 1 раз.

Crawl-delay — этой директивой мы задаем временной промежуток между считыванием страниц в индекс. Поддерживается всеми популярными ПС кроме Google. Задается в секундах.

На некоторых легких сайтах эта директива может быть не обязательна. Уместно ставить в том случае, если сайт «ложится» от большого количества запросов на сервер или «Виснет» во время посещения поискового робота.

Проверка robots.txt

Проверить наличие и верность написания Robots можно в панели Яндекс.Вебмастер во вкладке «Анализ rosots.txt» раздела «Инструменты» и в Google Search Console.

В первую очередь мы закрываем от индексации различные скрипты Ява и Аякс, формы обратной связи, корзину, баннеры и прочий динамичный интерактив который не несет полезного контента

Нет коментариев