Robots.txt: как настроить или создать робота своими руками

как настроить robots самостоятельно Как продвинуть сайт в поиске

Текстовый файл robots.txt содержит набор инструкций, предназначенных для поисковиков. Фактически они препятствуют индексации некоторых файлов целиком, или же их отдельных страниц или каталогов.

Как поисковики сканируют страницы

Рассматриваемый файл обычно размещается в корне сайта, куда доступ осуществляется через FTP. Но некоторые управляющие системы предоставляют пользователям возможность сформировать robots.txt из панели управления интернет-ресурсом или же через FTP-менеджер. Например, плагин Yoast SEO для WordPress дает возможность вебмастеру редактировать файл robots.txt в консоли сайта. 

WP плагин для редактирования файла robots

Для пользователей мало, чтобы информация была просто найдена – ее нужно найти быстро. И для этого поисковые роботы собирают данные с миллионов страниц, упорядочивая ее в поисковом индексе. После сканирования робот записывает web-адреса, набранные во время предшествующего сканирования, – для этого применяются Sitemapфайлы (они предоставляются собственниками сайтов). Особо пристальное внимание уделяется:

  •   измененным адресам;
  •   новым адресам;
  •   неработающим сайтам.

Робот самостоятельно определяет, какой адрес требуется сканировать, а главное – как часто это нужно делать и сколько страниц следует выбирать в каждом случае. Google располагает данными о сотнях миллиардов страниц (это более 100 петабайт информации).

Его можно сравнить с оглавлением в конце книги, где для каждого проиндексированного слова присутствует своя строка. При новом индексировании «оглавление» пополняется или изменяется: сведения о сайте добавляются в каталог.

Что такое файл robots.txt

Роботс.тхт ограничивает функционал поисковых роботов, отказывая им доступ к данным, хранящимся на http-сервере. К примеру, если владельцу ресурса не нужно, чтобы эти данные были доступны для обзора.

Говоря по-другому, robots.txt — представляет собой формализованные исключения. Это определенный стандарт для поисковых роботов, принятый консорциумом W3C 30.01.1994 г. Его в добровольном режиме используют практически все поисковые системы.

Файл robots.txt представляет собой набор инструкций, которые противодействуют индексации указанных владельцем ресурса файлов, целых страниц или же отдельных каталогов на сайте.

что такое robots.txt

Для чего нужен robots.txt и как влияет robots.txt на индексацию сайта

  • Зачем нужен robots.txt? Пример: в SEO рассматриваемый файл востребован для того, чтобы из индексируемого материала на странице убрать малосодержательный, бесполезный контент.
  • Нужно ли файл создавать robots.txt для всех сайтов? Желательно. Самая большая проблема интернета является его наполнение невостребованными данными, которые составляют большую часть всего информационного материала. Если исключить хотя бы часть этих сведений, то это радикально облегчит работу поисковых систем. Однако для малоразмерных сайтов такое исключение, фактически, означает забвение. Поэтому очень важно корректно прописать настройки robots.txt. 

Как создать robots.txt

Создается robots.txt с помощью любого текстового редактора (можно компилировать в Word, но проще воспользоваться Блокнотом). Создание файла не должно вызвать проблем даже у новичков. Простой пример:

            User-agent: *

            Allow: /

Здесь полностью разрешается индексация всех данных, хранящихся на интернет-ресурсе. Остается только загрузить его в корневой каталог сайта, чтобы он был доступен по адресу: https://ваш_сайт.ru/robots.txt

Cоздать robots.txt онлайн

Robots.txt можно создать онлайн, то есть, скачать в готовом виде. Важно осознавать, что именно вы собираетесь запретить, а что оставить для индексации. И вот здесь ошибки могут слишком дорого стоить (если в индекс будет попадать то, что должно быть скрыто). Перед тем, как выгружать файл на ваш интернет-ресурс, следует несколько раз его проверить. 

Поэтому пользовательский вариант файла robots.txt закроет от индексации более точный набор данных, чем вариант, сделанный «по образу и подобию», то есть, откуда-то скачанный.

Редактирование robots.txt

Изменять содержимое robots.txt можно так, как вам удобно. Главное здесь — это соблюдение синтаксиса. Кроме того, изменения в файле robots.txt могут производиться в процессе работы над ресурсом (речь идет о пополнении данными или же о сокращении контента). Нужно не забывать выгружать актуальную версию файла со всем изменениями. Рассмотрим некоторые правила настройки рассматриваемого текстового файла, чтобы иметь представление, как, изменяя файл, не наделать ошибок.

Правильная настройка robots.txt

Примеры:

  •   Указывает директивы для всех роботов одновременно: User-agent: *
  •   Блокирует действия всех роботов Яндекса: User-agent: Yandex
  •   А здесь блокируются только основные роботы Яндекса: User-agent: YandexBot
  •   Директивы против всех ботов Гугла: User-agent: Googlebot
  •   Директива направлена против всех роботов Яндекса:

            User-agent: Yandex

            Disallow: /*utm_

  •   Директива направлена против всех роботов «Гугла»:

            User-agent: Googlebot

            Disallow: /*utm_

  •   Директива направлена против всех роботов, кроме роботов Яндекса и «Гугла»:

            User-agent: *

            Allow: /*utm_

Сразу после директивы «User-agent» идет команда, указывающая условия для робота. В последнем примере (выше) используем запрещающую директиву «Disallow» — «/*utm_» — она закрывает все страницы с метками UTM. Пример правильного указания строки в robots.txt, где осуществляется противодействие индексации роботам Yandex:

            User-agent: Yandex

            Disallow: /*utm_

            Allow: /*id=

            User-agent: *

            Disallow: /*utm_

            Allow: /*id=

Важно соблюдать правильный порядок операторов команд в файле при совместном использовании директив. Пример – «Disallow» и «Allow»: директива «Allow» — это разрешающая директива, она представляет собой противоположность запрещающей команды «Disallow» в robots.txt. Вот пример совместного использования директив в robots.txt:

            User-agent: *

            Allow: /blog/page

            Disallow: /blog

Здесь всем роботам запрещается индексация любых страниц, которые начинаются с «/blog», однако, при этом разрешается индексация страниц, которые начинаются с «/blog/page».

Перепишем прошлый пример в правильной последовательности:

            User-agent: *

            Disallow: /blog

            Allow: /blog/page

Еще один корректный пример robots.txt с совместными директивами:

            User-agent: *

            Allow: /

            Disallow: /blog

            Allow: /blog/page

«Allow» и «Disallow» могут быть указаны и без дополнительных параметров. Тогда это значение логически трактуется, обратно параметру «/». Для корректной компиляции файла robots.txt нужно:

  • четко и последовательно прописывать в параметрах приоритеты;
  • в первую очередь, нужно указывать, что именно должно быть запрещено для индексации.

Синтаксис robots.txt

 Для того, чтобы robots.txt функционировал корректно, нельзя допускать ошибок в его компилировании.

Ошибки в синтаксисе можно сравнить с грамматическими ошибками в тексте, только если в последнем случае его все равно можно прочитать и понять содержание, то неверный синтаксис в robots.txt компьютерная программа просто не воспринимает (а значит, все выставленные вами ограничения не будут работать).

Вот список правил, которым нужно следовать, чтобы не допускать ошибок:

  •       Каждая новая директива должна прописываться в новой строке, причем наличие двух директив в строке – это ошибка.
  •       Строка не может начинаться с пробела.
  •       Директивы не должны оформляться кавычками.
  •       Закрывать директивные параметры с помощью точки с запятой недопустимо.
  •       В строке можно установить комментарий, но только после знака #.
  •       Перевод строки (Enter) трактуется, как окончание директивы User-agent.
  •       В «Disallow» и «Allow» должен указываться только один параметр.
  •       В случае, если директивный параметр – это директория, то перед ее наименованием нужно ставить «/».
  •       Если robots.txt по каким-либо причинам недоступен, то это равносильно отсутствию каких-либо запретов.

Помните, краткость — сестра таланта. Указывайте в robots.txt только самое нужное, и тогда вероятность ошибки будет сведена к минимуму.

Как проверить robots.txt

Даже объем в 30 Кб представляет собой большой массив данных, в котором крайне просто совершить ошибку в синтаксисе. Для ее выявления рекомендуется использовать аналитические онлайн-службы собственных сервисов Google и Яндекс:

как проверить правильность файла роботс.тхт

Предварительно рекомендуется осуществить проверку файла robots.txt на предмет его доступности по указанному адресу. Кроме того, помимо вебмастеров Google и Яндекс в интернете можно найти множество других валидаторов онлайн.

Типичные ошибки в robots.txt

 Какие же ошибки при компилировании файла robots.txt допускаются чаще всего?

  • Вся директива вместе со всеми своими параметрами не умещается в одну строку. В итоге программа признает ее недействительной.
  • После директивы «Disallow: » стоит пустое значение. Это равносильно «Allow: /» – разрешить все.
  • В написании robots.txt используются любые другие символы, кроме строчных латинских букв. (Названия Robots.txt или ROBOTS.TXT недопустимы – программа не будет видеть отсылки к файлу).
  • После «User-agent» перечисляются сразу нескольких директив без наличия пустого перевода строки. В этом случае все остальные директивы, кроме первой, игнорируются.
  • robots.txt должен компилироваться исключительно на английском языке. Иногда при компиляции «проскакивают» символы национальных алфавитов – в этом случае такая директива игнорируется.

Как запретить индексацию: robots.txt «Disallow»

Запрещающей директивой в robots.txt является «Disallow». Ее главным функционалом является запрет индексации сайта или его части. Пример:

            User-agent: *

            Disallow: /

Этот пример иллюстрирует предотвращение индексации всего сайта для всех роботов. В параметрах допустимо использование символов «*» и «$». Они означают:

  • «*» — любое количество любых символов. Пример:

            User-agent: Yandex

            Disallow: /page

            User-agent: Yandex

            Disallow: /page*

  • «$» — с помощью данного символа формируется точное соответствие исключения значению параметра. Пример:

            User-agent: Googlebot

            Disallow: /page$

Если требуется, чтобы индексация страницы была запрещена, то помимо файла robots.txt можно использовать еще и аналогичные html-теги. Пример:

<meta name=«robots» content=«noindex»/> — значение: запрещена индексация содержимого страницы;

<meta name=«robots» content=«nofollow»/> — запрещен переход по ссылкам;

<meta name=«robots» content=«none»/> — запрещена индексация содержимого, а также переход по ссылкам на странице.

Разрешить индексацию: robots.txt «Allow»

«Allow» является противоположностью «Disallow» (разрешающая директива). При этом ее синтаксис сходен с «Disallow». Пример:

            User-agent: *

            Disallow: /

            Allow: /page

Значение примера: запрещено индексировать весь сайт, кроме страниц, которые начинаются с «/page».

Главное зеркало сайта: robots.txt «Host»

Директива «Host» указывает Яндексу на главное зеркало сайта. Она распознается только роботами Яндекса, а основная польза от нее проявляется в том случае, если доступ к вашему сайту осуществляется сразу по нескольким доменным адресам.

Данная директива прописывается в блоке «User-agent: Yandex», а также в качестве параметра, в котором указывается предпочтительный адрес сайта, только без «http://». Пример:

            User-agent: Yandex

            Disallow: /page

            Host: mysite.ru

Главное зеркало имеет доменное имя mysite.ru без www. И в результатах поиска роботом указывается mysite.ru.

            User-agent: Yandex

            Disallow: /page

            Host: www.mysite.ru

Здесь в качестве адреса основного зеркала значится доменное имя www.mysite.ru.

ВАЖНО! «Host» в robots.txt используется только один раз. Если рассматриваемая директива указывается больше, чем один раз, то учитываться будет только первая из них, а остальные игнорируются.

Карта сайта: robots.txt «Sitemap»

При помощи данной директивы в robots.txt указывается расположение на сайте файла, содержащего карту сайта sitemap.xml. Пример:

            User-agent: *

            Disallow: /page

            Sitemap: http://www.mysite.ru/sitemap.xml

Адрессация карты сайта в robots.txt позволяет роботу, осуществляющему поиск, во-первых, узнать о присутствии карты сайта, а во-вторых, начать индексацию данных, содержащихся в ней.

Директива Clean-param

Она исключает из индексации страницы с динамическими параметрами (они выдают одинаковое содержимое, имея различные URL-адреса, которых может быть очень много — миллионы). То есть, получается, будто одна и та же страница доступна сразу по нескольким адресам. Убираем все лишнее! Пример синтаксиса:

            Clean-param: parm1[&parm2&parm3&parm4&..&parmn] [Путь]

Пусть URL будет следующим: www.mysite.ru/page.html?&parm1=1&parm2=2&parm3=3

Тогда запись в robots.txt будет выглядеть следующим образом:

            Clean-param: parm1&parm2&parm3 /page.html # только для page.html

Директива Crawl-delay

Если поисковые роботы слишком часто обращаются к вашему ресурсу, то данная директива вам просто необходима. Она также актуальна для сайтов, в структуре которых содержится большое число страниц. Пример:

            User-agent: Yandex

            Disallow: /page

            Crawl-delay: 3

Значение: мы устанавливаем ограничение для роботов Яндекса на индексацию информационных материалов на нашем ресурсе не чаще, чем один раз в три секунды.

Заключение

Robots.txt является важным и нужным инструментом взаимодействия вашего интернет-ресурса с поисковыми роботами. Помимо прочего, это важный SEO-инструмент, так как он напрямую влияет на выдачу сайта в поисковиках (то есть, речь в итоге идет о популярности ресурса). Фактически от правильной компиляции файла robots.txt зависит эффективность продвижения вашего ресурса в интернете. Уделяйте внимание логической структуре robots.txt, а также корректности синтаксиса и поисковики вас обязательно заметят.

Оцените статью
sitepolice.pro
Добавить комментарий