Что такое robots.txt и с чем его едят?

**alex.sakov** · 13.01.2013, 22:22

Интерактивное руководство Robots.txt

Robots.txt представляет собой обычный текстовый фай, находящийся в корне домена (например, www.example.com / robots.txt). Это является широко признанным стандартом и позволяет веб-мастерам управлять всеми видами настроек их сайте, а не только в поисковых системах.

В дополнение: robots.txt является одним из более доступным в областях SEO, так как Вы можете получить доступ к robots.txt любого сайта. После завершения редактирования этого модуля, вы найдете смысл, убедившись, что вы понимаете файлов robots.txt некоторых крупных сайтах (например, Google и Amazon).
Для каждого из следующих разделов: изменяйте текст в текстовых областях и когда вы увидеть их зелеными вы получите правильный ответ.

Основные положения

Наиболее распространенный вариант использования robots.txt, для того, чтобы блокировать роботам доступ к определенным страницам. Самый простой вариант применяется как правило для всех роботов говоря User-Agent: *. Последующие строки содержат конкретные исключения, которые работают аккумулятивно, поэтому приведенный ниже код блоков роботов доступа / secret.html.

Добавить еще одно правило для блокирования доступа к /secret2.html в дополнение к /secret.html.

User-agent: *
Disallow: /secret.html

Исключить каталоги

Если вы в конечном исключете директиву с косой чертой ("/"), такие как Disallow: /private/, то все, что в каталоге будет заблокировано.

Измените правила исключения ниже, чтобы заблокировать папку под названием /private/ вместо страницы secret.html.

User-agent: * Disallow: /secret.html

Разрешить конкретные пути

В дополнение к запрету конкретных путей, синтаксис robots.txt позволяет позволяющие конкретных путей. Отметим, что позволяет роботу доступ в состояние по умолчанию, так что если нет никаких правил в файл, все пути допускается.
Покажем это путем изменения исключение / Secret / папки ниже, с возможностью: правило, разрешающее / Secret / не-secret.html. Поскольку это правило длиннее, она будет иметь приоритет.

User-agent: * Disallow: /secret/

Ограничение конкретных браузеров

Все директивы мы работали с были одинаково применяться ко всем роботам. Это определяется User-Agent: *, который начинается наши команды. Заменив *, однако, мы можем разработать правила, которые относятся только к конкретным именем роботов.

Замените * с Googlebot в примере ниже, чтобы создать правило, которое применимо только к роботу Google.

User-agent: * Disallow: /secret/

Добавить несколько блоков

Можно иметь несколько блоков команд, предназначенных для различных наборов роботов. Robots.txt пример ниже позволит Googlebot доступ ко всем файлам, за исключением тех, в / секрет / и будет блокировать все другие роботы со всего сайта. Отметим, что поскольку существует множество директив, направленных на явно Googlebot, Googlebot будет полностью игнорировать директивы, направленные на всех роботов. Это означает, что вы не можете создать свой исключения из базы общих исключений. Если вы хотите, чтобы целевая имени роботов, каждый блок необходимо указать все свои правила.

Добавьте второй блок директив, ориентированные на всех роботов (User-Agent: *), который блокирует весь сайт (Disallow: /). Это позволит создать файл robots.txt, который блокирует весь сайт из всех роботов, кроме Googlebot, которые могут сканировать страницы, кроме тех, в / Secret / папки.

User-agent: googlebot Disallow: /secret/

Использование более конкретных браузеров

Есть случаи, когда вы хотите контролировать поведение конкретных сканеров, таких как изображения гусеничных Google, в отличие от основной Googlebot. Для того, чтобы включить это в robots.txt, эти сканеры будут выбирать для прослушивания самые конкретные строку агента пользователя, что к ним относится. Так, например, если есть блок инструкций для Googlebot и один для Googlebot-изображения, то изображение сканер будет подчиняться последним набором директив. Если нет определенного набора инструкций для Googlebot-образы (или любой другой специалист Googlebots), они будут подчиняться директивам регулярные Googlebot.

Обратите внимание, что сканер будет только когда-либо подчиняться один набор директив - нет концепции совокупности применение директив в разных группах.

Учитывая следующий robots.txt, Googlebot-изображения будут подчиняться директивам Googlebot (другими словами, не будет искать / Secret / папки. Изменить это так, что инструкции по Googlebot (и Googlebot-News т.д.) остаются теми же, но Googlebot- изображение имеет определенный набор директив означает, что он не будет сканировать / Secret / папки или /copyright/ папки:

User-agent: googlebot Disallow: /secret/

Основные шаблоны

Трейлинг маски (обозначены *) игнорируются так Disallow: / e-mail * такое же, как Disallow: / частных. Шаблоны полезны, однако для сопоставления нескольких видов страниц одновременно. Звезды знак (*) соответствует 0 или более экземпляров любой действительный характер (в том числе /,?, И т.д.).

Например, Disallow: новости * HTML блоков.:

news.html
news1.html
news1234.html
newsy.html
news1234.html? ID = 1
Но не блокируется:

newshtml отметить отсутствие "."
News.html матчей чувствительны к регистру
/ Каталог / news.html
Измените следующую схему, чтобы блокировать только те страницы, окончание HTML в блог каталог, а не весь каталог блогов.:

User-agent: * Disallow: /blog/

Заблокировать определенные параметры

Один из распространенных вариантов использования масок, чтобы заблокировать определенные параметры. Например, один из способов обработки навигации, чтобы заблокировать комбинации из 4 или более аспектов. Один из способов сделать это, чтобы ваша система добавить параметр для всех комбинаций 4 + аспектов, таких как? Ползать = нет. Это означает, например, что URL-адреса в течение 3 граней может быть / facet1/facet2/facet3 /, но что, когда четвертый добавила, это становится / facet1/facet2/facet3/facet4 /? Ползать = нет.

Роботы правило, которое блокирует это должно выглядеть для сканирования * = нет (не *? Ползать = нет, потому что строки запроса? Рода = Asc и сканирование = не будет действительным).

Добавить Disallow: правила robots.txt ниже, чтобы предотвратить любые страницы, которые содержат обхода = нет обхода.

User-agent: * Disallow: /secret/

Другие имена файлов

Как мы видели в папку исключений (где шаблону, как / частных / будет соответствовать пути файлы, содержащиеся в этой папке, такие как / частных / privatefile.html), по умолчанию модели мы указали в файле robots.txt рады соответствует лишь части имени файла и позволяйте ничему потом даже без явного маски.

Есть моменты, когда мы хотим иметь возможность обеспечить шаблону полное имя файла (с или без маски). Например, следующий файл robots.txt выглядит она предотвращает JPG файлы из сканирования, но на самом деле хотел бы также предотвратить файл с именем объяснение-в-.jpg.html из сканирования, потому что также соответствует шаблону.

Если вы хотите, чтобы соответствовать шаблону в конце имени файла, то мы должны покончить с $ знак, который означает "конец строки". Например, изменение исключение из Disallow: / private.html к Disallow: / private.html $ остановит шаблону / private.html рода = подъем и, следовательно, допустить, что страницы для сканирования?.

Изменить рисунок ниже, чтобы исключить актуальной. JPG файлов (то есть те, которые заканчиваются на. JPG).

User-agent: * Disallow: *.jpg

Добавить XML Sitemap

В последней строке во многих файлах robots.txt является директива указания местоположения XML карты сайта сайта. Есть много хороших причин для включения сайта для вашего сайта, а также о включении его в файле robots.txt. Вы можете прочитать больше о XML карты сайта здесь.

Можно указать местоположение вашего сайта с помощью директивы вида сайта: <path>.

Добавить директиву Sitemap в следующем robots.txt для сайта называется моя-sitemap.xml, который можно найти на http://www.distilled.net/my-sitemap.xml.

User-agent: * Disallow: /private/

Добавить карту сайта

В самом деле, вы можете добавить несколько XML карты сайта (каждый по своей линии) с использованием этого синтаксиса. Идите вперед и изменить robots.txt ниже, чтобы также включать в себя видео карта называется моя-видео-sitemap.xml, который живет в / моя-видео-sitemap.xml.

User-agent: * Disallow: /private/ Sitemap: /my-sitemap.xml

**Poliart** · 13.01.2013, 22:59

Добавить карту сайта

В самом деле, вы можете добавить несколько XML карты сайта (каждый по своей линии) с использованием этого синтаксиса. Идите вперед и изменить robots.txt ниже, чтобы также включать в себя видео карта называется моя-видео-sitemap.xml, который живет в / моя-видео-sitemap.xml.

User-agent: * Disallow: /private/ Sitemap: /my-sitemap.xml

Гугл транслэйт?

**Admin** · 13.01.2013, 23:31

Ну хоть Полиарту хватило терпения всё это прочитать

Я не осилил - моего внимания хватило только лишь для того, чтобы изменить в заголовке (!) robot.txt на robots.txt

Господа конкурсанты, имейте совесть - просмотрите хотя бы несколько страниц с конкурсными темами. Внизу на главной есть удобная навигация по страницам. Там в явном виде представлен уровень статей, соответствующий нашему форуму:

**creativius** · 14.01.2013, 02:58

Нужен Раздел - СЕО юмор или Перлы на ребиллми

**Poliart** · 14.01.2013, 03:03

Сообщение от Admin

Ну хоть Полиарту хватило терпения всё это прочитать

Я не осилил - моего внимания хватило только лишь для того, чтобы изменить в заголовке (!) robot.txt на robots.txt

Господа конкурсанты, имейте совесть - просмотрите хотя бы несколько страниц с конкурсными темами. Внизу на главной есть удобная навигация по страницам. Там в явном виде представлен уровень статей, соответствующий нашему форуму:

а зря не дочитали, я например узнал о существовании

изображения гусеничных Google

**WAR10CK** · 14.01.2013, 03:28

Сообщение от alex.sakov

После завершения редактирования этого модуля, вы найдете смысл, убедившись, что вы понимаете файлов robots.txt некоторых крупных сайта

мой мозг)))

**Матрос** · 14.01.2013, 14:59

Сообщение от alex.sakov

Для того, чтобы включить это в robots.txt, эти сканеры будут выбирать для прослушивания самые конкретные строку агента пользователя, что к ним относится

Что ни фраза, то перл. Тема хорошая, но хотя бы перечитал ее и пересказал своими словами, а то даже понять трудно

**mrsambuka** · 15.01.2013, 10:28

У меня такое чувство, что статья или делалась в Гугл транслэйт или автор - пятиклассник. Безграмотность жуткая.