Ответ
Internet Archive будет игнорировать robots.txt Опции темы
Старый 27.04.2017, 09:55
  #1
slavegirl
 
Аватар для slavegirl
Регистрация: 16.09.2012
Сообщений: 4,810

Internet Archive будет игнорировать robots.txt



Интернет-сайт — это обычный набор файлов и папок, который лежит на сервере. Среди этих файлов почти всегда есть один, который называется robots.txt, его размещают в корне. Он служит для инструктирования «пауков», его настраивают для того, чтобы поисковые роботы понимали, что можно сканировать, а что нет. В ряде случаев веб-мастера закрывают при помощи таких инструкций дублирующийся контент (теги, категории и т.п.) для улучшения SEO-показателей, кроме того, защищают от роботов и данные, которые не должны по какой-либо причине оказаться в сети.

Идея с robots.txt появилась более 20 лет назад и с тех пор, хотя различные настройки для различных поисковых ботов менялись, все работает так же, как и много лет назад. Инструкций, сохраненных в этом файле, слушаются почти все поисковики, а также бот Internet Archive, который бродит по интернету в поисках информации для архивации. Сейчас разработчики сервиса считают, что пришло время перестать обращать внимание на то, что размещено в robots.txt.

Проблема в том, что во многих случаях домены брошенных сайтов «дропаются», то есть не продлеваются. Или просто содержимое ресурса уничтожается. Затем такие домены «паркуются» (с самой разной целью, включая получение денег за размещаемую на припаркованном домене рекламу). Файлом robots.txt веб-мастера обычно закрывают все содержимое припаркованного домена. Хуже всего то, что когда робот Internet Archive видит в файле инструкцию по закрытию директории от индексации, он удаляет уже сохраненный контент для сайта, который раньше находился на этом домене.

Другими словами, был сайт в базе Internet Archive, и нет его, хотя владелец домена уже другой, а содержимое сайта, сохраненное сервисом, давно кануло в Лету. В итоге удаляются уникальные данные, которые вполне могли представлять собой большую ценность для определенной категории людей.

Internet Archive создает «снимки» сайтов. Если сайт существует в течение определенного количества времени, таких «снимков» может быть много. Так что историю развития различных сайтов можно отследить от самого начала до новейшей версии. Пример тому — rebill.me. При блокировании доступа ботам к сайту при помощи robots.txt отследить его историю или получить хоть какую-то информацию становится невозможным.

Несколько месяцев назад сотрудники Internet Archive прекратили отслеживать инструкции в указанном файле на государственных сайтах США. Этот эксперимент прошел успешно и теперь бот Internet Archive прекратит обращать внимание на инструкции в robots.txt для любых сайтов. Если же веб-мастер захочет удалить содержимое своего ресурса из архива, он может обратиться к администрации Internet Archive по почте.

Пока что разработчики будут отслеживать поведение робота и работу самого сервиса в связи с грядущими изменениями. Если все будет хорошо, то эти изменения сохранят.


Оригинал статьи: https://geektimes.ru/post/288512/
Нравится 0   Не нравится 0
Пожаловаться на это сообщение 0  
Ответить с цитированием

Ответ
 
 

Похожие темы
Тема Автор Раздел Ответов Последнее сообщение
Google xml sitemaps 4 проблемы с robots.txt для WP P1otr Вопросы 3 01.02.2015 21:18
У Apple будет свой PayPal Strike Финансы 10 30.01.2014 13:31
Internet-shop ждёт пятиминутное чекообразование Hydra Аналитика 11 24.01.2014 14:23
Что такое robots.txt и с чем его едят? alex.sakov Статьи 7 15.01.2013 09:28
Zip-archive Платные архивы (Подписки по всем ОСС) zibik Партнёрки 3 27.06.2012 16:58

Метки
robots.txt, wayback machine, интернет архив


Здесь присутствуют: 1 (пользователей: 0, гостей: 1)
 
Опции темы

Быстрый переход


Текущее время: 13:32. Часовой пояс GMT +3.