Ответ
Как массово удалить страницы из индекса Google Опции темы
Старый 20.03.2015, 17:04
  #1
Nataly
 
Регистрация: 29.07.2014
Сообщений: 474

Как массово удалить страницы из индекса Google
Google предоставляет несколько способов деиндексации страниц, т.е. удаления страницы из индекса. Проблема заключается в том, что, несмотря на некоторые серьезные улучшения в скорости сканирования и индексации, Google довольно медленно деиндексирует страницы и принимает меры в отношении канонических тегов.

Мы знаем, что тег <meta robots=”noindex”> уберет URL-адреса из индекса, но вам придется подождать, пока Google просмотрит их. Наш журнал веб-сервера показывает, что Google не всегда действуют быстро, даже если страницы были просмотрены пауком. Вот вам и директивы!

Мы также знаем, что в инструментах для веб-мастеров Google есть инструмент для «удаления URL-адреса», но он не позволяет сделать запрос на массовое удаление. Robots.txt файл также не обязательно удалит страницы из индекса. Он только не позволит Google просматривать страницы. Но закрытые для роботов страницы по-прежнему индексируются. В большинстве случаев вы даже увидите этот прелестный сниппет:





Отклик 404 в конечном итоге деиндексирует страницу, но только после того, как Google несколько раз проверит, на самом ли деле страница исчезла. Так как «Google имеет большую память», самый быстрый способ удаления страницы с заголовком ответа – использовать ошибку 410 (страница удалена) вместо 404.

Какая самая большая проблема, связанная со всеми этими методами? Они очень медленные. Не говоря уже о том, что некоторые из них нельзя масштабировать.

Если вы хотите получить более быстрый результат, я придумал способ, который, кажется, работает немного быстрее.

1. Соберите вместе все страницы, которые вы хотите деиндексировать

2. Добавьте тег <meta robots=”noindex”>

3. Создайте XML Sitemap файл только с этими URL-адресами

4. Сообщите о XML Sitemap файле Google

5. Подождите

6. Удалить файл sitemap, когда закончите

Пошаговая инструкция

Шаг 1 и Шаг 2 довольно понятны. Рассмотрим пример. У нас недавно был клиент, тестировавший динамические посадочные страницы. Он понятия не имел, что 30000 «тестовых» страницы, которые он создал нажатием кнопки, были доступны Google.

Увидев внезапный всплеск в инструментах для веб-мастеров, мы обнаружили это, но было уже слишком поздно. Google увидел их, и, вероятно, не забыл бы о них так же быстро, как и узнал.

В данном случае проще всего было бы добавить тег <meta robots=”noindex,nofollow”> на динамический шаблон, но эти страницы были глубоко в индексе. Google должен был вернуться ко всем 30000 страницам, что заняло бы много времени. Мы хотели закрыть путь к ним, чтобы пользователи не находили их, что только увеличило время на их пересмотр Google.

В этом случае существовала уникальная структура папок - www.client.com/lp/test/dynamicpage1. Позволив Screaming Frog просмотреть сайт, мы смогли собрать весь «текст» URL-адресов довольно быстро. Если у вас нет уникального футпринта URL-адреса, возможно имеется ключевое слово или часть уникального кода, который может вызвать эти страницы. Настраиваемый фильтр (Configuration > Custom) позволяет вытащить страницы с определенным ключевым словом в любом месте исходного кода.





Вполне возможно, что вы уже просматривали много страниц за пределами того, на что нацелились, поэтому вам может понадобиться немного почистить Excel-файл.

Экспортируйте и фильтруйте данные в Excel-файле по мере необходимости (некоторые из вас могли бы настроить регулярное выражение с помощью функций «include» и «URL rewriting» сервиса Screaming Frog, чтобы создать настраиваемый просмотр и пропустить этот шаг). Затем просто загрузите очищенный список URL-адресов, используя режим списка Screaming Frog.

Далее загрузите новый XML sitemap файл. Сделайте себе одолжение и дайте ему смысловое имя. Мгновенно вы увидите отсчет «отправленных» страниц (синяя линия). Теперь подождите.





Через несколько часов вы получите свой первый краткий обзор индексации. Я в действительности не знаю, насколько точны эти «красные» цифры - я склонен воспринимать данные в инструментах для веб-мастеров Google с огромным недоверием. Но, это та тенденция, в которой мы действительно заинтересованы.





Согласно этому изображению, из всех страниц, которые я хочу убрать из индексации Google, на данный момент проиндексирована 81 страница.

Это говорит о том, что Google не обязательно быстро действует в отношении новых представленных URL-адресов. Если бы это было не так, я бы получил ноль проиндексированных страниц вместо 81.

Другими словами, Google говорит, «спасибо за страницы - вот ваши текущие данные по индексации страниц. Я просмотрю их позже...». Почему я должен этому верить? Просто потому, что директива <meta robots=”noindex”> на всех этих страницах не была выполнена.

Время проверки

Прошло уже несколько дней, настало время зайти в инструменты для веб-мастеров и посмотреть, как продвигается наш проект:





К сожалению Google до сих пор не отреагировал в отношении 81 URL-адреса, помеченных в sitemap файле тегом <meta robots=”noindex”>. Не расстраивайтесь - это не редкость.

Сейчас прошло еще 4 дня, и мы наконец-то начинаем видеть какую-то активность. 10 страниц удалено.





По прошествии еще 5 дней количество страниц вновь уменьшилось. Я собираюсь заканчивать этот пост, но я думаю, что тенденция говорит сама за себя.





Последний шаг

Важно продолжать наблюдать. После того, как число страниц сведется к нулю, очистите кампанию. Удалить sitemap файл с сайта и инструментов для веб-мастеров Google. Вы заметите, что статус индексирования в конечном счете также отразит это.
Нравится 0   Не нравится 0
Пожаловаться на это сообщение 0  
Ответить с цитированием

Ответ
 
 

Похожие темы
Тема Автор Раздел Ответов Последнее сообщение
Google полностью выбросил из индекса Rapidgator Alsu Файлообмен 42 26.12.2013 14:38
Оптимизация фан страницы в Facebook Poliart Статьи 0 07.12.2012 20:35
Google использует адрес страницы вместо заголовка Admin Статьи 0 04.12.2012 17:44
Как удалить оставшийся текст в сроке kuper Вопросы 2 28.05.2012 12:14
Скрипт для защиты страницы creativius Хостинг 5 23.05.2012 02:34

Метки
деиндексация, индекс google, поисковые роботы, поисковые роботы google, статус индексирования


Здесь присутствуют: 1 (пользователей: 0, гостей: 1)
 
Опции темы

Быстрый переход


Текущее время: 14:56. Часовой пояс GMT +3.