Регистрация: 30.07.2014
Сообщений: 474
|
Как массово удалить страницы из индекса Google
|
Google предоставляет несколько способов деиндексации страниц, т.е. удаления страницы из индекса. Проблема заключается в том, что, несмотря на некоторые серьезные улучшения в скорости сканирования и индексации, Google довольно медленно деиндексирует страницы и принимает меры в отношении канонических тегов.
Мы знаем, что тег <meta robots=”noindex”> уберет URL-адреса из индекса, но вам придется подождать, пока Google просмотрит их. Наш журнал веб-сервера показывает, что Google не всегда действуют быстро, даже если страницы были просмотрены пауком. Вот вам и директивы!
Мы также знаем, что в инструментах для веб-мастеров Google есть инструмент для «удаления URL-адреса», но он не позволяет сделать запрос на массовое удаление. Robots.txt файл также не обязательно удалит страницы из индекса. Он только не позволит Google просматривать страницы. Но закрытые для роботов страницы по-прежнему индексируются. В большинстве случаев вы даже увидите этот прелестный сниппет:
Отклик 404 в конечном итоге деиндексирует страницу, но только после того, как Google несколько раз проверит, на самом ли деле страница исчезла. Так как «Google имеет большую память», самый быстрый способ удаления страницы с заголовком ответа – использовать ошибку 410 (страница удалена) вместо 404.
Какая самая большая проблема, связанная со всеми этими методами? Они очень медленные. Не говоря уже о том, что некоторые из них нельзя масштабировать.
Если вы хотите получить более быстрый результат, я придумал способ, который, кажется, работает немного быстрее.
1. Соберите вместе все страницы, которые вы хотите деиндексировать
2. Добавьте тег <meta robots=”noindex”>
3. Создайте XML Sitemap файл только с этими URL-адресами
4. Сообщите о XML Sitemap файле Google
5. Подождите
6. Удалить файл sitemap, когда закончите
Пошаговая инструкция
Шаг 1 и Шаг 2 довольно понятны. Рассмотрим пример. У нас недавно был клиент, тестировавший динамические посадочные страницы. Он понятия не имел, что 30000 «тестовых» страницы, которые он создал нажатием кнопки, были доступны Google.
Увидев внезапный всплеск в инструментах для веб-мастеров, мы обнаружили это, но было уже слишком поздно. Google увидел их, и, вероятно, не забыл бы о них так же быстро, как и узнал.
В данном случае проще всего было бы добавить тег <meta robots=”noindex,nofollow”> на динамический шаблон, но эти страницы были глубоко в индексе. Google должен был вернуться ко всем 30000 страницам, что заняло бы много времени. Мы хотели закрыть путь к ним, чтобы пользователи не находили их, что только увеличило время на их пересмотр Google.
В этом случае существовала уникальная структура папок - www.client.com/lp/test/dynamicpage1. Позволив Screaming Frog просмотреть сайт, мы смогли собрать весь «текст» URL-адресов довольно быстро. Если у вас нет уникального футпринта URL-адреса, возможно имеется ключевое слово или часть уникального кода, который может вызвать эти страницы. Настраиваемый фильтр (Configuration > Custom) позволяет вытащить страницы с определенным ключевым словом в любом месте исходного кода.
Вполне возможно, что вы уже просматривали много страниц за пределами того, на что нацелились, поэтому вам может понадобиться немного почистить Excel-файл.
Экспортируйте и фильтруйте данные в Excel-файле по мере необходимости (некоторые из вас могли бы настроить регулярное выражение с помощью функций «include» и «URL rewriting» сервиса Screaming Frog, чтобы создать настраиваемый просмотр и пропустить этот шаг). Затем просто загрузите очищенный список URL-адресов, используя режим списка Screaming Frog.
Далее загрузите новый XML sitemap файл. Сделайте себе одолжение и дайте ему смысловое имя. Мгновенно вы увидите отсчет «отправленных» страниц (синяя линия). Теперь подождите.
Через несколько часов вы получите свой первый краткий обзор индексации. Я в действительности не знаю, насколько точны эти «красные» цифры - я склонен воспринимать данные в инструментах для веб-мастеров Google с огромным недоверием. Но, это та тенденция, в которой мы действительно заинтересованы.
Согласно этому изображению, из всех страниц, которые я хочу убрать из индексации Google, на данный момент проиндексирована 81 страница.
Это говорит о том, что Google не обязательно быстро действует в отношении новых представленных URL-адресов. Если бы это было не так, я бы получил ноль проиндексированных страниц вместо 81.
Другими словами, Google говорит, «спасибо за страницы - вот ваши текущие данные по индексации страниц. Я просмотрю их позже...». Почему я должен этому верить? Просто потому, что директива <meta robots=”noindex”> на всех этих страницах не была выполнена.
Время проверки
Прошло уже несколько дней, настало время зайти в инструменты для веб-мастеров и посмотреть, как продвигается наш проект:
К сожалению Google до сих пор не отреагировал в отношении 81 URL-адреса, помеченных в sitemap файле тегом <meta robots=”noindex”>. Не расстраивайтесь - это не редкость.
Сейчас прошло еще 4 дня, и мы наконец-то начинаем видеть какую-то активность. 10 страниц удалено.
По прошествии еще 5 дней количество страниц вновь уменьшилось. Я собираюсь заканчивать этот пост, но я думаю, что тенденция говорит сама за себя.
Последний шаг
Важно продолжать наблюдать. После того, как число страниц сведется к нулю, очистите кампанию. Удалить sitemap файл с сайта и инструментов для веб-мастеров Google. Вы заметите, что статус индексирования в конечном счете также отразит это.
|