Ответ
Перенос сайта: что влияет на позиции в поиске Опции темы
Старый 03.11.2016, 14:21
  #1
Nataly
 
Регистрация: 29.07.2014
Сообщений: 474

Перенос сайта: что влияет на позиции в поиске
Ранее в этом году Gary Illyes из Google заявил, что 30х редиректы (301, 302 и т. д.) не приводят к потере или уменьшению PageRank. Как уже можно понять, многие сеошники встретили это заявление с изрядной долей скептицизма.

На последнем вебинаре Webmaster Central Office Hours Hangout я спросил у John Mueller из Google возможно ли, что данный скептицизм возник из-за того, что когда оптимизаторы теряли видимость во время переезда сайта, они не понимали, что все сигналы, влияющие на ранжирование, просто еще не перешли к новой странице, и думали, что PageRank был потерян.

Ответ Mueller:

«Да, я имею в виду, что когда вы проводите большие изменения на сайте: внедряете множество редиректов URL-адресов, переходите с одного домена на другой, меняете структуру сайта, вы должны понимать, что на отслеживание всего этого поисковым роботом требуется время. Таким образом, мы можем следовать за всеми изменениями довольно быстро, мы определенно можем переадресовывать все сигналы, но это не значит, что это произойдет в один день».

Во время переноса робот должен собрать огромное количество данных для сортировки в логах, отображающихся и обновляемых внутренне, и позиции могут колебаться на протяжении всего этого процесса. Но в дополнение к этому, «когда» робот посещает страницы, играет основополагающую роль в колебании позиций во время переноса, и поэтому это может быть связано с «URL scheduling», ключевым компонентом бюджета сканирования (crawl budget).

Бюджет сканирования = Host load + URL scheduling

«URL scheduling» - это, по сути, «Какие страницы будет посещать Googlebot (URL-адреса) и как часто?» Понятие «host load», с другой стороны, базируется вокруг ответа на вопрос: «Сколько страниц робот может посетить на IP/хостинге в зависимости от возможностей и ресурсов сервера?» Вместе все это составляет бюджет сканирования для IP или хостинга. Оба эти момента играют важную роль при переносе адресов.

На сайте, состоящем из 10 страниц, потери видимости не будут ощутимы. Но что если мы имеем дело с интернет-магазином или новостным сайтом с десятками и даже сотнями тысяч или более URL-адресов? Или что если вы решите объединить несколько сайтов в один на одном и том же IP?

Чтобы все изменения были учтены, как минимум, необходимо, чтобы робот обошел весь сайт. На это даже может потребоваться несколько полных обходов сайта, так как с каждым разом робот получает все больше информации о каждом URL-адресе и о том, как все устроено и взаимосвязано внутри сайта.

На больших сайтах это может не сработать так скоро, как вы надеетесь. Вы, вероятно, просканировали сайт с помощью любимого инструменты для обхода сайта и уверены, что проблем нет. Но потом позиции и общая видимость начинают падать. Что могло пойти не так?

Возможно, есть какие-то проблемы с переносом сайта, но подумайте о таком варианте: возможно, ничего не случилось. Может быть, часть сигналов, которые не были переданы, просто запаздывают, и их передача находится в процессе, но это не значит, что они потеряны.

Для передачи некоторых сигналов требуется несколько месяцев. Почему? Потому что Googlebot не обходит крупные сайты так, как это делают специальные инструменты для обхода, и подобным сервисам почти невозможно эмитировать этот процесс.

Расписание переноса сайта не совпадает с расписанием обхода страниц роботом Google

У вас есть график переноса сайта. Это не означает, что Googlebot будет идти с ним в ногу. У роботов Google есть свои собственные графики работы. Частота обхода URL-адресов зависит от каждого конкретного URL-адреса. John Mueller из Google подтверждает это, говоря следующее:

«Некоторые URL-адреса обходятся каждые несколько минут, другие каждые пару месяцев, а частота обхода многих находится где-то посередине».

Хотя Google утверждает, что существует множество факторов, влияющих на частоту обхода URL-адресов, в одном из недавних вебинаров Gary Illyes сослался на «scheduling» и «buckets» URL-адресов, заранее подготовленных для робота.

Поэтому мы знаем, что расписание обхода существует. Это также подтверждается множеством патентов Google по эффективности обхода. Стоит отметить, что частота обхода основана не только на показателе PageRank. Как Andrey Lipattsev, так и Gary Illyes отмечали в последнее время в разных вебинарах, что PageRank – это не единственный фактор, влияющий на частоту обхода или ранжирование сайта. Lipattsev говорит: «Этот показатель (PageRank) стал лишь одним из очень многих факторов».

«Важность» страницы имеет значение

Я не собираюсь извиняться за мое злоупотребление словом «важно», потому что было подтверждено, что график обходов обусловлен, в основном, «важностью» страниц. На самом деле, Gary Illyes говорил об этом в недавнем интервью с Eric Enge, где он отмечает, что мы не должны концентрироваться на PageRank в качестве единственного фактора для обхода или ранжирования.

Многие патенты Google имеют отношение к показателю Page Importance и отмечают, что он «может включать в себя значение PageRank», но понятно, что PageRank является лишь его частью. Так что понятия Page Importance и PageRank не одинаковы, но одно из них (Importance) может включать другое (PageRank). Мы знаем лишь то, что важные страницы сканируются чаще.

Итак, что такое Page Importance?

Конечно, Google не расскажет, что представляет собой Page Importance, но ряд патентов Google, связанных с эффективностью обхода страниц и управлением URL-адресами, касаются этой темы.

Вот несколько моих выводов, сделанных на основе патентов, вебинаров, Google Webmaster Hangouts, старых интервью, постов в блогах и справки в Google Search Console. Просто чтобы стало ясно, несомненно, существует гораздо больше факторов, и только некоторые из перечисленных ниже были подтверждены Google.





Существуют и другие подсказки о важности страницы (Page Importance):

• Недавно Gary Illyes упомянул в вебинаре «Virtual Keynote» с Eric Enge, что если страница включена в XML карту сайта, скорее всего, она будет считаться более важной, чем другие, не включенные в нее.

• Мы знаем, что атрибут hreflang и канонизация используются в качестве сигналов.

• Как упоминалось выше, показатель PageRank «может быть включен в Page Importance».

• В Search Console Help Center внутренние ссылки определяются, как «сигнал для поисковых систем об условной важности этой страницы».

• Matt Cutts, бывший глава Google по борьбе с веб-спамом, рассказал о том, что поисковые системы понимают важность страницы на основании их положения в уровнях параметра URL. Illyes также использует примеры страниц «О нас» и «Главной страницы, которая часто меняется», как имеющих различные уровни важности для пользователей, которые хотят ознакомиться с новым контентом. Страница «О нас» не сильно изменится.

• Типы файлов и типы страниц также упоминаются в патентах, и мы знаем, что, например, изображения обходятся реже, чем другие URL-адреса, потому что они не так часто меняются.

Частота изменений/новизна также важна

Единственное, что мы знаем, что частота изменений влияет на частоту обхода. URL-адреса все время меняются в интернете. Сохранение вероятности затруднения (embarrassment) со стороны поисковых систем (далее «embarrassment metric») через предоставление устаревшего контента в поисковой выдаче ниже допустимых пороговых значений является ключевым моментом, и им необходимо эффективно управлять.

Большинство научных публикаций об эффективности обхода веб-страниц и поиске информации, материалы конференций и даже патенты приписывают термин «search engine embarrassment» этому патенту.

Для борьбы с «embarrassment» (возвращение устаревшего контента в результатах выдачи), системы планирования строятся для того, чтобы устанавливать приоритеты обхода важных страниц и важных страниц, которые часто меняются по сравнению с менее важными страницами с незначительными изменениями или с низким авторитетом.

Эти ключевые страницы имеют самую высокую вероятность быть просмотренными пользователями поисковых систем по сравнению с теми страницами, которые не часто встречаются на страницах результатов поиска.

John Mueller:

«В целом, мы стараемся осуществить обход страниц, основываясь на том, что мы полагаем, что эта страница может измениться или на том, как часто она может меняться. Поэтому, если мы думаем, что что-то остается неизменным в течение более длительного периода времени, мы можем не посещать это место пару месяцев».



Это означает, что важная частота изменения веб-страниц познается поисковыми системами с течением времени путем сравнения текущей и предыдущей версии страницы для того, чтобы обнаружить закономерности допустимой частоты изменений.

Акцент делается на том, насколько важны изменения на странице для пользователей поисковых систем, а также насколько важны сами по себе эти страницы для людей (показатель Page Importance, который может включать PageRank).

Почему робот не может посетить все перемещенные страницы сразу?

Из вышесказанного можно сделать вывод, что робот в основном заходит на сайт с определенной целью, у него есть план сканирования (work schedule) и список адресов (bucket list), которые нужно обойти в ходе визита. URL-адреса в списке были назначены с помощью The Scheduler (программы-планировщика) в поисковой системе Google, если верить в многочисленные патенты Google по эффективности обхода сайта (см. рисунок).





Я говорю «в основном», потому что первоначальный обход новых сайтов проводится иначе. Еще нет понимания того, что содержится по данному адресу, поэтому для робота нет никакой информации: ни прошлых версий URL-адреса, ничего, с чем бы планировщик мог провести сравнение.

Когда поисковый робот приходит на сайт, если IP (хост) не имеет проблем со скоростью подключения или сервер не выдает ошибки в ходе визита, он проходит по установленному списку адресов и проверяет, нет ли чего-либо более важного, чем URL-адреса в первоначальном списке, что также нужно просканировать, собрав нужную информацию.

Если это так, то Googlebot может пойти немного дальше и также просканировать эти другие важные URL-адреса. Если ничего важного не было обнаружено, робот возвращает другой список для посещения на сайте в следующий раз.

Когда поисковый робот приходит на сайт, а вы решили осуществить перенос страниц, он не был предупрежден об этом. У него уже был запланирован список URL-адресов, которые нужно обойти на вашем сайте, и это могут быть важные URL-адреса (с ожидаемыми важными изменениями для пользователей поисковых систем), которые Googlebot все еще хочет посетить в данной ситуации. Эти URL-адреса по-прежнему должны иметь приоритет.

Робот, вероятно, не захочет посещать все новые перенаправления URL-адресов сразу, потому что не все страницы будут иметь одинаковую значимость, и нельзя ожидать, что на них произойдут какие-либо полезные изменения в течение некоторого времени (и поэтому их сканирование не будет запланировано). Скорее всего, поисковик отметит, что перенос идет полным ходом. Перенаправления URL-адресов, которые робот пришел посетить, будут пройдены, и все коды ответа сервера просканированных страниц будут занесены в журнал статусов и history logs.

Если поисковый робот пройдет по множеству кодов ответа редиректов, он, вероятно, пошлет сигнал: «Эй, здесь имеется какой-то перенос, который ведет туда», в результате чего планировщик отреагирует на это соответствующим списком адресов для обхода. Вот что говорит по этому поводу John Mueller:

«Обычно когда мы видим, что сайт переезжает, мы стараемся сделать обход немного быстрее, чтобы уловить все изменения».

Они делают это потому, что хотят все «наверстать». Однако это не означает, что все будет просканировано сразу, или что все это стоит «наверстывать» одновременно. По большей части, только самые важные перенесенные адресы будут просканированы в качестве приоритетных, и, возможно, это будет осуществляться чаще, чем обычно.

Просто для того, чтобы убедиться, что все (несколько сигналов), связанное с этими важными «новыми» адресами было схвачено. Безусловно, важность страницы и частота ее изменений являются не единственными факторами, влияющими на то, когда URL-адрес будет посещен. Рассмотрим ряд других.

Ограниченные ресурсы поисковой системы

Интернет растет гораздо более быстрыми темпами, чем ресурсы, имеющиеся у поисковых систем. Например, число сайтов в интернете выросло на треть в период между 2013 и 2014 годами. Существующие ресурсы и емкость поисковых систем должны быть все чаще разделены среди IP-адресов (хостов) и размещенных на них сайтов для проведения обхода.

Нагрузка на хост

Каждый IP (хост) имеет определенную ёмкость подключения, с которой он может справиться. С течением времени поисковая система выясняет, с каким объемом подключений может справиться ваш хост или IP, и составляет график посещений в соответствии с этими знаниями.

Если сайт размещен на виртуальном хостинге, виртуальном IP или в сети доставки контента (CDN, content delivery network), это также будет играть свою роль, так как «нагрузка на хост» будет изучена и поделена между другими сайтами на том же IP. Робот совершает обход таким образом, чтобы не повредить серверу.

Очереди URL-адресов и низкая важность переносимых страниц

Существует два типа очередей в плане обхода. Во-первых, есть очередь сайтов (строго говоря, это очередь IP/хостов). Во-вторых, есть очередь страниц/URL-адресов для сканирования на отдельных сайтах или на IP-адресе (хосте).

Очередь хостов (IP-адресов и сайтов, входящих в его состав) во многом зависит от «нагрузки на хост» (host load). Какое количество соединений может выдержать хост? Если имеются задержки в соединении или коды ошибок сервера, Googlebot может даже отдать приоритет сканированию наиболее важных адресов и совсем не просканировать URL-адреса с низким уровнем значимости.

Для переноса сайта это означает, что URL-адреса с низкой значимостью (часто располагаются глубоко на сайте) могут быть пропущены, если робот встречает проблемы на сервере.

Робот Googlebot также затянет обход, если ему будут постоянно встречаться эти типы задержек и коды ошибок (подтверждено Gary Illyes из Google на SMX East, 2014). Это может означать, что с течением времени вы, в конечном итоге, получите очередь URL-адресов сайта, ожидающих обхода. Очередь страниц сайта на одном хосте в основном зависит от плана обхода URL-адресов (URL scheduling). Очереди могут управляться различными процессами сортировки на основе частоты изменений и важности страниц.

В процессе переноса, скорее всего, после того, как робот Google проинформировал различных участников системы сканирования поисковика (планировщик URL-адресов, логи и т. д.), URL-адреса, которые планируется обойти, будут отсортированы и отправлены в очередь согласно тому, что известно об адресах, с которых на них производится редирект.

Если у вас много «неважных URL-адресов» или страниц, история изменений которых не пестрит важными изменениями, или страниц, которые меняются, но их функционал не столь значим, чтобы считаться «существенным изменением», то вам, возможно, придется подождать в очереди после переноса адресов. И это без наличия проблем с нагрузкой на хост.

Планирование по-прежнему применяется во время переносов, но очередь URL-адресов для обхода становится еще больше

Когда я спросил John Mueller, по-прежнему применяется ли планирование обхода во время переездов адресов (август 2016 года), он сказал «Да», продолжив: «Мы не можем резко обойти целый новый огромный сайт после переноса».

Эффективность обхода по-прежнему является ключевым моментом. При переносе сайта вы эффективно добавили дополнительный список адресов, которые стоит просканировать. Еще хуже, если вы решили объединить несколько отдельных сайтов на новом уровне папки существующего основного сайта, при этом сводя еще больше адресов. Неожиданно вы просите робота Google обойти, как минимум, в два раза больше адресов.

Google подробнее сканирует разделы сайта более высокого качества

А что если добавить абсолютно новый, свежий, содержательный, весьма релевантный и хорошо связанный с другими частями сайта раздел нового сайта, в то время как некоторые разделы с низкой значимостью с предыдущего переноса все еще остались непросканированными?

Существует утверждение о том, что новый более важный/качественный раздел сайта будет индексироваться больше, а старые разделы, отмеченные как имеющие меньшую значимость или более низкое качество URL-адресов, будут отправлены в очередь для более позднего сканирования тогда, когда появится свободные ресурсы для обхода.

Другими словами, процесс обхода сайта после переноса занимает довольно много времени. И если у вас есть дубли или низкокачественный контент, этот процесс продлится еще дольше. Возможно, придется ждать месяцы! По словам бывшего руководителя Google по борьбе с веб-спамом, Matt Cutts:

«Представьте, что мы просканировали три страницы сайта, а затем обнаружили, что две из них являются дублями третьей. Мы исключим эти две страницы и оставим только одну, вот почему кажется, что она имеет менее качественный контент. Поэтому мы будем склонны не обходить в такой же мере этот сайт».

Еще совсем недавно, во время беседы с Eric Enge, Gary Illyes из Google сказал следующее:

«Высоко качественные разделы сайта сканируются больше и глубже, например, страницы о цветах, входящие в состав качественного раздела о растениях или деревьях, будут иметь больше шансов быть просканированными, потому что в архитектуре сайта они принадлежат к родительской странице высшего качества».

Об этом упоминается примерно на 46 минуте в видео ниже.



Робот по-прежнему стремится обойти важные страницы после переноса сайта

При переносе сайта все изменилось (все адреса), но не обязательно, что все, что было изменено имеет критически важное значение для пользователей, особенно если URL-адрес, с которого осуществляется редирект, уже классифицируется как «неважный» с низкой частотой «существенных изменений». Из недавнего патента Google:

«В некоторых случаях устаревший контент в поисковике может не иметь особого значения, поскольку изменения в документы, перечисленные в результатах поиска, являются незначительными, или релевантность документов остается практически одинаковой».

Настал бы конец света, если бы со страницы, которая вряд ли когда-нибудь изменится или изменится незначительно, был бы осуществлен редирект? Скорее всего, нет. Пользователь по-прежнему сможет открыть целевую страницу из результатов поиска по настроенному редиректу, поэтому его опыт существенно не пострадает.

«Незначимые» страницы могут вносить существенный вклад в видимость сайта до переноса

Вполне возможно, что текущие позиции по низкочастотным запросам (которые в сумме могут давать много трафика) получены благодаря множеству мелких сигналов, собираемых с прошлых обходов старых URL-адресов в течение некоторого времени.

Важные страницы сканируются сразу после переноса, в то время как большинство страниц с низкой и нулей важностью (которая может включать низкий или нулевой показатели PageRank) все вместе вносят значительный вклад в общую видимость сайта.

Это может включать перелинковку на более важные страницы, что будет добавлять им вес.





Сигналы с этих страниц, используемые для ранжирования, будут переданы на новые URL-адреса только после обхода и обновления данных в поисковой системе. А на обход страниц с низкой значимостью потребуется довольно много времени.

И какие из этих страниц на старом сайте вы закрыли от индексирования до переноса? Они, вероятно, способствовали улучшению видимости сайта. Gary Illyes прокомментировал в недавнем вебинаре Virtual Keynote с Eric Enge, что он не думает, что есть какое-либо рассеивание в передаче PageRank от URL-адреса, закрытого от индексации, поэтому вполне вероятно, что этот и другие прошлые сигналы ранжирования все равно будут добавлять вес переносимым адресам.

Например, в случае данного сайта, который сменил адрес и его позиции упали, специалисты Google предположили, что причиной этого могло стать то, что некоторые страницы старого сайта не были проиндексированы. Ясно, что в них было нечто ценное, что не было просканировано, но на самом деле было важно (в общем ранжировании сайта).

«Общая картина» и «онтология» сайта должны быть восстановлены

Пока поисковая система не соберет вместе все данные после переноса, сайт не будет прежним. Он будет находиться в недостроенном состоянии. Внутренняя архитектура ссылок и важные сигналы от внутренних страниц (текст, окружающий внутренние ссылки, соответствующий контекст и внутренние анкоры) должны быть для начала перестроены.

Googlebot также должен перестроить свое понимание того, где располагаются страницы в общей архитектуре. На некоторое время на сайте любого размера может быть все «перекошено». Вся «взаимосвязанность», тема или «онтология» сайта, вся смысловая нагрузка, которая в нем есть, как сущности, также остается неполной какое-то время.

Пока все не будет собрано (в том числе страницы с низкой важностью и их внутренние ссылки): релевантность, контекст, внешние и внутренние сигналы о важности страниц (в том числе PageRank), сайт не будет прежним, даже если предпринять все необходимые SEO меры для его переноса.

Изначально, у вас есть только углы и боковые края пазла, так как важные страницы сайта быстро сканируются и обрабатываются, но все вместе оказывает существенное влияние на «общую картину» и позиции сайта в выдаче. Пока сайт не будет восстановлен до того состояния, каким он был до переноса, работа Googlebot и других поисковых роботов не будет завершена. По крайней мере, подождите, пока она не будет исполнена, прежде чем делать выводы.
Нравится 0   Не нравится 0
Пожаловаться на это сообщение 0  
Ответить с цитированием

Ответ
 
 

Похожие темы
Тема Автор Раздел Ответов Последнее сообщение
Визуальный контент: как улучшить позиции в выдаче Nataly Статьи 0 28.09.2016 00:15
Перенос сайта с хостинга на vps CapBlackHo Работа 1 15.04.2014 08:17
Установка Денвера + перенос сайта на хостинг dangerous Хостинг 2 27.06.2013 23:06
Как я потерял позиции в Google Ребиллер Статьи 14 18.03.2013 15:38
Как разработка влияет на продвижение сайта Матрос Статьи 9 08.03.2013 23:27

Метки
google, url scheduling, бюджет сканирования, нагрузка на хост, очередь url-адресов, план обхода url-адресов


Здесь присутствуют: 1 (пользователей: 0, гостей: 1)
 
Опции темы

Быстрый переход


Текущее время: 20:24. Часовой пояс GMT +3.