Ответ
Как остановить спам в GA с помощью одного фильтра Опции темы
Старый 30.07.2015, 03:56
  #1
Nataly
 
Регистрация: 30.07.2014
Сообщений: 474

Как остановить спам в GA с помощью одного фильтра
Спам в Google Analytics (GA) становится серьезной проблемой. Из-за потока реферального спама от кнопок социальных сетей, сайтов для взрослых и многих, многих других источников, люди начинают настраивать огромное количество фильтров для управления бесполезными данными, которые они получают.

В этом посте я собираюсь сосредоточиться на наиболее распространенных ошибках, которые совершают люди, когда начинают бороться со спамом в GA, и показать эффективный способ предотвращения этого.

Но сначала, давайте убедимся, что мы понимаем, как работает спам. Пару месяцев назад Jared Gardner написал отличную статью, в которой объяснил, что представляет собой реферальный спам, в том числе его предполагаемое назначение. Он также привел некоторые отличные примеры реферального спама.

Виды спама

Спам в Google Analytics можно разделить на два типа: ghost spam и сrawler spam.

Ghost spam

Подавляющее большинство спама можно отнести к этому типу. Такой спам называют «призраком», потому что он отправляет данные в GA, не взаимодействуя при этом с сайтом напрямую. Важно иметь это в виду, так как это ключ к созданию более эффективного решения по управлению им. Вы можете удивиться, как можно не взаимодействовать с сайтом, ведь одной из основных целей GA является отслеживание посещений сайтов.

Они используют протокол для передачи данных Measurement Protocol, который позволяет отправлять данные напрямую на сервера Google Analytics. Используя этот метод, и вероятно, случайно генерируемые коды отслеживания (UA-XXXXX-1), спамеры таким образом «посещают сайт», искажая тем самым аналитические данные.





Crawler spam

Данный тип спама, в противоположность ghost spam, посещает сайт. Как следует из названия, роботы совершают обход страниц, игнорируя директивы robots.txt, которые должны остановить их от просмотра сайта. Когда они покидают сайт, они оставляют запись в отчетах, которая выглядит, как легитимное посещение.

Crawler spam сложнее идентифицировать, потому что он знает свои цели и использует реальные данные. Но верно также и то, что новый спам такого рода появляются редко. Поэтому если вы обнаружили реферальный трафик в данных, который выглядит подозрительно, исследование его в Google или проверка по этому списку, поможет ответить на вопрос, является ли он спамом или нет.

Наиболее распространенные ошибки при работе со спамом в GA

Я отслеживаю этот вопрос на протяжении последних нескольких месяцев. По отзывам людей, которые они оставляли под моими статьями, и разговорам, которые я обнаружил на форумах, существует три главных ошибки, совершаемых люди при попытке разобраться со спамом в Google Analytics.

Ошибка #1. Блокировка ghost spam через .htaccess файл

Одной из самых распространенных ошибок, которые совершают люди, является попытка блокировать ghost spam из .htaccess файла. Для тех, кто не знаком с этим файлом, одна из его основных задач - разрешать/блокировать доступ к сайту.

Теперь мы знаем, что спам-призрак никогда не заходит на ваш сайт, поэтому добавление его сюда не будет иметь никакого эффекта и только добавит бесполезные строки в.htaccess файл.

Ghost spam обычно проявляется в течение нескольких дней и затем исчезает. В результате иногда люди думают, что они успешно заблокировали его, хотя на самом деле это просто совпадение времени.

Затем, когда позже спамеры возвращаются, люди начинают беспокоиться, ведь найденное решение больше не работает, и они думают, что спамеры каким-то образом обошли созданные барьеры.

Правда заключается в том, что .htaccess файл может эффективно блокировать роботов, таких как buttons-for-website.com и некоторых других, так как они заходят непосредственно на сайт. Большинство спама не может быть заблокировано с помощью этого метода, поэтому кроме как с помощью фильтров его не исключить.

Ошибка #2. Использование списка исключенных источников трафика для блокировки спама

Еще одной ошибкой является попытка использовать список исключенных источников трафика, чтобы остановить спам. Название может запутать вас, но этот список не предназначен для исключения спамного реферального трафика.

Например, когда клиент осуществляет покупку, он перенаправляется на страницу стороннего сайта для осуществления платежа. После внесения оплаты он направляется обратно на сайт, и GA записывает это, как новый источник. Целесообразно использовать список исключенных источников трафика, чтобы этого не происходило.

Если вы попытаетесь использовать данный список для управления спамом, реферальная часть будет удалена, поскольку будет отсутствовать ранее существовавшая запись. В результате, прямое посещение будет записано, и вы получите гораздо боле серьезные проблемы, чем те, что были в начале. У вас по-прежнему останется спам, но прямые посещения будет труднее отслеживать.

Ошибка #3. Беспокойство о том, что изменения в показателе отказов повлияют на ранжирование сайта

Когда люди видят, что показатель отказов резко меняется из-за спама, они начинают беспокоиться о его влиянии на ранжирование сайта в результатах поисковой выдачи.





Это еще одна распространенная ошибка. Google не учитывает показатели Google Analytics в качестве факторов ранжирования. Вот объяснение этого от Matt Cutts, бывшего главы команды Google по работе со спамом.

Предположение о взломе сайта

Кроме того, часто при виде странных посадочных страниц, поступающих от спамеров в отчетах, люди думают, что их взломали.





Страница, которую спам показывает в отчетах, не существует, и если вы попытаетесь открыть ее, то получите ошибку 404. Ваш сайт не был взломан. Но вы должны убедиться, что страница не существует. Потому что бывают случаи (не спама), когда нарушается безопасность сайта, и он заражается страницами с плохими ключевыми словами, которые могут «опорочить» его.

О чем вы должны беспокоиться?

Теперь, когда мы отбросили проблемы безопасности и их влияние на ранжирование, единственное, о чем следует беспокоиться - ваши данные. Фальшивый след, который оставляет за собой спам, загрязняет отчеты.

Это может оказывать большее или меньшее влияние в зависимости от трафика сайта, но все отчеты чувствительны к спаму. Больше всего страдают малые и средние сайты, не только потому, что большая часть их трафика может оказаться спамом, но также и потому, что обычно эти сайты не имеют поддержки аналитика или вебмастера.

Крупные сайты с большим объемом трафика также могут быть подвержены влиянию спама, и хотя оно будет незначительным, наличие недостоверных данных по трафику означает неточные отчеты независимо от размера сайта. Как аналитик, вы должны быть в состоянии объяснить, что происходит даже в самых детальных отчетах.

Вам нужен только один фильтр, чтобы разобраться с ghost spam

Обычно рекомендуется добавить источник в фильтр «Исключить» после того, как он был выявлен. Несмотря на то, что это поможет быстро справиться со спамом, существует три больших минуса:

• Создание фильтров каждую неделю для каждого нового обнаруженного источника спама, является утомительным и трудоемким, особенно если вы управляете несколькими сайтами. Плюс, когда вы применяете фильтр, и он начинает работать, у вас уже есть пострадавшие данные.

• Некоторые спамеры используют прямые посещения вместе с рефералами.

• Эти прямые посещения не будут остановлены фильтром, так что даже если вы исключите реферала, вы будете получать неверные сведения о трафике, что объясняет, почему некоторые люди получают необычные всплески прямого трафика.

К счастью, существует отличный способ предотвратить все эти проблемы. Большинство спамеров (спам-призрак) вводят случайный ID аккаунта GA, что означает, что обидчик даже не знает, кто является его целью, и по этой причине имя хоста не задано или он использует ненастоящее имя (См. отчет ниже).





Вы видите, что они используют странные имена или даже не удосуживаются ввести их. Хотя в списке есть несколько известных имен, они могут быть легко добавлены спамером. С другой стороны, законный трафик будет всегда использовать реальное имя хоста. В большинстве случаев это будет домен. Но это также может быть сервис платных услуг, переводческих услуг или любое другое место, где вы вводили код отслеживания GA.





Исходя из этого, мы можем сделать фильтр, который будет включать только те хиты, которые используют реальные имена хостов. Это автоматически исключит все хиты от ghost spam, вне зависимости от того, появляется ли он в виде реферала, ключевого слова, просмотра страницы или даже в качестве прямого посещения.

Для создания этого фильтра нужно найти отчет Hostname:

1. Перейдите на вкладку Reporting в GA

2. Нажмите на Audience в левой панели

3. Раскройте Technology и выберите Network

4. В верхней части отчета щелкните на Hostname





Вы увидите список всех хостов, включая те, которые используют спамеры.

Составьте список всех действующих имен:

• yourmaindomain.com
• blog.yourmaindomain.com
• es.yourmaindomain.com
• payingservice.com
• translatetool.com
• anotheruseddomain.com

Для малых и средних сайтов этот список будет, скорее всего, состоять из главного домена и нескольких поддоменов. После того, как вы будете уверены, что получили их все, создайте регулярное выражение, подобное этому:

yourmaindomain\.com/anotheruseddomain\.com/payingservice\.com/translatetool\.com

Не следует добавлять все поддомены в регулярное выражение. Основной домен будет равняться им всем. Если у вас нет представления без фильтров, создайте его. Затем создайте пользовательский фильтр. Убедитесь, что вы выбрали «INCLUDE», а затем выберите «Hostname» в «Filter field» и скопируйте выражение в шаблон в поле «Filter Pattern».





Как только все будет готово, сохраните настройки и примените фильтр ко всем представлениям, которым захотите (за исключением представления без фильтров).

Один этот фильтр поможет избавиться от будущих появлений ghost spam, который использует недействительные имена хостов. Важно, чтобы каждый раз, когда вы добавляли код отслеживания к любому сервису, вы добавляли его в конец фильтра.

Теперь осталось позаботиться о crawler spam. Так как роботы имеют доступ к сайту, вы можете заблокировать их, добавив следующие строки в .htaccess файл:

## STOP REFERRER SPAM
RewriteCond %{HTTP_REFERER} semalt\.com [NC,OR]
RewriteCond %{HTTP_REFERER} buttons-for-website\.com [NC]
RewriteRule .* - [F]


Важно отметить, что этот файл является очень чувствительным и размещенный не на том месте символ может обрушить весь сайт. Поэтому убедитесь, что вы создали резервную копию .htaccess файла до его редактирования. Если вы чувствуете дискомфорт от необходимости «возиться» с .htaccess файлом, вы можете также создать выражение со всеми роботами, а затем добавить его в фильтр «Исключить» по источнику кампании.

Внедрите описанные комбинированные решения, и вы будете гораздо меньше беспокоиться о спаме, загрязняющем данные. Это позволит освободить время для анализа достоверных данных. Вы также сможете получить «чистые» отчеты из прошлых данных, используя те же выражения в расширенном сегменте, чтобы исключить весь спам.
Нравится 0   Не нравится 0
Пожаловаться на это сообщение 0  
Ответить с цитированием

Ответ
 
 

Похожие темы
Тема Автор Раздел Ответов Последнее сообщение
Как исключить внутренний трафик без IP фильтра Nataly Статьи 1 03.11.2015 15:21
Как зарабатывает спам-сайт, несмотря на Panda 4.0 Rattata Статьи 4 04.10.2014 22:16
Нужен совет по выводу сайта из под фильтра dina Вопросы 21 07.12.2013 02:24
Как выйти из под фильтра АГС или Санкции Яндекса alex.sakov Статьи 8 11.05.2012 20:31
Спам хруммером как средство аццкой раскрутки сайта? MaGgell Вопросы 11 11.02.2012 02:03

Метки
.htaccess файл, ghost spam, google analytics, источники трафика, реферальный спам, сrawler spam


Здесь присутствуют: 1 (пользователей: 0, гостей: 1)
 
Опции темы

Быстрый переход


Текущее время: 18:33. Часовой пояс GMT +3.