Как исключить из Google Аналитики реферальный спам и заблокировать ботов на сайте

Если количество посетителей сайта в Google Аналитике резко возросло и продолжает расти, то необходимо убедиться, что статистика трафика не содержит реферальный спам. Для этого проверяем источник или канал трафика открыв соответствующий отчет. Источники трафика — это сайты с которых пользователи переходят на ваш сайт, поисковые системы, социальные сети и другие платформы. Источники формируются в обобщающие каналы. Реферальный спам или бот-трафик следует искать в отчёте по каналу referral и обязательно исключить его из статистики. Но давайте обо всём по порядку.

Что такое боты и для чего спамеры генерируют трафик на ваш сайт?

Боты, пауки и сканеры — это программные приложения, которые запускают автоматизированные задачи в Интернете. Они посещают ваш сайт для различных целей — рассылки спама, взлома контента, заполнения учетных данных, и часто имитируют поведение реальных посетителей. Приглашающий реферальный спам использует поддельный URL-адрес ссылающийся на сайт, на который спамеры желают вас направить. Это может быть обычный ресурс с рекламой или же зараженный сайт, загружающий стороннее ПО на ваше устройство. Поэтому никогда не переходите по подозрительным ссылкам. Генерирование фальшивого трафика происходит в автоматическом режиме, для его создания используются реальные веб-браузеры, поэтому трафик выглядит так, будто ваш сайт посещают реальные люди. Но такие переходы не приносят никакой пользы и к тому же сокращают длительность сеансов, что искажает статистику.

Мониторинг трафика и попытки блокировать спам трафик на уровне сервера не работают, поскольку при генерировании спама между серверами практически не происходит взаимодействия.

Как исключить спам трафик из статистики?

Одним из способов решения этой проблемы является установка дополнительного фильтра исключающего весь реферальный спам из статистики трафика в Google Analitics. Так как это сделать?

Определите источник

Как исключить из Google Аналитики реферальный спам и заблокировать ботов на сайте

Сначала сгенерируйте отчет по каналам и источникам в котором укажите определенный диапазон дат, предпочтительно более одного месяца. Это поможет вам обнаружить все URL-адреса ботов.
В отчёте, который отображен на скриншоте, мы определили, что всплеск посещаемости на сайте вызван реферальным спамом. Источник определить не трудно, в данном случае — это websitebottraffic.хуz. Само название сообщает нам, что это бот, доменная зона может быть любой.

Проверьте настройки представления

Посмотрите стоит ли галочка напротив пункта «Исключить обращения роботов и пауков» на вкладке «Настройки представления» — «Фильтрация роботов».

Отфильтруйте реферальный спам

создание фильтрам спам ботов в Google Аналитике

1. Для этого перейдите в панель «Администратор» — «Фильтры».
2. Нажмите кнопку «Добавить фильтр».
3. Назовите его так, чтобы вам было понятно, что именно исключаете.
4. Выберите тип фильтра «Пользовательский» — поле фильтра «Источник кампании».
5. В шаблоне фильтра укажите регулярное выражение фильтруемых источников. Если затрудняетесь с составлением регулярного выражения, то просто введите имя хоста, несколько источников отделяйте друг от друга вертикальной чертой (|).
Пример: example\.com|secondexample\.com|.*spammysubdomain\.com
6. Перед сохранением выполните проверку фильтра. При проверке должны отобразиться все блокируемые источники. Сохраните настройки.

Вот несколько готовых выражений распространённых спам-доменов. Проверьте и удалите лишнее.

semalt|ranksonic|timer4web|anticrawler|uptime(robot|bot|check|\-|\.com)|foxweber|:8888|xtraffic\.plus|(christopherblog|tammyblog|billyblog)\.online|traffic4free|bottraffic|easy-website\-traffic|bot4free|trafficbot

best|dollar|ess|top1)-seo|(videos|buttons)-for|anticrawler|^scripted.|-gratis|semalt|forum69|7make|sharebutton|ranksonic|sitevaluation|dailyrank|vitaly|video-|profit.xyz|rankings-|dbutton|-crew|uptime(bot|check|.com)|responsive-

Убедитесь, что вы правильно настроили данный фильтр, чтобы случайно не исключить нужные источники. Сделайте настройки для всех пользователей Google Аналитики. Необходимо постоянно отслеживать и фильтровать трафик.

Применение фильтров отлично подходит для составления статистических отчётов, но они не помешают спам ботам посещать ваш сайт. Фильтры просто исключают посещения из данных Google Analytics.

Способы блокировки ботов

Если реферальный спам заблокировать на уровне сервера не удастся, то другим плохим ботам, сканерам и паукам можно запретить доступ к сайту через создание правил в файлах .htaccess и robots.txt. Эта настройка значительно снизит чрезмерную нагрузку на сервер. Рассмотрим несколько способов.

  • По пользовательскому агенту (user agent): полезно, если боты идентифицируют себя с пользовательской строкой пользовательского агента, отличающейся от стандартных браузеров и поисковых роботов.
  • По рефереру: полезно в случаях, когда реферер является известным плохим ботом.
  • По IP-адресу: полезно в тех случаях, когда известно, что IP-адрес связан с плохими ботами.
  • По запросу URI: это полезно, когда ни один из трех других случаев не сработал.

Для включения блокировки только одного реферера, создайте такую запись в .htaccess:

RewriteEngine on
# Options +FollowSymlinks
RewriteCond %{HTTP_REFERER} botdomain\.xyz [NC]
RewriteRule .* - [F]

Включение модуля mod_rewrite, создаст жёсткий запрет на посещение указанным в списке реферерам или user agent.

Для блокировки нескольких доменов используйте этот код ([NC,OR] добавляется ко всем доменам кроме последнего):

# Block traffic from multiple referrers
RewriteEngine on
Options +FollowSymlinks
RewriteCond %{HTTP_REFERER} badsite\.com [NC,OR]
RewriteCond %{HTTP_REFERER} badforum\.com [NC,OR]
RewriteCond %{HTTP_REFERER} badtraffic\.xyz [NC]
RewriteRule .* - [F]

Правила блокировки от определённых user agent:

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} AhrefsBot [OR]
RewriteCond %{HTTP_USER_AGENT} MegaIndex.ru [OR]
RewriteCond %{HTTP_USER_AGENT} seoscanners.net [OR]
RewriteCond %{HTTP_USER_AGENT} BLEXBot [OR]
RewriteCond %{HTTP_USER_AGENT} SEOkicks-Robot [OR]
RewriteCond %{HTTP_USER_AGENT} MJ12bot [OR]
RewriteCond %{HTTP_USER_AGENT} AltaVista [OR]
RewriteCond %{HTTP_USER_AGENT} DotBot [OR]
RewriteCond %{HTTP_USER_AGENT} SeznamBot [OR]
RewriteCond %{HTTP_USER_AGENT} MetaJobBot
RewriteRule . - [F,L]

Правила блокировки user agent без использования RewriteEngine:

<IfModule mod_setenvif.c>
<IfModule mod_headers.c>
SetEnvIfNoCase User-Agent "SemrushBot" bot
SetEnvIfNoCase User-Agent "AhrefsBot" bot
SetEnvIfNoCase User-Agent "SEOkicks-Robot" bot
<Limit GET POST HEAD>
Order Allow,Deny
Allow from all
Deny from env=bad_bot
</Limit>

Блокировка по IP

RewriteEngine On
RewriteCond %{REMOTE_ADDR} ^123\.456\.789\.000 [OR]
RewriteCond %{REMOTE_ADDR} ^111\.222\.333\.000 [OR]
RewriteCond %{REMOTE_ADDR} ^444\.555\.777\.000
RewriteRule (.*) - [F,L]

По запросу URI

RewriteEngine On
RewriteCond %{QUERY_STRING} (evil|spam) [NC]
RewriteRule (.*) - [F,L]

Обновляемые списки плохих ботов можно найти в интернете, вот один из ресурсов предоставляющий актуальные данные — badbot.itproxy.uk. Учтите, что все зарубежные списки содержат полезные для сайтов СНГ ботов — Яндекс, Mail.ru и др., не закрывайте для них доступ. Также не забывайте отслеживать логи сервера.

Закрытие доступа к сайту через robots.txt:

User-agent: SemrushBot
Disallow: /
 
User-agent: MegaIndex.ru
Disallow: /

Блокировка ботов на сайте WordPress с помощью плагинов

К счастью, в WordPress есть инструменты, которые умеют автоматически блокировать роботов. Плагины отслеживают трафик в реальном времени, просматривая такие действия, как сканирование Google и Яндекс, реальных посетителей и ботов.

Плагин Blackhole For Bad Bots вставляет на страницах WordPress невидимую ссылку для обычных пользователей, но видимую для всех ботов. Он также добавляет инструкцию в файл robots.txt, чтобы сообщить плохим ботам, что им не следует переходить по этой ссылке. Полезные же боты, которые указаны в белом списке плагина не будут следовать этим правилам.

После установки и активации данного плагина, откройте файл robots.txt и добавьте правило, текст которого вы найдёте на странице настроек.

Плагин Blackhole For Bad Bots

В настройках укажите email на который будут приходить уведомления о блокировках. А также уведомляющий текст для ботов.

В плагине по умолчанию создан белый список (Whitelisted Bots) хороших ботов, которые не нужно блокировать. Добавьте в него русскоязычных ботов через запятую.

yandex, YandexTurbo, YandexMetrika, YandexMobileBot, Rambler, Mail.Ru, top100.rambler.ru crawler

Также по умолчанию создаётся список разрешённых IP (Whitelisted IPs), в том числе тот IP под которым вошёл в систему администратор сайта. Добавьте другие IP по необходимости.

Список заблокированных ботов ищите в журнале Bad bots. Некоторые плагины кеширования не работают с Blackhole. Подробности читайте в документации к плагину.

Надеюсь, что это руководство было полезным и вы наконец-то смогли избавиться от надоедливых ботов, а также улучшить статистику сайта и уменьшить нагрузку на сервер!

наверх Do NOT follow this link or you will be banned from the site!