Антиспам на основе анализа поведения пользователей

Без рубрики

Независимый эксперт аналитик, руководитель отдела поисковой аналитики «Викимарт»

Исторически сложилось, что поисковые системы использовали упрощенные модели для извлечения сигналов для ранжирования и антиспама. По мере роста трафика и кликстрима стал возможным переход к более реалистичным моделям. Например, на смену модели случайного блуждания PageRank пришли модели учета поведения реальных пользователей (Browserank и аналогичные алгоритмы).

Конечно, этот переход не означает безоговорочного отказа от традиционного PageRank, но означает уменьшение его вклада в расчет релевантности документа в пользу новых возможностей.

Важно, что реалистичные модели обеспечивают не только лучший сигнал в ранжировании, но и позволяют эффективно подавлять спам. Рассмотрим некоторые подходы, опубликованные в статье «Identifying Web Spam with User Behavior Analysis», Tsinghua University, Beijing, 2008.

Авторы решили две задачи:

  1. Выявлены поведенческие шаблоны, позволяющие эффективно обнаруживать спам,
  2. Создана платформа для обнаружения новых способов спама.

Технической базой для эксперимента послужил фрагмент лога поисковой системы sogou.com за 57 суток (лето 2007 года). Этот массив данных содержал 22.1 миллиона пользовательских сессий и 2,74 миллиарда кликов по 800 миллионам документов.

Шаблоны, хорошо характеризующие спам

Доля seo-трафика на документ

Определим долю seo-трафика (search engine oriented visit, SEOV):

Гипотеза проста: на спамные документы пользователи обычно попадают только через поисковую выдачу. Напротив, на качественные документы обычно существует не seo-трафик. Предполагаем, SEOV для спамных документов будет более высоким. Посмотрим на распределение качественных и спамных документов по интервалам SEOV:

Видно, что 82% хороших документов получили менее 10% трафика из поисковых систем. С другой стороны, для почти 60% спамных документов доля seo-трафика 40% и более. При этом всего 1% качественных документов имеет SEOV более 70%.

Документ как источник трафика

При клике по ссылке и источник, и целевая страница перехода фиксируются в web access log’е. Любой документ может являться как получателем, так и источником трафика. Хотя спамные документы могут содержать большое количество исходящих ссылок, они обычно не порождают трафика на целевые страницы.

Определим долю случаев, в которых документ является источником трафика (source page rate, SP):

Из распределения документов по приведенному критерию видно, что SP для качественных страниц обычно больше, чем для спамных:

Почти половина спамных документов, присутствующих в training set’е, редко выступают источником трафика (SP < 5%). Лишь 7.7% спамных документов демонстрируют SP более 40%, доля качественных документов в этом же диапазоне SP — более 53%.

Доля коротких визитов

Очевидно, контент спамных документов не стимулирует пользователей проводить много времени на сайте. Определим долю коротких визитов (short-time navigation rate, SN rate):

Переменная N может варьироваться, исследователи установили ее равной 3. Физический смысл SN прост — это доля сессий, в которых было просмотрено менее N документов сайта.

Видно, что доля коротких визитов позволяет неплохо решить задачу выявления спама:

Алгоритм обнаружения спама, основанный на анализе особенностей поведения пользователей

Выявление спама — типичная задача классификации. Исследователи использовали наивный байесовский классификатор и рассмотрели одно- и многофакторную модели. Итоговая функция оценки вероятности документа быть спамным:

Детали реализации доступны в исходной статье.

Интересно, что предложенные факторы оказались практически независимы:

По-видимому, это связано с различной природой источников данных.

Алгоритм выявления спама:

  1. Сбор лога,
  2. Расчет SEOV и SP для каждого документа,
  3. Расчет SEOV и SP для каждого сайта (усредняя документные данные п.2),
  4. Расчет SN для каждого сайта,
  5. Расчет вероятности документа оказаться спамным.

Результаты

Обучив классификатор, разработчики алгоритма протестировали его на случайной выборке из 1564 сайтов. Асессоры сочли 345 сайтов спамными, 1060 не спамными, 159 — затруднились оценить. Построенная ROC иллюстрирует, что SP и SEOV позволяют эффективнее обнаружить спам, чем SN:

Интересна проблема скорости реакции на появление спама. Традиционно на выявление спама требуется время. Это хорошо видно на следующей кривой:

Предложенный авторами метод позволяет ускорить обнаружение спама.

Практические рекомендации

Чтобы снизить вероятность разметки сайта как спамного, нужно:

  1. Думать о счастье пользователя:
Читать далее

Рэнд Фишкин: прекратите покупать ссылки!

Без рубрики

Редактор-переводчик SEOnews

Рэнд Фишкин (SEOmoz) в очередном видеоуроке рассказал, как изменилась тактика получения ссылок с учетом эволюции поисковых алгоритмов, направленных на борьбу с некачественными ссылками.

В этом году активность команды Google по борьбе с поисковым спамом была чрезвычайно высока. После запуска алгоритма Пингвин и обновлений Панды многие старые тактики линкбилдинга попали под удар...

Читать далее

CTR-эксперимент: баннеры, CTA-кнопки, текстовые ссылки

Без рубрики

SEOnews

В последние годы сформировалась тенденция считать баннерную рекламу загибающимся каналом привлечения трафика. Чтобы проверить справедливость этой теории, западное SEO&SMM-агентство Zazzle в течение года изучало CTR баннеров, текстовых ссылок и CTA-кнопок на сайте Livecasino.co.uk. В выборку попали 10 тыс. посетителей этого бизнес-ресурса...

Читать далее

Насколько главная страница вашего сайта оптимизирована под лидогенерацию

Без рубрики

Генеральный директор digital-агентство «Бюро Пирогова»

До сих пор мы, подобно другим «классическим» веб-студиям, говоря об эффективности создаваемого продукта, использовали такой показатель, как конверсия целевой страницы. Что по сути означает эта величина? Это доля пользователей в общем числе посетителей страницы, которые осуществили некое целевое действие — переход на страницу контактов, регистрацию...

Читать далее

Укрощаем Пингвина: отклонение ссылок работает!

Без рубрики

Руководитель продвижения e-commerce проектов

Если ваш сайт подвергся негативному влиянию покупных ссылок, попал под фильтры нового алгоритма Google Penguin или получил любые другие пенальти за ссылочный спам, благодаря новому инструменту вы сможете довольно быстро улучшить его позиции.

Инструмент Disavow

Все уже, наверное, слышали о том, что Google анонсировал выход инструмента Disavow 16 октября,...

Читать далее

Поисковый ретаргетинг: главные вопросы клиентов

Без рубрики

SEOnews

Поисковый ремаркетинг, позволяющий нацеливать рекламу на пользователей в соответствии с их поисковыми запросами, становится популярнее. В июле текущего года поисковый ретаргетинг запустил Яндекс, в октябре функцию начал тестировать Google (для AdWords ремаркетинг появился еще в январе 2010 г.).

В последнее время поисковый ретаргетинг набирает все большую популярность среди рекламодателей...

Читать далее

Текстовые фильтры Яндекса: давайте различать

Без рубрики

Руководитель отдела SEO и рекламы

Введение

Ряд оптимизаторов, которые только стремятся стать профессионалами в новой для них области SEO, а также часть «служивых» раз за разом не могут точно диагностировать наложение того или иного текстового фильтра в коммерческой тематике от лидирующего российского поисковика Яндекса.

Для новичков такая диагностика может стать вообще...

Читать далее

Когда интернет-реклама не работает, и как изменить ситуацию в свою пользу

Без рубрики

Интернет-агентство "Бинарио"

В настоящее время можно с уверенностью утверждать, что интернет-реклама глубоко проникла в сознание бизнеса как неотъемлемая часть общей рекламной стратегии. Малый и средний бизнес активно используют ее инструменты как самостоятельно, так и через рекламные агентства. Однако доступность рекламных инструментов для массового пользователя зачастую превращается из преимущества в недостаток. Причиной тому является неумелая настройка рекламной кампании, недальновидность в оценке ее эффективности, и как следствие, отсутствие результатов и разочарование сначала в инструменте, потом в интернет-рекламе в целом...

Читать далее

Как выбрать SEO-агентство?

Без рубрики

Редактор-переводчик SEOnews

Когда возникает потребность в продвижении сайта на первые строчки поисковой выдачи, встает вопрос о найме профессионала. В данной статье мы не будем рассуждать о фрилансерах и штатных seo-специалистах, речь пойдет о профессиональных SEO-компаниях.

Выбор SEO-агентства — довольно сложный процесс...

Читать далее

10 приёмов улучшения страниц товаров

Без рубрики

SEOnews

Разработка страниц товаров — это искусство. Они должны содержать достаточно информации, чтобы убедить потребителя совершить покупку. Однако зачастую при оформлении продуктовых страниц возникает риск перестараться. Небольшой отрывок из 99-страничного Справочника лучших кейсов Econsultancy по электронной коммерции призван помочь маркетологам найти золотую середину.

Демонстр...

Читать далее