Лайфхаки

Маленькие, полезные хитрости

Бот-трафик и парсинг цен. Что можно предпринять

12.03.2022 в 03:15

Бот-трафик и парсинг цен. Что можно предпринять

1. Часть такого трафика получается срезать посредством настройки и подключения сервиса CloudFlare.

Программа CloudFlare имеет 4 тарифа:

  • Free,
  • Pro ($20/месяц),
  • Business ($200/месяц),
  • Enterprise (по запросу).

На тарифах Pro и Business есть раздел Bots.

В блоке показывается статистика по трафику в разрезе определения ботов по вашему проекту.

Отчет бота включает в себя 4 типа трафика:

  • Автоматический трафик ( Automated ) – плохие боты. Используется эвристика, машинное обучение и другие методы для определения таких запросов. В большинстве случаев такой трафик вредит вашему сайту.
  • Вероятно, автоматический трафик ( Likely Automated ).
  • Человеческий ( Likely Human ).
  • Проверенный трафик ботов ( Verified bot ) – поступает от поисковых ботов, платежных систем в Интернете (Google, Yandex, PayPal и так далее).

Все эти данные также доступны через GraphQL и вы можете выгружать их через API.

На тарифе Pro программа будет защищать только от автоматизированного трафика (Automated).

На тарифе Business вы получаете доступ к новой версии Bot Analytics, предназначенной для защиты от ботов. Бизнес-версия программы глубже сортирует ботный трафик и имеет больше настроек.

Перейдя в раздел Automated, можно посмотреть детальный отчет по переходам. Вы можете проанализировать трафик по типу, настраивать временные рамки и фильтровать по различным атрибутам, таким как IP–адрес, категория, user-agent и т.д.

Самая главная разница между версиями Pro и Business – в фильтрации на «Автоматический трафик» и «Вероятно, автоматический трафик».

Последний вариант включает запросы, распознанные механизмом машинного обучения CloudFlare. Эти запросы часто поступают от сложных ботов – тех, которые обходят простые инструменты безопасности, меняя IP-адреса, user-agent, входят через анонимные прокси и убедительно имитируют людей.

В бесплатной версии нет защиты от ботов (кроме базовой от DDoS-атак с пропускной способностью до 90 Тбит/с), отчета и настроек фильтрации – Configure Super Bot Fight Mode.  

В целом если вы изучили логи вашего сайта и нашли закономерность, по которой можно заблокировать большую часть ботного трафика, то вы можете сделать это на стороне сервера или во Free-версии CloudFlare.

2. Часто этот сервис полностью проблему не решает.

Защита от ботов. Критерии выбора решения для отслеживания трафика ботов и защиты от бот-атак

Противодействие сложно организованным и автоматизированным атакам ботов требует глубокого анализа намерений злоумышленников и используемых тактик. Согласно исследованию Forrester «The Forrester New Wave™: Bot Management», основными факторами при оценке решений для защиты от ботов являются их способности обнаружения и реагирования на атаки, а также исследования и сбор данных по угрозам ботов. Инструменты для противодействия ботам сильно различаются по методам выявления угроз. Кроме того, многие из этих средств защиты обладают очень ограниченными – или отсутствующими – способностями автоматического реагирования на атаку. Инструменты защиты от ботов должны уметь определять назначение трафика ботов в реальном времени для разграничения трафика хороших и плохих ботов.

При выборе решения для отражения бот-атак и определении наиболее подходящего в каждом случае инструмента важно учитывать представленные далее критерии.

Базовый функционал решения для защиты от ботов

При рассмотрении решений важно сравнить набор возможных действий для реагирования в случае атаки: блокирование, ограничение трафика, возможность «переиграть» конкурента и предоставить фейковую информацию, а также настраиваемые действия с учетом сигнатур и типов ботов. Эффективное решение должно позволять применять различные подходы для различных секции и поддоменов сайта. Дополнительно, решение корпоративного класса должно обеспечивать возможность подключения популярных аналитических инструментов, таких как Adobe или Google Analytics для предоставления отчетов о трафике ботов.

Способность обнаруживать крупномасштабные распределенные атаки человекоподобных ботов (humanlike bot)

При выборе решения для противодействия ботам полезно выяснить, какая технология используется в данном инструменте для определения и отражения изощренных атак с механизмами обхода средств защиты. К таким угрозам относятся крупномасштабные распределенные ботнет-атаки и «медленные маломощные» атаки (low and slow), обнаружить которые традиционными средства безопасности невозможно. Рассмотрим лишь несколько примеров: в случае атаки с использованием динамических IP-адресов бесполезно использовать средства отражение атак на основе списков IP-адресов; настройка пределов скорости (rate-limiting) без использования механизмов поведенческого анализа означает нарушение работы реальных пользователей во время атаки. Некоторые брандмауэры или средства rate-limiting в составе сервисов сетей доставки контента (CDN) не способны выявлять атаки сложных ботов, имитирующих поведение человека/реального пользователя. С учетом наблюдающегося резкого роста трафика искусно организованных человекоподобных ботов, для их обнаружения и отражения нужны значительно более продвинутые технологии. Фокус при выборе и оценке решения для защиты от ботов должен быть на различных методологиях обнаружения ботов, например: создание цифровых отпечатков (fingerprinting) устройств и браузеров, анализ поведения и намерений, сбор данных по сигнатурам ботов (collective bot intelligence) и проведение собственных исследований угроз ботов, - а также другие фундаментальные технологии.

Защита от скрапинга. Методы защиты от веб скрапинга

Вы не сможете выстроить абсолютную защиту своих данных. Вернее сможете, но на это понадобится бесконечное количество времени и ресурсов. За это время ваша информация, скорее всего, утратит актуальность, а вы потеряете конкурентоспособность.
Поэтому следует взвешенно подходить к защите своих данных. Например, если вы стартап, вам нет смысла делать эшелонированную защиту с круглосуточным мониторингом, так как вы только начинаете развиваться и вероятность массированной профессиональной атаки довольно мала. Но выполнить минимальные усилия по защите данных вы обязаны, иначе можно потерять свое преимущество еще на старте.

С другой стороны, большая корпорация не может себе позволить “сначала попробовать”. Вы обязаны заниматься безопасностью задолго до старта. Возможно это даже будет параллельная разработка с вашим основным продуктом.

    Защита от парсинга. Как ограничить парсинг, не усложняя жизнь пользователям

    Одно из самых важных свойств Rusprofile — обновление. Дело в том, что данные об организациях постоянно меняются. Кто-то закрывается, кто-то открывается, меняются реквизиты, учредители, юридический адрес. Регулярно проходят тендеры, суды и прочее. И ценность в том, чтобы предоставлять только актуальные данные. Объем обновления огромный. За сутки собираются несколько десятков гигабайт. Затем это обрабатывается и в более компактном виде хранится уже в нашей базе. И на следующий день всё заново. Поэтому сперва мы решили разрешить нас парсить, но… с такой скоростью, чтобы не успевать за обновлениями. То есть, данные у злоумышленников были неактуальными, а значит, ценности не представляли. Как только скорость парсинга падает меньше скорости, с которой мы обновляем данные, для бизнеса (если воровство контента можно назвать бизнесом) это становится бессмысленно, т.к. данные всегда будут устаревшие.

    Мы стали применять для этого поведенческий анализ. У реального пользователя есть определённый профиль запросов (как и что он делает, насколько часто). Конечно, активность варьируется в широких пределах. Иногда бывают люди, которые работают в нескольких окнах, открывают ссылки десятками. Но мы видим, откуда человек пришёл, понимаем, что он мог нажать на несколько ссылок из поиска и открыть их в новых вкладках. Парсеры же сильно отличаются как по количеству запросов, так и по профилю. Обычно человек через браузер загружает сайт целиком, со всеми стилями, картинками, динамическими элементами, JavaScript и всем прочим. Бот дёргает только HTML с данными. Это достаточно легко отсекается. Но со временем мы заметили, что как только мы отключаем юзера по признаку невзятия статики, боты начинают заходить с headless-браузеров и загружать всё целиком, как живые пользователи. Но это очень невыгодно, т.к. процесс существенно усложняется и начинает требовать больше ресурсов, плюс нужно выполнять все действия со скоростью человека, а не робота.

    Обход защиты от парсинга. Специализированные системы защиты от парсинга и бот-атак

    Специализированные решения для защиты от парсинга и бот-атак используют и комбинируют все вышеперечисленные методы защиты, добавляя и более продвинутые технологии. 

      Внедрение механизмов fingerprinting. Это оценка клиента по множеству параметров, присвоение токена/идентификатора клиенту и последующий анализ собранных данных. 

        Позволяет классифицировать клиентов и идентифицировать клиентов, сопоставлять активность клиента во времени, даже если клиент приходит без cookie. 

        Не так сложно это внедрить, как анализировать большой объем данных и использовать его результаты для противодействия атакам - сам по себе fingerprinting не останавливает атаку, но позволяет реализовать более сложным механизмы защиты. 

        Проблемы связаны с обработкой больших данных, обеспечения срабатывания защиты в режиме реального времени, с минимальной задержкой на обработку.

      Классификация и аттестация клиентов. Обычно этот процесс идет после фингерпринтинга. Классификация – отнесение к одному из классов трафика, например, к “хорошим ботам”, “плохим ботам”, “браузерам” или подозрительным клиентам.
      Аттестация клиентов – принятие решения о том, является ли клиент, отправивший запрос в веб-сервер, легитимным. Как правило, после идентификации и классификации клиента становится понятно, разрешать ли такой трафик.

      Как бороться с парсингом. Что такое парсинг

      Парсинг или скрапинг — это сбор данных с чужих сайтов. Не вдаваясь в технические нюансы, суть этого процесса можно описать так: специальные боты посещают страницы целевого ресурса, выгружают HTML-код, разбирают его на отдельные составляющие, вычленяют нужные данные и сохраняют в своей базе. Зачастую боты обходят сайты на регулярной основе, отслеживая изменение цен, расширение товарного ассортимента или публикацию нового контента, который можно украсть.

      Поисковые роботы Google и Яндекса — это тоже своего рода парсеры. Принцип их работы аналогичен: периодически совершают обход сайта, собирают информацию и индексируют новые документы. Этим объясняется главная сложность противодействия парсингу: защищаясь от ботов-шпионов, легко заблокировать содержимое сайта для краулеров Google и Яндекса. А это — прощай, SEO и трафик из поиска, за счёт которого живут все нормальные сайты.

      Со стороны сервера запросы пользователей и роботов выглядят одинаково. Из этого вытекает, что если живые люди могут получить доступ к сайту, то его содержимое доступно и ботам. Соответственно, большинство автоматизированных средств против парсинга в той или иной мере работает и против пользователей. На практике это выливается в то, что антипарсинговые решения существенно ухудшают опыт пользования сайтом и просаживают поведенческие факторы, что не лучшим образом сказывается на SEO.

      Не ботами едиными

      Говоря о парсинге и краже данных, не следует забывать, что, помимо использования скриптов, контент не менее успешно копипастят руками. Как правило, это касается копирования текстов и фото. Формально копипаст не подпадает под определение парсинга, но последствия для SEO от такого заимствования аналогичны.