Our blog

08.10.2014 17:18 | Our blog

Как анализ данных раскрывает преступные схемы

Source: computerra.ru
Tags big data, безопасность
Выявление мошеннических сделок — это одна из областей, где полезность современные методов анализа данных давно не требует доказательства. «Компьютерра» уже писала о том, как их используют платёжные системы и финансовые организации, но мы оставили в стороне мошенников, которые избрали своим полем деятельности интернет-аукционы.
.
.
Интернет-аукционы — давно не шутка. Количество пользователей eBay исчисляется сотнями миллионов, а его оборот превышает 15 миллиардов долларов. И это всего лишь одна компания, работающая в этой области, пусть и самая крупная. Разумеется, такие деньги не могли не привлечь преступников. Уже в 2006 году более сорока процентов денежного ущерба, зарегистрированного американским Федеральным центром жалоб на интернет-преступления, был нанесён аукционными мошенниками.
.
Интернет-аукционы делают всё возможное для того, чтобы усложнить преступникам жизнь. Первая линия защиты — учёт «репутации». Большинство подобных сервисов позволяет пользователям указать, как прошла сделка — хорошо или плохо. Прежде чем отправить деньги незнакомцу, покупатель может поинтересоваться, что о нём думают его бывшие клиенты. Если многие из них оставили негативные оценки, то лучше не рисковать.
.
.
Проблема заключается в том, что эта система не так неуязвима, как хотелось бы. Офлайновые мошенники знают множество способов втереться жертве в доверие. В интернете с этим обстоит ещё проще. Сперва преступник накручивает свою репутацию — это можно сделать, например, торгуя с другими преступниками. Затем он быстро проворачивает несколько мошеннических сделок. Конечно, репутация скоро станет плохой, а администрация сервиса заметит неладное, но это не проблема. Мошенник просто бросит опороченный аккаунт и заведёт новый.
.
Можно было бы предположить, что аукционные мошенники ведут себя не так, как простые пользователи, но в чём это выражается? Для того, чтобы понять это, нужно посмотреть на интернет-аукцион как на сложную социальную сеть, образованную пользователями и их сделками. Несколько лет назад специалисты из университета Калифорнии и университета Карнеги-Меллона при участии Symantec попытались разобраться в том, как она устроена.
.
Исследователи начали со сбора данных. Для этого они разработали программного «робота», который обходит сайт eBay и собирает открытую информацию о пользователях и сделках, которые они совершают. Набор данных, который получился в итоге, имел размер 10 гигабайт. В нём содержались сведения о 54 миллионах транзакций, в которых принимали участие 11 миллионов пользователей интернет-аукциона. Чуть больше 66 тысяч пользователей подверглись более внимательному изучению: история их сделок была загружена целиком.
.
Обычную социальную сеть можно представить в виде графа. Вершины в таком графе — это люди, а дуги отмечают их связи с другими — дружеские, родственные, рабочие или какие-либо ещё. Эта схема подходит и для аукциона. Вершинами в таком случае будут продавцы и покупатели, а дуги — это сделки, которые они совершают. В зависимости от того, как оценён исход сделки, дуга, связывающая покупателя и продавца, получает разный вес: положительный, нейтральный или отрицательный.
.
Вот первое интересное открытие, которое принёс анализ графа сделок в eBay: ему не свойственна так называемая топология «клуба богатеев», которая характерна для большинства социальных сетей. Суть феномена «клуба богатеев» заключается в том, что вершины со значительным количеством связей чаще связаны между собой, чем с вершинами, у которых мало связей. В обычной соцсети это значит, что одна знаменитость скорее добавит в список друзей другую, чем безымянного фаната. На eBay это правило не распространяется. Вероятность того, что покупатель и продавец сойдутся, не особенно зависит от количества сделок, которые они успели совершить в прошлом.
.
.
Другие ценные наблюдения связаны с тем, как люди оценивают сделки, и на что это влияет. Положительные оценки, как и следовало ожидать, способствуют популярности продавца, но лишь до определённого предела. Это объяснимо: покупателя интересует не столько количество положительных оценок, сколько их наличие. Продавец, совершивший пять удачных сделок, возможно, заслуживает большего доверия, чем продавец, совершивший лишь одну, но между двумя сотнями и двумя тысячами голосов «за» уже нет особой разницы. Для того, чтобы составить мнение, столько оценок не нужно.
.
Негативные оценки встречаются на удивление редко: их доля не превышает одной сотой от общего числа. Это, впрочем, не значит, что они не играют особой роли. Даже одна жалоба ощутимо бьёт по бизнесу. Половина аккаунтов, имевших менее 90% положительных оценок, не совершили ни одной сделки после того, как количество отрицательных оценок превысило десять.
.
В другой работе та же группа исследователей предлагает алгоритм обнаружения мошенников, основанный на анализе графа сделок между ними, и описывают программную систему, в которой они его реализовали. Её главная идея сводится к тому, что мошенников можно идентифицировать по их связям между собой.
.
В этом есть логика, ведь для того, чтобы накрутить свою «репутацию», преступникам приходится взаимодействовать. В самом простом случае они будут иметь больше связей друг с другом, чем с честными пользователями, и это их выдаст. Увы, реальность не так проста. Мошенники прекрасно понимают, что такое поведение выдаст их с головой, причём достаточно попасться одному — и погорит вся шайка. Чтобы избежать провала, они выработали более сложную схему, позволяющую время от времени избавляться от аккаунтов, которые скомпрометировали себя, но не ставить под удар «группу поддержки».
.
Для этого они используют два типа аккаунтов: аккаунты-мошенники и аккаунты-пособники. Аккаунт-мошенник — это камикадзе. Его срок годности ограничен: он подготовится к делу, совершит серию преступных сделок и неизбежно попадёт в поле зрения администрации сервиса. В отличие от него, пособники ведут себя максимально естественно. Они не делают ничего предосудительного, часто торгуют с честными пользователями и, как правило, имеют безупречную репутацию. Попутно они взаимодействуют с аккаунтами-мошенниками и дают им хорошие оценки. Когда один аккаунт-мошенник оказывается заблокирован, пособники остаются вне подозрения и быстро «накачивают» следующий.
.
Система, которую предложили исследователи, основана на так называемой марковской сети. В данном случае он представляет собой граф, рёбра которого задают вероятностные связи между вершинами, находящимися в одном из нескольких состояний. Их следующее состояние зависит только от текущего и от состояний их соседей, но не связано с тем, что происходило с вершиной в прошлом. В нашем случае вершины — это пользователи аукциона. Они могут находиться в одном из трёх состояний: мошенник, пособник и честный пользователь. Чтобы прояснить, кто есть кто, служит алгоритм распространения доверия. Он действует так: вершины вычисляют своё состояние на основании сообщений, полученных от соседей, а затем переводят его в новые сообщения для соседей при помощи матрицы распространения.
.
Матрица распространения — самое важное. В ней указано, какова вероятность связи между вершинами с разными состояниями. Например, вероятность того, что мошенник совершит сделку с другим мошенником или с честным пользователем очень низка. С пособниками дело обстоит иначе: они почти одинаково часто торгуют с мошенниками и честными пользователями, но почти никогда не имеют дела друг с другом. В свою очередь, честные пользователи с равной вероятностью могут столкнуться с пособниками и с другими честными пользователями, но становятся жертвой мошенников с вероятностью 0,05.
.
По сути дела, получается нечто вроде игры «Сапёр», где нужно угадывать клетки с бомбами по цифрам на соседних клетках. Наша игра, впрочем, куда сложнее: число «клеток» составляет сотни миллионов, они связаны между собой самым замысловатым образом, а на кону стоят большие деньги.
.
.
На иллюстрации показано, как алгоритм в несколько приёмов выявляет мошенников (красные треугольники) и пособников (жёлтые ромбы). Каждая итерация повышает вероятность того, что «честная» вершина примет статус «пособник». На следующей итерации вершины-пособники в зависимости от топологии сети меняют состояние соседей на «мошенник» или «честный пользователь». Процесс повторяется несколько раз, пока не будет достигнута необходимая точность.
.
Во время испытаний на искусственно сгенерированных данных система показала неплохую точность: она идентифицировала почти все преступные аккаунты, причём число ложных тревог составляло менее десяти процентов. Точность не зависела от размера анализируемого графа, а время просчёта каждой итерации увеличивалось линейно по мере роста количества вершин.
.
.
Систему проверили и на наборе данных, полученном с eBay — тех самых 66 тысячах пользователей, сведения о которых были собраны с интернет-аукциона «роботами». Исследователи вручную нашли среди них десять мошенников, о которых уже сообщали в прессе. Система успешно выявила каждого из них и отыскала аккаунты, которые, скорее всего, принадлежали их пособникам.
.
Это, разумеется, далеко не единственный метод автоматического поиска мошенников и выявления мошеннических сделок, но у него большой потенциал. Впоследствии аналогичный подход к анализу данных лёг в основу технологии Polonium, предназначенной для обнаружения вредоносных программ, которую разработали специалисты из университета Карнеги-Меллона и исследовательского центра Symantec. Но эта тема заслуживает отдельной статьи.
.

Site development SeaDesign O2