Our blog

26.10.2014 17:18 | Our blog

Как американская компания по анализу Больших данных дезинформирует клиентов

Source: graphgrail.com/blog
Tags big data, Recorded Future
Перепост статьи с сайта разработчиков Графового Грааля - B2B сервиса интеллектуальной аналитики и исследования поведения в социальных сетях.
.
.
Предисловие.
.
В данном посте я воздержусь от любых личных оценок политических событий в России и на Украине. Сосредоточусь лишь на аспектах анализа больших данных.
.
Итак, начнем. Есть такая американская компания Recorded Future, специализируется она на аналитике кибер угроз, конкурентной разведке, собирая данные со всего интернета из открытых источников и нанося их на временную шкалу. Данные при этом группируются по тематикам. Аналитические отчеты у них выглядят следующим образом: временная шкала, с нанесенными на нее событиями за определенный промежуток времени определенной тематики. Также есть наложение событий на географическую карту.
.
Я мониторю состояние отрасли больших данных и недавно решил посетить их блог. То, что я там обнаружил меня крайне удивило. Оказалось, что судьба России и Украины им небезразлична и они регулярно публикуют анализ последних событий, но делают они это несколько странно.
.
Давайте посмотрим на пост https://www.recordedfuture.com/russian-military-activity/. Одно название чего стоит: "Медведь просыпается или Не выехал ли российский поезд еще 12 месяцев назад?" В предисловии к посту (Analysis Summary) утверждается, что, цитата перевода: "российская военная активность существенно возросла за последние 12 месяцев как по частоте, так и по масштабу, по сравнению с пятилетним периодом до этого, что и привело к оккупации Крыма".
...
К сожалению, данный постулат никак в посте не доказывается. Весь пост состоит из скриншотов их интерфейса с нанесенными на временную шкалу сообщениями из соц. сетей и Твиттера об учениях российских войск.
Вот картинка, где нам показывают рост числа сообщений о военных маневрах до 31 января 2014.
.
.
При этом количество упоминаний о маневрах с 2008 по 2014 год действительно менялось, но связано это могло быть и с другими факторами, например со сменой министра обороны или с вводом новой программы по материальному обновлению армии. Все эти аспекты в системе не рассматриваются и не анализируются. До нас лишь пытаются донести причинно-следственную связь: 12 месяцев активности = оккупация. В анализе полностью отсутствует какая-либо методика обработки данных и корреляция, а о факторном анализе и не слыхали. Складывается впечатление, что они находят лишь то, что хотят найти и не видят ничего другого.
.
Помните притчу про слепых мудрецов, пытавшихся понять, на что похож слон? Выходит, что мудрецам нарочно дали в руки слоновий хвост, чтобы убедить, что слон похож на веревку.
А вот этой картинкой, видимо, нам хотят показать, что активности очень много по всей стране.
.
.
Но и тут неувязка: если бы активность была только на границе с Украиной - это можно косвенно учитывать, но ведь учения проходили везде, в том числе и на Урале, в центральной части и даже на востоке, с Китаем. Однако о вторжении в Монголию никто ведь не говорит.
.
На этом изображении мы, якобы, должны увидеть повышенную активность упоминаний о маневрах в Крыму в декабре 2014, но как тогда объяснить такой же скачок в апреле 2013 и в чем разница? Не говоря уже о том, что в Крыму находится наш флот, и при любом обострении политической обстановки его любят упоминать в СМИ в качестве рычага влияния.
.
.
Словом, совершенно непонятно, как и почему события интерпретируются именно так, а не иначе. Интерфейсы компании на эти вопросы не отвечают, более того, не видно даже какого либо аналитического модуля, который бы численно показывал, что 800 упоминаний это мало, а вот 1000 это уже много. Такая же история повторяется и в других постах блога: https://www.recordedfuture.com/ukraine-forecast/ -
В этом посте в вопросе о дестабилизации ситуации на западе Украины почему-то опираются на мнение Г. Москаля - депутата Рады. Нужно ли говорить, что выборка нерепрезентативна? Почему нет всего спектра мнений 23 (уже 20) кандидатов в президенты, но есть мнение никому не известного депутата?
.
https://www.recordedfuture.com/transnistria-next-crimea/ а здесь и подавно, Приднестровье называют следующим шагом лишь только потому, что там проживает много этнических русских.
.
Но самым главным упущением горе-аналитиков из Recorded Future является выборочный анализ собираемых данных, заключающийся в анализе лишь анти-российских источников и интерпретации фактов в сложившейся парадигме западного восприятия СМИ. Где анализ военных действий украинской армии, национальной гвардии? Где аналитика политических решений текущего правительства, причинно-следственные связи? Если вы действительно хотите события предсказывать, то логично и правильно было бы проводить анализ как минимум двух точек зрения. А для этого нужно построить правильную, адекватную и полную модель ситуации, учитывающую все действующие силы, ограничения, обратные связи, опираясь при этом как минимум на системную динамику. Сложно сказать, насколько именно должен быть детализированным анализ, чтобы полностью описывать ход событий. Но то, что он не должен быть таким однобоким можно сказать совершенно точно.
.
Я могу понять, когда американские СМИ излагают взгляд на события в том ключе, который может нам не нравиться. Но я не могу понять, почему уважаемая западная компания занимается халтурой и дезинформацией клиентов, ведь задача компании не пропаганда, а зарабатывание денег. И что особенно плохо, прикрывается модным направлением Big data, однако аналитики по сути никакой не проводит, а лишь подгоняет свершившиеся факты под уже сложившееся у них мнение.
.
Site development SeaDesign O2