Блог компании

03.04.2013 00:50 | Блог компании

Гадание на интернете

Источник: Коммерсант. Секрет фирмы
Теги: Recorded Future, будущее, ПО
Текст: Константин Бочарский

Бизнес учится зарабатывать на предсказаниях. У этого рынка огромная сырьевая база. Публикации в СМИ, записки аналитиков, данные пользователей — ресурс, из которого производится будущее.


Когда Кристоферу Альбергу, создателю сервиса Recorded Future, пересказали одну из линий последнего романа Уильяма Гибсона "Zero History" — о возможности одного из героев в точности предсказывать будущее, но только на несколько минут,— первой реакцией Альберга был вопрос: "Какие он использовал вводные данные?" Реакцию Альберга можно понять. Герой произведения Гибсона — его прямой конкурент. Кристофер Альберг тоже предсказывает будущее. Для этого его компания Recorded Future перелопачивает 300 тыс. документов в час, сканируя около 250 тыс. источников. Его клиенты — финансовые аналитики и разведслужбы, в его компанию проинвестировали Google и ЦРУ.

Recorded Future — не алхимики информационного общества. Predicting Analysis — предсказательный анализ, или анализ будущего,— отрасль, в работу которой включились все крупнейшие поставщики решений по работе с данными. Игроков этого рынка объединяет одна идея — превращение хаоса сырых данных в структурированный контент, на основании которого можно делать достоверные выводы.

Эта трансформация приносит неплохие дивиденды. Если в XVII веке предприниматели сообразили, что сверхприбыль можно получить, просто упаковывая весовой товар — мыло или крупы, то в XXI веке похожая ситуация происходит с данными. Разница в том, что сырье в этой новой отрасли производить не нужно, мало того — объем его нарастает угрожающими темпами.

Google для Нострадамуса

"Мы исходим из того, что мир и так знает много чего о будущем,— говорит Альберг.— У вас есть календарь с запланированными делами в смартфоне, а в публикациях СМИ содержится масса анонсов будущих событий. Каждого из нас окружает собственное "микробудущее", и оно вам уже известно".

Recorded Future выкачивает из сети гигабайты данных — за почти три года работы в ее базах собраны более 5 млрд структурированных фактов, а затем всматривается в них в поисках сигналов из будущего.

"Представим сообщения, что президент Путин отправится с визитом в Китай в следующую пятницу или какая-то компания собирается открыть фабрику в Малайзии в следующем году. Мы агрегируем эти сигналы о будущем, классифицируем и устанавливаем связи. Так мы можем ответить на вопросы, например, "Какие политические события произойдут в Китае на следующей неделе?" или "Какие запуски продуктов будут на этом рынке?", и получаем ответ. И в этом нет магии".

Recorded Future создает карту будущих событий, анализируя открытые веб-источники. За доступ к будущему компания берет минимум $149. Такая месячная плата дает пользователю доступ к выборкам данных по интересующим темам, с возможностью сортировать и преобразовывать данные по времени, регионам и объектам мониторинга. Бесплатно пользователь получает доступ к интерактивной инфографике на темы, подготовленные самим проектом.

Сфера интересов проекта определяется основными группами клиентов: финансовые аналитики, разведслужбы и подразделения конкурентных разведок крупных компаний. Она простирается от политических отставок, революций и потрясений до динамики курсов акций и запусков новых продуктов.

Способность предсказывать требует структурировать хаос. Recorded Future ведет свой каталог объектов, таких как "люди", "организации", "компании", "места", "события". Для каждого объекта предусмотрена своя система категорий. Например, "место" — страна, город, адрес, GPS-координаты. "События" — митинги, катастрофы, сделки, акции протеста. Затем нужно установить взаимосвязи. Каждый объект получает привязку ко времени и "контекст" — информацию, которая не содержится в выкачанном из Сети документе. Например, должность персоны, компания — разработчик технологии. Метрики позволяют задать вес, определяющий значимость событий, а также позитивную или негативную коннотацию.

Recorded Future гордится, что в 2010 году смог предсказать революцию в Йемене, есть в его послужном списке и точные прогнозы событий на финансовом рынке. Сегодня в блоге компании можно найти граф спикеров Ливийской революции или карту ключевых политических фигур в Ираке, влияющих на торговлю сигаретами в стране. Хотите знать, что будет с продажей табака в Ираке,— следите за тем, что говорят эти люди. Recorded Future берет неструктурированную информацию и превращает в стандартные кирпичики данных. Дальше из них можно строить будущее. Так работают все Нострадамусы эпохи Google.





Сигнальная система

"Не боитесь, что вас, журналистов, скоро заменят роботы?" — спрашивает Сергей Горшунов, основатель проекта Prognolic.com, ссылаясь на новости, в которых говорится, как компьютерные программы научились писать вполне осмысленные тексты. Горшунов занимается обратным. Он берет статьи и новости об акциях американских компаний и с помощью алгоритмов предсказывает движение цены на эти бумаги.

Когда в середине 1990-х Горшунов занялся игрой на бирже, первое, с чем он столкнулся, была нехватка информации. "Играть на бирже не умел никто. Знания собирали по крупицам, смотрели в рот брокерам. А те знали не больше нас",— вспоминает он. Дефицит информации создавал спрос на экспертное мнение — звездами финансовых рынков становились аналитики. Доверие к их прогнозам базировалось на силе персонального брэнда. И Сергей задался вопросом, соответствует ли сила брэнда качеству предсказания. Так он начал сопоставлять прогнозы аналитиков и их исполнение.

Первые записи Горшунов делал от руки. "Расчертил лист, записал столбиком фамилии и стал отмечать: сбылось, не сбылось",— вспоминает он. Затем бумагу сменил Excel. А вскоре Горшунов, освоив по учебникам UML — язык проектирования программного обеспечения, заказал программу индийским программистам. Ее основой стал рейтинг аналитиков, рассчитываемый на основании исполнения прогнозов.

Проект развивался, и в 2011 году кто-то из приятелей подкинул Горшунову ссылку на смотрины стартаперов, которые проводил в Москве только что созданный Игорем Мацанюком инкубатор Farminers. Смотрины прошли успешно, Prognolic получил $150 тыс. посевных инвестиций от Farminers, и в начале 2012 года сервис открылся для пользователей. Сейчас в базе Prognolic.com около 2 тыс. аналитиков из 350 организаций — банков и брокерских компаний. Ежедневно Prognolic записывает в свою базу около 50 рекомендаций. Каждую из них сервис относит к определенной отрасли, выявляет причину, на основании которой дан прогноз, фиксирует рекомендации. Затем сопоставляет прогноз с реальным поведением цены на конкретную бумагу, оценивает его качество (проиграли вы или выиграли, и сколько, если бы следовали прогнозу) и на основании виртуальных выигрышей и проигрышей вычисляет рейтинг аналитика.

Рейтинг — не единственный инструмент оценки точности предсказаний. Фавориты Горшунова — сигналы от инсайдеров и так называемый surprise reaction — реакция на сюрпризы. "Сигналы от инсайдеров — это сделки топ-менеджеров с акциями своих компаний,— поясняет Горшунов.— Инсайдер обязан опубликовать информацию о такой сделке в течение двух суток с момента ее совершения. Правда, ежедневно на сайте SEC публикуется примерно 2 тыс. таких сообщений, и уследить за этим потоком человеку сложно".

Prognolic зондирует сайт SEC, разбирает новости на составляющие и анализирует их. "По моим наблюдениям, котировки отрабатывают подобные новости в течение 30 минут,— рассказывает Горшунов. — Пользователи Prognolic получат информацию о сделке инсайдера спустя 45 секунд после публикации на сайте Sec.gov". Индикатор surprise reaction отслеживает ситуации, когда ежеквартальный отчет компании значительно отличается от ожиданий инвесторов. Если аналитики сходились, что компания покажет скромные результаты, а показатели оказываются выдающимися, рынок бурно реагирует на такие события.

Горшунов говорит, что всегда любил заниматься исследованиями и никогда не был поклонником технических индикаторов. И данные ему больше нравится создавать, чем потреблять. Его специализация на формирующимся рынке "гадания по данным" — формализация качественных оценок и оцифровка нарратива. Начав со странички в Excel, Горшунов верит, что сможет создать продукт не менее востребованный и сложный, чем продукты Bloomberg. Правда, на вопрос, чем закончилась его собственная игра на фондовом рынке, Горшунов с улыбкой отвечает: "Как обычно. Проигрался".




Мастер рекомендаций

"Я знаю, как взять данные и превратить их в деньги",— говорит Роман Зыков, директор по аналитике Ostrovok.ru, сооснователь стартапа Retail Rocket. В сентябре 2012 года Зыков выступал в Лондоне на конференции Big Data Europe. Он был единственным представителем России и делил трибуну со спикерами от компаний PayPal и eBay. Доклад Зыкова был посвящен технологии Hadoop — open source-проекта, созданного для решения сложных задач по перевариванию огромных массивов данных.

Hadoop — лишь один инструмент из целого арсенала средств для работы с большими данными. Появились эти средства в последние несколько лет. Зыков использовал Hadoop для построения сложных рекомендательных систем в Ozon.ru, Wikimart. А в марте этого года вместе с партнерами, один из которых — Николай Хлебинский, руководитель отдела веб-аналитики Dostavka.ru, запустил стартап RetailRocket, предлагающий интернет-магазинам формирование рекомендаций на основании внутренних данных магазинов. Другими словами, предсказания, какой товар лучше подойдет покупателю. Подключившись к RetailRocket, магазин передаст ему данные товарного каталога, транзакций и веб-аналитику. На их основании RetailRocket сформирует оптимальные товарные рекомендации для посетителя. "Самостоятельное создание такой системы требует больших затрат,— объясняет Зыков.— Необходимо разработать алгоритмы, наладить сбор, хранение и обработку данных, спроектировать систему, которая будет справляться с пиковыми нагрузками и быстро обрабатывать гигантские объемы сведений". Пока доступ к RetailRocket бесплатный, после тестирования системы стартап определит способ и размер взимания платы с компаний.

На продажи с помощью рекомендаций приходится значительная доля выручки крупных интернет-магазинов, рекомендации являются основой бизнеса для таких гигантов, как Netflix. "Суть нового витка конкурентной борьбы — использование данных для превращения хаоса в деньги",— считает Зыков. Шаг от анализа до предсказательной аналитики очень короткий, и за несколько последних лет его сделали практически все отрасли.


Код доступа

Google Unemployment Index (GUI) отслеживает запросы к поисковой системе по таким темам, как безработица, купоны материальной помощи, адреса центров занятости и пр. Увеличение количества подобных запросов и, соответственно, рост GUI — верные признаки грядущих трудных времен. Это типичный механизм предсказания по открытым данным. Корпоративный же сектор может использовать сведения о собственных операциях и клиентах.

В отчете "The Forrester Wave: Big Data Predictive Analytics Solutions" за первый квартал 2013 года компания отмечает массовый интерес бизнеса к предсказательной аналитике. Среди главных игроков направления — лидеры рынка корпоративных данных, компании SAS, IBM, SAP, Oracle. В октябре 2012 года калифорнийская компания The Heritage Provider Network (HPN) объявила конкурс: $3 млн за алгоритм, который сможет определить, сколько дней клиент HPN проведет в следующем году в больнице. Ее примеру следуют сотовые операторы, страховые компании, ритейлеры и небольшие стартапы. История проекта Funf.org, разрабатываемого аспирантом MIT Media Lab Надавом Аарони, началась с приложения для Android. Funf анализировал мельчайшие социальные взаимодействия, выполняемые с помощью телефона: разговоры, SMS-переписку, действия в соцсетях. Алгоритмы позволяли предсказывать, когда пользователь установит новое приложение или сколько потратит денег. Сегодня Funf — открытая платформа, используя которую, любой желающий может разработать приложение, связанное с поведением пользователей смартфонов. "Часто наше поведение определяется не логикой, а серией предыдущих взаимодействий",— говорит Аарони. Будущее запрограммировано прошлым и настоящим. Этот код, хоть и грязноват, но выложен в открытом доступе.

Создание сайта SeaDesign O2