Блог компании

16.05.2013 19:51 | Блог компании

Big Data делает анонимность математически невозможной

Источник: www.xakep.ru
Теги: big data, открытые источники
Объем данных растет экспоненциально, и почти везде присутствуют отпечатки пользователей


В 1995 году Евросоюз принял законодательство в области защиты приватности пользователей, которое определяло в качестве «персональных данных» любую информацию, прямо или косвенно способную идентифицировать конкретного человека. В то время никто не знал, что объем подобной информации вырастет в тысячи раз. Сегодня пользователи генерируют столь огромные массивы данных, что ежегодный поток новой информации превышает объем всего интернета в том самом 1995 году, когда принимался закон.

По статистике аналитической компании IDC, в прошлом году во всем мире было сгенерировано примерно 2,8 зеттабайта информации, а к 2015 году это число удвоится, и дальше рост продолжится в той же геометрической прогрессии. Около 75% всей информации генерируют сами пользователи, копируя и перемещая файлы. Типичный офисный работник генерирует 1,8 терабайта трафика в год, то есть около 5 гигабайт в сутки, приводит расчет журнал MIT Technology Review. В эту цифру входит скачанная из интернета информация, в том числе фильмы и видеопотоки, переданные по локальной сети файлы и т.д. Домашние пользователи не отстают. Объем данных растет экспоненциально, и почти везде присутствуют отпечатки конкретных пользователей.

На интернет-сайтах накопились огромные массивы персональной информации. Ежедневно через почтовые серверы проходит 154 миллиарда электронных писем. Facebook хранит в среднем 111 мегабайт персональных фотографий и видео на каждого пользователя. Через платежные системы только в США ежегодно проходит 65 миллиардов персонально помеченных финансовых платежей. Около 87% совершеннолетнего населения в развитых странах постоянно транслируют свои текущие координаты через мобильные сети.




Сохранить анонимность при генерации столь огромного массива информации становится практически невозможно. Многие люди даже не подозревают, что почти каждое действие в интернете может быть использовано для идентификации и профилирования. Современные системы анализа больших массивов данных (Big Data) позволяют установить уникальный профиль человека даже без слежки, а просто путем анализа его перемещений по координатам GSM-телефона и картинке с общедоступных камер наружного наблюдения, а также с помощью анализа интернет-трафика.

В этой сфере работают специализированные фирмы, которые собирают общедоступные данные и привязывают их к профилям конкретных людей, с указанием имени, адреса и т.д. Например, американская компания Acxiom уже накопила базу данных по 1500 классификаторам на 500 миллионов пользователей со всего мира. Компания заявляет, что по составленным профилям может прогнозировать реакцию потребителей на различные раздражители (товары, бренды и проч.).

Такие компании способны даже автоматически предсказывать местонахождение пользователей, анализируя архивные GPS-метки. По последним экспериментальным данным, точность составляет 80% в течение 80 недель.
Создание сайта SeaDesign O2