Предсказание корпорациями событий и тенденций

У больших корпораций вроде Google, Microsoft, Facebook, Twitter есть куча собранных данных, которые сейчас модно называть словом Big Data. Это посты в социальных сетях, действия в интернете, поисковые запросы, и личные сообщения. Могли ли корпорации создать инструмент который предсказывает тенденции и события на основе анализа массива этих данных? Существует ли более менее универсальная система предсказаний, позволяющая сформировать запросы вроде "Путин останется президентом?", "Подорожает ли биткоин весной?" и проанализировав накопленные за последний год данные вычислить вероятные ответы. Допустим, с помощью нейросетей, корпорации могут выделить из общего массива данных факты и события. Если события двух определенных категорий соседствуют на временной шкале с приблизительно равным интервалом, и большим числом повторений, можно предположить, что между ними есть зависимость (корреляция). Самый простой пример - в соцсетях увеличилось количество записей про народную медицину, а через некоторое время началась сезонная эпидемия гриппа. Люди, начав болеть простудой, ищут народные средства, и репостят их на своих страницах в сети. Если данный факт из года в год предшествует началу эпидемии гриппа или ОРВИ, то система в принципе может построить связь, и заранее предсказать начало очередной волны гриппа. Примерно по такому же принципу работает таргетированная реклама. Например, ВКонтакте собирает информацию обо всех пользователях и на основе статистики выясняет что юзеры которые подписаны на паблики про аниме и программирование предпочитают виртуальные знакомства реальным. Это вычисляют путем подсчета количества кликов на рекламу сайтов знакомств у данной категории юзеров . Далее, с определенной вероятностью вычислив корреляцию между подпиской людей на аниме и прогерские паблики ВК начинает целенаправленно показывать рекламу сайтов знакомств данной группе людей. Если у ВК будет система вычисления корреляций между различными событиями то предсказав интересы юзеров ВК поимеет больше денег на рекламе. "В BigData мире мы не сфокусированы на поиске причин связей, вместо этого мы раскрываем корреляции между явлениями. Корреляции не скажут нам, ПОЧЕМУ что-то происходит, но они позволяют с определенной вероятностью предсказать те или иные события, казалось бы, не имеющие прямого отношения друг к другу." Связи Анализируя большие объемы данных можно найти неявные корреляции повторяющихся событий и использовать эти корреляции для предсказания моментов, когда эти события произойдут снова. Данный подход уже сейчас используется в тех или иных сферах деятельности: "Tennessee Highway Patrol совместно с IBM разработало решение прогнозирования аварийных ситуаций, которое использует данные о предыдущих авариях, арестах водителей, находящихся в алкогольном или наркотическом опьянении, и данных о событиях. Большие данные используются и в России, например, Яндекс запустил сервис для предсказания погоды, для которого используются данные с метеостанций, радаров и спутников. При этом в планах было даже использование показателей встроенных в смартфоны барометров для повышения точности прогнозов. Аналитическая компания Farsite в 2014 году безошибочно предугадала результаты вручения кинопремии «Оскар» на основе анализа «больших данных». На конечный прогноз Farsite повлияли такие факторы как предыдущие награды и номинации участников церемонии, рецензии и оценки критиков и коллег, частота упоминаний номинантов в интернете. Церемония вручения состоялась 2 марта, и ее результаты полностью подтвердили прогноз Farsite. До начала 58 музыкального конкурса Евровидение, Дэвид Ротшильд (David Rothschild) из подразделения Microsoft Research, используя огромный массив данных и комплексный анализ, верно определил будущего победителя 58 музыкального конкурса Евровидение. Система прогнозирования преступлений PredPol применяется в 7 территориальных подразделениях полиции Лос-Анджелеса. Их патрули оснащены электронными картами с десятками мигающих красных квадратов, которые указывают места возможной противоправной деятельности. Важно, чтобы корреляции вычислялись на основе большого количества повторяющихся событий, а не на основе каких-то единичных фактов. Доверять корреляциям в полученных данных можно не всегда, например, известно, что число убийств в США снижалось вместе с падением доли Internet Explorer на рынке браузеров – но это абсурд и не имеет никакой практической применимости. В деле предсказания событий, не нужно сосредотачиваться на термине "Big Data". На самом деле выбор инструмента зависит не столько от размера данных (хотя и это может быть важно), сколько от конкретной задачи. При этом правильная постановка задачи может показать, что совсем необязательно прибегать к помощи больших данных и что простой анализ может оказаться намного эффективнее по временным и денежным затратам. Поэтому многие эксперты «ругают» феномен Big Data за то внимание, которое он к себе привлекает, вынуждая многие компании идти на поводу трендов и применять технологии, которые нужны далеко не всем. Рубен Сигала (Ruben Sigala), глава аналитического отдела Caesars Entertainment, в своем интервью McKinsey говорит о том, что основная сложность в работе прогнозированием - подобрать правильный инструмент. Эксперт в области больших данных Бернард Мар (Bernard Marr) считает, что большинство проектов по использованию Big Data оканчиваются неудачей именно из-за того, что компании не могут сформулировать точную цель. На сегодняшний день нет волшебной таблетки, которая из любых данных составит отчёт о том, что ты попросишь. Несмотря на то, что осознание проблемы пришло давно, и программы существуют и совершенствуются на протяжении многих лет, поиск идеального решения для прогнозирования событий пока продолжается.
Источники: Хорошая книга на эту тему Эрик Сигель - Просчитать будущее http://www.cnews.ru/news/top/big_data_bezoshibochno_predskazali_pobeditelej http://www.hardwareluxx.ru/index.php/news/allgemein/wirtschaft/25887-qbig-dataq-correctly-predicts-song-contest-winners.html https://habrahabr.ru/company/1cloud/blog/258753/ https://habrahabr.ru/company/1cloud/blog/282560/ https://dzone.com/articles/how-is-facebook-deploying-big-data https://www.retail.ru/cases/105317/ http://ru.datasides.com/predicting-crime-lapd-style-in-russian/ https://ru.wikipedia.org/wiki/%D0%9F%D1%80%D0%B5%D0%B4%D1%81%D0%BA%D0%B0%D0%B7%D0%B0%D1%82%D0%B5%D0%BB%D1%8C%D0%BD%D0%B0%D1%8F_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D1%82%D0%B8%D0%BA%D0%B0 https://habrahabr.ru/company/1cloud/blog/322670/