Как предусмотреть результаты выборов? Подскажет анализ «больших данных»
Украинский проект дистанционного образования «Prometheus» собирается запустить онлайн-курс, посвященный «большим данным». Что это?
О том, что такое «большие данные», и о том, как это касается Украины, говорят Александр Баев (исследователь в Samsung R&D) и Артем Чернодуб (аспирант в Институте кибернетики НАНУ). Большие данные оперируют не с репрезентативной выборкой информации, а с полным объемом всех данных: здесь N стремится к «все».
Ирина Славинская: Что такое большие данные?
Александр Баев: Это много данных. Дело не только в объеме. Есть такие понятия: генеральная совокупность, выборка. У нас есть все данные: N=все. Есть подвыборка, на которой мы исследуем что-то, а потом применяем к большим данным. Если речь идет о фирмах, сообществах, то количество информации получается большое. N стремится к все. Они занимают много место.
Лариса Денисенко: Данных больше, и в чем проблема? Зачем отдельно выделять термин и курс об этом запускать?
Александр Баев: Если данных много, может возникнуть проблема с тем, чтобы подсчитать среднюю выборку. Для таких данных нужна специальная математика, которая позволяет строить решение по части выборки и делать это с заданной точностью. Под этим еще подразумеваются разные системные продукты, которые позволяют это делать. Это практическая информатика.
Лариса Денисенко: Как потом использовать эти данные?
Александр Баев: Интересная история была в 18 веке. Жил офицер военно-морских сил и он получил травму и не смог служить в военно-морском флоте. Его посадили в штаб, где он разработал систему. Он заставил давать капитанов ему журналы, в которых указаны судовые истории. Капитаны должны были бросать в воду бутылку с координатами. Когда другие капитаны видели эту бутылку, они вылавливали ее и заносили в журнал. Так он собрал карту течений, основываясь на этой информации. Он проанализировал огромный объем данных. Это позволило изменить траектории движения кораблей так, чтобы скорость передвижения ускорилась в разы.
Результаты могут привести к повышению эффективности. С появлением компьютера, информации можно анализировать больше, и получать тренды, зависимости или свойства.
Для того чтобы этим заниматься, нужно владеть программным обеспечением и параллельно владеть математическим аппаратом.
Артем Чернодуб: Таргетирование рекламы — это самый распространенный пример. Производители заинтересованы в том, чтобы продать своего товара больше. Они должны найти того, кому порекомендовать эту продукцию. Например, если вы зашли посмотреть утюг, то потом еще несколько месяцев вы видите подобные объявления на всех сайтах. Это история, когда больших данных не было и магазин не смог выработать стратегию для вас. Google может собрать больше информации и предложить вам интересные товары.
Ирина Славинская: Как еще их можно применить? Как это касается жизни всех?
Александр Баев: Самый простой пример — выборы. Можно проводить опросы, но можно проанализировать запросы в Google или посты в Facebook. На основе того, что ищут, можно выяснить, какой кандидат победит на выборах.
Недавно был чемпионат мира по футболу. Там выиграла Германия. Там наняли аналитиков, которые проанализировали все матчи команд-соперников. Они выработали стратегию и тактику игры для определенной команды. Там были разгромные счета.
Артем Чернодуб: Лобановский тоже на этом прославились. У них был математический подход, сейчас у него было бы больше возможностей.
Лариса Денисенко: Можно это оформлять как бизнес? Многие могут пользоваться этим в качестве махинаций: ставки, биржи, тотализаторы?
Александр Баев: Да, но с большим «НО». Для того чтобы делать качественный прогноз — нужно иметь много информации, которую можно не всегда понять. Есть алгоритмы, которые предсказывают, но они не всегда точны. В любом прогнозе есть определенная вероятность того, что он не сбудется.
Артем Чернодуб: Автоматическая обработка информации — это наука 21 века. Смысл обычных наук в том, что человек проникает в определенный феномен своим мозгом. В науках 21 века эти модели строятся на основе анализа данных. Большие данные — это механизм обслуживания.
Ирина Славинская: Какое должно быть базовое образование у человека, чтобы он смог разобраться в этом?
Артем Чернодуб: Фундаментального технического образования ВУЗа хватит. Человек с опытом работы в области ІТ освоит это. Человек должен уметь писать программы, разбираться базах данных.