Big data – история | Один день из жизни сисадмина

Большая часть данных, получаемых сегодня, обладает специфическими свойствами: они очень разнообразны, сложны и, как правило, плохо структурированы. Перед гравировкой на глиняной табличке или записью в бухгалтерскую книгу аналоговые данные – текстовые или числовые – были каким-то образом организованы таким образом, чтобы следующий пользователь знал, как их читать.

Аналогичным образом, сбор цифровых данных государственными учреждениями, корпорациями и неправительственными организациями, как правило, осуществляется по предварительному заказу.

Напротив, данные, генерируемые социальными сетями, входами на серверы, покупками через интернет, геолокационными системами или показаниями датчиков, плохо структурированы.

В 1997 году двое коллег из НАСА, Майкл Кокс и Дэвид Эллсворт, предложили называть этот тип данных большими данными (иногда этот термин переводится как гига-данные). Два года спустя аналитик Gartner Даг Лейни, наблюдая за проблемами своих клиентов с данными из различных источников, их структурой и разнообразием форматов, пришел к выводу, что большие данные характеризуются большим объемом, скоростью и разнообразием.

В течение следующих двух десятилетий список вырос до 10V: в дополнение к уже упомянутым, есть разговоры о том, что большие данные являются многомерными и непоследовательными (изменчивость), относительно ненадежными (достоверность), а также актуальными и правильными (достоверность), уязвимыми (уязвимость), краткосрочно полезными с точки зрения экономической эффективности (изменчивость), которые проблемно визуализировать (визуализация) и использовать в коммерции.

Определения больших данных также часто обращают внимание на то, что их необходимо собирать, обрабатывать, анализировать и визуализировать с помощью нестандартных методов, некоторые из которых определяют большие данные скорее как технологии и технологические структуры .

Цитирую краткое определение, предоставленное Википедией: “большие данные – это термин, используемый для описания сбора наборов данных настолько больших и сложных, что их становится трудно обрабатывать с помощью инструментов управления базами данных или традиционных приложений для обработки”. Это определение совпадает с определением ОЭСР:

Термин “Big data” обычно понимается как использование потенциала крупномасштабного вычислительного и технологически продвинутого программного обеспечения для сбора, обработки и анализа данных, характеризующихся большим объемом, скоростью производства и стоимостью.

“Загрязнение” крупных массивов данных, проявляющееся в их разнообразии и отсутствии структуры, а также необходимость прибегать к нестандартным методам их анализа, создают спрос на новый вид компетентности в области науки о данных, который представляет собой нечто большее, чем просто анализ данных. Это больше похоже на процесс переработки данных в информацию, полезную для бизнеса (в большей степени для государственного сектора). Термин был придуман в 2008 году в Силиконовой Долине двумя аналитиками, работающими в LinkedIn и Facebook, и получил популярность в 2012 году со статьей в Гарвардском Обзоре Бизнеса, в которой новая профессия была названа “самой сексуальной работой 21 века”. Работа специалиста по данным заключается в том, чтобы “делать открытия в потоке данных” и сообщать их в доступной для понимания форме лицам, принимающим стратегические решения в мире, где “данные никогда не перестают поступать”.

Ученые в области данных удобны в цифровой реальности и могут структурировать большие, бесформенные группы данных для анализа. Они могут идентифицировать богатые источники данных, объединять их с другими потенциально неполными источниками и очищать результирующий набор.

Стоит отметить, что очистка и систематизация данных занимает больше всего времени: в среднем 60%, в то время как добыча данных для шаблонов и усовершенствование алгоритмов занимают всего 13% времени. Компетенция специалистов по анализу данных отличается от компетенции аналитиков данных, которые обычно работают с более структурированными наборами данных. О востребованности первых свидетельствует и рыночная оценка их работы: в 2018 году в США аналитик данных заработал в среднем 118 тыс. долларов, аналитик данных – 84 тыс. долларов. По оценкам, в 2020 г. европейский рынок анализа будет генерировать 4% ВВП, а его стоимость достигнет 739 млрд. евро (в 2016 г. она составляла 300 млрд. евро, 2% ВВП). В 360 тыс. компаний по обработке данных могут работать до 10,5 млн человек.

Возможности использования больших данных растут с развитием искусственного интеллекта, новых инструментов и технологий анализа на его основе. Существует беспрецедентная связь: только появление огромных массивов данных сделало возможным машинное обучение и глубокое изучение. В результате данные собираются, обрабатываются, анализируются и визуализируются все быстрее и эффективнее.

В 2017 году исследователи Массачусетского технологического института (MIT) и Мичиганского государственного университета использовали автоматизированную облачную платформу машинного обучения под названием Auto Tune Models (ATM) для решения проблем анализа данных, размещенных на краудсорсинговой платформе (https://www.openml.org/). Из 371 проанализированного случая банкомат нашел лучшее решение, чем люди, в 30% из них – и сделал это в сто раз быстрее. Автоматизация означает, что более быстрый, точный и дешевый анализ будет доступен все большему числу компаний, в том числе и тем, которые не могут позволить себе нанять команду исследователей, и, прежде всего, – так же просто, как и в настоящее время использование электронных таблиц. Примером такой автоматизации может служить платформа Data Robot (https://www.datarobot.com), которая очищает и реформирует введенные данные, а затем запускает через нее десятки алгоритмов. Более точное решение, чем построенное на стандартных статистических моделях, “появляется как кролик из шляпы, одним щелчком мыши, что впечатляет”, как выразился один пользователь.

Все эти ресурсы не всегда оцениваются. Или даже замечаются должным образом. Слова Тома Гудвина, который в 2015 году заявил, что “Убер”, крупнейшая таксомоторная корпорация, не владеет ни одной машиной, уже выросла в своего рода бон-мотив”. Facebook, самый популярный в мире носитель информации, не создает контента. Алибаба, самый дорогой ритейлер, ничего не имеет в наличии, а Airbnb, крупнейший поставщик услуг по аренде жилья, не владеет никакой недвижимостью (…) Что-то интересное происходит” . Он был прав, конечно. Такие компании, как Uber, Alibaba и Airbnb, не имеют твердых активов, но у них есть гигантские пулы данных и технологии для извлечения из них экономической выгоды. Как говорят исследователи MIT, они легки в физическом плане, но тяжелы в плане данных.

Стандартные экономические показатели пытаются отразить эту специфику новых бизнес-моделей, разработанных технологическими компаниями и платформами. Финансовый аудит, проведенный в 2011 году для Facebook, показал, что компания владеет активами стоимостью 6,3 миллиарда долларов: компьютерной техникой, оргтехникой и прочими предметами. Стоимость данных, находящихся в его распоряжении, аудиторы оценили в ноль . На наш взгляд, эта несовместимость стандартных экономических показателей свидетельствует о радикальных изменениях, происходящих в экономической и социальной реальности под влиянием новых технологий и потока данных. Мы имеем дело с изменением модели экономического функционирования – с появлением цифровой экономики.

Big data – история

Поделиться ссылкой:

Добавить комментарий Отменить ответ

Поделиться ссылкой:

Похожие посты:

Добавить комментарий Отменить ответ