Пять основных мифов о «больших данных»
Технология Big Data предлагает большие возможности, но при этом несет с собой немало сложностей, считают в Gartner. ИТ-директорам нужно отсеять рекламную шелуху и докопаться до действительно важных вещей.
Миф №1 Во внедрении больших данных нас все опережают
Интерес к большим данным действительно очень высокий: согласно исследованиию Gartner около 73% опрошенных организаций инвестировали или планировали инвестировать в Big Data in 2014 году. Однако большинство компаний все еще пребывают на очень ранней стадии внедрения — только 13% респондентов действительно внедрили эти решения. (см. рис. 1).
Рис. 1. Стадии освоения Big Data, 2013 и 2014
Прим.: Gartner опросил респондентов «Какая из пяти стадий лучше всего описывает вашу стадию освоения технологии больших данных?». Источник: Gartner (сентябрь, 2014)
Наибольшая проблема, с которой столкнулись компании, состоит в определении того, какие данные надо извлекать, а также с чего начать. Многие компании застопорились еще на пилотной стадии, поскольку они не привязывают технологии к бизнес-процессам или конкретным кейсам использования.
Миф №2: У нас очень много данных. Поэтому нам не нужно волноваться по поводу каких-то изъянов в их качестве
ИТ-лидеры полагают, что из-за огромных объемов данных, которыми сейчас управляют организации, изъяны в качестве играют незначительную роль, согласно закону «больших чисел». С их точки зрения, отдельные проблемы в качестве данных не повлияют на общий результат. На самом деле, этих изъянов становится все больше, поскольку растут и общие объемы данных. Кроме того, значительная часть информации приходит извне, или имеет неизвестную структуру и происхождение. Это означает, что вероятность проблем с качеством данных может быть даже выше, чем ранее. Так что качество по-прежнему играет важную роль.
Миф №3: Технология Big Data исключает необходимость в интеграции данных
Общая точка зрения состоит в том, что технология больших данных — особенно обработка информации по методике «schema on read» — позволит организациям читать одни и те же источники с использованием различных моделей данных. Многие эксперты полагают, что гибкость позволит конечным пользователям определять как интерпретировать любые массивы данных по требованию.
В реальности большинство информационных пользователей полагаются в значительной степени на сценарий «schema on write», в котором данные описываются, контент предписывается, и есть соглашение о целостности данных.
Миф №4: Нецелесообразно использовать хранилище данных для продвинутой аналитики
Большинство ИТ-экспертов полагают, что построение хранилищ данных является очень затратным по времени (IM) и нецелесообразным процессом, когда продвинутая аналитика использует новые типы данных за пределами хранилища данных.
Истина состоит в том, что многие продвинутые проекты по аналитике используют склады данных в процессе анализа. В иных случаях компаниям придется очищать новые типы данных, которые являются частью Big Data, с целью сделать их доступными для анализа. Необходимо решить, какие данные являются релевантными, как их агрегировать, и какой уровень качества данных необходим. Причем очистка этих данных может происходить в местах, отличных от хранилища данных.
Миф №5: Озера данных заменят хранилища данных
Вендоры позиционируют на рынке «озера данных» в качестве платформ управления информации уровня корпорации для анализа несопоставимых источников данных в их нативных форматах.
В реальности, это не совсем так, Вендоры не должны позиционировать озера данных как замену для информационных хранилищ или в качестве критических элементов аналитической инфраструктуры заказчика. Базовым технологиям озер данных не хватает зрелости и комплексности функций, присутствующих в платформе хранилищ данных. Последние уже располагают возможностью поддерживать широкое многообразие пользователей для всей компании, полагает Ник Хойдекер, директор по исследованиям в Gartner. ИТ-директорам не нужно ждать популяризации технологии озер данных, чтобы извлечь нужную информацию.
(см. также Gartner рекомендует остерегаться «озер данных»)