Пять основных мифов о «больших данных»

26 Сентября, 2014 01:59
Олег Николаев
Вокруг технологии Big Data сегодня больше рекламного шума, чем реальных кейсов, и это затрудняет исследование его потенциала для ИТ-директоров. Аналитики Gartner попытались развенчать пять основных мифов в этой области с целью помочь ИТ-специалистам разработать правильную стратегию информационной инфраструктуры.

Технология Big Data предлагает большие возможности, но при этом несет с собой немало сложностей, считают в Gartner. ИТ-директорам нужно отсеять рекламную шелуху и докопаться до действительно важных вещей.

Миф №1 Во внедрении больших данных нас все опережают

Интерес к большим данным действительно очень высокий: согласно исследованиию Gartner около 73% опрошенных организаций инвестировали или планировали инвестировать в Big Data in 2014 году. Однако большинство компаний все еще пребывают на очень ранней стадии внедрения — только 13% респондентов действительно внедрили эти решения. (см. рис. 1).

Рис. 1. Стадии освоения Big Data, 2013 и 2014

bigdata_stages_gartner

Прим.: Gartner опросил респондентов «Какая из пяти стадий лучше всего описывает вашу стадию освоения технологии больших данных?». Источник: Gartner (сентябрь, 2014)

Наибольшая проблема, с которой столкнулись компании, состоит в определении того, какие данные надо извлекать, а также с чего начать. Многие компании застопорились еще на пилотной стадии, поскольку они не привязывают технологии к бизнес-процессам или конкретным кейсам использования. 

Миф №2: У нас очень много данных. Поэтому нам не нужно волноваться по поводу каких-то изъянов в их качестве

ИТ-лидеры полагают, что из-за огромных объемов данных, которыми сейчас управляют организации, изъяны в качестве играют незначительную роль, согласно закону «больших чисел». С их точки зрения, отдельные проблемы в качестве данных не повлияют на общий результат. На самом деле, этих изъянов становится все больше, поскольку растут и общие объемы данных. Кроме того, значительная часть информации приходит извне, или имеет неизвестную структуру и происхождение. Это означает, что вероятность проблем с качеством данных может быть даже выше, чем ранее. Так что качество по-прежнему играет важную роль.

Миф №3: Технология Big Data исключает необходимость в интеграции данных

Общая точка зрения состоит в том, что технология больших данных — особенно обработка информации по методике «schema on read» — позволит организациям читать одни и те же источники с использованием различных моделей данных. Многие эксперты полагают, что гибкость позволит конечным пользователям определять как интерпретировать любые массивы данных по требованию.

В реальности  большинство информационных пользователей полагаются в значительной степени на сценарий «schema on write», в котором данные описываются, контент предписывается, и есть соглашение о целостности данных.

Миф №4: Нецелесообразно использовать хранилище данных для продвинутой аналитики

Большинство ИТ-экспертов полагают, что построение хранилищ данных является очень затратным по времени (IM) и нецелесообразным процессом, когда продвинутая аналитика использует новые типы данных за пределами хранилища данных.

Истина состоит в том, что многие продвинутые проекты по аналитике используют склады данных в процессе анализа. В иных случаях компаниям придется очищать новые типы данных, которые являются частью Big Data, с целью сделать их доступными для анализа. Необходимо решить, какие данные являются релевантными, как их агрегировать, и какой уровень качества данных необходим. Причем очистка этих данных может происходить в местах, отличных от хранилища данных.

Миф №5: Озера данных заменят хранилища данных

Вендоры позиционируют на рынке «озера данных» в качестве платформ управления информации уровня корпорации для анализа несопоставимых источников данных в их нативных форматах.

В реальности, это не совсем так, Вендоры не должны позиционировать озера данных как замену для информационных хранилищ или в качестве критических элементов аналитической инфраструктуры заказчика. Базовым технологиям озер данных не хватает зрелости и комплексности функций, присутствующих в платформе хранилищ данных. Последние уже располагают возможностью поддерживать широкое многообразие пользователей для всей компании, полагает Ник Хойдекер, директор по исследованиям в Gartner. ИТ-директорам не нужно ждать популяризации технологии озер данных, чтобы извлечь нужную информацию.

(см. также Gartner рекомендует остерегаться «озер данных»)

Комментарии: