Gartner рекомендует остерегаться «озер данных»

13 августа, 2014. 10:08 Олег Николаев

Теги: #большие_данные, #Gartner, #data_lake

Вместе с появлением технологии больших данных эксперты ввели новый термин — «озеро данных» (data lake). Фактически data lake — это репозитарий, в котором хранится огромный объем сырых данных в их первоначальном формате до тех пор, пока они не будут затребованы. В то время как иерархическая информация обычно хранится в файлах или папках, «озеро данных» использует плоскую архитектуру для хранения.

Каждому элементу в этом хранилище присваивается уникальный идентификатор, который дополняется набором расширенных метаданных. Когда у бизнес-пользователя есть необходимость выполнить запрос, в «озере данных» запрашиваются релевантные данные, притом для ответа на вопрос может быть проанализирован меньший набор информации.

Термин «озеро данных» часто ассоциируется с Hadoop-ориентированным объектным хранилищем. При таком сценарии данные компании загружаются на платформу Hadoop, после чего к ним применяются средства глубинного анализа данных (data mining).

Вообще, термин «озеро данных» немного искажен (впрочем, как и термин Big Data), поскольку является просто маркетинговым названием для продуктов, которые поддерживают Hadoop. Более правильно сказать, что этот термин описывает любые крупные объем данных, в которых не определены схема и требования к данным до тех пор, пока к ним нет запроса.

Назойливая реклама, касающаяся «озер данных», приводит к существенной путанице в области управления информацией. Об этом заявили аналитики Gartner. Несколько вендоров позиционируют «озера данных» как важный компонент для капитализации возможностей Big Data. Однако есть небольшая разница между вендорами, которые рассказывают, как хранить массивы данных и как извлечь из них ценную информацию.

«В глобальном смысле ‘озеро данных’ позиционируются на рынке как платформа для управления корпоративной информацией, которая позволяет анализировать самые различные несопоставимые источники данных в их первичном формате, — заявил Ник Нойдекер, директор по исследованиям в Gartner. — Идея проста: вместо размещения данных в специально построенном хранилище вы перемещаете их в data lake в их оригинальном формате. Это исключает авансовые затраты на обработку данных, например, конвертацию. Если данные помещены в ‘озеро’, они доступны для анализа любым пользователем в компании».

Хотя маркетологи предполагают, что сотрудники компании будут управлять «озерами данных», это возможно лишь в том случае, если все они обладают достаточно высокой квалификацией в области анализа данных. Дело в том, что «озерам» не хватает семантичной связности и управляемых метаданных.

«Потребность в увеличенной гибкости и доступности анализа данных является первичным стимулом для ‘озер данных’, — заявил Эндрю Уайт, вице-президент и ведущий аналитик Gartner. — Тем не менее, хотя data lake могут предоставлять ценность для различных частей организации, должно быть реализовано предложение по управлению корпоративными данными».

«Озера данных» сфокусированы на хранении различных данных без упора на то, как и почему эти данные используются, обрабатываются и хранятся. Концепция data lake способна решить две проблемы: старую и новую. Старая проблема связана с бункером данных. Вместо дюжины независимо управляемых коллекций данных, вы можете комбинировать эти источники в неуправляемые «озера данных». Консолидация теоретически приводит к увеличению степени использования информации и обмена данными, в то же время уменьшая затраты на серверы и лицензии.

Новая проблема концептуально затрагивает инициативу больших данных. Проекты Big Data связаны с большим объемом различной информации. Причем она настолько различается, что не всем непонятно, что с ней делать после получения.

При всех своих плюсах, «озера данных», тем не менее, несут значительные риски. Наиболее важные из них связаны с невозможностью определить качество данных или происхождение результатов, полученных другими аналитиками или пользователями. По определению, в data lake помещают любые данные, без какого-либо контроля. Без описательных метаданных и механизма их поддержки, «озера данных» рискуют превратиться в «болото данных». А без метаданных каждое последующее использование данных означает, что аналитики стартуют с «нуля».

Другой риск связан с безопасностью и контролем доступа. Данные можно поместить в «озеро» без какого-либо контроля контента. Многие «озера» используются для данных, для которых не всегда выполняются требования к приватности и регуляторной политике. Средства безопасности в технологиях «озер данных» находятся на зачаточном уровне. И этой проблемой должна заняться именно ИТ-служба.

Кроме того, нельзя упускать аспекты производительности. Информация в универсальном хранилище просто не способна обрабатываться с той же скоростью и на том же уровне, что и в специально оптимизированной инфраструктуре. По этой причине Gartner рекомендует организациям фокусироваться на семантической связности и производительности в приложениях и хранилищах данных, вместо того, чтобы заниматься консолидацией в «озере данных».

Основная проблема в «озерах данных» связана с тем, что необходима конкретизация предположений о пользовательской информации. Предполагается, что пользователь осознает или понимает контекстуальные тонкости того, как собираются данные, знает, что они означают, как согласовывать различные источники без априорных данных и что он понимает незавершенную природу наборов данных, независимо от структуры.

В то время как эти допущения могут быть справедливыми для пользователей, работающих, скажем, с научной информацией, большинству бизнес-пользвателей не хватает такого уровня сложности или квалификаций. Развитие или приобретение подобной квалификации или получение поддержки на индивидуальной основе является дорогостоящим и затратным по времени делом, более того, в некоторых случаях – это вообще невозможно.

Подпишись на нас в соцсетях