Что нужно знать, прежде чем приступать к анализу данных в Hadoop

25 Ноября, 2014 21:45
Руслан Костецкий
По информации компании SAS, 88% организаций считают перспективным использование технологий Hadoop для работы с Big Data. Однако самого по себе Hadoop мало: в этом случае будет сложно понять, какие данные у вас есть, и какую информацию вы можете извлечь из них. Сегодня вендоры предлагают различные инструменты, ускоряющие крайне трудоемкий процесс обработки Big Data. По опыту SAS, которая работает с Hadoop уже не первый год, можно выделить следующие моменты, на которые стоит обратить внимание при работе с подобной технологией.

1. Аналитика in-memory

Различные вендоры предлагают обработку данных в оперативной памяти с Hadoop. Как правило, это опция работает за пределами Hadoop. Некоторые поставщики изымают данные из Hadoop и направляют их в движок in-memory для итерационного анализа. Одни производители используют движок MapReduce для обработки; другие этого не делают. На мой взгляд, MapReduce лучше всего подходит для описательной аналитики, которая не требует мгновенных результатов, хотя эта тенденция может измениться в будущем.

2. Подготовка данных

На рынке не утихают дебаты о целесообразности подготовки данных для анализа Big Data. С одной стороны, некоторые эксперты утверждают, что гораздо эффективнее анализировать Big Data в их начальной форме. Так, данные извлекаются из исходных систем и вводятся в Hadoop, где они трансформируются и анализируются. Другие утверждают, что нестандартизованная и несогласованная информация приводит к неэффективным решениям, и что качество данных является тут фундаментальным. Безусловно, верное решение для вашей организации будет зависеть от конкретной бизнес-задачи. Мы в SAS считаем, что анализ Big Data нуждается в продвинутых аналитических методах, которые, в свою очередь, требуют изучения и подготовки ваших данных для определения переменных, представляющих интерес для прогнозирования, поиска пропущенных значений, выбросов и т.д. Для этого нужен другой подход, в отличие от тех, где используются хранилища данных для отчетности с заранее предопределенными данными. 

3. Исследуйте свои данные

Всестороннее изучение информации важно для анализа Big Data. Вы можете использовать его как часть подготовки данных (что уже упоминалось ранее), а также для более глубокого их понимания. Например, вы можете их визуализировать или использовать описательную статистику, чтобы понять, что они содержат, или определить переменные, представляющие интерес для более глубокого анализа. A бизнес-аналитику или разработчику модели это может понадобиться для построения отчетов и моделей в качестве следующего шага. 

4. Преимущества углубленной аналитики

Углубленная аналитика предоставляет алгоритмы для комплексного анализа как структурированных, так и неструктурированных данных. Она включает в себя продвинутые статистические методы, машинное обучение, text mining и другие инструменты data mining. Самые популярные случаи их применения включают обнаружение нужного профиля, классификацию, предсказание, оптимизацию, рекомендацию и прогнозирование. Многие продвинутые аналитические алгоритмы применяются в течение десятилетий, однако именно технология Big Data помогла ИТ-специалистам и аналитикам перенести существующий опыт на современные распределенные системы. Получая при этом на порядок большие скорости построения и применения моделей, а также улучшение качества и точности. 

5. Ценность текстовых данных

Текстовые данные содержатся в сообщениях электронной почты, записях call-центров, социальных сетях и прочих источниках. Эта неструктурированная информация часто содержит ответ на различные «почему?». Например, почему увеличилось количество возвратов того или иного товара? Большая часть данных в типичном кластере Hadoop – текстовые данные. И это неудивительно, так как распределенная файловая система Hadoop идеально подходит для хранения неструктурированных данных, в том числе и текстовых. Ключевым преимуществом является использование всех ваших данных для создания максимально полной картины того, что происходит с вашими клиентами, поставщиками, партнерами и различными бизнес-процессами. Бесспорно, это обеспечивает конкурентное преимущество для компании. 

6. Практическое применение построенной модели

Аналитика Big Data является ценной для бизнеса, только если результаты моделирования интегрированы в бизнес-процессы. Лишь тогда процесс принятия решений становится эффективным. Это очень важный шаг в любом аналитическом проекте. Вы можете построить лучшую в мире модель, но она бесполезна, если она не развернута или не учитывает новые данные. Наиболее эффективным способом применения прогнозного анализа является интеграция модели непосредственно в оперативные системы. Основное преимущество такого подхода заключается в том, что обработка происходит непосредственно в учетной системе или оперативном хранилище данных, исключая дополнительную передачу данных по каналам, что требует больших затрат времени и ресурсов при работе с Big Data.

7. Оценка навыков

Большая часть сомнений по поводу инвестиций в Big Data сосредоточена на выборе правильного набора технологий для получения ценности от Hadoop. Тем не менее, аналитика Big Data – это не только технология. Это еще и ИТ-специалисты с необходимыми навыками, которые также являются конкурентным преимуществом для бизнеса. К ним традиционно относятся бизнес-аналитики, статистики, специалисты по управлению данными, BI и data mining. Понятие data scientist появилось относительно недавно и подразумевает сочетание различных навыков, необходимых для анализа Big Data: обработки, анализа, практического применения, и передачи сложных данных. Такие специалисты всесторонне развиты, и кроме технических навыков имеют высокие коммуникативные способности и креативность.

 

Материалы по теме:

Комментарии:

ДРУГИЕ БЛОГИ

Avaya сообщила о смене главы
8 Августа 10:27
5 вещей, которые Вы обязаны требовать от своих ИБ-поставщиков
Алексей Лукацкий 26 Июля 10:03
Чак Роббинс, Cisco CEO, об интуитивных сетях
Чак Роббинс 20 Июля 10:09
В 2017 появятся новые IT-инвесторы
13 Июля 21:45

СТАТЬИ ПО ТЕМЕ

Темная сторона искусственного интеллекта
Алексей Лукацкий 18 Августа 11:38