Персоналії

Что нужно знать, прежде чем приступать к анализу данных в Hadoop

25 ноября, 2014. 09:11 Руслан Костецкий
По информации компании SAS, 88% организаций считают перспективным использование технологий Hadoop для работы с Big Data. Однако самого по себе Hadoop мало: в этом случае будет сложно понять, какие данные у вас есть, и какую информацию вы можете извлечь из них. Сегодня вендоры предлагают различные инструменты, ускоряющие крайне трудоемкий процесс обработки Big Data. По опыту SAS, которая работает с Hadoop уже не первый год, можно выделить следующие моменты, на которые стоит обратить внимание при работе с подобной технологией.

1. Аналитика in-memory

Различные вендоры предлагают обработку данных в оперативной памяти с Hadoop. Как правило, это опция работает за пределами Hadoop. Некоторые поставщики изымают данные из Hadoop и направляют их в движок in-memory для итерационного анализа. Одни производители используют движок MapReduce для обработки; другие этого не делают. На мой взгляд, MapReduce лучше всего подходит для описательной аналитики, которая не требует мгновенных результатов, хотя эта тенденция может измениться в будущем.

2. Подготовка данных

На рынке не утихают дебаты о целесообразности подготовки данных для анализа Big Data. С одной стороны, некоторые эксперты утверждают, что гораздо эффективнее анализировать Big Data в их начальной форме. Так, данные извлекаются из исходных систем и вводятся в Hadoop, где они трансформируются и анализируются. Другие утверждают, что нестандартизованная и несогласованная информация приводит к неэффективным решениям, и что качество данных является тут фундаментальным. Безусловно, верное решение для вашей организации будет зависеть от конкретной бизнес-задачи. Мы в SAS считаем, что анализ Big Data нуждается в продвинутых аналитических методах, которые, в свою очередь, требуют изучения и подготовки ваших данных для определения переменных, представляющих интерес для прогнозирования, поиска пропущенных значений, выбросов и т.д. Для этого нужен другой подход, в отличие от тех, где используются хранилища данных для отчетности с заранее предопределенными данными. 

3. Исследуйте свои данные

Всестороннее изучение информации важно для анализа Big Data. Вы можете использовать его как часть подготовки данных (что уже упоминалось ранее), а также для более глубокого их понимания. Например, вы можете их визуализировать или использовать описательную статистику, чтобы понять, что они содержат, или определить переменные, представляющие интерес для более глубокого анализа. A бизнес-аналитику или разработчику модели это может понадобиться для построения отчетов и моделей в качестве следующего шага. 

4. Преимущества углубленной аналитики

Углубленная аналитика предоставляет алгоритмы для комплексного анализа как структурированных, так и неструктурированных данных. Она включает в себя продвинутые статистические методы, машинное обучение, text mining и другие инструменты data mining. Самые популярные случаи их применения включают обнаружение нужного профиля, классификацию, предсказание, оптимизацию, рекомендацию и прогнозирование. Многие продвинутые аналитические алгоритмы применяются в течение десятилетий, однако именно технология Big Data помогла ИТ-специалистам и аналитикам перенести существующий опыт на современные распределенные системы. Получая при этом на порядок большие скорости построения и применения моделей, а также улучшение качества и точности. 

5. Ценность текстовых данных

Текстовые данные содержатся в сообщениях электронной почты, записях call-центров, социальных сетях и прочих источниках. Эта неструктурированная информация часто содержит ответ на различные «почему?». Например, почему увеличилось количество возвратов того или иного товара? Большая часть данных в типичном кластере Hadoop – текстовые данные. И это неудивительно, так как распределенная файловая система Hadoop идеально подходит для хранения неструктурированных данных, в том числе и текстовых. Ключевым преимуществом является использование всех ваших данных для создания максимально полной картины того, что происходит с вашими клиентами, поставщиками, партнерами и различными бизнес-процессами. Бесспорно, это обеспечивает конкурентное преимущество для компании. 

6. Практическое применение построенной модели

Аналитика Big Data является ценной для бизнеса, только если результаты моделирования интегрированы в бизнес-процессы. Лишь тогда процесс принятия решений становится эффективным. Это очень важный шаг в любом аналитическом проекте. Вы можете построить лучшую в мире модель, но она бесполезна, если она не развернута или не учитывает новые данные. Наиболее эффективным способом применения прогнозного анализа является интеграция модели непосредственно в оперативные системы. Основное преимущество такого подхода заключается в том, что обработка происходит непосредственно в учетной системе или оперативном хранилище данных, исключая дополнительную передачу данных по каналам, что требует больших затрат времени и ресурсов при работе с Big Data.

7. Оценка навыков

Большая часть сомнений по поводу инвестиций в Big Data сосредоточена на выборе правильного набора технологий для получения ценности от Hadoop. Тем не менее, аналитика Big Data – это не только технология. Это еще и ИТ-специалисты с необходимыми навыками, которые также являются конкурентным преимуществом для бизнеса. К ним традиционно относятся бизнес-аналитики, статистики, специалисты по управлению данными, BI и data mining. Понятие data scientist появилось относительно недавно и подразумевает сочетание различных навыков, необходимых для анализа Big Data: обработки, анализа, практического применения, и передачи сложных данных. Такие специалисты всесторонне развиты, и кроме технических навыков имеют высокие коммуникативные способности и креативность.

 

Материалы по теме:
Комментарии:

ДРУГИЕ БЛОГИ

ИБ без бюджета. 7 сценариев
Алексей Лукацкий 02 декабря, 2019. 09:12
FUDO PAM – эффективный контроль привилегированных пользователей
Стас Похилько 17 апреля, 2019. 09:04
Norton Security – лидер №1 по защите в сегменте Home&Small Business
Андрей Ульянов 08 апреля, 2019. 10:04
SolarWinds – мониторинг, анализ и управление ИТ-инфраструктурой
Тарас Залужный 15 марта, 2019. 10:03
Защита веб-приложений: новые вызовы и будущие тенденции
Алексей Мудрицкий 07 марта, 2019. 10:03