Что нужно знать, прежде чем приступать к анализу данных в Hadoop
1. Аналитика in-memory
Различные вендоры предлагают обработку данных в оперативной памяти с Hadoop. Как правило, это опция работает за пределами Hadoop. Некоторые поставщики изымают данные из Hadoop и направляют их в движок in-memory для итерационного анализа. Одни производители используют движок MapReduce для обработки; другие этого не делают. На мой взгляд, MapReduce лучше всего подходит для описательной аналитики, которая не требует мгновенных результатов, хотя эта тенденция может измениться в будущем.
2. Подготовка данных
На рынке не утихают дебаты о целесообразности подготовки данных для анализа Big Data. С одной стороны, некоторые эксперты утверждают, что гораздо эффективнее анализировать Big Data в их начальной форме. Так, данные извлекаются из исходных систем и вводятся в Hadoop, где они трансформируются и анализируются. Другие утверждают, что нестандартизованная и несогласованная информация приводит к неэффективным решениям, и что качество данных является тут фундаментальным. Безусловно, верное решение для вашей организации будет зависеть от конкретной бизнес-задачи. Мы в SAS считаем, что анализ Big Data нуждается в продвинутых аналитических методах, которые, в свою очередь, требуют изучения и подготовки ваших данных для определения переменных, представляющих интерес для прогнозирования, поиска пропущенных значений, выбросов и т.д. Для этого нужен другой подход, в отличие от тех, где используются хранилища данных для отчетности с заранее предопределенными данными.
3. Исследуйте свои данные
Всестороннее изучение информации важно для анализа Big Data. Вы можете использовать его как часть подготовки данных (что уже упоминалось ранее), а также для более глубокого их понимания. Например, вы можете их визуализировать или использовать описательную статистику, чтобы понять, что они содержат, или определить переменные, представляющие интерес для более глубокого анализа. A бизнес-аналитику или разработчику модели это может понадобиться для построения отчетов и моделей в качестве следующего шага.
4. Преимущества углубленной аналитики
Углубленная аналитика предоставляет алгоритмы для комплексного анализа как структурированных, так и неструктурированных данных. Она включает в себя продвинутые статистические методы, машинное обучение, text mining и другие инструменты data mining. Самые популярные случаи их применения включают обнаружение нужного профиля, классификацию, предсказание, оптимизацию, рекомендацию и прогнозирование. Многие продвинутые аналитические алгоритмы применяются в течение десятилетий, однако именно технология Big Data помогла ИТ-специалистам и аналитикам перенести существующий опыт на современные распределенные системы. Получая при этом на порядок большие скорости построения и применения моделей, а также улучшение качества и точности.
5. Ценность текстовых данных
Текстовые данные содержатся в сообщениях электронной почты, записях call-центров, социальных сетях и прочих источниках. Эта неструктурированная информация часто содержит ответ на различные «почему?». Например, почему увеличилось количество возвратов того или иного товара? Большая часть данных в типичном кластере Hadoop – текстовые данные. И это неудивительно, так как распределенная файловая система Hadoop идеально подходит для хранения неструктурированных данных, в том числе и текстовых. Ключевым преимуществом является использование всех ваших данных для создания максимально полной картины того, что происходит с вашими клиентами, поставщиками, партнерами и различными бизнес-процессами. Бесспорно, это обеспечивает конкурентное преимущество для компании.
6. Практическое применение построенной модели
Аналитика Big Data является ценной для бизнеса, только если результаты моделирования интегрированы в бизнес-процессы. Лишь тогда процесс принятия решений становится эффективным. Это очень важный шаг в любом аналитическом проекте. Вы можете построить лучшую в мире модель, но она бесполезна, если она не развернута или не учитывает новые данные. Наиболее эффективным способом применения прогнозного анализа является интеграция модели непосредственно в оперативные системы. Основное преимущество такого подхода заключается в том, что обработка происходит непосредственно в учетной системе или оперативном хранилище данных, исключая дополнительную передачу данных по каналам, что требует больших затрат времени и ресурсов при работе с Big Data.
7. Оценка навыков
Большая часть сомнений по поводу инвестиций в Big Data сосредоточена на выборе правильного набора технологий для получения ценности от Hadoop. Тем не менее, аналитика Big Data – это не только технология. Это еще и ИТ-специалисты с необходимыми навыками, которые также являются конкурентным преимуществом для бизнеса. К ним традиционно относятся бизнес-аналитики, статистики, специалисты по управлению данными, BI и data mining. Понятие data scientist появилось относительно недавно и подразумевает сочетание различных навыков, необходимых для анализа Big Data: обработки, анализа, практического применения, и передачи сложных данных. Такие специалисты всесторонне развиты, и кроме технических навыков имеют высокие коммуникативные способности и креативность.