Блог Майка Флэннагана (Mike Flannagan), вице-президента и генерального менеджера подразделения компании Cisco, занимающегося аналитикой данных
Все мы знаем, что объемы данных растут лавинообразно и что теперь данные находятся буквально всюду. При отсутствии соответствующей стратегии они могут выйти из-под контроля, хотя укрощенные данные — ключ к важнейшей аналитической информации, которая может помочь увеличить продажи, улучшить обслуживание заказчиков и сэкономить немало денег.
К сожалению, в реальной жизни не существует супергероя-аналитика, способного одним движением пальца превратить данные в полезную информацию. А между тем при наличии соответствующей ИТ-стратегии данные могут многое!
Итак, предлагаю пять способов укрощения данных.
Логичный выбор хранилища
Я постоянно общаюсь с заказчиками, которые тратят немалые средства на наращивание емкости своих корпоративных хранилищ (enterprise data warehouses, EDW), где по традиции хранятся все данные. Один из них посетовал: мол, на поддержку одного терабайта данных в EDW уходит 100 000 долларов в год, тогда как использование Hadoop обходится всего лишь в 1000 долларов. Ничего себе разница! Реализация решений по выгрузке редко используемых данных из корпоративного хранилища на Hadoop высвобождает ресурсы, которые можно использовать в стратегических целях. Да, теперь данные распределены, но ничего страшного в этом нет, т.к. программное обеспечение интеграции данных создает единый вид, представляя их так, как если бы они хранились в одном и том же месте.
Автоматизация процессов обработки данных
Чтобы бизнес-менеджеры организации могли делать свою работу, им необходима аналитика. ИТ-подразделение Cisco разработало аналитическое решение, которое ежедневно обрабатывает полтора миллиарда записей о заказчиках, помогая сбытовому подразделению выявлять потенциальных покупателей. Чтобы выдать необходимую информацию, ИТ-подразделение должно скоординировать множество задач обработки данных, поступающих от разных приложений и других источников. Если делать это вручную, потребуется слишком много времени и денег. С помощью же инструментария автоматизации рабочих задач все необходимые приложения, процессы и системы подключаются и автоматизируются, что упрощает оркестровку и позволяет осуществлять контроль с единой панели управления.
Выполнение анализа вблизи источника
По традиции, чтобы проанализировать данные, их перемещают в некое централизованное хранилище. При больших объемах данных, генерируемых в разных местах, такое перемещение трудоемко, дорого и требует много времени. Будущее за решениями, способными анализировать данные на границе, без необходимости их перемещения в центр. Те организации, которые станут анализировать данные на границе сети (то есть там, где они генерируются), смогут быстрее принимать необходимые решения.
Объединение источников данных
Дополнение аналитики на границе (Wi-Fi, видео и т.д.) анализом архивных данных способно улучшить качество принимаемых решений на разных уровнях организации — локальном, региональном и даже глобальном. Например, менеджер локального магазина может делать заказ на пополнение складских запасов, ориентируясь как на наличие товара, так и на характер прошлых продаж. На региональном и глобальном уровнях, где есть доступ к данным о складских запасах и продажах по всем магазинам плюс архивные данные о характере продаж, организация сможет принять решение либо увеличить производство определенных наименований, постоянно распродаваемых со склада, либо снизить цены в интересах повышения продаж.
Предоставление бизнес-пользователям возможности самообслуживания
Никого не удивляет, что данные, поступающие из разных источников (датчики, документы, веб, базы данных), имеют разный формат. Прежде чем задать программной системе какой-либо вопрос, эти данные необходимо очистить и привести к виду, понятному системе. Обычно эта работа выполняется специалистами по обработке данных и занимает немалую долю их рабочего времени. К счастью, существуют такие приложения, как Data Preparation, которые устраняют барьеры на пути бизнес-аналитиков. Такие приложения автоматизируют самую трудную работу по очистке, объединению и концентрации данных без необходимости привлечения специалистов для кодирования и написания сценариев.
Обозрение "Terra & Comp".