Существует множество инструментов работы с данными. Одни представляют из себя комплексные решения, как например Microsoft SQL Server начиная с версии Standard. Другие решают отдельные задачи.
Для решения отдельных задач, нет необходимости приобретать комплексные решения масштаба предприятий. Достаточно выбрать из всего многообразия инструментов необходимые для решения поставленной задачи.
В обзоре рассмотрены лишь некоторые решения, решающие отдельные задачи обработки данных. Из представленных решений можно выбрать несколько инструментов, позволяющих вместе, провести полный цикл обработки данных.
Хранение данных
Hadoop — платформа с открытым исходным кодом. Преимуществом платформы является ее масштабируемость и возможности распределенного хранения данных. Учитывая такие возможности, платформа способна обеспечивать обработку огромных объемов данных. Существенным ограничением системы является ее сложность, что бы полноценно использовать платформу рекомендуется изучить учебные курсы по Hadoop.
Cloudera — фактический дополнительные службы для Hadoop. Представляет из себя специальные инструменты для более простого доступа к данным хранящимся в Hadoop. Управления ими, администрирования и безопасности.
MongoDB — совершенно иной подход к хранению данных. В отличие от реляционных систем хранения данных, MongoDB больше подходит для хранения слабоструктурированных и неструктурированных данных. Представляя собой единую точку доступа к данным различных типов, обновляющихся с различной частотой.
Talend — еще одно решение с открытым исходным кодом. Основной упор делается на хранение мастер-данных (MDM). С возможностью комбинирования данных реального времени, приложений и процессов, со встроенными системами поддержки качества данных.
Отчистка данных
OpenRefine — инструмент с открытым исходным кодом, предназначенный для отчистки «грязных» данных. Позволяет очень быстро объединять и просматривать большие объемы данных, даже если они слабо структурированы. Данный инструмент имеет дружественный интерфейс и огромное сообщество пользователей. На форумах и в примерах можно найти решение практический любой сложной задачи по отчистке данных.
DataCleaner — хорошее средство отчистки данных. Имеет приятный интерфейс и с легкостью преобразует неструктурированные данные в единую модель, пригодную для визуализации. Есть ознакомительная 30 дневная версия.
Интеллектуальный анализ данных
RapidMiner — инструмент для анализа данных используемый множеством крупных компаний, таких как PayPal, Cisco, eBay. Имеет большое сообщество разработчиков, в котором можно найти интересующие вопросы. Кроме того сам по себе прост в использовании, что привлекает начинающих пользователей. Есть как коммерческая, так и бесплатная версия.
IBM SPSS Modeler — инструмент прогностической аналитики, для анализа текстов, сущностей, управления решениями и оптимизации. IBM SPSS решение масштаба предприятий, позволяющее обрабатывать и анализировать различные данные, различных объемов.
Oracle data mining — одно из лучших средств для анализа данных. Чаще всего используется совместно с сервером баз данных Oracle. Позволяет проводить всесторонний анализ данных.
Microsoft SQL Server Analysis Services — поставляется как часть SQL Server начиная с выпуска Standart. Предлагает комплексное решение для анализа данных. Сервисы аналитики могут тесно интегрироваться в другие инструменты единой платформы SQL Server, а так же сопутствующие решения Microsoft, такие как Power BI. Что делает их привлекательными для работы с данными любого объема.
Teradata — распределенная система специально предназначенная для непрерывной обработки больших объемов данных. Основное преимущество Teradata – распределенная архитектура. Представляет широкие аналитические возможности.