Что такое хранилище данных?
Хранилище данных - это электронное хранилище большого количества информации предприятия или организации. Хранилище данных является жизненно важным компонентом бизнес-аналитики, который использует аналитические методы для бизнес-данных.
Концепция хранилища данных была введена в 1988 году исследователями IBM Барри Девлином и Полом Мерфи. Потребность в хранении данных развивалась по мере того, как компьютерные системы становились все более сложными и обрабатывали все большие объемы данных. Ключевой книгой по хранилищу данных является книга WH Inmon «Создание хранилища данных», которая впервые была опубликована в 1990 году и с тех пор была переиздана несколько раз.
Как работает хранилище данных
Хранилище данных используется для предоставления более полного представления о производительности компании путем сравнения данных, собранных из нескольких разнородных источников. Хранилище данных предназначено для выполнения запросов и анализа исторических данных, полученных из транзакционных источников.
После того, как данные были включены в хранилище, они не изменяются и не могут быть изменены, поскольку хранилище данных запускает аналитику по событиям, которые уже произошли, сосредоточив внимание на изменениях данных с течением времени. Хранящиеся данные должны храниться таким образом, чтобы он был безопасным, надежным, простым для извлечения и простым в управлении.
Существуют определенные шаги, которые предпринимаются для создания хранилища данных. Первым шагом является извлечение данных, которое включает сбор больших объемов данных из нескольких исходных точек. После того, как данные скомпилированы, они проходят очистку данных, процесс прочесывания данных на предмет ошибок и исправления или исключения любых найденных ошибок.
Затем очищенные данные преобразуются из формата базы данных в формат хранилища. После хранения в хранилище данные проходят сортировку, консолидацию, суммирование и т. Д., Что делает их более согласованными и более простыми в использовании. Со временем в хранилище добавляется больше данных по мере обновления нескольких источников данных.
Ключевые вынос
- Хранилище данных - это электронное хранилище большого объема информации предприятия или организации. Хранилище данных предназначено для выполнения запросов и анализа исторических данных, полученных из транзакционных источников, для целей бизнес-аналитики и добычи данных. Хранилище данных используется для обеспечения большей понимание производительности компании путем сравнения данных, собранных из нескольких разнородных источников.
Особые соображения: Data Mining
Предприятия могут хранить данные для использования в разведке и добыче данных, ища шаблоны информации, которые помогут им улучшить свои бизнес-процессы. Хорошая система хранения данных может также облегчить доступ к данным друг друга для различных отделов компании.
Например, хранилище данных может позволить компании легко оценить данные отдела продаж и помочь принять решение о том, как улучшить продажи или оптимизировать отдел. Бизнес может сосредоточиться на привычках своих клиентов, чтобы лучше позиционировать свою продукцию и увеличить продажи.
С помощью хранилища данных компания может собирать исторические данные о расходах своих клиентов за последние, скажем, 20 лет, и анализировать эти данные. Полученная информация может дать представление о предпочтениях ее потребителей; время дня, месяца или года с большими продажами; или самый дорогой клиент за год.
Эффективное хранение и управление данными - это то, что делает возможным такие процессы, как инициирование бронирования поездок и использование банкоматов.
Процесс интеллектуального анализа данных состоит из пяти этапов:
- Организации собирают данные и загружают их в свои хранилища данных. Затем они хранят и управляют данными либо на собственных серверах, либо в облаке. Бизнес-аналитики, группы управления и специалисты в области информационных технологий получают доступ к данным и определяют, как они хотят организовать их. Затем прикладное программное обеспечение сортирует данные на основе результатов пользователя. Конечный пользователь, наконец, представляет данные в удобном для совместного использования формате, таком как график или таблица.
Хранилище данных и базы данных
Хранилище данных не обязательно совпадает с концепцией стандартной базы данных. База данных - это транзакционная система, которая настроена на мониторинг и обновление данных в реальном времени, чтобы иметь в наличии только самые последние доступные данные. Хранилище данных запрограммировано на агрегирование структурированных данных за определенный период времени. Например, база данных может иметь только самый последний адрес клиента, в то время как хранилище данных может иметь все адреса, в которых клиент жил за последние 10 лет.
