一、數據庫、數據集市、數據倉庫
概念介紹
數據倉庫其實就像“農貿市場”,把各種供貨商手上的貨源收集起來,按照一定的規則擺放整齊供客戶挑選,同時可以通過整個農貿市場的銷售經營情況進行一些細致的分析,對整個市場有更好的了解,從而促銷相應的采購,銷售策略等等。數據倉庫是構建面向分析的集成化數據環境,為企業提供決策支持,它出于分析性報告和決策支持的目的而創建。
那什么是數據集市呢?數據集市可以比喻成各種專區,賣蔬菜農產品的,賣水產海鮮的,賣肉禽的等等。數據集市其實就是一個面向小型的部門或工作組級別的小型數據倉庫,只專注于某一個方面的主題分析。
數據倉庫本身并不生產數據,數據來源于外部,并且開放給外部應用,這也是為什么叫倉庫,不叫工廠的原因。例如農貿市場并不種植蔬菜、養殖各種水產禽類,而是從各供貨商獲取材料。數據集市可以從自己的數據源獲取數據,也可以從數據倉庫中獲取某一主題的數據。
那從供貨商到農貿市場的中間過程,其實就是所謂的“ETL”過程。ETL就是extract,Transform和load,指的是清洗,轉換和加載。我們都知道,供貨商提供的貨不是什么都要的,我們要篩選出有價值的,暢銷的品種,有些壞的,不新鮮的菜在進農貿市場的過程中就需要去除掉。而不同的供貨商提供的貨可能也存在一些一樣的種類,那么在搬運到農貿市場中就需要做一些歸類合并,按照更好的一種陳列方式擺放整齊供客戶挑選。這個從供貨商搬運,清洗,轉換,加載各種菜的過程就是ETL過程。
在這個過程中,還涉及到ETL的方式和頻率。比如水產海鮮,很多都是速凍空運過來的,一些需求量比較小的比如澳龍可能幾天才送一次,而一些蔬菜是人們日常需要的,大都是周邊蔬菜大棚產的,就會由貨車每天運輸進農貿市場。
這些菜被運送到農貿市場后,會根據一定的規則進行擺放讓客戶挑選。我們可以根據不同的規則對這些菜進行管理,就像數據倉庫的技術框架一樣,我們可以選擇一般的技術框架或者大數據技術框架,不同的選擇最終決定了我們數據倉庫的使用效果和投入成本。
因此,數據倉庫的本質還是一個數據庫,它將各個異構的數據源,數據庫的數據統一管理起來,并且完成了相應數據的剔除,格式轉換,最終按照一種合理的建模方式來完成源數據的組織形式的轉變,以更好的支持前端的可視化分析。
區別
數據倉庫、數據湖與關系數據庫系統之間的主要區別在于:
關系數據庫用于存儲和整理來自單個來源(例如事務系統)的結構化數據,而數據倉庫則用于存儲來自多個來源的結構化數據。數據湖的不同之處在于它可存儲非結構化、半結構化和結構化數據。關系數據庫創建起來相對簡單,可用于存儲和整理實時數據,例如交易數據等。關系數據庫的缺點是它們不支持非結構化數據庫數據或現在不斷生成的大量數據。這使得我們只能在數據倉庫與數據湖間做出選擇。盡管如此,很多企業仍然繼續依賴關系數據庫來完成運營數據分析或趨勢分析等任務。
內部或云端可用的關系數據庫包括Microsoft SQL Server、Oracle數據庫、MySQL和IBM Db2、以及Amazon Relational Database Service、Google Cloud Spanner等。
延伸閱讀:
二、Navicat是什么
Navicat是一套快速、可靠和全面的數據庫管理工具,專門用于簡化數據庫管理和降低管理成本。Navicat圖形界面直觀,提供簡便的管理方法,設計和操作MySQL、MariaDB、SQL Server、Oracle、PostgreSQL和SQLite的數據。
Navicat提供一個直觀和設計完善的用戶界面,用于創建、修改和管理資料庫的所有對象,例如表、視圖、函數或過程、索引、觸發器和序列。我們的表設計器幫助用戶創建和修改數據庫的表,讓設置高級選項,如關系、限制、觸發器和更多。
使用Navicat瀏覽和修改數據,插入、編輯、刪除數據或復制和粘貼記錄到數據表形式的數據編輯器,Navicat將運行相應的命令(例如INSERT或UPDATE),免除寫復雜的SQL。廣泛的數據編輯工具令編輯工作更為方便,例如外鍵查找、set/enum選擇器和記錄篩選。