一、OceanBase的memtable設計成key為主鍵,value為行操作鏈表的目的
這是MVCC多版本并發控制的一種實現方式,寫不阻塞讀,并且讀可以讀到一個快照版本。實現MVCC可以有多種方法,下面我解釋一下幾種可能的實現方法,并分析一下各方法的優劣
B+tree是索引,可以通過一行的key,索引到其value,索引還可以是其它的,比如Rocksdb和MemSQL用的是skiplist,還可以是Hashtable,還有一些新的數據結構微軟Hekaton用的bw-tree,HyPer用的adaptive radix tree等。B+tree是非常合適的,對范圍查詢和點查詢都不錯,對于CPU Cache非常友好,可以做到很高的性能,至于用skiplist的數據庫,看了一他們選擇這個的理由,文檔里基本都是說因為實現起來比較簡單,B+tree實現起來太復雜了。不過OceanBase的前輩們把內存B+tree實現的非常好,可以看到實力非常強,不需要因為某些東西簡單而去選擇用那個東西。
下面說一下幾種實現方法,主要說的是MVCC,就不說B+tree了
1. 完整數據直接存Row里,新版本在前
讀的時候,有一個snapshot version,比如是7,就需要找到名列前茅個小于7的版本,v=6的那個數據
優點:如果更新不頻繁,大部分查詢所需的數據版本都是最新的,通過索引找到某一行,直接通過指針就可以找到所需數據。通過指針就是一次內存的隨機訪問,100ns,當然還有其它處理數據的開銷。
缺點:更新數據的時候,需要申請一塊新的內存空間存儲數據,由于它需要被放鏈表首位置,索引就需要指向它,因此需要更新一下索引的指針,使其指向新的數據。
2. 完整數據直接存Row里,老版本在前
優點:更新的時候,直接插到鏈表的最后就好了,不需要再更新索引的指針
缺點:查詢的時候,可能需要順著鏈表找很多結點才能找到所需版本的數據,而每一次都是一次內存隨機訪問,需要(n*100)ns。
3. 更新數據存在Node里,然后通過Row指向Node,定期做壓縮
優點:更新的時候,直接插入Row的指針指向的名列前茅個位置就好了,而且不需要像第1種方法那樣更新索引。另一個優點是,由于只存儲增量數據,能節省很多內存,尤其是當一個表的列數非常多的時候
缺點:查詢的時候,就算是需要查詢最新的版本,也可能需要遍歷多個node才能得到完整的數據。不過當更新過多時,可以通過壓縮,將多個更新合并成完整數據,存到一個新的node中,一定程度上緩解這個問題
4. 數據存到一塊連續的內存中
前面幾種方法都是,當插入一行新的數據時,申請一塊內存,存數據,或者存更新node,這會導致做scan的時候比較慢。因為做scan的時候,需要通過索引中的指針才能找到數據,做scan是先對索引進行scan,再找到相應的數據,而每一次內存隨機訪問是100ns,也就是每秒掃描的數據量不可能超過1s/100ns=1000萬
所以可以申請一塊大內存,類似一個存struct的數組,然后把每一行存到這個數組里,定長數據直接存,變長數據用指針,對于小字符串,可以做一個優化,將字符串分成2部分,前面小的一部分可以直接存數據里,然后通過指針指向另一部分
至于多版本和增量數據,可以按照前面幾種方法做選擇
做點查詢的時候,通過索引查,做scan的時候,看查詢的數據情況,當數據量大時,直接scan數組是更快的,數據量小時,仍然通過索引做范圍查找
優點:一些情況下,scan的性能更高
缺點:由于是原地更改row里的數據,讀寫的時候都需要加鎖(latch),更新多的時候,對讀不友好
延伸閱讀:
二、網絡附加存儲(NAS)
NAS指Network Area Storage,即網絡附加存儲。它一般是將本地的存儲空間共享給其他主機使用,一般通過C/S架構實現通信。它實現的是文件級別的共享,計算機通常將共享的設別識別為一個文件系統,其文件服務器會管理鎖以實現并發訪問。網絡文件系統,以文件模塊的形式進行共享,工作在應用層上,常見的NAS有NFS和CIFS(FTP)。