2014年1月14日 星期二

[網路管理] 整體備份架構的規劃

Reference:http://www.ringline.com.tw/support/techpapers/storage/144-2009-08-23-09-35-07.html

整體備份架構的規劃
備份的觀念說明

近年來經由美國911事件與各大軟體公司的細心推廣,國人在伺服主機的備份應用上,已有顯著的進展。心中已建立起較為清楚的備份應用及災害重建的觀念,這是一個可喜的現象,代表著電腦使用者已經了解,如何才能把電腦的應用提升到更值得信賴的地步。
這裡針對目前企業界所做之架構為例,特別加以說明,至於如何做好適當的備份,這中間包括了,如何規劃、如何實際地去執行、以及如何達到預期的結果等重要的環結。其實事先了解備份的觀念,再加上儲存專業廠商所提出之建議價購&計劃案,以及購置設備之後的試用經驗之累積等,整合以後自然足以因應多變之實際環境。
與備份相關之專有名詞說明:
Backup Window
可譯為『備份時限』,它主要是說『在時限內完成指定之資料量的備份』,它有別於以資料量為敘述主角的說法,像是說『對一定量的資料進行備份所須要的時間長度』。因為前者是以限定時間為考量的方向,而後者是以須要備份的資料量為敘述重點,在實際使用的層面上,我們會就前者的說法來描述自己的需求,至於『備份時限』的度量單位是時間

Average Backup Performance
平均備份效率,是指『將備份資料量除以備份所需的總時間長度』,度量單位可以為『Kilobytes / 每秒鐘』、『 Megabytes / 每分鐘』 或『Gigabytes / 每小時』,例如備份一段資料共耗時五小時,而在這段時間裡總共處理了 18Gigabytes的資料量,那它的平均備份效率則為每小時 3.6Gigabytes或是每分鐘 60Megabytes

Peak Backup Performance
備份的峰值效率,指的是最佳的備份效率,通常指較為特定時段的備份效率,度量單位同於平均備份效率但一般而言峰值的時段都維持的較短,所以常用較短的時間為一單位如『Kilobytes / 每秒鐘』 或『 Megabytes / 每分鐘』而不常用『Gigabytes / 每小時』。

Backup Device
備份裝置,是指能儲存電腦資料的設備,一般有磁帶單機、磁帶櫃、磁光碟櫃等設備。

Data Compression
資料壓縮,指的是將要被處理的資料,經由邏輯上的運算規則,將其檔案大小予以縮小,以方便由較小的空間來儲存,如以較直覺的方式來表示,可以做如下的解釋:由被處理的資料裡,找出其中資料與資料之間的相同性質,不但如此,這些同性質的資料,又可以再由另外一種代表方式來表示,而且這種新的代表方式所佔用的空間會比原來資料所佔用的空間來得小,這種對資料加工的處理工作就被稱為資料壓縮,要注意的是資料壓縮絕非萬能,相對而言,壓縮效率是有一定比率的。目前市面上的磁帶類儲存裝置,都已配備有硬體的壓縮晶片,例如,LTO 8mm以及DLT等設備都有也有這項功能。


Lossless Data Compression
失真的資料壓縮,這種常被應用在電腦上的資料壓縮方式,必須具備有還原後資料不失真的性質,否則會造成資料還原之損失。
文字方塊:
Data Compression Ratio
資料壓縮效率比,就資料壓縮比率而言,比率愈高則壓縮效果愈好而且壓縮的結果是可以預期的因為資料的種類和所採用的壓縮方式就已經決定了資料壓縮後的效率了,不會因為重複再壓縮而有更好的結果,理由是被處理的資料裡,資料與資料之間的相同性質已被找出來了,而且這些同性質的資料也已經拿另外一種的代表方式來表示了,在大部份的辦公環境裡,所使用的資料,其壓縮比率約在1.82.1之間。

Transfer Rate
譯成傳輸速率,是指每秒鐘資料傳送的速率,使用的單位為MB / Second,又可分為持續型(Sustained)和瞬間型(Burst),持續型指的是資料真正寫入到存體的速率,而瞬間型指的是,資料由機外的介面進入儲存裝置的暫存記憶體之速率。前者著重在長時間的資料寫入,所以影響最大的因素是讀寫頭的種類,效率愈好的讀寫頭裝置,就可達到愈好的結果,而後者主要指裝置的對外介面與裝置內暫存記憶體之間的傳輸效率,一般而言,瞬間型的值會比持續型的值來得大,主要的原因是它必須把由主機送來的資料先儘可能的收下,以便能充分地利用介面本身的效率。

知道了以上的名詞及其意義之後,我們來看一看實際上的備份情形又是如何呢?事實上幾乎所有的人在使用備份軟體後,都會說“為什麼我的系統總是無法達到規格書上所宣稱的傳輸速率呢?”,難道規格書有誤,還是遇到了不誠實的經銷商呢?其實規格書上的數字是正確的,而使用者的觀察也是事實,那到底問題在那裡呢?事情的真相是這樣的,規格書上宣稱的傳輸速率是以電子儀表測量出來的數值,由圖()中可見到測量的結果,特別說明的是,這時候的傳輸速率指的是持續型的傳輸速率。

既然這個傳輸速率是由儀表量度出來的,所以就會非常的精確,圖()的磁帶機是典型的架構,如以 8mm為實例,其儲存未壓縮的資料傳輸速率就正好是每秒 3MB,但啟動壓縮功能後的傳輸速率就不會剛好是每秒 6MB。因為壓縮效率和輸入的資料種類息息相關。一般而言、較高的壓縮比,可以得到較好的整體傳輸速率,反之則較差。在一般的辦公環境裡,所使用的資料,其壓縮比率約在1.85之間。而在大多數的實際應用上,由主機來的資料供應速度往往都跟不上磁帶機的速度,這使得磁帶機必須停下來等下一筆資料的傳送,而導致整體效率大打折扣。

在還沒有做進一步的原因說明之前,我們必須先了解到,使用者是不會拿儀器來測量傳輸速率的,而最普遍的測試方式,就是拿備份軟體來實際試看看,因為實際操作最能反映出使用的真實狀況,所以大家幾乎都是使用此法做測試,但結果就是常常令人不滿意,為什麼呢?


資料的讀寫流程
() 效率比較

分類
傳輸速率
效率
瓶頸?
硬碟機
硬體
每秒鐘 300Mb
(零散的資料區塊需要大量讀寫頭的機械動作來完成讀及寫的功能)
檔案管理系統
軟體
CPU而定
輸入輸出暫存區
硬體
每秒鐘 32GB(北橋128-bit* 2G Hz)
極好
磁帶機驅動程式
軟體
CPU而定
(簡易程式)
輸入輸出匯流排
硬體
每秒鐘 8GB以上
很好
高速磁帶機
硬體
每秒鐘80/ 160GB(未壓縮/壓縮)
低速磁帶機
硬體
每秒鐘 1MB

我們來看一下資料讀寫時所經過的流程:
文字方塊:
由圖
()中,我們可以清楚的看出備份時的資料流向雖然單純,但是資料所經過的過程卻是複雜的,我們再對此資料所經過的路徑做進一步的分析,就不難發現問題的原因出現在何處了,表()中所表示的就是分別針對每一個環節進行的分析。

由表()中可以很容易的發現,影響效率的瓶頸所在,如果單獨看一部硬碟機它的整體傳輸效率,也會因為實際狀況而有所差異,要是資料的來源必須經由網路來傳送的話,那網路又會是另一種瓶頸。 ()中可見到資料經由不同的網路種類傳送,而有不同的結果。特別注意的是如果在傳送資料之前,事先將資料加以壓縮處理,之後再傳送,這種作法會比較消耗CPU的運算能力,而花費更多的時間,這類情形被稱為CPU-bound,這時備份效率的瓶頸會發生在CPU運算的速度上,但如果是10Based的傳送路徑,則網路反又會成為效率的瓶頸了。
() : 實測結果(最大流量):


未壓縮的資料
先壓縮再傳送的資料
經由
10 Based網路
每分鐘 6MB – 12MB
每分鐘 12MB – 24MB
經由
100 Based網路
每分鐘 15MB – 36MB
每分鐘 30MB – 70MB
經由SCSI介面
直接連接
每分鐘 120MB – 180MB
每分鐘 30MB – 60MB *

集中式備份  分散式備份的比較

從整體的觀察角度來看,集中式備份  分散式備份也會是一個很重要的考慮因素,所謂的集中式備份指的是,由數部伺服主機中選出一部當成備份的主機,其餘的主機則透過網路,將資料都傳輸到備份主機來儲存,而分散式備份則是各部主機自行負責做各自的備份工作,在實際應用時也可視狀況將兩者混合使用,也就是說將所有的伺服主機做分組,每一組都挑選一部為備份主機,而不參與分組的主機則各自獨立做備份,表()是一份集中式備份分散式備份優劣比較表。


接下來整理了數點和備份效率較為相關的關鍵因素,供讀者在選擇備份方案時的參考。
選擇備份方案的關鍵因素:

1. 較集中的數部伺服主機可適用集中式備份。
網路的頻寬已經愈來愈大,Giga-based的網路也已經是標準配備,甚至 10Giga LAN也準備粉墨登場了,因為低速的網路而造成的瓶裝也漸漸成為過去式了。

2. 絕大部份的情況,網路以及檔案系統,這兩者是造成備份效率不佳的主因。
如果還沒有找到導致備份效率不佳的原因之前,就不要一昧著將硬體設備升級,因為沒有對症下藥只會徒勞無功。

3. 分散式備份適用在,兩地之間並無架設高速網路的伺服主機環境裡。
大量的資料絕對不適合經由慢速的網路來傳送。

4. 磁帶櫃&磁碟陣列儲存系統,是用於自動化備份主機的最佳組合。
磁帶櫃,在自動化備份的環境裡,是非常重要的設備,因為它們具有相當大的容量的備份空間。但若要求快速的備份&還原則需要仰賴磁碟陣列儲存系統的儲存速度所以特別適合。

5. Push Agents 可以提升備份的速度。
被動式的將資料由遠端主機拉到近端來備份,效率上較差,而Push Agent就是專門設計來解決這種問題的程式。

6. 應用程式的代理程式,最適合處理相對應的應用程式。
() : 集中式備份  分散式備份的比較


優點
缺點
集中式備份
1. 容易管理。
2. 較易做遠端復原。
3. 較少的硬體投資。
4. 每部備份主機只需一部磁帶櫃。
1. 資料依賴網路傳送很重。
2. 備份的總時數較長。
3. 較不易做出第二份磁帶。
4. 要考慮特定時間內,可否備完特定的資料量。
分散式備份
1. 可以得到較高的備份總效率。
2. 較易做出第二份磁帶供異地保存。
3. 可分別獨自做備份。
1. 較多的硬體投資。
2. 較多的管理者介入。
3. 不容易管理。
4. 無法做遠端復原。

應用程式的代理程式,包括Open Files Agent, 以及各式資料庫的Agents,它們也都可增加備份的效率。


企業用戶採用的方式

這裡以企業界為例;其所採行的方式為集中式的備份,也有使用Push Agent、Open File Agent、Exchange Agent以及Database Agent等能提昇效率的代理程式。

在安裝之後,啟動自動的備份功能,定時做備份,如遇當機的情況,即可依軟體公司所撰寫之Disaster Recovery重建系統的步驟中文說明,將系統還原。

企業資料需要更有效及快速的管理

企業面臨的資料保護問題 隨著激烈的資訊社會需求,全球企業及個人每日儲存的資訊愈來愈多,也增加了資料管理的困難度。

不同於傳統資料備份解決方案以天為單位的定期資料備份,依照USER需要更有效及快速的管理發展出許多新技術與架構去縮短Backup Window,增強處理Backup資料量如D2D2T(Disk-to-Disk-to-Tape) 、VTL(Integrated Virtual Tape Library)亦或是重複資料刪除技術都是配合各家Backup軟體並運用磁碟系統快速回復機制。

 
目前還有個較新的話題---
Continuous Data Protection(簡稱CDP)備份概念能將備份時間縮短為以小時、分鐘為單位,即時捕獲和保護資料中所有的變化, 執行或變動時立即自動複製資料,使得客戶能夠取回遺失的資訊,且使用者可以手動或自動的方式,持續備份他們寶貴的檔案同時還可以將資料備份至遠端伺服器,以提供更多保障。

 
其技術的本質僅是運用快照技術(Snapshot)提供比傳統備份更靈活的目標恢復點( Recovery Point Objectives - RPO )和更快的目標恢復時間( Recovery Time Objectives - RTO ),而非如傳統式的資料備份架構,僅僅是某個預先選定的時間點。這樣就可以隨時存取資料,減少資料損失並消除代價高昂的停機損失。資料的檢索也變得非常可靠、快速和精細。

然而,大部份提供CDP的廠商都不會清楚說明其採用的快照技術(Snapshot)能否有效控管不同時間點所延伸的RPO與RTO版本,並同時降低磁碟儲存空間,因為其他廠商都是按一對一的比例複製資料到同一座儲存硬體設備,或是另一部儲存硬體設備。採用這種技術對使用者而言,其磁碟儲存容量的要求就非常可觀,也會影響到SERVER本身的效能。對使用者會有更多隱藏性的成本,造成後續採購成本相當大的壓力。

故此,我們不強調「疊層架屋」的CDP,而是強調所提出的『作業系統簡化的儲存架構』(Unified Storage Platform for Applications) 結構化運用,與不占儲存儲存空間的快照技術(Snapshot),提供使用者強大且安全可靠的虛擬儲存空間管理機制。

 
現階段預估客戶Unified Storage的需求點有兩大層面問題需要考量,如下:
1. 運用面:
  • 安裝簡易、集中管理且容易設定
  • 持續並即時保護重要資料
  • 快速的回復能力
  • 可設定重要優先備份功能
  • 網路瞬斷保護功能
  • 隨需求調整管理備份目標的空間大小,刪除過久的版本檔案
  • 具備快速 disk-to-disk 的檔案備份
  • 備份檔案儲存地點
  • 第一份可複製於本機主要磁碟區
  • 第二份可複製於次要磁碟區或遠端伺服器或 NAS
  • 第三份可複製到 另一部儲存系統上或是異地端作儲存

2.管理成本面:
  • 效率和生產力 (simpler is more efficient)
  • 平均每人可管理多少伺服器和資料量
  • 平均每單位資料量的管理運轉成本
  • 資料成長的成本增加率
  • 平均救回每個檔案所需的時間與成本

災難防禦能力
系統停擺的時間與造成損失的關係圖
防止營運損失所需的最低投資

投資報酬率 (lower TCO is higher ROI)
每增加一塊錢可降低多少每年的營運成本

i. 每單位資料量的管理運轉成本與每單位資料量的企業營收的關係
ii. 除了購置花費和學習成本外,每年需支出多少維護費用

 
保障既有的設備投資

i. 設備再利用率、符合新應用趨勢及開放式標準
較高的ROI可提升企業競爭力,進而領先其他同業競爭對手


未來的演進

未來的趨勢裡,備份的軟/硬體功能會愈來愈強,儲存設備的軟/硬體功能與效率會愈來愈高,檔案系統也會橫跨網際網路運用而愈來愈複雜,至於影響備份效率的瓶裝因素,會不會轉移到其他原因上,在這裡也很難預先有一個定論,而且每一個使用者的環境也都有所不同,自然地狀況也會有所不同,不過就現在可以看到的情況是,儲存設備本身的硬體效率都相當不錯,如果配合得當的話,是可以如虎添翼般的大幅提昇備份的整體效應的。
  
PS:參考資料出處
1. 組合國際電腦股份有限公司BrightStor ARCserve Backup Software
2. Symantec Veritas NetBackup Softeare
3. 飛康國際網路科技股份有限公司FalconStor CDP Appliance
4. Tandberg & Exabyte 8mm Tape & LTO Tape
5. Mcgraw-Hill:Building Storage Networks

沒有留言:

張貼留言