三甲醫(yī)院HIS系統(tǒng)升級改造難點分析探討
醫(yī)院管理信息系統(tǒng) (Hospital Information System,HIS) 有廣義和狹義之分。廣義的醫(yī)院 HIS 是醫(yī)院管理和醫(yī)療活動中進行信息管理和聯(lián)機操作的計算機應用系統(tǒng)的統(tǒng)稱;狹義的醫(yī)院 HIS 單指醫(yī)院門診及住院信息管理業(yè)務系統(tǒng)。而本文所述 HIS 系統(tǒng)通指其狹義概念。
醫(yī)院 HIS 作為醫(yī)院最重要的信息系統(tǒng),其穩(wěn)定、可靠、高效運行以支持醫(yī)院業(yè)務發(fā)展需要是醫(yī)療信息化研究的重要方向。隨著信息技術日新月異的發(fā)展及醫(yī)院業(yè)務需求的不斷擴展,如何采用新技術和新架構促成醫(yī)院 HIS 系統(tǒng)的軟硬件升級與改造已然成為國內(nèi)眾多醫(yī)院亟待解決的重要課題。
本文根據(jù)某三甲醫(yī)院 HIS 系統(tǒng)升級改造的案例,詳細進行闡述分析,以期提供相應的經(jīng)驗分享。
一、背景介紹
該院 HIS 系統(tǒng)采用的是 C/S 架構,數(shù)據(jù)庫服務器為兩臺 2010 年采購的 P570 服務器,所用存儲為 IBM DS4800 。服務器上所采用的操作系統(tǒng)平臺為 AIX 5.3 ,數(shù)據(jù)庫為 Oracle 9i ,版本為 9.2.0.8 。服務器采用 AIX 的雙機集群 HACMP 以及 Oracle RAC ,將兩臺服務器做成了一個群集,底層 DS4800 存儲通過 RemoteMirror+FlashCopy 實現(xiàn)兩個機房間的兩臺存儲之間的遠程物理層面的容災。容災環(huán)境由一臺 P550 服務器接管,該服務器通過 Oracle Data Gurad 方式實現(xiàn) Oracle 數(shù)據(jù)庫的邏輯容災, HIS 架構如圖 1 所示。
二、存在問題及升級改造的需求分析
1 、架構需優(yōu)化
HIS 系統(tǒng)作為最重要的業(yè)務系統(tǒng),系統(tǒng)的建設目標是追求 RTO 和 RPO 均等于 0 。由上述架構可知,由于當時的技術限制,雖然架構上考慮到物理層及數(shù)據(jù)邏輯層的容災,但是無法實現(xiàn) RTO 和 RPO 均等于 0 。物理層面上,兩臺 DS4800 之間通過 RemoteMirror+FlashCopy 實現(xiàn)同步容災,可實現(xiàn) RPO 等于 0 ,但是因為容災存儲及服務器的啟用仍需要進行相應的切換操作才可使容災環(huán)境支持業(yè)務系統(tǒng),理論 RTO 時間為 5-10 分鐘;而邏輯層面上,因為 Oracle Data Guard 的配置因素,生產(chǎn)及容災環(huán)境之間的數(shù)據(jù)一致性依賴于生產(chǎn)數(shù)據(jù)庫的在線及離線日志是否正常傳輸至容災服務器,而突發(fā)的意外宕機極有可能損失一部分日志文件,并且容災環(huán)境的啟用也需要比較復雜及專業(yè)的環(huán)境切換操作,故 RPO 及 RTO 均不可能等于 0 。
除此之外,容災體系也不夠全面完善。雖然 Oracle 9i 的 Data Gurad 可支持對 Oracle 數(shù)據(jù)邏輯層的回退操作,但是其前提是相應的離線日志尚未被 recover 恢復。如果已執(zhí)行 recover 恢復,則無法實現(xiàn)相應的回退目標,致使無法實現(xiàn)業(yè)務的回退容災,存在相當?shù)娘L險隱患,需要引入諸如全量備份、增量備份及持續(xù)數(shù)據(jù)保護 CDP 等方式加強數(shù)據(jù)的邏輯層保護。
2 、性能需優(yōu)化
主機性能方面,通過 AIX nmon 工具對醫(yī)院 HIS 的兩臺服務器進行監(jiān)控分析發(fā)現(xiàn),單臺服務器 Power6 CPU 的總核數(shù)為 16 核,平均使用率在 80% 以上,高峰達到 90% , 64G 內(nèi)存使用也在 90% 左右。如果兩臺服務器中的其中一臺出故障,另外一臺在如此壓力之下無法勝任支撐業(yè)務系統(tǒng)的要求,相對配置更低的容災服務器 P550 更加無法滿足業(yè)務系統(tǒng)容災的需要。網(wǎng)絡吞吐方面,數(shù)據(jù)庫的兩個實例間的心跳網(wǎng)絡為千兆網(wǎng)絡, HIS 高峰業(yè)務期心跳網(wǎng)絡的吞吐量長期維持在 80-100M/S ,已經(jīng)達到了千兆網(wǎng)絡的瓶頸速度。磁盤 IO 方面, DS4800 的存儲配備的是 10k 的 SAS 盤,總共 32 塊盤,每 8 塊做 raid5 形成一個 raid 組,每個 raid 組分配一個 lun 給服務器提供存儲,通過存儲監(jiān)控工具及主機 nmon 的分析可知,存儲的總體 IO 也在 80% 以上,存在瓶頸需要優(yōu)化。
3 、數(shù)據(jù)庫需優(yōu)化
當前 HIS 的數(shù)據(jù)庫版本為 Oracle 9208 ,屬于 Oracle 較舊的軟件版本,其數(shù)據(jù)庫訪問速度、支持的訪問需求、容錯和安全、性能監(jiān)控及數(shù)據(jù)庫管理方面均無法勝任醫(yī)院日益增長的業(yè)務需求。而且該版本官方早已停止發(fā)布更新,數(shù)據(jù)庫層面存在漏洞無法更新、 bug 問題無法得到支持的窘境。
4 、管理與功能需優(yōu)化
隨著醫(yī)院業(yè)務的不斷擴展, HIS 系統(tǒng)也要頻繁進行更新與升級,這就要求有近似生產(chǎn)環(huán)境的測試環(huán)境進行功能及性能方面的全面測試,以保障更新與升級的順利進行。醫(yī)院現(xiàn)有架構無法實現(xiàn)近似生產(chǎn)環(huán)境的快速部署。除此之外,因為 HIS 容災環(huán)境的機械性,導致 HIS 系統(tǒng)的一些大數(shù)據(jù)量的查詢及分析的需求只能壓在生產(chǎn)環(huán)境,從而導致生產(chǎn)環(huán)境壓力過大,不利于日常業(yè)務的穩(wěn)定與高效運行。
三、醫(yī)院 HIS 系統(tǒng)升級改造平臺的架構設計
基于上述 HIS 系統(tǒng)架構存在問題、痛點及迫切改進的需求,采用現(xiàn)有主流先進的軟硬件產(chǎn)品和技術,對醫(yī)院現(xiàn)有 HIS 系統(tǒng)進行升級改造,升級改造的整體架構設計如圖 2 所示。
存儲層面上,采用現(xiàn)今主主流的存儲雙活技術,在醫(yī)院生產(chǎn)及容災的兩個機房,分別放置一套 EMC VPLEX 雙活網(wǎng)關及 EMC VMAX 250F 全閃存儲,形成雙活集群。存儲配置高速 SSD 磁盤,為業(yè)務提供高 IOPS 。每個機房放置一套 EMC RecoverPoint 并使用原來生產(chǎn)存儲 IBM DS4800 作為其存儲空間,提供實時的數(shù)據(jù)保障,可提供任意時間點的、 IO 級、秒級的恢復保障,彌補了原來容災架構的不足,可應對物理部件故障及邏輯故障等多重風險。
主機層面上,采用兩臺浪潮商用機器有限公司的 K1 Power E870 小型機作為生產(chǎn)主機,并配備多張萬兆網(wǎng)卡,通過心跳萬兆交換機互聯(lián)形成集群,突破原來集群心跳帶寬的瓶頸限制。單臺 K1 Power E870 的主要配置為: 64-core 4.02GHz Power8 CPU/512GB DDR4 內(nèi)存 /4 塊 775GB SSD 磁盤,整體服務器性能是原有配置的 4 倍多,主機配置的 4 個 SSD 磁盤為主機 AIX 操作系統(tǒng)提供高 IO 的存儲空間,防止了設備的短板。
數(shù)據(jù)庫層面上,將原來的 Oracle 9i 升級成為 Oracle 11g ,并重做數(shù)據(jù)庫 Data Guard 。采用 11g 的 ADG 功能,把 DG 數(shù)據(jù)庫置為只讀數(shù)據(jù)庫,并修改 HIS 應用指向,分擔業(yè)務數(shù)據(jù)庫的壓力。業(yè)務數(shù)據(jù)庫原來采用裸設備的方式存放數(shù)據(jù)文件,升級成 11g 改成自動存儲管理 ASM 功能,可以大幅減少維護的工作量,并減少誤操作的風險。 11g 的其它優(yōu)點包括:
① 支持自動壞塊檢測和修復,可以通過 DG 可以自動修復生產(chǎn)數(shù)據(jù)庫的壞塊;
② 提供數(shù)據(jù)庫回收站和閃回功能,具有一定的預防邏輯錯誤能力;
③ 提供數(shù)據(jù)庫 AWR 性能監(jiān)控,相比 9i 的 Statspack 能更詳細更直觀找到數(shù)據(jù)庫潛在瓶頸和 TOP SQL ;
④ 提供自動內(nèi)存管理 AMM 功能,能自適應管理內(nèi)存,簡化數(shù)據(jù)庫管理。
容災層面上,上述雙活存儲及雙機集群均為物理層面上的容災冗余,可有效應對存儲、主機及操作系統(tǒng)等物理層面上的宕機或故障風險。數(shù)據(jù)庫邏輯層面上,通過原來生產(chǎn)的兩臺 P570 作為容災主機,容災機房的 IBM DS4800 作為容災存儲,構建 Oracle 11g 的 Data Gurad ,以應對數(shù)據(jù)庫邏輯故障風險。除此之外,通過 EMC RecoverPoint ,對 HIS 數(shù)據(jù)進行持續(xù)保護,設置備份策略,為系統(tǒng)提供歷時數(shù)據(jù)的備份、實時的數(shù)據(jù)保護及任意時間點的、 IO 級、秒級的恢復保障,可應對物理部件故障及邏輯故障等多重風險,極大完善現(xiàn)有 HIS 容災架構。新架構 RTO/RPO 接近于 0 。
圖 2 醫(yī)院 HIS 系統(tǒng)升級改造平臺架構設計
四、醫(yī)院 HIS 系統(tǒng)升級改造硬件 + 軟件難點分析
醫(yī)院 HIS 系統(tǒng)升級改造的目標是結合醫(yī)院的 HIS 系統(tǒng)實際需求,通過迄今為止最優(yōu)化的軟硬件技術及方案,為系統(tǒng)提供更穩(wěn)定的架構和更高效的性能,為運維管理人員提供更便捷的管理和更全面的系統(tǒng)功能,為用戶提供更流暢的系統(tǒng)體驗。醫(yī)院 HIS 系統(tǒng)升級改造涉及存儲、主機、操作系統(tǒng)、數(shù)據(jù)庫、網(wǎng)絡、上層應用及容災架構等方方面面,任何一方面考慮不周或存在瓶頸,會使得整體的系統(tǒng)升級改造存在短板瓶頸,甚者導致升級改造項目的功虧一簣。如何做好升級改造,兼顧升級改造的方方面面內(nèi)容,最重要的是要做好全面、客觀并有效的系統(tǒng)分析,解決攻克升級改造過程中遇到的硬件 + 軟件的難關。下面,結合醫(yī)院的 HIS 系統(tǒng)升級改造的設計實踐,對醫(yī)院 HIS 系統(tǒng)升級改造硬件 + 軟件的難點進行詳細分析。
1、做好現(xiàn)有環(huán)境的全面分析,為升級改造提供可靠依據(jù)
升級改造要做好,現(xiàn)有環(huán)境的全面分析是前提。如何做好現(xiàn)有環(huán)境的全面分析,具體來說就是要明確現(xiàn)在系統(tǒng)硬件 + 軟件環(huán)境的客觀情況、存在問題、未來業(yè)務發(fā)展需求、現(xiàn)有可實行的軟硬件升級改造技術及方案、升級改造的要求與條件、升級改造的難點及可實行的解決辦法等。
立足醫(yī)院 HIS 系統(tǒng)本次的升級改造,全面分析工作包括:
① 現(xiàn)有 HIS 系統(tǒng)的軟硬件情況的詳細了解。存儲層面上,包括存儲型號、磁盤類型、是否有用快照復制等備份技術、存儲最大 IOPS 及吞吐量、存儲池 /RAID/LUN/HOST GROUP 等配置情況;光纖交換機層面上,包括光纖交換機模塊速率、剩余模塊數(shù)量、級聯(lián)情況、 alias/zone 等配置情況;主機層面上,包括 CPU 的類型、核數(shù)、主頻及使用情況,內(nèi)存的類型、大小及使用情況,磁盤類型、負載、 PV/VG/LV/fs 等 LVM 管理情況,網(wǎng)卡類型、速率及負載, HBA 卡的類型、速率及負載,其它主機配置情況如 PCI 、串口線等;操作系統(tǒng)層面上,包括用戶、組、 IP 網(wǎng)絡、防火墻、訪問控制列表、磁盤 / 網(wǎng)卡 /HBA 卡 / 系統(tǒng)環(huán)境參數(shù)等系統(tǒng)配置參數(shù)的具體情況;數(shù)據(jù)庫層面上,包括數(shù)據(jù)庫版本及補丁、數(shù)據(jù)庫用戶、數(shù)據(jù)量大小、表空間及數(shù)據(jù)文件、臨時文件、在線及離線日志配置情況、表 / 索引 / 存儲過程 / 觸發(fā)器 / 序列 /DBLINK 等數(shù)據(jù)庫對象的情況、數(shù)據(jù)庫 job 情況等;網(wǎng)絡層面上,交換機接口速率、網(wǎng)絡接口類型(電口 / 光纖)及剩余口等情況;容災層面上:物理層、邏輯層、數(shù)據(jù)層及應用層等容災方式建設情況,各種風險應對措施及應急方案情況。
值得提出的是,系統(tǒng)的軟硬件情況的詳細了解是一個整體的過程,例如系統(tǒng)的 IO 性能,不僅要通過存儲專業(yè)的監(jiān)控軟件對系統(tǒng)存儲的使用情況做一個長期的監(jiān)控及評估,而且還要從主機 AIX 操作系統(tǒng)層面通過諸如 nmon 等監(jiān)控工具以及數(shù)據(jù)庫 Oracle 層面上通過 Statspack 監(jiān)控系統(tǒng) IO 的整體性能,綜合多個層面多個角度的數(shù)據(jù),客觀分析系統(tǒng)現(xiàn)有情況。
② 現(xiàn)有 HIS 系統(tǒng)存在問題及未來業(yè)務發(fā)展需求分析
詳細了解 HIS 系統(tǒng)現(xiàn)有架構、配置、性能等情況后,列出 HIS 系統(tǒng)存在問題清單,結合醫(yī)院業(yè)務發(fā)展趨勢,預估醫(yī)院未來業(yè)務增長對系統(tǒng)的要求,包括醫(yī)院未來新上線系統(tǒng)的對接要求、互聯(lián)網(wǎng) + 醫(yī)療如微信、支付寶、銀聯(lián)、配藥等業(yè)務模式擴展對系統(tǒng)的壓力要求等,列出 HIS 系統(tǒng)未來性能瓶頸清單,結合兩者,為后續(xù)升級改造的架構設計提供參考。
③ 現(xiàn)有可實行的軟硬件升級改造技術及方案分析
對不同廠家、不同品牌的軟硬件產(chǎn)品、技術及方案進行審慎評估,結合醫(yī)院 HIS 實際,對各類軟硬件廠家技術及方案進行綜合考量,列出不同技術及方案的優(yōu)缺點,為后續(xù)架構設計及設備選型提供參考
④ 升級改造的要求與條件、難點及可實行的解決辦法分析
升級改造涉及機房配電環(huán)境、地板承重、機柜空間、綜合布線、不同機房間的網(wǎng)絡鏈路、網(wǎng)絡網(wǎng)口、升級改造項目完成時間、切換停機窗口時間等要求和條件,要充分評估升級改造的要求、風險及難點,擬定升級改造風險應對表,做好升級改造的風險應對。
2、做好升級改造架構的設計,為升級改造指明方向
升級改造要做好,架構的科學設計是關鍵。架構的設計要充分結合現(xiàn)有環(huán)境的全面分析的結果,充分評估業(yè)務未來需求的增長、升級改造的要求與條件、現(xiàn)有先進技術及方案等多方面內(nèi)容。架構設計應體現(xiàn)架構穩(wěn)定可靠、方法科學、技術先進、體系完備、性能卓越和有一定的前瞻性的原則,邀請國內(nèi)外知名的醫(yī)療 IT 專家對醫(yī)院現(xiàn)有 HIS 架構進行整體設計與咨詢,為后續(xù)升級改造指明方向。
3、做好設備選型,為升級改造提供可靠設備支持
升級改造要做好,合理的設備選型是重要基礎。架構設計完成后,在項目預算范圍內(nèi),選擇哪種技術,如雙活存儲架構方面包括了 EMC VPLEX 和 IBM SVC 的硬件虛擬化網(wǎng)關方式 /HDS 高端存儲虛擬化軟件方式;選擇哪種設備,如存儲方面包括了 EMC Vmax F 全閃系列 /HDS F 系列等,主機方面包括了 K1 Power E870 小型機 / 富士通 M12-2S/HP Unix 小型機;選擇哪種數(shù)據(jù)庫升級遷移方式,包括 GoldenGate/RMAN/ExpImp 導入導出方式等。設備選型要結合現(xiàn)有環(huán)境選擇方案最先進、產(chǎn)品最穩(wěn)定、性能最優(yōu)越、經(jīng)濟效益最優(yōu)化、升級改造工作最簡化平穩(wěn)的設備。
4、做好升級改造方案,為升級改造提供可靠技術路線
升級改造要做好,方案的細化及落實是重點也是難點。升級改造涉及系統(tǒng)的方方面面,方案既要統(tǒng)籌兼顧,又要細化可落實。存儲層面,如何劃分存儲池 /RAID 組 /LUN/Host ,快照、精簡等存儲功能如何配置使用;操作系統(tǒng)層面上, AIX 系統(tǒng)安裝何種版本,文件系統(tǒng)如何劃分,計算內(nèi)存及非計算內(nèi)存、存儲的隊列深度等系統(tǒng)關鍵參數(shù)如何配置,網(wǎng)卡是否聚合綁定等;數(shù)據(jù)庫層面上,升級改造后的 Oracle 11g 版本與 HIS 應用的兼容性風險問題,升級改造后的 HIS 系統(tǒng)與醫(yī)院其它系統(tǒng)通過 DBLINK 的存儲過程進行數(shù)據(jù)交互的兼容性問題,與醫(yī)院在用的 Oracle 9208 客戶端之間的兼容性問題等。升級改造方案制定后需要搭建與現(xiàn)有生產(chǎn)環(huán)境一致的測試環(huán)境進行完備的測試,包括系統(tǒng)參數(shù)設置的測試確認、功能測試、性能的測試等,方案的所有內(nèi)容需要測試確認后方可作為最終升級改造的切換方案進行實施。另外,要反復測試確認升級改造切換的停機所需時間,所有切換操作形成可執(zhí)行命令行及步驟,確保停機時間窗口盡可能短。
五、醫(yī)院 HIS 系統(tǒng)升級改造項目經(jīng)驗總結
1、要預留充足的預算
醫(yī)院 HIS 系統(tǒng)升級改造涉及軟硬件方方面面,而且其中涉及數(shù)據(jù)庫升級及應用層面的配合改造等服務,并且要預留一定的預算作為風險應對及應急資金儲備,所以整個項目需要有充足的預算,為項目的推進提供保障。
2、要挑選可靠的集成商
醫(yī)院 HIS 系統(tǒng)升級改造項目涵蓋了存儲、主機、網(wǎng)絡、數(shù)據(jù)庫等多方面,要挑選有資質(zhì)、有能力、有經(jīng)驗且可靠的集成商進行項目升級改造,好的集成商可使得項目少走彎路,達到事半功倍的效果。
3、要發(fā)揮專家咨詢的作用
邀請國內(nèi)外知名的醫(yī)療 IT 專家形成項目專家?guī)?,專家?guī)鞈w架構、存儲、主機、網(wǎng)絡、數(shù)據(jù)庫等多方面,從醫(yī)院 HIS 的現(xiàn)狀分析、架構的設計、到設備的選型及升級改造方案的制定,每個流程都應該發(fā)揮專家咨詢的作用,穩(wěn)定推進項目的開展。
4、要做好嚴格的測試
升級改造的方案越細化,失敗的風險就越低,而細化的方案的制定離不開嚴格的測試,不管是存儲主機及網(wǎng)絡的配置、亦或是系統(tǒng)參數(shù)的配置,還是操作命令及步驟的確認,都應該通過嚴格的測試,確保方案可行、步驟合理、操作可用。