摘要:當前,HPC已進入P級時代,正在向著E級時代進發。HPC系統的規模不斷擴大,HPC硬件系統的建設是一個涉及眾多方面的浩大工程。需要有一個有效的管理平臺,對整個工程建設進行有效管理。本文根據PLM在企業產品管理中的實踐,提出了將PLM引入HPC硬件項目管理的一種設想。
1 引言
隨著2011年6月高性能計算機(HPC)Top500的發布,Top500的前13名的峰值性能全部達到P級,前10名的實測峰值性能全部達到P級。在Top10中,最少CPU核心數為73278個,最多為548352個。縱觀Top500中HPC,隨著性能的提升,其硬件資源規模也在不斷增加。構建一套大規模的HPC硬件系統,需要由多個部門經過長時間的協同工作才能完成,是一個涉及多方面的系統工程。對于這個工程,必須采取更有效率和質量的管理方法,才能保證項目有序、按計劃、保質量的完成。產品生命周期管理(Product Lifecycle Management,PLM)是在20世紀80年代提出的,它始于制造業,其應用從最初的產品保障方案,迅速擴展到質量管理控制領域,在實體制造業中取得良好的效果。基于PLM的實質,本文嘗試將其思想和方法引入應用到HPC硬件項目管理中。
2 HPC項目管理中面臨的問題
HPC系統的硬件資源規模巨大,種類繁多。構建HPC硬件系統是一個復雜的系統工程,涉及機房建設和布局、供電、冷卻、機倉結構組裝、印制板設計生產、網絡布局布線、運算節點、網絡節點、服務節點、維護系統、監控系統等多個方面。在HPC硬件系統的設計、生產、調試、組裝、部署、聯調等一系列過程中,需要多個部門按部就班地協同工作,共同管理,才能最終實現HPC硬件系統的構建。在整個過程中,如何整合、管理由多個部門建設的硬件資源,面臨著一系列的管理問題。
1)不同部門之間的協調
一套HPC系統的構建,一般是以某一個研究機構為主體,多個相關單位和外協單位配合共同完成的。在主體研究機構中,也有多個部門參與到項目的建設中。在這些部門中,如何協調任務的劃分、人員的安排、進度的檢查、相互之間的接口協議、聯合調試等,是一個系統性的管理工程。
2)工作流的管理
一套HPC系統從項目預研、需求分析、方案設計,到機房建設、硬件設計、器件采購、設備生產、硬件調試,再到批量生產、組裝、聯調,一般要經歷2到5年。為了保證項目的順利實施,必須制定一個詳盡的工作計劃和流程,設定重要的里程碑節點和檢查節點。在這個漫長的過程中,可能面臨多種變數導致項目計劃更改,如設計問題、資金問題、器材問題、生產問題或設備和技術的更新換代問題等。如何在多個部門參與的情況下,對工作流進行統籌安排管理,也是一個系統難題。
3)硬件設備創建流程管理
在HPC系統構建過程中,需要設計制造多種設備,如結構框架定制、冷卻設備定制、芯片流片和封裝、印制板生產等。所有這些設備的創建流程可能包括實驗、改進、定型、批量四個階段,改進階段可能為0次或多次。對硬件設備整個創建流程,也需要統一的管理。
4)設備和器材的管理
HPC項目中,需要購買大量的設備和器材,對設備和器材選型、供應商選定、申購流程、審批權限、到貨周期、設備和器材檢驗、存放等問題,需要納入統一的管理流程。
5)硬件資源運行時管理
HPC系統的硬件資源種類繁多,功能不一,在系統運行階段發生故障的概率也不一樣。在對硬件資源進行運行管理時,需要根據不同資源的故障情況和影響程序,采用不同的動態管理策略。比如結構框架定型安裝后,基本不會發生故障,可不納入動態管理范疇;而電源系統、冷卻系統、運算系統、網絡系統、服務節點、維護系統、機房環境等可能發生故障或影響系統運行的異常狀態,需要實時監測、記錄這些資源發生的異常狀況。對于需要運行時管理的資源,不同資源的管理要求也不盡相同,比如電源機柜、空調、冷卻設備等不易移動的資源,僅需管理發生故障的位置、時間、現象、解決方法等信息即可,而對于運算節點、計算網絡等可更換位置的核心資源,需要管理發生故障的資源的身份、位置、時間、現象、現場、運行課題、解決方法等信息,確保不論這些資源位于什么位置,都能跟蹤記錄其整個運行周期內的生命狀態。
6)軟硬件資源的關聯管理
構建HPC硬件資源是為了建立軟件運行環境以而達到提供高性能并行計算能力的目的。軟件系統的正確運行,首先必須明確哪些計算資源在位并且可用,其次明了這些可用的資源運行狀態是否正確。因此,硬件資源管理必須為軟件系統提供相關資源的狀態。另外,軟件使用過程中,可能會將出現故障的硬件資源從軟件可用資源隊列中剔除,硬件資源管理對這些故障資源需要及時定位、維修處理。對于龐大的HPC系統資源,為了實現資源管理的自動化,必須為軟硬件資源管理建立密切的關聯。
3 PLM理念在HPC硬件項目中的應用設想
3.1 PLM簡介
PLM是一種將管理產品貫穿到其生命周期中的每一個操作過程中的信息的方法,是對從產品需求開始,到產品淘汰報廢的過程管理。PLM是以產品數據集為基礎在其生命周期內從產品規劃、設計、制造到銷售等過程的管理與協同研究。它實施一整套的業務解決方案,將人、過程和信息有效地集成在一起,作用于整個企業,遍歷產品從概念到報廢的全生命周期,支持與產品相關的協作研發、管理、分發和使用產品定義信息。PLM也是PDM(Product Data Management)的深化和發展,包括了PDM的全部內容,但PLM更強調對產品生命周期內跨越供應鏈的所有信息進行管理。
PLM的實現途徑:需要一批工具和技術支持,并需要企業建立起一個信息基礎框架來支持其實施和運行。目前比較成熟的PLM集成軟件供應商,國外有Siemens PLM Software、PTC、UGS、IBM等,國內有英泰、XTPDM、CAXD、用友等。
據一些世界知名的咨詢公司的分析報告顯示,發達國家的制造業企業在IT應用系統上增長最快的是PLM。Aberdeen公司預測全球PLM市場將以每年10.9%的高速增長率,企業全面實施PLM后,可節省5%~10%的直接材料成本,提高庫存流轉率20%~40%,降低開發成本10%~20%,進入市場時間加快15%~50%,降低用于質量保證方面的費用15%~20%,降低制造成本10%,提高生產率25%~60%。
3.2 PLM在HPC硬件項目中應用設想
隨著PLM在企業的應用推廣,其提供的可滿足產品生命周期具體需求的功能也越來越多,如配置管理、工程變更管理、文檔管理等,現在都己成為PLM的標準功能。目前PLM在企業,特別是制造企業中取得了很多成功的案例,但在HPC項目管理上尚未見相關案例報道。經分析PLM實現的功能,應該同樣適用于HPC硬件項目的開發管理,以解決HPC硬件項目管理上的難題。
1)項目管理和產品協同
項目管理功能可管理項目的計劃、執行和控制等活動,以及與這些活動相關的資源,并將它們與產品數據和流程關聯在一起,最終達到項目的進度、成本和質量的管理。
產品協同提供一類基于Internet/Intranet的軟件和服務,能讓產品價值鏈上每個環節的每個相關人員不論在任何時候、任何地點都能夠協同地對產品進行開發、制造和管理。PLM的工作流管理可實現:
整個產品生命周期系統過程不同階段任務的基本屬性以及執行順序的定義,并通過設定任務的類別以及各個任務執行的具體要求和己知條件,通過Mail、電話、短信等通知方式提供任務的流轉提醒和控制。
實現產品整個生命周期的組織和人員的定義,包括過程、任務對應的相關組織和執行人員等。
提供協同過程的流程管理和任務監控的可視化平臺。
以上功能不僅可以為分布在不同地區、不同部門的HPC設計相關人員提供一個協同工作環境,使產品協同工作過程真正落實在有序、高效、科學的管理軌道上;而且還提供了產品生命周期過程的組織、質量、進度、成本和產品等各種動態信息管理工具,可實現產品計劃管理、硬件設備創建流程管理和設備及器材的管理。
2)工作臺
將完成特定任務必須的所有功能和工具集成到一個界面下,使最終用戶可以在一個統一的環境中完成諸如設計協同、數據樣機、設計評閱和仿真等工作。此功能可用來統一管理HPC系統設計數據,聯調各部門實現的不同分項任務,完成系統集成。
3)變更管理
使數據的修訂過程可以被跟蹤和管理,提供一個打包的方案來管理變更請求、變更通知、變更策略,最后到變更的執行和跟蹤等一整套方案。此功能可跟蹤記錄HPC設計過程中一切計劃、設計、器材、生產等一系列的變更情況。
4)文檔管理
提供圖檔、文檔、實體模型安全存取、版本發布、自動遷移、歸檔、簽審過程中的格式轉換、瀏覽、圈閱和標注,以及全文檢索、打印、郵戳管理、網絡發布等一套完整的管理方案,并提供多語言和多媒體的支持。本功能實現由HPC系統不同設計部門獨立或聯合撰寫的方案、接口協議、程序等文檔和資料的有效管理。
5)信息系統管理
PLM不僅可以有效地控制與產品相關的各項工作流程,還可以集成各種信息管理系統,實現信息共享和過程集成。在PLM平臺下開展HPC硬件資源管理,不僅可以有效地控制系統硬件建設部署流程,還可以實現對HPC運行時的硬件資源管理、軟硬件資源關聯管理以及資源的維護管理,主要分以下四個環節實現:
在PLM平臺下配置硬件資源管理環境;
建立基于產品結構樹的系統硬件信息主模型;
自主研發的硬件資源管理工具與PLM平臺的集成,以擴充現有PLM管理平臺在HPC資源管理方面的功能;
基于PLM項目協同和工作流管理實現軟硬件資源的關聯管理和控制設備故障分析、維修流程。
4 結束語
本文簡要描述了HPC硬件項目設計過程中面臨的一些管理問題,根據PLM在企業產品全壽命周期管理中發揮的巨大作用,借鑒PLM的理念,提出了將PLM引入HPC硬件項目管理的設想。當然,由于HPC在一個國家經濟、軍事甚至是政治上的特殊地位以及PLM在企業的應用現狀,現行的PLM實現方案可能無法完全解決HPC硬件建設過程中遇到的所有問題。一方面要靈活配置、運用PLM工具以適應HPC建設的運作流程,另一方面要開發出專用的管理工具與PLM平臺集成,以完成綜合的管理任務。
1 引言
隨著2011年6月高性能計算機(HPC)Top500的發布,Top500的前13名的峰值性能全部達到P級,前10名的實測峰值性能全部達到P級。在Top10中,最少CPU核心數為73278個,最多為548352個。縱觀Top500中HPC,隨著性能的提升,其硬件資源規模也在不斷增加。構建一套大規模的HPC硬件系統,需要由多個部門經過長時間的協同工作才能完成,是一個涉及多方面的系統工程。對于這個工程,必須采取更有效率和質量的管理方法,才能保證項目有序、按計劃、保質量的完成。產品生命周期管理(Product Lifecycle Management,PLM)是在20世紀80年代提出的,它始于制造業,其應用從最初的產品保障方案,迅速擴展到質量管理控制領域,在實體制造業中取得良好的效果。基于PLM的實質,本文嘗試將其思想和方法引入應用到HPC硬件項目管理中。
2 HPC項目管理中面臨的問題
HPC系統的硬件資源規模巨大,種類繁多。構建HPC硬件系統是一個復雜的系統工程,涉及機房建設和布局、供電、冷卻、機倉結構組裝、印制板設計生產、網絡布局布線、運算節點、網絡節點、服務節點、維護系統、監控系統等多個方面。在HPC硬件系統的設計、生產、調試、組裝、部署、聯調等一系列過程中,需要多個部門按部就班地協同工作,共同管理,才能最終實現HPC硬件系統的構建。在整個過程中,如何整合、管理由多個部門建設的硬件資源,面臨著一系列的管理問題。
1)不同部門之間的協調
一套HPC系統的構建,一般是以某一個研究機構為主體,多個相關單位和外協單位配合共同完成的。在主體研究機構中,也有多個部門參與到項目的建設中。在這些部門中,如何協調任務的劃分、人員的安排、進度的檢查、相互之間的接口協議、聯合調試等,是一個系統性的管理工程。
2)工作流的管理
一套HPC系統從項目預研、需求分析、方案設計,到機房建設、硬件設計、器件采購、設備生產、硬件調試,再到批量生產、組裝、聯調,一般要經歷2到5年。為了保證項目的順利實施,必須制定一個詳盡的工作計劃和流程,設定重要的里程碑節點和檢查節點。在這個漫長的過程中,可能面臨多種變數導致項目計劃更改,如設計問題、資金問題、器材問題、生產問題或設備和技術的更新換代問題等。如何在多個部門參與的情況下,對工作流進行統籌安排管理,也是一個系統難題。
3)硬件設備創建流程管理
在HPC系統構建過程中,需要設計制造多種設備,如結構框架定制、冷卻設備定制、芯片流片和封裝、印制板生產等。所有這些設備的創建流程可能包括實驗、改進、定型、批量四個階段,改進階段可能為0次或多次。對硬件設備整個創建流程,也需要統一的管理。
4)設備和器材的管理
HPC項目中,需要購買大量的設備和器材,對設備和器材選型、供應商選定、申購流程、審批權限、到貨周期、設備和器材檢驗、存放等問題,需要納入統一的管理流程。
5)硬件資源運行時管理
HPC系統的硬件資源種類繁多,功能不一,在系統運行階段發生故障的概率也不一樣。在對硬件資源進行運行管理時,需要根據不同資源的故障情況和影響程序,采用不同的動態管理策略。比如結構框架定型安裝后,基本不會發生故障,可不納入動態管理范疇;而電源系統、冷卻系統、運算系統、網絡系統、服務節點、維護系統、機房環境等可能發生故障或影響系統運行的異常狀態,需要實時監測、記錄這些資源發生的異常狀況。對于需要運行時管理的資源,不同資源的管理要求也不盡相同,比如電源機柜、空調、冷卻設備等不易移動的資源,僅需管理發生故障的位置、時間、現象、解決方法等信息即可,而對于運算節點、計算網絡等可更換位置的核心資源,需要管理發生故障的資源的身份、位置、時間、現象、現場、運行課題、解決方法等信息,確保不論這些資源位于什么位置,都能跟蹤記錄其整個運行周期內的生命狀態。
6)軟硬件資源的關聯管理
構建HPC硬件資源是為了建立軟件運行環境以而達到提供高性能并行計算能力的目的。軟件系統的正確運行,首先必須明確哪些計算資源在位并且可用,其次明了這些可用的資源運行狀態是否正確。因此,硬件資源管理必須為軟件系統提供相關資源的狀態。另外,軟件使用過程中,可能會將出現故障的硬件資源從軟件可用資源隊列中剔除,硬件資源管理對這些故障資源需要及時定位、維修處理。對于龐大的HPC系統資源,為了實現資源管理的自動化,必須為軟硬件資源管理建立密切的關聯。
3 PLM理念在HPC硬件項目中的應用設想
3.1 PLM簡介
PLM是一種將管理產品貫穿到其生命周期中的每一個操作過程中的信息的方法,是對從產品需求開始,到產品淘汰報廢的過程管理。PLM是以產品數據集為基礎在其生命周期內從產品規劃、設計、制造到銷售等過程的管理與協同研究。它實施一整套的業務解決方案,將人、過程和信息有效地集成在一起,作用于整個企業,遍歷產品從概念到報廢的全生命周期,支持與產品相關的協作研發、管理、分發和使用產品定義信息。PLM也是PDM(Product Data Management)的深化和發展,包括了PDM的全部內容,但PLM更強調對產品生命周期內跨越供應鏈的所有信息進行管理。
PLM的實現途徑:需要一批工具和技術支持,并需要企業建立起一個信息基礎框架來支持其實施和運行。目前比較成熟的PLM集成軟件供應商,國外有Siemens PLM Software、PTC、UGS、IBM等,國內有英泰、XTPDM、CAXD、用友等。
據一些世界知名的咨詢公司的分析報告顯示,發達國家的制造業企業在IT應用系統上增長最快的是PLM。Aberdeen公司預測全球PLM市場將以每年10.9%的高速增長率,企業全面實施PLM后,可節省5%~10%的直接材料成本,提高庫存流轉率20%~40%,降低開發成本10%~20%,進入市場時間加快15%~50%,降低用于質量保證方面的費用15%~20%,降低制造成本10%,提高生產率25%~60%。
3.2 PLM在HPC硬件項目中應用設想
隨著PLM在企業的應用推廣,其提供的可滿足產品生命周期具體需求的功能也越來越多,如配置管理、工程變更管理、文檔管理等,現在都己成為PLM的標準功能。目前PLM在企業,特別是制造企業中取得了很多成功的案例,但在HPC項目管理上尚未見相關案例報道。經分析PLM實現的功能,應該同樣適用于HPC硬件項目的開發管理,以解決HPC硬件項目管理上的難題。
1)項目管理和產品協同
項目管理功能可管理項目的計劃、執行和控制等活動,以及與這些活動相關的資源,并將它們與產品數據和流程關聯在一起,最終達到項目的進度、成本和質量的管理。
產品協同提供一類基于Internet/Intranet的軟件和服務,能讓產品價值鏈上每個環節的每個相關人員不論在任何時候、任何地點都能夠協同地對產品進行開發、制造和管理。PLM的工作流管理可實現:
整個產品生命周期系統過程不同階段任務的基本屬性以及執行順序的定義,并通過設定任務的類別以及各個任務執行的具體要求和己知條件,通過Mail、電話、短信等通知方式提供任務的流轉提醒和控制。
實現產品整個生命周期的組織和人員的定義,包括過程、任務對應的相關組織和執行人員等。
提供協同過程的流程管理和任務監控的可視化平臺。
以上功能不僅可以為分布在不同地區、不同部門的HPC設計相關人員提供一個協同工作環境,使產品協同工作過程真正落實在有序、高效、科學的管理軌道上;而且還提供了產品生命周期過程的組織、質量、進度、成本和產品等各種動態信息管理工具,可實現產品計劃管理、硬件設備創建流程管理和設備及器材的管理。
2)工作臺
將完成特定任務必須的所有功能和工具集成到一個界面下,使最終用戶可以在一個統一的環境中完成諸如設計協同、數據樣機、設計評閱和仿真等工作。此功能可用來統一管理HPC系統設計數據,聯調各部門實現的不同分項任務,完成系統集成。
3)變更管理
使數據的修訂過程可以被跟蹤和管理,提供一個打包的方案來管理變更請求、變更通知、變更策略,最后到變更的執行和跟蹤等一整套方案。此功能可跟蹤記錄HPC設計過程中一切計劃、設計、器材、生產等一系列的變更情況。
4)文檔管理
提供圖檔、文檔、實體模型安全存取、版本發布、自動遷移、歸檔、簽審過程中的格式轉換、瀏覽、圈閱和標注,以及全文檢索、打印、郵戳管理、網絡發布等一套完整的管理方案,并提供多語言和多媒體的支持。本功能實現由HPC系統不同設計部門獨立或聯合撰寫的方案、接口協議、程序等文檔和資料的有效管理。
5)信息系統管理
PLM不僅可以有效地控制與產品相關的各項工作流程,還可以集成各種信息管理系統,實現信息共享和過程集成。在PLM平臺下開展HPC硬件資源管理,不僅可以有效地控制系統硬件建設部署流程,還可以實現對HPC運行時的硬件資源管理、軟硬件資源關聯管理以及資源的維護管理,主要分以下四個環節實現:
在PLM平臺下配置硬件資源管理環境;
建立基于產品結構樹的系統硬件信息主模型;
自主研發的硬件資源管理工具與PLM平臺的集成,以擴充現有PLM管理平臺在HPC資源管理方面的功能;
基于PLM項目協同和工作流管理實現軟硬件資源的關聯管理和控制設備故障分析、維修流程。
4 結束語
本文簡要描述了HPC硬件項目設計過程中面臨的一些管理問題,根據PLM在企業產品全壽命周期管理中發揮的巨大作用,借鑒PLM的理念,提出了將PLM引入HPC硬件項目管理的設想。當然,由于HPC在一個國家經濟、軍事甚至是政治上的特殊地位以及PLM在企業的應用現狀,現行的PLM實現方案可能無法完全解決HPC硬件建設過程中遇到的所有問題。一方面要靈活配置、運用PLM工具以適應HPC建設的運作流程,另一方面要開發出專用的管理工具與PLM平臺集成,以完成綜合的管理任務。