國家層級的AI發展策略
這篇的某些想法在上周就記錄了,但沒有馬上分享,因為跟錢沾上邊的議題,總是容易被人戴著有色眼鏡看待,貼上某種標籤。不過這幾天和關切這個議題的朋友們聊了之後,覺得還是該公開談談我的看法。
話說科技部預計以50億元興建AI Cloud,支持人工智慧(AI)的學術和產業研發的規劃,被某些人士說成是某種「錢沾計劃」,好像只是花大錢採購硬體,圖利特定廠商,浪費民脂民膏。
有這些批評和質疑並不意外,一方面是基於過往政府浪費公帑造了一大堆蚊子/文字館的經驗,一方面是因為大家對於國家的錢應該用於何處,有不同的見解。
問一百位教授,可能有99位不贊成建AI Cloud,因為看不出這個與他們的教學研究有何立即和明顯的關聯性。事實上,很多國家的政策,要全民叫好,是不大可能的,牽扯到專業的時候,要讓民眾理解和支持政府的規劃,那就更難了。
政府的課題,不只是(1)讓大家認同「國家花50億元打造具備國際競爭力的超級電腦用於發展AI產業與研究,是一件好的投資」,而且要(2)讓大家相信政府是玩真的、有能力做到這件事。第一項課題還好辦,但第二項就難了。
關於課題(1),從陳良基部長以降,政府做了很多說明,用「AI的軍火庫」這樣的字眼來描述建置AI Cloud和發展AI系統晶片的重要性。到處都在談 AI,重要性無庸置疑,只是AI和高效能計算的相關性並非人盡皆知。
我個人研究高效能運算長達25年,深知高效能運算對於科技產業發展的重要性,這幾年常在臉書上談論,絕非看到50億這個數字才聞香而來。50億元的數字,聽起來很多,但是相對於國外的大手筆,其實並不算多。瑞士的國家高速電腦中心(CSCS),擁有世界排名第三的超級電腦,不是因為錢多到沒處花,為的是吸引一流人才來發展科技產業。
關於課題(2),關乎對於政府操守和能力的信任,今天有政治人物出來打包票,大家相信嗎? 學者出來背書,也可能被罵到半死。
我自己這些年看到許多政府機構務虛的情事,在臉書講很多了,本身對於科技部的能力也抱持著懷疑的態度。我想,「聽其言,觀其行」,大家一起來理性監督政府,是改變務虛文化的重要關鍵。因此,對於鄉民的批評,政府必須適當回應,在做法必須公開透明而且合情合理,以排除大家(包括我在內)的質疑。
我個人不想幫政府背書,也不想從中獲得好處,但政府和廠商這些日子以來又常常找我去給建議,因此我認為盡可能公開表達我的立場和想法,例如我8/27在臉書上發表我對AI Cloud的看法[1],講到執行面上的問題。
接下來步入今天的正題,這陣子我以專家身分從旁給科技部一些建言,也觀察到科技部朋友們的規劃能力和辦事態度。的確,公務機關的工作效率不像商業公司,一開始速度是有點慢。
在AI Cloud的建置計畫上,最大「苦主」是國網中心。各位如果上網去查,國網中心上一次採購超級電腦,已經是多年前的事情了。這一次的工作,不僅經費較以往龐大、受各界矚目,而且在技術上花樣也多得很。
這次,國網中心不是光負責設定規格招標買硬體就好,要從應用面出發,建置關鍵的AI相關的軟體框架並且設法優化之;不只要能跑傳統的高效能計算應用的平台,還要考慮如雨後春筍般冒出來的GPU、TPU、VPU、XPU等等能夠加速AI的新技術;也不只是像過去那樣把設備建置起來給「學界認為重要的」計畫使用就好,還要規劃如何成立研究服務公司(RSC)與產業合作的商業模式來永續經營
這些事務繁多、富有挑戰性,但這些日子磨練下來,我看到一些國網中心的朋友們越來越進入狀況,讓我略為樂觀了起來。其實政府部門裏面有不少資質極佳的公務員,只要讓他們有學習的動機和發揮能力的機會,他們是很能幹的。
在9/6的一場會議,科技部邀請舉辦一場技術座談,與業界溝通AI高速運算主機的規劃,聽取廠商的技術與想法。我獲邀與會,看到七家國內一線大廠現身推銷自家技術和產品,好不熱鬧。每家公司都標榜一流的系統設計製造技術,也都與國外大廠密切合作。誰不會做4個、8個、甚至32個GPU的伺服器?誰不會做PUE超低的空冷+水冷+油冷的機房規劃?誰不會做一台可放近百顆高速硬碟的高容量儲存伺服器?
從座談會中,我們看到台灣這些年深耕「系統硬體設計製造產業」所打下的雄厚基礎,能夠根據國外大廠所提供的參考設計,快速進行客製化後大量生產賣給需要的客戶,是主要的獲利模式,技術相當不錯的,何止這七家?
問題是在彼此削價競爭之下,每個案子能拿到多少利潤?
舉例來說,NVIDIA近年以GPU加速AI這項功夫獨步武林,除了高階GPU晶片價格居高不下之外,也開始設計和行銷系統。從去年開始,接連推出DGX-1、DGX Station、HGX-1等一般人覺得高不可攀的機種,一台DGX-1定價約450萬台幣,貴在8顆NVIDIA自家的GPU以及優化過的系統/中介軟體。
由於這些機器大多數是台廠打造的,台廠也可以賣硬體給客戶,但NVIDIA的GPU,一顆動砸要價30萬元以上,每賣一台有八顆GPU的機器,NVIDIA就進帳240萬元,而且如果要放上NVIDIA優化過的軟體,還得另外談授權。因此,如果台廠自己賣的話,扣除以上成本,能賺多少? 關於這個問題,廠商多半以苦笑來表達感想。
高效能計算的關鍵在於軟硬體整合優化(請參考我寫的「加速雲端系列網誌」,不再贅述),GPU只是其中一個選項,優化的工作也不只有NVIDIA會做。雖然在座廠商都知道這件事的重要性,但是我看到的是,人才和技術不足,公司投入的資源不足、進展不夠快,或是不知道該怎麼做。
我在場發言指出,國家建置AI Cloud,絕對不應是買硬體的思維,而是希望藉此提升生態系。因此,我們希望看到廠商各憑本事開發出高效率的AI平台技術,而不是拿現成的零組件裝配出一台台的硬體而已。
因此我建議國網中心研擬出一套辦法,從應用開發的角度,而非硬體規格,去測試與評估將來AI Cloud計畫中所要採購的系統。解決方案不要侷限於GPU。看看那家公司能打造出性價比最高的系統,來支援Tensorflow、Caffe2等大家常用的AI框架。當然這樣的作法對於國網中心和廠商而言都是頭痛的問題,但唯有如此,業界才會力圖進步,跳脫硬體代工製造思維。
此外,除了AI Cloud,科技部另有50億元支持AI技術創新研究的經費,從高等教育上去研究發展AI相關的技術與應用。科技部日前公布通過這項「AI創新研究中心專案計畫」的第一階段的名單[2],從幾個月前提案的500多個構想書中,篩選出100多個計畫,將在今年底進行第二階段研究計畫的審查,進一步做篩選。
我沒有申請AI創新研究中心專案計畫,但我樂觀其成。據我所知,科技部希望用新的思維經營,所以非常強調技術的深度與產業貢獻,但不提供關鍵指標(KPI),這點深得我心。這讓投入計畫的教授和學生費心思考研究題目與產業的鏈結,而不是像以往那樣盲目追求論文發表數量,或是跟廠商談好技轉金額。當然,要如何審查和評鑑計畫,是長官們要承擔和解決的難題。
綜合以上所談,我們最終希望看到的是AI技術、應用與AI Cloud的結合,發揮出整體的戰力。最好是每個人都能跨出自己的舒適圈,嘗試找到能夠接軌並且擴大價值的領域,以團隊合作把實際成果做出來。
我在前一篇文[1]中談到雞蛋問題: 沒有強大的計算力,不會有人研究大數據和高級人工智慧;反之,沒有大數據和高級人工智慧應用,也不需要強大的計算力。因此,在平台和應用研究上各投資的50億元,要創造出足夠的價值的話,必須兩項計畫之間交互配合和團隊合作。
況且個別的50億元都是分四年進行,中間應該要根據應用的需求調整計算架構和規模,或是把做不好的研究計畫砍掉。
以上並不容易,但事在人為,讓我們拭目以待。
沒有留言:
張貼留言