2017年9月16日 星期六

洪士灝:【國家層級的AI發展策略】及多人討論

國家層級的AI發展策略
這篇的某些想法在上周就記錄了,但沒有馬上分享,因為跟錢沾上邊的議題,總是容易被人戴著有色眼鏡看待,貼上某種標籤。不過這幾天和關切這個議題的朋友們聊了之後,覺得還是該公開談談我的看法。
話說科技部預計以50億元興建AI Cloud,支持人工智慧(AI)的學術和產業研發的規劃,被某些人士說成是某種「錢沾計劃」,好像只是花大錢採購硬體,圖利特定廠商,浪費民脂民膏。
有這些批評和質疑並不意外,一方面是基於過往政府浪費公帑造了一大堆蚊子/文字館的經驗,一方面是因為大家對於國家的錢應該用於何處,有不同的見解。
問一百位教授,可能有99位不贊成建AI Cloud,因為看不出這個與他們的教學研究有何立即和明顯的關聯性。事實上,很多國家的政策,要全民叫好,是不大可能的,牽扯到專業的時候,要讓民眾理解和支持政府的規劃,那就更難了。
政府的課題,不只是(1)讓大家認同「國家花50億元打造具備國際競爭力的超級電腦用於發展AI產業與研究,是一件好的投資」,而且要(2)讓大家相信政府是玩真的、有能力做到這件事。第一項課題還好辦,但第二項就難了。
關於課題(1),從陳良基部長以降,政府做了很多說明,用「AI的軍火庫」這樣的字眼來描述建置AI Cloud和發展AI系統晶片的重要性。到處都在談 AI,重要性無庸置疑,只是AI和高效能計算的相關性並非人盡皆知。
我個人研究高效能運算長達25年,深知高效能運算對於科技產業發展的重要性,這幾年常在臉書上談論,絕非看到50億這個數字才聞香而來。50億元的數字,聽起來很多,但是相對於國外的大手筆,其實並不算多。瑞士的國家高速電腦中心(CSCS),擁有世界排名第三的超級電腦,不是因為錢多到沒處花,為的是吸引一流人才來發展科技產業。
關於課題(2),關乎對於政府操守和能力的信任,今天有政治人物出來打包票,大家相信嗎? 學者出來背書,也可能被罵到半死。
我自己這些年看到許多政府機構務虛的情事,在臉書講很多了,本身對於科技部的能力也抱持著懷疑的態度。我想,「聽其言,觀其行」,大家一起來理性監督政府,是改變務虛文化的重要關鍵。因此,對於鄉民的批評,政府必須適當回應,在做法必須公開透明而且合情合理,以排除大家(包括我在內)的質疑。
我個人不想幫政府背書,也不想從中獲得好處,但政府和廠商這些日子以來又常常找我去給建議,因此我認為盡可能公開表達我的立場和想法,例如我8/27在臉書上發表我對AI Cloud的看法[1],講到執行面上的問題。
接下來步入今天的正題,這陣子我以專家身分從旁給科技部一些建言,也觀察到科技部朋友們的規劃能力和辦事態度。的確,公務機關的工作效率不像商業公司,一開始速度是有點慢。
在AI Cloud的建置計畫上,最大「苦主」是國網中心。各位如果上網去查,國網中心上一次採購超級電腦,已經是多年前的事情了。這一次的工作,不僅經費較以往龐大、受各界矚目,而且在技術上花樣也多得很。
這次,國網中心不是光負責設定規格招標買硬體就好,要從應用面出發,建置關鍵的AI相關的軟體框架並且設法優化之;不只要能跑傳統的高效能計算應用的平台,還要考慮如雨後春筍般冒出來的GPU、TPU、VPU、XPU等等能夠加速AI的新技術;也不只是像過去那樣把設備建置起來給「學界認為重要的」計畫使用就好,還要規劃如何成立研究服務公司(RSC)與產業合作的商業模式來永續經營
這些事務繁多、富有挑戰性,但這些日子磨練下來,我看到一些國網中心的朋友們越來越進入狀況,讓我略為樂觀了起來。其實政府部門裏面有不少資質極佳的公務員,只要讓他們有學習的動機和發揮能力的機會,他們是很能幹的。
在9/6的一場會議,科技部邀請舉辦一場技術座談,與業界溝通AI高速運算主機的規劃,聽取廠商的技術與想法。我獲邀與會,看到七家國內一線大廠現身推銷自家技術和產品,好不熱鬧。每家公司都標榜一流的系統設計製造技術,也都與國外大廠密切合作。誰不會做4個、8個、甚至32個GPU的伺服器?誰不會做PUE超低的空冷+水冷+油冷的機房規劃?誰不會做一台可放近百顆高速硬碟的高容量儲存伺服器?
從座談會中,我們看到台灣這些年深耕「系統硬體設計製造產業」所打下的雄厚基礎,能夠根據國外大廠所提供的參考設計,快速進行客製化後大量生產賣給需要的客戶,是主要的獲利模式,技術相當不錯的,何止這七家?
問題是在彼此削價競爭之下,每個案子能拿到多少利潤?
舉例來說,NVIDIA近年以GPU加速AI這項功夫獨步武林,除了高階GPU晶片價格居高不下之外,也開始設計和行銷系統。從去年開始,接連推出DGX-1、DGX Station、HGX-1等一般人覺得高不可攀的機種,一台DGX-1定價約450萬台幣,貴在8顆NVIDIA自家的GPU以及優化過的系統/中介軟體。
由於這些機器大多數是台廠打造的,台廠也可以賣硬體給客戶,但NVIDIA的GPU,一顆動砸要價30萬元以上,每賣一台有八顆GPU的機器,NVIDIA就進帳240萬元,而且如果要放上NVIDIA優化過的軟體,還得另外談授權。因此,如果台廠自己賣的話,扣除以上成本,能賺多少? 關於這個問題,廠商多半以苦笑來表達感想。
高效能計算的關鍵在於軟硬體整合優化(請參考我寫的「加速雲端系列網誌」,不再贅述),GPU只是其中一個選項,優化的工作也不只有NVIDIA會做。雖然在座廠商都知道這件事的重要性,但是我看到的是,人才和技術不足,公司投入的資源不足、進展不夠快,或是不知道該怎麼做。
我在場發言指出,國家建置AI Cloud,絕對不應是買硬體的思維,而是希望藉此提升生態系。因此,我們希望看到廠商各憑本事開發出高效率的AI平台技術,而不是拿現成的零組件裝配出一台台的硬體而已。
因此我建議國網中心研擬出一套辦法,從應用開發的角度,而非硬體規格,去測試與評估將來AI Cloud計畫中所要採購的系統。解決方案不要侷限於GPU。看看那家公司能打造出性價比最高的系統,來支援Tensorflow、Caffe2等大家常用的AI框架。當然這樣的作法對於國網中心和廠商而言都是頭痛的問題,但唯有如此,業界才會力圖進步,跳脫硬體代工製造思維。
此外,除了AI Cloud,科技部另有50億元支持AI技術創新研究的經費,從高等教育上去研究發展AI相關的技術與應用。科技部日前公布通過這項「AI創新研究中心專案計畫」的第一階段的名單[2],從幾個月前提案的500多個構想書中,篩選出100多個計畫,將在今年底進行第二階段研究計畫的審查,進一步做篩選。
我沒有申請AI創新研究中心專案計畫,但我樂觀其成。據我所知,科技部希望用新的思維經營,所以非常強調技術的深度與產業貢獻,但不提供關鍵指標(KPI),這點深得我心。這讓投入計畫的教授和學生費心思考研究題目與產業的鏈結,而不是像以往那樣盲目追求論文發表數量,或是跟廠商談好技轉金額。當然,要如何審查和評鑑計畫,是長官們要承擔和解決的難題。
綜合以上所談,我們最終希望看到的是AI技術、應用與AI Cloud的結合,發揮出整體的戰力。最好是每個人都能跨出自己的舒適圈,嘗試找到能夠接軌並且擴大價值的領域,以團隊合作把實際成果做出來。
我在前一篇文[1]中談到雞蛋問題: 沒有強大的計算力,不會有人研究大數據和高級人工智慧;反之,沒有大數據和高級人工智慧應用,也不需要強大的計算力。因此,在平台和應用研究上各投資的50億元,要創造出足夠的價值的話,必須兩項計畫之間交互配合和團隊合作。
況且個別的50億元都是分四年進行,中間應該要根據應用的需求調整計算架構和規模,或是把做不好的研究計畫砍掉。
以上並不容易,但事在人為,讓我們拭目以待。
顯示更多心情
留言
10則留言
留言
簡欣正 其實錢花下去 能培育出一家廠商 能開發出 原始 AI 演算法 類神經系統 最佳化 的 IP 就很值得了 問題是 可能嗎 ?
顯示更多心情
回覆
2
7小時已編輯
管理
David Chung 「看看那家公司能打造出性價比最高的系統,來支援Tensorflow、Caffe2等大家常用的AI框架」,此事若以一般政府標案運作恐怕不容易執行。我覺得光是要為此案設計一個好的採購規則 based on 現行政府採購法,就是一件不容易的事情。我覺得上層必須要先給夠時間,光是幾億的2Peta的HPC採購案光是RFP公告之前的內部工作至少就半年以上,不曉得這次給國網多少時間?
顯示更多心情
回覆
1
6小時
管理
ChihHsin Tsai 日本在上個世紀推過一次AI,用Prolog,來開發ICOT第五代電腦系統。做完很快大眾就認為它失敗了(但是開發端認為自己沒有失敗,取得了技術上的成功)。
國家/學界的做法,大概不可能弄出商業模式。目前都是各廠商各自依自己的需求,做自己的架構,而且廠商自己會做軟硬體的進版。譬如Google自己做TPU IC,也有進版,AlphaGo也有分散式與單機的各種版本,也進版到Master。國家/學界去做的話,軟硬體架構大概2年就落伍了。
顯示更多心情
回覆
8
2小時已編輯
管理
ChihHsin Tsai 以國家的角度,應該讓研究型大學的教授各自提他們想要的軟硬體架構,假設台清交成與工研院提了10組架構計畫,每組發一億也才十億,出現一組能夠商用化的機率也比較高。每組上面可以架不同的軟體,做各種專案。全國弄一組硬體架構AI cloud的話,反而容易變能動但不實用的玩具。
顯示更多心情
回覆
4
3小時已編輯
管理
謝昆霖 類似 DARPA 的思維進行操作是值得期待的。
顯示更多心情
回覆5小時
管理
David Chung 我個人對這整件事偏悲觀,不是對陳部長的初衷不認同,而是這件事若得必須在台灣政府採購法基礎上運作,加上目前Ecosystem以及本土廠商現行比較擅長的經營模式以及官員有政績壓力時間一被壓縮,恐怕最後真的就是"買"了一個系統,台灣自己的ecosystem沒建立起來,錢可能大部分被台灣以外的人賺走
顯示更多心情
回覆
4
5小時
管理
Chung-Yang Ric Huang 謝謝學長的分析!我個人也曾 murmur (aka 抱怨) 過好幾次這個政策,我想我最主要的感受是來自沒有看到政府在做這樣決策時,是否有政策白皮書來說明整體規劃的來龍去脈?還是只是放個消息來測風向?或只是想要放煙火?

如果只是 "支援Tensorflow、Caffe2等大家常用的AI框架",資料量是 giga 等級,那一張三萬元的顯卡就可以了,跟 AI Cloud 其實沒有關係。我想現在台灣 99% 的研究人員都只是這樣的等級。


在我的認知裡面,在決定經費之前應該要知道要開什麼樣的規格,而在制定規格之前應該要有明確的目標。我看不到這個 AI Cloud 的政策目標是什麼,如果只是因為 AI 很重要,只是因為高效能的運算很重要,就隨手編了一個 50 億的預算,那我真的是為我們的科技政策感到十分的不放心。
顯示更多心情
回覆
4
4小時
管理
洪士灝 我說Tensorflow的那段,您可能有所誤解了。那段講的是大型的訓練,需要多台HGX-1去加速的場合。如果買一堆三萬元的卡就行,那不需要國網中心來做。
顯示更多心情
回覆4小時
管理
Ares Sun 沒錯!要先有目標,才開規格,最後才編預算。還應該要納入有滾動檢討、以便適時修正的彈性
顯示更多心情
回覆3小時
管理
洪士灝 我在前一篇文[1]中談到雞蛋問題: 沒有強大的計算力,不會有人研究大數據和高級人工智慧;反之,沒有大數據和高級人工智慧應用,也不需要強大的計算力。因此,在平台和應用研究上各投資的50億元,要創造出足夠的價值的話,必須兩項計畫之間交互配合和團隊合作。

況且個別的50億元都是分四年進行,中間應該要根據應用的需求調整計算架構和規模,或是把做不好的研究計畫砍掉。
顯示更多心情
回覆
2
3小時已編輯
管理
莊偉赳 一點想法僅供參考:似乎這個AI Cloud計畫只有找硬體廠商而已,沒有找軟體商。難道硬體+tensorflow就能做cloud嗎?有沒有找做過PaaS, IaaS經驗的廠商?我公司做Hadoop的PaaS開發就花了至少兩年,Google GCE, Microsoft Azure, Amazon EC2都已經有GPU cloud offerings, 台灣這個AI Cloud計畫優點在哪裡?會不會系統建完就落伍了?
顯示更多心情
回覆
6
4小時
管理
洪士灝 我對政府長官說軟體很重要,必須重視,我想他們會想辦法釐清這塊。您提到PaaS,讓我回想到工研院開發雲端作業系統的往事,這次似乎也希望工研院扮演某種軟體開發的角色,能不能做得好,也是一項考驗。
顯示更多心情
回覆
2
3小時
管理
Ares Sun 非常贊成老師的主張,應該要用支援生態系發展的角度,評選採購最具支援效能的廠商。
也希望各界給予願意努力把事情作到位的承辦公務同仁,更多的支援和支持,讓他們知道自己的努力承擔,不是孤軍奮戰!
顯示更多心情
回覆4小時
管理
杜紹堯 個人覺得科技部可以主導建立一個類似 Kaggle 的平台,讓產業界提出挑戰及誘因。另外,每年舉辦 HPC 設計競賽,產業和學界可以組隊 PK,有錢有人又可以互相較量求進步。不用花國家太多錢,應該可以辦到 😎
顯示更多心情
回覆
2
3小時
管理
洪士灝 如果業界願意主動出來做這些,那也不需要國家來做了。
顯示更多心情
回覆3小時
管理
杜紹堯 Shih-Hao Hung 洪老師,你應該知道產業界不太願意做白老鼠啊 😆 除非涉及面子問題
顯示更多心情
回覆3小時
管理
洪士灝 所以說,如果政府不砸錢如何「主導」呢? 很少產業願意出來搞這個,除非看在錢的份上。我們也只能用錢來循循善誘了...
顯示更多心情
回覆3小時已編輯
管理
杜紹堯 Shih-Hao Hung 但搞 Kaggle, HPC competition 跟搞 AI Cloud 花的錢是不同等級的囉
顯示更多心情
回覆3小時
管理
洪士灝 如果要搞Kaggle,那麼就用Kaggle就行了? 問題在於,Kaggle只是遊戲類型的競賽,業界不會丟出大數據,也不會提供大量計算。如果是這個等級的東西,大家自己就可以做了,不需要國家來主導。
顯示更多心情
回覆3小時已編輯
管理
洪士灝 其實我在幾年前就鼓勵大家到Kaggle上去競賽、拿獎金。如果大家願意去的話,也不用國家出面了。我想您的意思大概是要在國內弄一個小聯盟吧? 只怕小聯盟的概念不見得適用AI領域。
顯示更多心情
回覆3小時已編輯
管理
杜紹堯 Shih-Hao Hung 沒有、沒有,只是提供個人淺見 😅
顯示更多心情
回覆3小時
管理
洪士灝 不會,謝謝您的意見。受益良多。科技部目前嘗試辦比賽,可以建議他與廠商合作,多辦一些比賽。
顯示更多心情
回覆
1
2小時
管理
洪士灝 喔,我忘了說,AI不是只有Machine Learning。所以Kaggle只涵蓋其中的一部分。
顯示更多心情
回覆2小時
管理
杜紹堯 洪老師:明白,我用 Kaggle 也是舉個例子
顯示更多心情
回覆2小時
管理