但在經歷各種療法后,效果并不明顯。 根據東大醫學院研究人員Arinobu Tojo的說法,他們利用Watson系統來對此病人進行診斷。系統通過比對2000萬份癌癥研究論文,在10分鐘得出了診斷結果:患者得了一種罕見白血病。
該研究主要由美國的IBM研究所,紐約基因組中心及東大醫學研究所聯合完成。
10分鐘診斷是如何實現的?
東京系統與軟件開發研究所Watson Health Cloud的軟件工程師林雪婷向雷鋒網(搜索“雷鋒網”公眾號關注)表示,目前醫療方面的項目難點其實比較統一。
首先,你要有可以對照的數據,在這個項目里是和紐約基因中心進行合作。
其次數據使用時,第三方只能根據HIPPA協議使用個人數據的統計信息。
再者,可能就是怎么把數據導出來作為這個研究的樣本了,這個也很麻煩,因為基因數據很大。
而做人工智能診斷智能圖譜的康夫子CEO,前百度自然語言處理部資深研發工程師、文本知識挖掘方向負責人張超也列舉了這一研究的主要難點。“數據抽取是個非常有門檻的技術”,主要體現在四個方面:
1. 相比較結構化或者半結構化抽取,無結構化抽取面臨更多的挑戰,比如:抽取模板學習更為復雜,抽取過程的語義轉移,另外還有不少歧義、邊界問題需要處理;
2. 無結構化抽取的面對的數據源更為繁雜,如:網頁、論文、書籍、問答數據等等,不同數據源帶來的數據清洗工作也不盡相同;
3. 在醫學應用場景下,要求抽取工作的準確率、召回率都需要很高,這也是抽取任務的一大挑戰;
4. 無結構化文本抽取的過程也伴隨著大量的計算,對計算性能也有較高的要求。
而新聞中提到的“10分鐘”,在林雪婷看來,“應該是不包括把數據導出來的時間的”。
張超也對這一點表示肯定。“這個10分鐘,應該是用在匹配搜索上的。”
也就是說,這一過程首先要對結構化的知識進行構建,肯定是在離線狀態下完成的。在這個案例中,將基因中心的相關數據導在一個數據池中,并進行內容管理,而Watson在10分鐘內所做的,就是在已經做了篩選的數據中進行對比,找尋相似項。“所以文中說的2000萬論文,應該是離線抽取后使用的;還有一種可能是,利用這2000萬篇論文去調參原來的模型。”
Watson的醫療藍圖
2011年2月,Watson在智力節目《危險邊緣》打敗了人類對手,用自然語言實現深度問答,展示了其強大的學習能力。而Watson在醫療機構的合作,同樣也幫助醫學研究人員在認知計算應用上不斷推進。
Watson Health成立于2015年4月,吹響了Watson進軍醫療行業的號角。
去年7月,Watson和美國第二大連鎖藥店CVS進行合作,對用戶行為和指標分析,并預測其健康狀況。在第一階段的合作中,CVS主要向Watson開放用戶的行為信息、臨床數據、購藥數據及保險信息等。
8月份,IBM還收購了醫學影像公司Merge,結合Watson的認知學習能力,能夠將醫學影像、診斷和用藥方案三者貫通起來,而對醫學影像的深度解讀,就成為了Watson的核心力量。除外,IBM還與蘋果、美敦力等公司建立了合作關系。
Watson在醫學研究上的應用其實不只局限于診斷領域,在讀病例、讀論文、尋找治療疾病的配藥方面,都已經有了成果。此前IBM和美國癌癥基因會(AACR)建立過合作,據推測這一舉措可能是為了獲得患者的統計數據,但Watson在治療上的成功應該是首例。
張超對IBM Watson的信心相對比較充足,他認為只要有足夠的數據,就可以在腫瘤領域大規模應用。
“在記憶維度,機器要比人厲害;只要灌輸給機器足夠多的知識,機器可以代替人們來搜索各種可能,最后輔助醫生。”
而根據林雪婷向雷鋒網的表述,Watson Health Cloud將把這個案例作為成功應用放在醫療云上,這也就意味著可能成為大范圍的應用。
“但我估計真正落實到云端可以用的,也就是說醫院可以直接應用于診斷領域的方法要兩三年,在這之前都是研究成果而已。”
而林雪婷也指出,目前所有的項目,所引用的數據都源于美國,日本暫時還沒有相關的第三方使用醫療數據的法規,“據說(日本)明年會重新提案立法。”雖然目前我們已經看到了IBM在醫療領域上的成功,但要真正走進我們的日常診斷中,不僅需要技術的不斷優化,在法律上同樣也需要迎頭趕上啊。