1. AlphaGo目前是世界第一的圍棋選手,在此之后,研究智能圍棋還有什么意義?
我覺得圍棋是很有意思的游戲,AlphaGo雖然把它做出來了。但很多東西的做法和人是不一樣的。人在學圍棋的時候有很多概念,按照概念做判斷,但是機器解決他還是比較暴力的。
一方面,你可以說人用概念來做推理局限了他的計算能力,體現出人本身有一個高度抽象的能力,就是用非常非常局限的計算能力,能達到那么強的棋力。而AlphaGo就是用非常多的計算能力去彌補這些不足,所以恰恰是互補的,我相信還是有意義的。
另一方面,聯系到后面那個問題(目前你的研究團隊,對圍棋AI的研究進展到何種地步?相比AlphaGo如何。),我們這邊在開源之后就先放在那兒了,可能等到以后我們有新想法再拿過來試一試。我們這邊是七八十人的研究機構,要讓我們花二十人做圍棋,這個是不可能的。我們這邊都是很有名的研究員,這些研究員每個人都有自己的方向,像計算機視覺和自然語言處理等等,不可能把自己的方向放棄掉來專門(搞圍棋)。
最后,從本質上來說,我們的風格跟其它公司不一樣。我們研究員的一個目標是說在大家不做這個東西的時候,在比較冷門或者大家不相信它能做得更好的時候去做它,證明這條路能走通。比如說我們在做DarkForest的時候,圍棋還是很冷門的方向,大家都不認為圍棋可以做出來。我們的文章比AlphaGo早了三個月出來,證明這個東西確實有效果,而且能提高挺多的,這就是我們的貢獻。我之前在采訪里面說過,好的研究就是“于無聲處聽驚雷”。
像星際這樣的游戲,大家都不知道怎么做,研究員們的任務就是要想辦法找到一些突破口,這個突破口可能沒有人想到,或者是沒有人覺得能做成,我們的目標是在這兒。我回到第一個問題,就是說智能圍棋之后還有什么意義,就是我剛才說的,如果有人愿意想要做下去的話, 就看能不能自動從里面學出一些概念來,學出一些有意思的東西,比如說人有大局觀或者是大勢,或者是各種下棋時候的概念,概念是不是能從這里面自動學出來。像這些,目前大家都沒什么辦法。
(你說大局觀嗎?)
對,像這樣的東西其實對于我們如何理解人的思維方式是更重要的。職業棋手是很厲害的,人腦的神經傳導是毫秒級的,這點時間機器可以干很多事情,但人就是用這么慢的處理速度達到了這么強的水平。
2. 絕藝和AlphaGo有差距么,差距是多少,是什么造成了這種差距?
這個我稍微看了一下,我覺得絕藝肯定是比Zen要強挺多,200手不到就讓Zen認輸了。我之前看新聞是它對職業棋手可以戰勝80%甚至更高,所以我相信它已經是做得非常好了,我相信它肯定是超過了或者是相當于AlphaGo之前Paper(AI科技評論注:2016 年 1 月 28 日,Deepmind 公司在 Nature 雜志發表論文 Mastering the game of Go with deep neural networks and tree search,介紹了 AlphaGo 程序的細節。)的水平,但是它跟現在的Master相比,可能還是有差距。
3. 跟AlphaGo 3月份比賽的水平比如何?
跟3月份(對戰李世石)的時候這個我不好說,我只能說和Nature那篇論文相比做得好, 當然了跟Master比是有差距的,現在Master所有對戰是全部都是贏的,沒有輸的,勝率是100%,而且都是贏的莫名其妙。Master贏了你,你都不知道什么地方出錯了,好像下得挺好的,然后就輸掉了。所以就是已經到了不知道錯哪兒的程度了。我相信他們應該用別的方法做訓練的,而不是單純拓展之前的文章。像我是聽說他們最近把訓練好的值網絡單獨拿出來,根據它再從頭訓練一個策略網絡。我覺得這樣做的好處是會發現一些看起來很怪但其實是好棋的招法,畢竟人類千百年下棋的師承形成了思維定式,有些棋在任何時候都不會走,所以按照人類棋譜訓練出來的策略網絡終究會有局限性;而用值網絡作為指導,從頭訓練一個策略網絡的話,確實會發現很多新招。
(AlphaGo用其他的方法迭代的?)
我相信他們也用了別的辦法,但是細節我也不知道,因為我最近也沒有做,所以我也不知道他們用什么樣的辦法,我覺得這方面需要創新。
4. 絕藝這次是跟電腦圍棋比賽,跟下一次的真人比賽區別在哪?
電腦圍棋我們之前也參加過,就是大家坐著,連上之后讓計算機自己下,下到什么地方就說我輸了你輸了,然后就結束了,有可能說我們看看剩下好像不行了,但是機器誤判,就讓人去認輸。 基本上是這樣的過程。
(那我可以這樣理解嗎?跟電腦圍棋比賽的是兩個既定程序的對戰,比如說電腦圍棋絕藝跟真人,比如柯潔對戰的時候,是變動性更大一點,是嗎?)
我相信是的,因為電腦圍棋至少在之前都是有些明顯的風格,比如說有些喜歡在角上和你拼,不愿意去外面搶大場。人可能能看出來這個風格,就會擊敗它,特別是水平不是很高的兩個AI下的話,很明顯能看出問題,比如我們DarkForest就有死活的問題,我們自己會說,你看這里下得不對,肯定是這里下錯了,這個地方他可能判斷有問題,以為這塊棋是活的,其實是死的,所以會有各種各樣的問題。當然了,如果是達到絕藝或者是AlphaGo這樣的水平的話,我肯定是看不出來,我需要計算機輔助幫我下到后面才能看到,但是我相信職業棋手還是能看出來,但Master我不知道,我不是特別清楚。
5. 以DarkForest為例,除了圍棋,這種完全信息博弈的游戲智慧要應用在其他領域需要解決哪些問題?
我覺得現在這個系統是針對于某個問題做特別優化,我之前在 talk里也說了,那么多方法,要依照不同的游戲用不同的方法,沒有那么通用的。比如說你在國際象棋上用蒙特卡洛樹搜索肯定是不行的,你可能漏搜了某一條特別重要的分支,然后導致一個殺王的走棋序列沒有看到,這是非常有可能的。所以整個AlphaGo是一個大的系統工程和框架結構,它需要有幾個人每天花時間在上面,還得每天不停地調啊調。所以說,現在所謂的 “人工智能” 還是比較弱的,還是需要人去監督,然后把它做出來。
(如果是要針對某一個特定領域呢?)
就是我剛才說的,你先要對這個領域有了解,然后去設計。比如說圍棋和國際象棋就不一樣,國際象棋每步的可能性比較少,對局面的判斷相對容易,因為這個原因,你要換一個方法做,而不是用原來的方法做。所以對于方法的選擇,其實是完全依賴于這個問題本身的,所以這個是需要大量的人工智能相關知識才能做出來的。
6. 你剛才講PPT的時候,講到你們的圍棋理論可以應用在游戲方面,還有其它現實生活中的應用場景嗎?
一個問題就是說像完全信息博弈游戲,你知道你下完這步后局面會變成什么樣子,你心里非常非常清楚。但到了現實世界的時候,有時候并不那么清楚,沒有一個現實世界給你玩,你做完決定之后你得對這個決定的后果負責,所以對這個世界在你下完決定之后變成什么樣子,你要有一個大概的估計。
所以你在現實世界做規劃的時候,其實需要一個前向模型(forward model), 就是你對將來會發生什么事情的一個預計,前向模型是一種規劃,是對將來會發生什么樣事情的預計 。比如說你下完這步之后,可能整個情況變成什么樣子,之后你再做下一步的計劃。所以這個其實是很大的問題,是游戲和現實生活中是不同的。
7. 能詳細介紹一下前向模型?
前向模型就是你要對現實世界的運行規律做一個模型。比如說你這個房子過了幾年會變成什么樣子,比如說這朵花過幾年會變成什么樣子。你當然不可能能預測所有細節,要找到關鍵性的方面,才能讓你的蒙特卡羅樹之類的搜索產生效果。比如一個國家30年后會怎么樣,和現在這束花是不是會枯萎沒什么關系,但可能和大家的收入統計有關系。所以關鍵就是怎么對現實世界來做出抽象的建模。
8. 我們看到絕藝那邊,騰訊的副總裁姚星說他們可以把其 “精準決策” 能力用在無人駕駛,量化金融,輔助醫療等,這個是不是說得太早了?
長遠來說,通過在絕藝上投入的人力和物力,這些工程師的思考本身可以變成經驗。比如說它在人工智能上通過對于絕藝的提高,他知道了蒙特卡羅樹的適用范圍,知道了增強學習算法的適用范圍,對這些算法有一個切身的理解。這樣之后,如果去從事其它方向的AI,就更加得心應手 。
我不知道“絕藝”是怎么做的,如果他們用的是Alphago相似的(原理)的話,要用到其他領域上,就不是特別容易 。比如說像輔助醫療,可能更多的是去識別圖片,去怎么樣去找到病變組織,這個其實更多的是圖像識別的問題,而不是說關于決策的問題。所以這個其實關系不是特別大,但是不好說,說不定他們有方法。
9. 李開復之前說 “AlphaGo 其實做了相當多的圍棋領域的優化,除了系統調整整合之外,里面甚至還有人工設定和調節的一些參數,因此還不能算是一個通用技術平臺,不是一個工程師經過調動API就可以使用的,而且還距離比較遠。”假如要應用在其他領域,以金融為例,這套系統大概需要改動或調整多少?
這個我也不知道多少,感覺是完全不一樣的。你說金融領域,關鍵是你想要解決什么問題,你想預測股票價格,還是想要預測什么?
(比如信用體系一般比較多。)
根據不同的具體問題可能又是完全不一樣的方法,所以你沒有辦法說把這套框架用在某一個很大的領域,因為這個領域有很多問題,你得列出來,對應每個問題去想這個方法能不能用,所以我覺得這個問題其實很難回答。
(這個是要靠AI加某個垂直應用場景的實踐,是吧?)
嗯是的。目前為止現在還不存在一個強人工智能,像人一樣什么都可以學會,現在沒有這樣的東西,所以現在對應具體的問題我要具體分析,根據這個問題再分析,決定用什么樣的模型去做它比較好,所以現在是處于這樣的狀態。所以說機器還不能自己決定用什么模型,還是需要人的輸入 。
10. 你除了圍棋還有其他的研究領域嗎?
我們現在主要在做增強學習在游戲上的應用。比如說我在Talk里面講了圍棋和最近在第一人稱射擊游戲上的應用。另外我也做理論,比如說對于二層神經網絡做一些收斂性分析,像這個非凸優化問題,要怎么分析才是好的。
(現在最主要的哪一部分是重點?是理論還是偏應用。)
重點當然是偏應用。理論這個是我以前讀博的方向,也是我個人愛好,我自己比較喜歡,覺得深度學習之所以效果好,肯定有其背后的原因,這個是很重要的問題,需要人去理解,不能放棄。當然純做理論風險比較大,這個大家都知道。
11. 其實之前看你知乎的文章,好像是講過目前深度學習在復雜推理的一些,還有今天的分享里面你也講了有一些進展和挑戰,在這么多挑戰里面,最大的一個挑戰是什么?
其實有很多點是挺關鍵的,沒有特別重要的,說我們就差這個點了,不是這樣的 。其中一個就是你怎么樣去像人那樣有高層的建模能力,人可能對一件事情會有比較整體的把握。什么是戰略上的。什么是戰術上的,什么是具體執行上的。人在處理問題時很自然就會有這樣層次式的思考方式。目前為止很多人想做這個。雖然你可以設計很多模型,但沒有看到特別穩定的,很多模型聽起來很好,但是訓練的時候,效果會有問題,會有很多實際的問題,沒辦法做到跟你想象中的那么好,這是一個問題。另外比如說,如何讓機器能在外界監督信號極度稀缺的情況下學習,如何做無監督學習,如何把傳統符號推理和深度學習結合起來。
12. 你剛才說的目前研究的領域來說,能透露一下你最近一段時間比較重要的進展?
我覺得,理論上來說有一些小小的進展,我之前做了一篇文章研究了兩層神經網絡的動力學系統,神經網絡它是怎么收斂的,需要什么條件。 像這個就是更偏研究類型的。實踐上來說,有一些東西我們在做,不方便說。另外就是多看文章,現在還處在一個積累的過程,多看點兒文章,多理解一些別人做的工作,就會有一些更多的想法。
下一步工作也是圍繞上面說的那些,繼續往下進行?
對。
13. 你目前負責項目和研究領域在整個Facebook公司的架構里面,是處于一個什么樣的位置,起什么樣的作用?
其實現在是這樣的,我們組是比較偏研究的,所以我們組的東西不一定要跟產品組有直接聯系。我們做的東西都會比較前沿一點,不一定會有直接的應用,這是我們這個組很好的地方。我們公司也賦予這樣的自由度。你想,你做的東西完全跟產品掛鉤,每隔幾個月就要求匯報進展,那這樣的話最后的結果就是大家只找最容易做的那些方向,在原來的系統上修修補補。這樣大家就不會愿意去想更多的東西了。
(像您剛才說的做研究,需要把一個現在還冷門的東西鉆進去。)
對,比如說訓練圍棋,當時沒有多少人知道這個東西。做研究最重要的是能夠在那么多方向上,你能看到一個方向是對的,愿意花時間把它做出來,證明它是對的,這個是很重要的。
(之前看過您那篇在谷歌和Facebook的一個比較,在谷歌是沒有這種自由度的?)
不能這么說。因為在谷歌時我在無人車組,這是個產品組,決定了必須要有一個非常清楚的脈絡和將來的走向。我當時其實也是想做一些開放性的東西,但是覺得環境也不是特別適合,所以就走了,這是原因之一,我并不是說這個組不好,這個組挺好的,確實是因為我個人的志向和組里的發展方向不一致,所以我就走了。
14. 你其實特別喜歡寫博客和雜文,甚至我還看到有古文,我想問寫作不管是中文的還是英文的,對于你研究來說有什么幫助?
這個我覺得是一個思考的方式,東西要寫下來之后你才知道什么地方出問題了,一個典型的例子就是做數學證明嘛,你覺得好像是對的,但是你寫下來才能證明,很有可能一落筆就發現錯誤了,這個是司空見慣的事情。
(但是其實寫博客和寫論文還是兩種東西嘛,因為寫博客可能不會寫得那么深。)
論文當然摳得細得多,但大方向都是一樣的 。寫博客的時候一樣要有邏輯,很多話當時想的是這樣,但是寫下來發現這兩句話不連貫,或者是邏輯不通,所以你在整理的過程中其實就是在整理你的思路,這個是挺重要的。
15. 經常看見你說表達的重要性,它在你不管是做研究還是之前在谷歌做產品的時候,它扮演了一個什么樣的角色?
這個對研究來說非常重要,研究者的一部分工作是要把自己的成果公諸于世。要以清楚的語言概括在做什么,所以這個其實是我作為這個職位的要求之一,所以這個重要性就不用多談了。
(必須要把現在這個事情給別人說清楚,得到別人的認可?)
對,你要跟別人說清楚,當然公司里面還好,但你在學校里邊的時候,你在團隊里面作為技術帶頭人,必須出去跟其他公司談,或者說跟上層說我需要資源做這樣的事情。這樣表達能力就非常重要了,如果你沒有辦法表達清楚你想要做什么的話,別人不一定能相信你,也不會給你各種資源。另外比如說你遇到的人才,覺得你做的東西他沒聽懂,或者是不知道你在做什么,他也不會愿意跟你一起共事。作為一個研究員來說,或者是任何在研究這條路上愿意走的后輩人來說,這個很重要。
16. 對于AI領域的后進者們,比如說學生、創業者或者是研究者們來說,你作為一個過來人,當然還在繼續往前走,對他們有什么建議?
第一點,我不是什么過來人,我還要往前走,我也覺得我也只是很多方向剛開始的人,我也不覺得我是一個非常資深的研究員。你之前說我是高級研究員,我們組沒有高級研究員這個頭銜。
(你現在在Facebook的頭銜是什么?)
頭銜就是研究科學家,其實就是研究員。我也不覺得我自己做得有多好,只能說很多事情盡力了 。如果你要翻一下我兩三年前的文章,我之前是做非凸優化在圖像扭曲上的理論分析的,很榮幸地拿了馬爾獎提名。我都不是做這方面(深度學習)的,我也不是做強化學習的,這些方向都是我最近覺得很有意思,然后自己學并且嘗試做的。所以從這方面來說,我對目前我的工作覺得還行,想想只有一兩年時間,會有這樣的知名度和曝光率,這已經是出乎我的意料了。但是不管怎么樣,曝光率再高,我覺得我自己還是要往前走的,我有很多東西不懂的,前面的路還很長的。所以要說對于其他人的建議,我覺得是就靜下心來做事情,文章該看的要看,該學的要學,程序該寫的要寫,該調通的調通,一步一步往前走。
(就是把眼前的事情做好?)
對。當然方向還要看清楚的。做為一個研究者,要自己看文章定方向,不能人云亦云,這個是身為科研人員最重要的特質。然后做自己想做的事情,重要的就是要做自己想做的事,并且花時間在上面。不要說今天公司有很多錢,我就去了,這樣的話對將來的發展不是特別好的,希望大家能找到自己想做的方向,主要是這一點。還有就是珍惜時間吧,大家的時間都是很寶貴的,如果愿意做一些事情,就早點行動,把事情很快地做好。另外要不斷地提高自己。
小結:
AI科技評論在采訪田淵棟的時候,
在問到DarkForest現在的進展時,他表示 “我們這邊其實目前還沒有繼續做,在開源之后就先放在那兒了。”。
在說道人工智能有什么意義的時候,他表示“就是我剛才說的,如果你繼續做下去的話,我們想能不能自動從這里面學出一些概念來,學出一些有意思的東西……像這樣的東西其實對于我們如何理解人的思維方式是更重要的。”
在問道你現在在Facebook的頭銜是什么時,他表示我的“頭銜就是研究科學家,其實就是研究員。”
類似這樣的風格的回答很多很多,給近在遲尺的AI科技評論展現了一個直白坦率,嚴格待己,謙虛待學的生動形象。這跟我們采訪AI業界公司大佬時他們覺得他們能解決這個問題,他們沒遇到什么困難,他們即將所向披靡的那一面然不同,眼前的這個年輕科學家體現的是學界人士低調,謹慎,求是的另一面。但值得一提的事,AI科技評論看到那張謙遜卻帶了一點點桀驁不馴的臉的背后,的是一個對自己有極高要求,對理想有極高追求的,不愿意人云亦云,卻希望真的在人工智能領域有所作為的科學家的心。在孤獨和庸俗,在跟著心走和大流之間,他選擇了孤獨和跟著心走。