目前,人類對(duì)人工智能的恐懼日甚一日,研究黑洞的英國(guó)物理學(xué)家霍金就認(rèn)為人類會(huì)制造出如同人類一樣新物種,最終消滅人類。 人工智能究竟會(huì)如何,2016年12月17日,在第二屆“復(fù)旦科技創(chuàng)新論壇”上,邁克爾·喬丹做了一場(chǎng)演講,他首先告訴聽眾,人們對(duì)人工智能、大數(shù)據(jù)學(xué)習(xí)期望過(guò)高,目前已經(jīng)發(fā)展過(guò)熱。而且他還意外地告訴聽眾,這門全民關(guān)注的顯學(xué),目前還處于初級(jí)階段,并未成為體系化的理論科學(xué),有很多難以理論化解決的難題。 在演講之后,他解答了霍金的擔(dān)憂,“霍金研究領(lǐng)域不同,他的論述聽起來(lái)就是個(gè)外行,機(jī)器人毀滅人類的可能性,在幾百年里不會(huì)發(fā)生?!边~克爾·喬丹認(rèn)為,通過(guò)研究人腦的運(yùn)行機(jī)理,從生物學(xué)途徑仿生出一個(gè)類人腦的人工智能,以目前的進(jìn)展看,很長(zhǎng)時(shí)間里無(wú)法實(shí)現(xiàn)。 具體到人工智能的研究,邁克爾·喬丹認(rèn)為,人工智能最先獲得突破的領(lǐng)域是人機(jī)對(duì)話,更進(jìn)一步的成果則是能幫人類處理日常事務(wù)甚至作出決策的家庭機(jī)器人。 霍金是外行 澎湃新聞:人工智能、神經(jīng)網(wǎng)絡(luò)提出有幾十年了,發(fā)展歷程起起伏伏,神經(jīng)網(wǎng)絡(luò)研究在歷史上幾次受挫,是不是意味著人工智能的研究方向是計(jì)算機(jī)科學(xué),而不是所謂的人腦科學(xué)? 邁克爾·喬丹:我不認(rèn)為神經(jīng)網(wǎng)絡(luò)經(jīng)歷了起伏,神經(jīng)網(wǎng)絡(luò)的發(fā)展帶來(lái)了很重要的理論貢獻(xiàn),你所說(shuō)的起伏是由于計(jì)算機(jī)的性能不能匹配其大量運(yùn)算的需求, 當(dāng)計(jì)算機(jī)的硬件、軟件、計(jì)算數(shù)據(jù),這些都跟上了理論的發(fā)展進(jìn)程,神經(jīng)網(wǎng)絡(luò)就能發(fā)揮出自己的優(yōu)勢(shì)。 澎湃新聞:霍金很擔(dān)心人工智能,但微軟的科學(xué)家說(shuō)計(jì)算機(jī)具有自我意識(shí)還要幾百年之久,您如何看? 邁克爾·喬丹:霍金不是人工智能的研究者,他是一個(gè)外行 。計(jì)算神經(jīng)生物學(xué)近期不會(huì)有太大的突破,大概幾百年后才能有進(jìn)展,但我還是保守看好這方面的發(fā)展。 澎湃新聞:您不看好通過(guò)研究人腦科學(xué)獲得人腦一樣的運(yùn)算能力這個(gè)研究方向? 邁克爾·喬丹:這是非常難的問(wèn)題了,首先,人們對(duì)大腦運(yùn)行機(jī)制還不是很清楚,目前還需要很精細(xì)的研究,要細(xì)致地了解每一個(gè)細(xì)胞的功能機(jī)理。目前計(jì)算機(jī)視覺技術(shù),主要通過(guò)對(duì)圖片、視頻來(lái)分析,這在模擬人腦認(rèn)知方面是遠(yuǎn)遠(yuǎn)不夠的。打個(gè)比方就像我要研究上海的經(jīng)濟(jì)狀況,不是通過(guò)空中簡(jiǎn)單的航拍就可以了解的,這種方法太粗了。其次,以前科學(xué)家用行星運(yùn)行來(lái)比喻原子內(nèi)的結(jié)構(gòu),前提是我們對(duì)行星運(yùn)行的機(jī)制有很深的理解。現(xiàn)在人們通過(guò)對(duì)人腦的研究來(lái)開發(fā)人工智能,但對(duì)人腦機(jī)制的認(rèn)知還非常淺,所以這個(gè)方向?qū)儆谖粗奶剿鳌? 工作崗位被機(jī)器人取代是大勢(shì)所趨 澎湃新聞:人工智能取代工作崗位這是肯定要發(fā)生的吧? 邁克爾·喬丹:工作崗位被機(jī)器人取代是大勢(shì)所趨,像自動(dòng)駕駛?cè)〈鲎廛囁緳C(jī),可能會(huì)讓交通更安全,但是在經(jīng)濟(jì)上帶來(lái)的影響是不可忽略的。比如出租司機(jī)或工人被機(jī)器取代了,他們的生活怎么辦,他們有沒(méi)有被安排新的工作,這是很重要的社會(huì)問(wèn)題,是科技解決不了的。人類不可能被機(jī)器毀滅,人類只能被自己毀滅。 澎湃新聞:目前已經(jīng)通過(guò)人腦和電腦相連玩游戲了,這能否是一個(gè)研究人腦獲得人工智能的佐證? 邁克爾·喬丹:可以,但起到的作用很有限,這種研究是很粗略的,大腦是很精致的,不太可能看了你的行為就能夠研究出來(lái)你的思維是什么樣。 大數(shù)據(jù)明顯過(guò)熱 澎湃新聞:您之前認(rèn)為大數(shù)據(jù)過(guò)熱,目前有很多大數(shù)據(jù)的數(shù)學(xué)和工程的問(wèn)題需要解決,會(huì)發(fā)生一場(chǎng)大數(shù)據(jù)的冬天。但現(xiàn)在有非常多的公司進(jìn)入這一領(lǐng)域,您還認(rèn)為冬天會(huì)到來(lái)嗎? 邁克爾·喬丹:大數(shù)據(jù)明顯過(guò)熱。很重要的科學(xué)問(wèn)題是怎樣讓大數(shù)據(jù)在大尺度、大規(guī)模的深度學(xué)習(xí)中解決實(shí)際問(wèn)題。但有個(gè)很重要的問(wèn)題是,大數(shù)據(jù)分析必須建立正確的數(shù)據(jù)模型,但是目前沒(méi)有辦法從根本上杜絕錯(cuò)誤的數(shù)據(jù)模型。不過(guò)大數(shù)據(jù)的冬天還不至于到來(lái),因?yàn)槟壳斑€是有很多好的想法,可能會(huì)有段冷卻時(shí)間,但可能不是冬天。不過(guò)大家對(duì)大數(shù)據(jù)的期望值實(shí)在太高了。 看好人機(jī)對(duì)話、自然語(yǔ)言處理的突破 澎湃新聞:人工智能最先獲得突破的是哪一塊? 邁克爾·喬丹:計(jì)算機(jī)視覺領(lǐng)域已經(jīng)有很好的突破,但我比較看好人機(jī)對(duì)話、自然語(yǔ)言處理的突破,這些是正在改變或即將發(fā)生的改變,譬如谷歌的翻譯系統(tǒng)最近有非常不錯(cuò)的成果,下一個(gè)領(lǐng)域的突破就是在家用機(jī)器人方面,小機(jī)器人在日常生活中與人的人機(jī)互動(dòng),這是多方面應(yīng)用的人機(jī)交互,既有計(jì)算機(jī)視覺,還有人機(jī)對(duì)話,以及綜合場(chǎng)景處理。家用機(jī)器人了解你日常生活的模式,并對(duì)此進(jìn)行學(xué)習(xí),然后進(jìn)行下一步的服務(wù),這是正在進(jìn)行中的突破。 還有一個(gè)就是精準(zhǔn)醫(yī)療,我非??春?,雖然前景并不非常明確,因?yàn)樾枰私獠∪说臍v史數(shù)據(jù),再對(duì)可能要到來(lái)的疾病進(jìn)行診斷、預(yù)測(cè)和治療。谷歌現(xiàn)在在各個(gè)領(lǐng)域都能幫助人,不是谷歌什么都知道,是谷歌可以搜索,或了解這些知識(shí)。人工智能的下一步就可以幫助人們做決斷,幫人做出決定,這是更深層次的邏輯運(yùn)算。 澎湃新聞:掌握最多數(shù)據(jù)的公司認(rèn)為他們更有優(yōu)勢(shì)做好深度學(xué)習(xí),現(xiàn)實(shí)如此嗎,其他公司的機(jī)會(huì)在哪里? 邁克爾·喬丹:首先是數(shù)據(jù)量的問(wèn)題,深度學(xué)習(xí)十分依賴于公司處理的是什么樣的數(shù)據(jù),譬如精準(zhǔn)醫(yī)療、電子商務(wù),專業(yè)的公司有大量的數(shù)據(jù),但私人對(duì)這些數(shù)據(jù)并不是十分感興趣;另外是數(shù)據(jù)質(zhì)量的問(wèn)題,很可能大公司有更好的數(shù)據(jù)質(zhì)量,譬如美國(guó)的推特、中國(guó)的微博,雖然每天產(chǎn)生大量的數(shù)據(jù),但這些數(shù)據(jù)之間的關(guān)系可能比較微弱,普通人不感興趣,可能只有大公司才有興趣;還有信用卡以及金融數(shù)據(jù),可以分析出大家的購(gòu)買習(xí)慣,這對(duì)私人來(lái)說(shuō)就是非常有用的東西。這也是數(shù)據(jù)量多的公司才能做的事。另外,數(shù)據(jù)收集方面有很大的挑戰(zhàn),因?yàn)橛腥藶榛蛘卟豢杀苊獾氖д`,會(huì)對(duì)數(shù)據(jù)產(chǎn)生人為的損害和污染,如何保證數(shù)據(jù)的高質(zhì)量是非常重要的問(wèn)題。 澎湃新聞:在人工智能方面最先獲得突破的是谷歌、亞馬遜這些大公司嗎? 邁克爾·喬丹:這是很重要的問(wèn)題,但就2016年來(lái)說(shuō),研究機(jī)構(gòu)還是最有可能獲得突破的,未來(lái)如何不好說(shuō),但過(guò)去30年的經(jīng)驗(yàn),人工智能的研究,研究機(jī)構(gòu)一直領(lǐng)先。 以下為邁克爾·喬丹于第二屆“復(fù)旦科技創(chuàng)新論壇”暨第一屆“復(fù)旦-中植科學(xué)獎(jiǎng)”上的演講,由復(fù)旦大學(xué)大數(shù)據(jù)學(xué)院張楠整理。以饗讀者。 大數(shù)據(jù)的世紀(jì)難題 ——缺少理論化的科學(xué)體系 在建造一個(gè)大數(shù)據(jù)系統(tǒng)時(shí),設(shè)計(jì)者通常都要面對(duì)精準(zhǔn)性和計(jì)算速度的取舍,目前并沒(méi)有一個(gè)科學(xué)化的體系來(lái)指導(dǎo)我們。這個(gè)指導(dǎo)系統(tǒng)的重要性,就像是幾千年來(lái),人們修建房屋和橋梁,不斷實(shí)踐、試錯(cuò)改錯(cuò)、最后理論化提煉出土木工程這門科學(xué),可以指導(dǎo)人們應(yīng)對(duì)建筑工程中遇到的所有問(wèn)題。在大數(shù)據(jù)時(shí)代來(lái)臨之前,我們?cè)谙嚓P(guān)領(lǐng)域取得了很多成果,比如計(jì)算機(jī)科學(xué)、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)等。但當(dāng)我們面對(duì)大數(shù)據(jù)的新問(wèn)題,我們并沒(méi)有一套科學(xué)的解決方案,這是世紀(jì)挑戰(zhàn)。 因此我們不能簡(jiǎn)單地將已有方法拿過(guò)來(lái)套用,而是要從科學(xué)的角度認(rèn)真思考和嘗試找到科學(xué)方法,其中非常重要的一點(diǎn)就是將計(jì)算思維和推斷思維結(jié)合起來(lái)。 幾十年來(lái),研究者一直致力于用機(jī)器代替人來(lái)進(jìn)行特定的活動(dòng)。有些方面已經(jīng)取得了巨大的成功,比如Google搜索引擎,我們?cè)谝粋€(gè)空白框內(nèi)輸入關(guān)鍵詞,很快就可以得到我們想要的答案。就這個(gè)搜索框而言,其背后的技術(shù)在幾十年中不斷發(fā)展,通過(guò)數(shù)據(jù)的日積月累和算法的不斷改善,形成了如今的非常個(gè)性化的服務(wù)系統(tǒng)。 在硅谷,越來(lái)越多的公司在設(shè)計(jì)、開發(fā)類似的個(gè)性化大數(shù)據(jù)系統(tǒng),比如搜索引擎、電子商務(wù)、精準(zhǔn)醫(yī)療等等。他們?cè)跀?shù)據(jù)不斷涌入的情況下,通過(guò)調(diào)整參數(shù)、嘗試不同模型,提高預(yù)測(cè)的精準(zhǔn)性。相比控制出錯(cuò)的比例,公司更關(guān)心的是出錯(cuò)的絕對(duì)數(shù)量不要隨著數(shù)據(jù)的增多而增加。 同時(shí),大數(shù)據(jù)帶來(lái)的另一個(gè)挑戰(zhàn)是對(duì)計(jì)算速度的要求。數(shù)據(jù)越多,處理的時(shí)間也就越長(zhǎng)。一個(gè)高度個(gè)性化的、準(zhǔn)確的服務(wù)系統(tǒng),如果運(yùn)行起來(lái)很慢,用戶是不會(huì)滿意的。比如,搜索引擎的響應(yīng)時(shí)間已經(jīng)從最初的幾秒優(yōu)化到如今的幾毫秒。如果思考得更長(zhǎng)遠(yuǎn)些,今天我們有TB(1024GB)級(jí)的數(shù)據(jù),幾年后我們會(huì)有PB(1024TB)級(jí)的數(shù)據(jù)。豐富多樣的數(shù)據(jù)可以使系統(tǒng)個(gè)性化、精準(zhǔn)化方面再上幾個(gè)臺(tái)階,但是同時(shí)人們也期待計(jì)算速度能夠越來(lái)越快。 而計(jì)算思維來(lái)自于計(jì)算機(jī)科學(xué),是一種思想,是關(guān)于思考特定問(wèn)題的抽象化、模塊化、擴(kuò)展化和穩(wěn)健化等方法,絕不僅僅是如何編程。計(jì)算機(jī)專業(yè)的學(xué)生在這些方面都會(huì)接受很好的訓(xùn)練,但被大家忽視的,也是特別重要的推理思維。推理思維不是新思想,它是有幾百年發(fā)展歷史,它是統(tǒng)計(jì)學(xué)中最核心的東西。推理思維強(qiáng)調(diào)的是,拿到數(shù)據(jù),我們要思考數(shù)據(jù)是從哪里來(lái)的,背后的真實(shí)世界是怎樣的,數(shù)據(jù)如何從真實(shí)世界中采集來(lái)的,會(huì)不會(huì)有采樣偏差,等等。 遺憾的是,計(jì)算科學(xué)和統(tǒng)計(jì)學(xué)長(zhǎng)久以來(lái)獨(dú)立發(fā)展,直到如今的大數(shù)據(jù)時(shí)代,兩個(gè)學(xué)科的交叉,才使得這兩門學(xué)科遇到了真正的機(jī)遇,同時(shí)也帶來(lái)了挑戰(zhàn)。 一方面,計(jì)算機(jī)科學(xué)家并不太懂統(tǒng)計(jì)推斷,所以他們把這方面的研究命名為機(jī)器學(xué)習(xí)。然而機(jī)器學(xué)習(xí)只是將模型應(yīng)用到數(shù)據(jù)上,并不關(guān)注推斷問(wèn)題,以及樣本和總體之間的關(guān)系,也沒(méi)有涉及統(tǒng)計(jì)學(xué)中偏差和因果推斷的內(nèi)容。 另一方面,傳統(tǒng)統(tǒng)計(jì)學(xué)理論關(guān)注損失、風(fēng)險(xiǎn)、隨機(jī)性等概率性質(zhì),極少涉及計(jì)算時(shí)間方面的概念。 我們舉一個(gè)醫(yī)療研究的例子來(lái)體會(huì)計(jì)算思維和推理思維的不同和聯(lián)系。假設(shè)有一個(gè)存放患者健康信息和醫(yī)療歷史的數(shù)據(jù)庫(kù),如果有直接查詢的權(quán)限,我們就可以得到想要的信息,并進(jìn)行下一步操作。但由于保護(hù)隱私的考慮,我們通常只能查詢到經(jīng)過(guò)隨機(jī)化處理的間接信息。計(jì)算思維考慮的問(wèn)題,就是基于間接信息的結(jié)果,如何盡可能得到近似原始觀測(cè)得到的結(jié)果,使用這些擾動(dòng)過(guò)的數(shù)據(jù),能不能做出和使用原始數(shù)據(jù)一樣好的預(yù)測(cè)。 推斷思維的角度則完全不同。我們通常假設(shè):數(shù)據(jù)庫(kù)中所有患者的信息只是某未知真實(shí)總體的抽樣觀測(cè),我們不僅關(guān)注那些信息已經(jīng)存在數(shù)據(jù)庫(kù)里的患者,我們也關(guān)心那些不在數(shù)據(jù)庫(kù)中、但類型相似的患者。那么,統(tǒng)計(jì)學(xué)家關(guān)注的是,基于數(shù)據(jù)庫(kù)直接信息的結(jié)果會(huì)對(duì)真實(shí)世界的結(jié)果有多好的近似。 這是幾十年前,這兩個(gè)領(lǐng)域各自研究的問(wèn)題?,F(xiàn)在是如何把這兩種思維結(jié)合起來(lái)。 所以,在這個(gè)醫(yī)療數(shù)據(jù)隱私例子上,我們關(guān)心的問(wèn)題就變成了我們?nèi)绾卫秒S機(jī)化的間接信息,來(lái)得到近似真實(shí)世界的結(jié)果。推理思維在連接真實(shí)世界和間接信息中起到了橋梁作用。 因此,大數(shù)據(jù)帶來(lái)的挑戰(zhàn)層出不窮,將兩種思維結(jié)合起來(lái),并且認(rèn)真研究新問(wèn)題,才是真正的核心。無(wú)論是對(duì)理論還是實(shí)踐感興趣,我們都應(yīng)該為有更多的機(jī)遇而感到興奮。