
在上周O'Reilly和英特爾聯(lián)合主辦的AI Conference 2018北京站大會(huì)上,Uber資深研究科學(xué)家、哥倫比亞大學(xué)計(jì)算機(jī)科學(xué)系兼職教授Erran Li發(fā)表了演講,分享了自動(dòng)駕駛的新發(fā)展以及挑戰(zhàn)。
Erran Li稱(chēng),目前Uber的自動(dòng)駕駛系統(tǒng)有360度的雷達(dá)系統(tǒng),也有RGB的鏡頭,理論上來(lái)講車(chē)當(dāng)中的硬件傳感器比人的眼睛和耳朵這要做得更好。但是在軟件上我們要解決3D的物體探測(cè)、物體運(yùn)動(dòng)以及決策的問(wèn)題。
Erran Li認(rèn)為,在自動(dòng)駕駛當(dāng)中,如果你把90%的問(wèn)題都掃除了,那么剩下10%甚至要花100倍的精力來(lái)做。對(duì)于自動(dòng)駕駛未來(lái)還有一些挑戰(zhàn),需要一些本質(zhì)性的突破。
以下為Erran Li演講實(shí)錄:
Erran Li:大家好,今天我想為大家分享一下未來(lái)在自動(dòng)駕駛方面的一些新的發(fā)展以及挑戰(zhàn)。
事實(shí)上,人和其他的人類(lèi)的代理可以說(shuō)是無(wú)處不在的,Uber造了一個(gè)自動(dòng)駕駛的車(chē),它可以駕駛的比普通的人更加好。我們可能會(huì)騎車(chē),可能會(huì)駕車(chē),也可能只是在散步,所以自動(dòng)駕駛需要識(shí)別各種交通的信號(hào),比如說(shuō)有信號(hào)燈,還有一些交通方面的指示牌,所以我們需要處理各種各樣的情況。大家可以看到這輛車(chē),事實(shí)上它在遠(yuǎn)離,我們需要搞清楚這輛車(chē)為什么后退,它的意圖是什么。所以我們?cè)趺礃觼?lái)構(gòu)建這樣的一個(gè)系統(tǒng)?要比普通的人駕駛的更好,我們?nèi)绾蝸?lái)處理這個(gè)復(fù)雜的情況?我想大家在北京開(kāi)車(chē)都有經(jīng)驗(yàn),可能北京的路況比這個(gè)要復(fù)雜得多。
這里有硬件的情況,也有軟件的情況,大家可以看到,比如說(shuō)Uber的自動(dòng)駕駛系統(tǒng),我們有360度的雷達(dá)系統(tǒng),我們也有RGB的鏡頭,理論上來(lái)講車(chē)當(dāng)中的硬件傳感器比我們?nèi)说难劬投溥@種傳感要做得更好。
軟件是怎樣的一種情況?我們是否用人工的來(lái)編寫(xiě)軟件,來(lái)處理所有這些可能遇到的復(fù)雜的情況呢?我想所有會(huì)開(kāi)車(chē)的人,或者說(shuō)所有的來(lái)設(shè)計(jì)這些系統(tǒng)的人都不會(huì)用手工來(lái)編程。我們事實(shí)上可以運(yùn)用海量的數(shù)據(jù),來(lái)讓我們的計(jì)算機(jī)進(jìn)行自我學(xué)習(xí),處理這些復(fù)雜的情況。在機(jī)器學(xué)習(xí)的過(guò)程當(dāng)中,我們想要解決什么問(wèn)題和解決的結(jié)果是什么?
我們首先要解決的問(wèn)題就是3D的物體探測(cè)。大家可以看到這個(gè)視角上面激光雷達(dá)的情況,可以看到我們可以對(duì)每一個(gè)物體都建立輸出和輸入,都是3D的。它可能是一個(gè)人,也可能是一個(gè)物體,我們?nèi)绾谓鉀Q這個(gè)問(wèn)題?我們用深度學(xué)習(xí)的建模,這是一個(gè)活動(dòng)中的模型。我們要探測(cè)出身邊所有的這些車(chē)輛,而且也把它用一個(gè)非常精致的盒子標(biāo)志出來(lái)。在探測(cè)的過(guò)程當(dāng)中,用這種標(biāo)示的方面,試圖能夠給我們解決一些問(wèn)題。問(wèn)題在于除了我們需要探測(cè)到,而且我們也要在一秒鐘當(dāng)中它們會(huì)發(fā)生什么樣的情況,如何來(lái)進(jìn)行跟蹤。這是一個(gè)跟蹤的問(wèn)題。一般來(lái)說(shuō),我們都是用篩選器來(lái)做。在深層的建模當(dāng)中,同樣的數(shù)字就顯示出了同樣的一輛車(chē)在各種不同的框架當(dāng)中的情形。大家可以看到,深層學(xué)習(xí)的模型跟蹤表現(xiàn)還是不錯(cuò)的。
除此之外,除了探測(cè)、追蹤以外,我們也需要預(yù)測(cè)這些物體會(huì)向哪個(gè)方向行動(dòng)??梢钥吹竭@些活動(dòng)中的物體,不奇怪的是我們可以用預(yù)測(cè)的建模來(lái)做到這一點(diǎn),大家可以看到各個(gè)不同的活動(dòng)中的物體,他們可以有多種行進(jìn)軌道,我們也可以預(yù)測(cè)這些多種的行進(jìn)軌道,而且把它們排一個(gè)層次排序。在這個(gè)路口當(dāng)中有多種軌道,綠色的軌道有三種情況。
我們?nèi)〉靡粋€(gè)很良好進(jìn)展的就是決策的過(guò)程。在決策的模型當(dāng)中,我們也取得了長(zhǎng)足的進(jìn)展??梢钥吹缴顚訉W(xué)習(xí)的模型當(dāng)中,我們掌握了控制度,比如說(shuō)我們有黑盒的深層學(xué)習(xí)的模型,這是一個(gè)很好的模型。這是一個(gè)在活動(dòng)中的可以看到一個(gè)模擬的模型,深層學(xué)習(xí)盡管在天氣不太好的情況下,可以說(shuō)也跟著道路跟得不錯(cuò)。
我們是否已經(jīng)解決了所有的問(wèn)題?我們能不能立刻看到身邊到處都是自動(dòng)駕駛汽車(chē)呢?事實(shí)上在自動(dòng)駕駛當(dāng)中,如果你把90%的問(wèn)題都掃除了,那么剩下10%你可能要花10倍的精力來(lái)做。我們可以宣稱(chēng)說(shuō),我們可能已經(jīng)把90%的問(wèn)題都解決了,但是我們?nèi)匀贿€有10%的障礙沒(méi)有掃除。有的人說(shuō)不是這樣的,可能我們花的不是10倍的精力,也許可能要花100倍的精力,無(wú)論幾倍,我們都需要花更大的精力來(lái)攻克難關(guān)?,F(xiàn)在我們解決了90%問(wèn)題的這些技術(shù),它很有可能不是我們來(lái)解決剩下一公里問(wèn)題的技術(shù)。我們未來(lái)有一些挑戰(zhàn),需要一些本質(zhì)性的突破。
問(wèn)題眾多,下面給大家只列舉出其中的一些。大家可以看到,在深層學(xué)習(xí)的模型當(dāng)中有一些表達(dá),這些表達(dá)并不具備“魯棒性”,它與我們?nèi)祟?lèi)學(xué)習(xí)的表達(dá)是不一樣的。我們可能用黑白的貼紙放在這個(gè)上面作為停止符,但是機(jī)器學(xué)習(xí)卻無(wú)法識(shí)別,它們可能沒(méi)有辦法識(shí)別這是一個(gè)停止符,他們可能只是認(rèn)為這是一個(gè)限速符。所以我們的研究當(dāng)中,這些問(wèn)題我們也做了很多的努力,也取得了不少的成功。但是這種分類(lèi)打分的方法還是很難的,所以大家可以看到,這些深層學(xué)習(xí)的模型在目前已經(jīng)有很多可以運(yùn)用了。
我們需要做的是什么?我們需要學(xué)習(xí)魯棒和抽象的表達(dá)。因?yàn)槲覀內(nèi)祟?lèi)的視覺(jué)可以說(shuō)對(duì)這些攻擊是非常魯棒的,我們?cè)趺礃訌娜祟?lèi)視覺(jué)當(dāng)中學(xué)到一些洞見(jiàn)和洞察?還有理解這個(gè)情景,要掌握情景,了解人類(lèi)的行動(dòng)和人類(lèi)的意圖。我們?cè)隈{駛的過(guò)程當(dāng)中很容易就能夠覺(jué)察出其他駕駛員的意圖,但是深度學(xué)習(xí)就有困難了,我們?cè)谇榫袄斫夥矫孢M(jìn)步還不夠。
最后的挑戰(zhàn)是決策過(guò)程,如果大家再考慮一下這個(gè)問(wèn)題,我們的大腦是通用智能。我們?nèi)绻麑?zhuān)注于一個(gè)問(wèn)題,就能做出比較好的決策。但是我們還沒(méi)有達(dá)到人工智能這種水平,我們可能還需要通用智能來(lái)解決駕駛的問(wèn)題,但是面臨著一個(gè)很大的挑戰(zhàn)。怎么樣能夠做出序列性的決策?目前的規(guī)劃,設(shè)想其他人類(lèi)的代理是被動(dòng)的,盡管他們可能在運(yùn)動(dòng),但是他們是有自己未來(lái)的軌道的,也就是我們假設(shè)他們是被動(dòng)的,只能解決了90%的問(wèn)題,但是最后一公里還解決不了。我們所需要的是一個(gè)框架,在一個(gè)多代理的環(huán)境當(dāng)中進(jìn)行多框架的決策。我們可以了解其他決策者的意圖,而且能夠構(gòu)建這種駕駛的政策,讓我們能夠完成各種工作,而且駕馭各種紛繁復(fù)雜的情況.