由于算法的演進、大量數(shù)據(jù)的涌入以及算力的提升,人工智能迎來了最好的時代。同時,從智能手機,到自動駕駛,再到安防,AI 圖像視覺技術(shù)也正在被應(yīng)用到越來越多的行業(yè)。
但目前落地應(yīng)用過程中所面臨的現(xiàn)實的情況是,受深度學習驅(qū)動,云端視覺圖像處理技術(shù)飛速發(fā)展的同時,前端視覺成像技術(shù)卻依舊裹足不前,無法與之相匹配,成為了限制 AI 視覺發(fā)展的嚴重瓶頸。
比如,2016 年的時候,一輛特斯拉 MODEL S 在自動駕駛時發(fā)生車禍,導(dǎo)致駕駛員死亡。究其原因,正是由于在逆光以及反光的情況下,其所配備的攝像頭無法識別前方車輛,才釀成了那起事故。
當算法以及超強的計算能力賦予了機器邏輯思維能力之后,想要讓它真正能夠得以在實際生活、生產(chǎn)中實現(xiàn)落地,擁有一雙足夠明亮的「眼睛」是必不可少的,這也是接下來在人工智能向前推進的過程中,需要去解決的難題。
成立于 2014 年的眼擎科技(eyemore),是一家從事前端成像引擎的技術(shù)公司,通過專業(yè)的成像引擎芯片,他們利用自主研發(fā)的成像算法,為各個應(yīng)用場景下的機器視覺公司提供前端成像的一體化解決方案,來解決目前 AI 視覺由于光線差導(dǎo)致識別準確度低以及從圖像算法到視覺硬件產(chǎn)品落地周期太長的問題。
CES 2018 展會期間,極客公園舉辦了「極客之夜」活動,我們?yōu)槭澜绺鞯氐钠髽I(yè)家和創(chuàng)業(yè)者搭建了交流的舞臺,希望能在這一舞臺,嘗試為人們找到科技困惑的答案,發(fā)現(xiàn)科技新趨勢。
在極客之夜的活動上,我們邀請到了眼擎科技創(chuàng)始人朱繼志,來看看在 AI 時代,如何理解視覺成像這件事情,以及他們能夠為整個行業(yè)的發(fā)展帶來哪些意義。
以下為眼擎科技創(chuàng)始人朱繼志演講實錄。
大家知道現(xiàn)在 AI 芯片很熱門,講到 AI 芯片,大部分都是用來處理圖像和視覺的。今天我們換一個角度,從成像的角度來看一看 AI 芯片。
成像的歷史分成三個階段。最早是膠卷時代,比較有代表性的企業(yè)是柯達;從 80 年代開始進入數(shù)碼時代,產(chǎn)品轉(zhuǎn)移到了日本,今天大家看到的所有的圖像、相機工業(yè)里面的視覺都是源自于 80 年代日本數(shù)碼成像的體系;現(xiàn)在我們正處于 AI 視覺時代。
到了 AI 時代以后,整個成像技術(shù)有了一個本質(zhì)的變化。最大的變化就是以前的圖像是給人看的,現(xiàn)在是給機器看的。給人看的時候大家關(guān)注的是多少像素,給機器看的時候,則更多的關(guān)注于識別的結(jié)果。對于整個成像產(chǎn)業(yè)而言,這是一個很大的歷史變化,這個變化會比從膠卷時代到數(shù)碼時代的升級更大。
眼擎科技是一家創(chuàng)業(yè)公司,做了有四年多的時間。我們的目標是要做超越人眼識別能力的成像技術(shù),同時,我們也是做芯片的,19 號在北京極客公園 IF 大會上,會發(fā)布我們 eyemore 成像芯片。
它會是第一顆專門面向 AI 視覺來開發(fā)的成像芯片,針對 AI 成像,我們做了一個全新的架構(gòu),基于超大規(guī)模運算和很多新型的成像算法,我們客戶的應(yīng)用主要包括自動駕駛、安防、人臉識別、醫(yī)療視覺、工業(yè)檢測等各種和 AI 視覺相關(guān)的領(lǐng)域。
隨著我們算法的不斷的提升,計算能力不斷的提高,以及場景數(shù)據(jù)量的不斷增加,我們相信,在更多方面,機器的成像能力都能夠超越人眼的視覺能力。
我認為視覺在 AI 里邊是最快能夠?qū)崿F(xiàn)落地變成產(chǎn)業(yè)的一個應(yīng)用,從我們接觸到的很多客戶來看,2018 年我認為會有很多落地的 AI 視覺的產(chǎn)品,不管是在安防領(lǐng)域、醫(yī)療領(lǐng)域,還是在自動駕駛領(lǐng)域。
由于深度學習帶來的 AI 算法有了一個大的突破,很快會傳遞到整個產(chǎn)業(yè)鏈條的上游,換句話說,AI 的算法其實具備很強的工業(yè)賦能的能力。我認為,未來在很多的設(shè)備里邊,可能都會帶來視覺功能的升級需求,因為視覺功能實際上是設(shè)備走向智能非常重要的一步。
有關(guān)產(chǎn)品落地的問題,實際上我們所有接觸過的客戶都會碰到一個問題:在實驗室訓(xùn)練數(shù)據(jù)的時候,效果很好,但是到實際場景去部署的時候,因為各種各樣環(huán)境的問題,比如弱光、逆光、反光這些的復(fù)雜環(huán)境下,效果就不行了,有點類似于賣家秀很豐滿,但是買家秀卻很骨感。
他們做訓(xùn)練的數(shù)據(jù)可能從網(wǎng)上來的非常清晰的高品質(zhì)圖像,但在實際場景當中,因為環(huán)境影響導(dǎo)致成像品質(zhì)不好,非常影響后端 AI 識別的效率和準確率。我們的產(chǎn)品正是幫助這些 AI 客戶去解決在產(chǎn)品從算法到實際場景落地過程中所遇到的這個難點。