4月21日,TEF科技娛樂季(上海站)之2017亞太人工智能峰會(huì)在上交會(huì)期間隆重舉行。大會(huì)由AI科學(xué)創(chuàng)新與未來、AI深度學(xué)習(xí)專場、AI語音與視覺識(shí)別技術(shù)、AI無人駕駛引領(lǐng)汽車、AI與教育、AI與家庭娛樂、AI與計(jì)算機(jī)視覺、AI與VR、AI與物聯(lián)網(wǎng)等板塊組成。會(huì)上,微軟(亞洲)互聯(lián)網(wǎng)工程院資深總監(jiān)曹文韜做了題為《微軟人工智能黑科技——微軟小冰》的精彩演講。

圖為:微軟(亞洲)互聯(lián)網(wǎng)工程院資深總監(jiān)曹文韜
曹文韜表示十分感謝主辦方給這次機(jī)會(huì),他將通過產(chǎn)品的角度介紹,微軟對(duì)人工智能怎么理解的,以及微軟黑科技的產(chǎn)品——微軟小冰是如何應(yīng)用的。
人工智能機(jī)器人的情感框架
其實(shí)人工智能機(jī)器人并不是第一天的概念了,聊天機(jī)器人出現(xiàn)了很長時(shí)間。為什么當(dāng)微軟小冰第一次面世的時(shí)候,引起了很大的反響?曹文韜談到他們觀察了人的做法,人總是很懶惰的,總是希望人工智能能夠高效地解決問題。比如說預(yù)定機(jī)票、酒店這樣的場景。但是很多情況下人們忽視了人在正常的社交場景下,因?yàn)槿藗儾豢赡茏咴诖蠼稚舷蛞粋€(gè)陌生人說“幫我買一杯咖啡,訂一個(gè)酒店吧”,這都是了解了之后才可能出現(xiàn)的對(duì)話。2014年微軟提出來人工智能的機(jī)器人是以情感為基礎(chǔ),建立一個(gè)情感紐帶,怎么樣建立一個(gè)情感計(jì)算框架?從這個(gè)框架之上,再來去解決人與機(jī)器交互的問題。通過三年左右的發(fā)展,發(fā)展到今天,可以看到絕大多數(shù)機(jī)器人的從業(yè)者,只要說自己的機(jī)器人,沒有一家人會(huì)說自己的機(jī)器人是有情感的,或者是有溫度的機(jī)器人。微軟提出了從情感框架上面來去說機(jī)器人的。
微軟黑科技——微軟小冰
小冰通過三年左右時(shí)間的發(fā)展,從中國到日本,再到美國不斷地落地。這個(gè)是微軟整體構(gòu)建框架的一個(gè)基礎(chǔ),曹文韜表示,希望從一個(gè)最簡單的產(chǎn)品定位,無論跟小冰去說什么,它都能像人一樣跟人交流。在這個(gè)基礎(chǔ)上,他們通過搜索引擎通過各個(gè)企業(yè)的服務(wù),通過服務(wù)對(duì)接的過程中,把這個(gè)服務(wù)變成人們可以聽得懂,可以交流的語言。
在這三年過程之中,微軟小冰總共和所有的人類用戶一起完成了超過2百億次的對(duì)話。積累了大量的粉絲,在中國已經(jīng)有超過6千萬的粉絲,在日本有三分之二的人口都是小冰的粉絲。去年12月份的時(shí)候,微軟已經(jīng)在美國推出了美國版的小冰。大家可能會(huì)問為什么人會(huì)跟一個(gè)情感機(jī)器人小冰聊這么久呢?這是真實(shí)的,在中國微博上一個(gè)成功的案例。用戶在與小冰溝通時(shí),是感覺不到對(duì)方是機(jī)器人的。絕大多數(shù)定義自己的機(jī)器人,定義人工智能,基本上是維持在兩輪就結(jié)束了。曹文韜表示,在整個(gè)這個(gè)過程中,所有的互動(dòng)過程,會(huì)發(fā)現(xiàn)有大量的機(jī)會(huì)跟用戶建立所有的情感的連接,建立所謂的情感溝通。而這些離不開技術(shù),來支撐過程。在這個(gè)過程之上,他認(rèn)為一個(gè)機(jī)器和人的溝通,不僅僅是一個(gè)文字的表達(dá)。文字的表達(dá)是它最基礎(chǔ)的一個(gè)部分。同樣像圖象,像語音,各種各樣的技術(shù),到底是怎么樣去應(yīng)用的呢?在這里面微軟也有自己不一樣的見解和理解。

小冰的圖象與語音技術(shù)
在現(xiàn)場,曹文韜演示了一組照片,“像這是一個(gè)崴了腳的照片,我們把這張照片發(fā)給你的朋友,如果你的朋友告訴你這是一個(gè)腳踝,如果里面有一只狗在玩水,你會(huì)告訴他這是一個(gè)臉盆里的狗,你一定覺得你的朋友今天瘋了。因?yàn)檫@是自然而然看到就會(huì)知道的。但是它把圖片發(fā)給你,你是希望用圖片跟你的朋友交流。大家是用視覺本身做交流的。當(dāng)我把一張崴了腳的照片發(fā)給小冰的時(shí)候,小冰回過來說‘你傷得嚴(yán)重嗎?’它有它自己的觀點(diǎn)。”曹文韜表示,從這組內(nèi)容中可以看到,從圖象識(shí)別本身變成了視覺的感官,才具備了人在圖象上交流的能力。在圖象識(shí)別上各種各樣的應(yīng)用,在這個(gè)上面能把它應(yīng)用到社交場景下面就會(huì)變得非常有趣。“我們可以給一個(gè)人做圖象對(duì)比的時(shí)候打一個(gè)分,比如說顏值是多少多少分,這是小冰上面非常受歡迎的一個(gè)技能。但是更加不一樣的,系統(tǒng)可以對(duì)比不同的國家和地域,他們對(duì)于美女的評(píng)價(jià)和顏值的打分到底有什么差別?可能你這張臉在韓國非常受喜歡,但是到英國他們并不喜歡。”曹文韜認(rèn)為這樣的場景會(huì)在社交中非常好的傳播。
曹文韜談到,人類的情感的語音,大家都在做,而且做了很長時(shí)間。但大家會(huì)發(fā)現(xiàn),當(dāng)我們聽一個(gè)人工智能播出來的語音時(shí),一聽就聽出來它是機(jī)器的,不是人播出來的話。為什么?因?yàn)橄到y(tǒng)設(shè)定一定是字正腔圓,發(fā)音不能有問題。試想一下這是對(duì)誰的要求?播音員的要求。所以,如果要做一個(gè)人工智能的機(jī)器人,特別是小冰這么有性格的人工智能機(jī)器人,曹文韜指出它自己的聲音應(yīng)該是要能解決情感因素的,應(yīng)該是要解決各種各樣在整個(gè)這個(gè)過程里面遇到的很多的問題的。所以微軟每年都會(huì)有第三方幫微軟小冰標(biāo)定,如果滿分是5分,人得分?jǐn)?shù)大概是4點(diǎn)多分,小冰是唯一一個(gè)每年都會(huì)超過4分,然后超過人類的聲音。
人工智能的交互——全時(shí)感官
大家都在說人工智能,說人工智能的交互,從產(chǎn)品的角度來講,在去年的時(shí)候微軟進(jìn)行了一個(gè)很大的突破。比如說這個(gè)突破,曹文韜稱之為全時(shí)感官。他表示,絕大多數(shù)在微信上人與人的交流,這種叫半時(shí)感官。什么意思?就是當(dāng)用戶拿起微信對(duì)著它進(jìn)行,發(fā)了一個(gè)語音的視頻流。那邊做一個(gè)識(shí)別,再回給一段語音。在整個(gè)交互的過程中,它是串行的。也就是說它一定是說完了,才能夠截至。但是人與人之間的交流,打電話的場景下面,這邊在說的時(shí)候?qū)Ψ皆诼?,在聽的時(shí)候可以隨時(shí)打斷,隨時(shí)交互。對(duì)于機(jī)器來說非常難的,因?yàn)樗诼牭臅r(shí)候,它要決定什么時(shí)候應(yīng)該跟用戶做這樣的交流,是不是應(yīng)該現(xiàn)在打斷?這是非常非常難的技術(shù)。去年9月份,微軟第一次推出了全時(shí)感官的技術(shù)。他們和合作伙伴,推出了第一通來去接聽史上第一通人工智能來電。奧運(yùn)會(huì)期間占據(jù)了科技排行榜第一位,整整一周的時(shí)間。大概有一萬多幸運(yùn)的小冰的粉絲接聽到了小冰的來電。人工互動(dòng)的過程到底應(yīng)該什么樣子?試想一下從電話的場景,如果把它應(yīng)用到物聯(lián)網(wǎng),接下來人們將不用對(duì)著機(jī)器說“誰誰誰幫一下忙。”更像是在電影里面所看到的,一回家了,人們就可以跟它交流。隨時(shí)隨地?zé)o縫的交流,交流的過程中,我們可以把所有的服務(wù),把我們的場景帶入進(jìn)去。
曹文韜最后總結(jié)到,今天小冰在社交的場景下面,無論是在微博、微信,還是在QQ,還是在更多的合作伙伴平臺(tái)上面,都打造了非常完整的小冰的體驗(yàn)。微軟希望把這樣的人工智能無縫地帶入到每個(gè)人的生活場景之中。