国产精品奶水无码视频免费|激情五月天深爱网|精品国产女主播一区在线观看|国产黄网一区二区

身價(jià)4000萬(wàn)的汪仔火了后,我們來(lái)聊聊人工智能技術(shù)

2017-02-17 10:36:20 來(lái)源:太平洋電腦網(wǎng) 熱度:
春天來(lái)了,又到了人機(jī)交戰(zhàn)的季節(jié)。
 
七年前的二月,IBM人工智能計(jì)算機(jī)Watson在答題節(jié)目《Jeopardy!(危險(xiǎn)邊緣)》中稱王,擊敗了這個(gè)節(jié)目歷史上最強(qiáng)大的兩位人類高手。這個(gè)二月,搜狗人工智能機(jī)器人汪仔在答題節(jié)目《一站到底》中登場(chǎng),擊敗了站到最后的人類選手。
 
在《jeopardy!》里,最強(qiáng)的人類選手最后不得不寫(xiě)下名句,俯首稱臣;而在《一站到底》的賽場(chǎng)上,汪仔也表現(xiàn)出碾壓般的優(yōu)勢(shì)。同樣是答題節(jié)目,同樣是人工智能,七年時(shí)間過(guò)去,現(xiàn)在的汪仔和當(dāng)年的Watson,到底有何不同?
 
而號(hào)稱歷時(shí)9個(gè)月,耗資4000萬(wàn)打造的汪仔,背后到底是哪些核心技術(shù),研發(fā)過(guò)程又有哪些挑戰(zhàn)?未來(lái)人工智能技術(shù)又會(huì)怎樣發(fā)展?
 
身價(jià)4000萬(wàn)的汪仔火了后,我們來(lái)聊聊人工智能技術(shù)
 

 
△ 圖左為許靜芳,圖右為劉明榮
 
搜狗搜索技術(shù)負(fù)責(zé)人許靜芳,以及搜狗搜索總監(jiān)劉明榮,把上述種種問(wèn)題的答案抽絲剝繭告訴量子位。下面是他們的權(quán)威詳解:
 
汪仔和當(dāng)年的Watson有什么不同?
 
1、輸入方式不同
 
Watson是特殊接口文本輸入,輸入內(nèi)容準(zhǔn)確無(wú)誤。
 
而《一站到底》是主持人念題加題板展示題目(兩種來(lái)源都是逐字出題),汪仔通過(guò)搜狗的語(yǔ)音識(shí)別和圖像識(shí)別技術(shù),利用語(yǔ)音和圖像兩種方式獲取,再轉(zhuǎn)換成文字。語(yǔ)音識(shí)別、圖像識(shí)別都是AI的關(guān)鍵技術(shù),同時(shí)識(shí)別的錯(cuò)誤會(huì)進(jìn)一步提升答題的難度。
 
2、題目設(shè)置不同
 
《jeopardy!》的題目有顯示類別和相應(yīng)的獎(jiǎng)金數(shù),類別對(duì)于答題有幫助,能夠?qū)⒋鸢赶薅ㄔ谔囟ǚ秶鷥?nèi)。而《一站到底》中的題目沒(méi)有給出類別,需要汪仔通過(guò)算法識(shí)別問(wèn)題的類別,增大了答題的難度。
 
當(dāng)然《jeopardy!》中題目的獎(jiǎng)金不同,最后以獲得的獎(jiǎng)金數(shù)定輸贏也帶來(lái)了新的問(wèn)題,這點(diǎn)是一站到底所沒(méi)有的特性。
 
3、賽制不同
 
《jeopardy!》必須主持人把題目完整念出后選手才能搶答,而《一站到底》是在開(kāi)始念題后任意時(shí)間都可以搶答,答對(duì)自己得分,答錯(cuò)對(duì)方加分。
 
因此在高水平的選手有大量的題目都是在題目尚未完整時(shí)就作答,汪仔同樣有很強(qiáng)的搶答,即根據(jù)題干片段去預(yù)測(cè)問(wèn)題并作答的能力,這是Watson所不具備的能力。
 
4、知識(shí)獲取方式不同
 
Watson是一個(gè)封閉系統(tǒng),不聯(lián)網(wǎng),利用其離線的知識(shí)庫(kù)答題。而汪仔通過(guò)聯(lián)網(wǎng),對(duì)全網(wǎng)信息及搜狗知識(shí)圖譜進(jìn)行在線答題,在利用更大范圍信息的同時(shí)也對(duì)答題速度提出挑戰(zhàn)。
 
5、其他
 
汪仔除了能回答知識(shí)問(wèn)題,還有聊天功能,可以和主持人進(jìn)行自然語(yǔ)言交流。
身價(jià)4000萬(wàn)的汪仔火了后,我們來(lái)聊聊人工智能技術(shù)
 

 
汪仔主要基于哪些技術(shù)?
 
汪仔背后核心技術(shù)主要包括:語(yǔ)音識(shí)別、OCR、自然語(yǔ)言理解、數(shù)據(jù)挖掘、信息檢索、知識(shí)圖譜和文本計(jì)算等,這些技術(shù)是當(dāng)今人工智能領(lǐng)域最新發(fā)展的集中體現(xiàn)。
 
其中語(yǔ)音識(shí)別、OCR技術(shù)代表了機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的最高水平,自然語(yǔ)言理解是未來(lái)人工智能發(fā)展需要進(jìn)一步解決的重要核心問(wèn)題,代表了未來(lái)發(fā)展的重要趨勢(shì)。
 
關(guān)于這套系統(tǒng)的架構(gòu),量子位還得到了一組圖形化的說(shuō)明。就列在下面(點(diǎn)擊看大圖)
身價(jià)4000萬(wàn)的汪仔火了后,我們來(lái)聊聊人工智能技術(shù)
身價(jià)4000萬(wàn)的汪仔火了后,我們來(lái)聊聊人工智能技術(shù)
身價(jià)4000萬(wàn)的汪仔火了后,我們來(lái)聊聊人工智能技術(shù)
身價(jià)4000萬(wàn)的汪仔火了后,我們來(lái)聊聊人工智能技術(shù)
 


有多少軟件工程師支持汪仔?
 
長(zhǎng)期投入的核心開(kāi)發(fā)人員在十人左右,此外還有支持項(xiàng)目的各類工程師約十人。
 
量子位補(bǔ)充一點(diǎn)相關(guān)信息:搜狗CEO王小川此前透露,汪仔由搜狗和清華天工研究院聯(lián)合開(kāi)發(fā),耗時(shí)9個(gè)月,耗資4000萬(wàn)。
 
研發(fā)過(guò)程中,最大的困難是什么?
 
《一站到底》有個(gè)非常特殊的規(guī)則:開(kāi)始讀題后,任何時(shí)間都可以作答。
 
答對(duì)得分,答錯(cuò)對(duì)方加分。所以答題速度非常關(guān)鍵,這里不僅僅是聽(tīng)到完整題目后能夠在極短時(shí)間內(nèi)答題,更重要的問(wèn)題是能夠根據(jù)部分題目就預(yù)測(cè)問(wèn)題并作答,實(shí)際上頂尖的人類選手也很大比例在題目不完整情況下答題。
 
答題速度上我們做了兩大類事情:第一是從接收到語(yǔ)音、圖像開(kāi)始,語(yǔ)音識(shí)別、圖像識(shí)別、搜索、答案抽取這整個(gè)系統(tǒng)都在速度上追求極致。在過(guò)去幾個(gè)月里后臺(tái)的處理速度較剛開(kāi)始提升了10倍,無(wú)論是識(shí)別還是轉(zhuǎn)換成文字后的問(wèn)答,在速度上都做到極致。
 
第二類問(wèn)題是推理,即根據(jù)部分信息預(yù)測(cè)問(wèn)題并作答。我們根據(jù)學(xué)習(xí)歷史上的題目,建立一套推理機(jī)制,使得機(jī)器人能夠根據(jù)部分信息推理,例如 當(dāng)前問(wèn)題是“位于XXX的”,我們通過(guò)“位于”這個(gè)詞就可以推導(dǎo)出問(wèn)題答案是一個(gè)“地理位置”。
 
又例如問(wèn)題中提到了“千湖之國(guó)”,則很有可能答案是“芬蘭”(芬蘭的別稱是千湖之國(guó)),問(wèn)題中提到了“穆斯林的葬禮”,則很有可能是問(wèn)其作者“霍達(dá)”,這些信息是我們基于海量知識(shí)文本分析挖掘、學(xué)習(xí)得到的。
 
目前汪仔回答題目的80%都能在題目不完整時(shí)通過(guò)推理回答,較最初的版本有了質(zhì)的飛躍。
 
汪仔和其他人工智能產(chǎn)品有何不同?
 
 
汪仔是一款自然語(yǔ)言問(wèn)答類產(chǎn)品,產(chǎn)品功能定位決定它必須具備感知語(yǔ)音信號(hào)輸入,并可進(jìn)行認(rèn)知推理的能力。
 
目前市面上的人工智能產(chǎn)品大多數(shù)僅具備感知能力,這些產(chǎn)品在特定領(lǐng)域能夠輔助我們高效完成任務(wù),比如語(yǔ)音識(shí)別類產(chǎn)品,可以幫助我們快速方便地輸入文字,人臉識(shí)別類產(chǎn)品可以提供便捷準(zhǔn)確的安防服務(wù)。具備認(rèn)知能力的人工智能產(chǎn)品目前還比較少。
 
在自然語(yǔ)言理解領(lǐng)域,汪仔代表的智能問(wèn)答就屬于認(rèn)知類產(chǎn)品,它除了具備識(shí)別人類語(yǔ)言文字這樣的感知能力,還能夠理解文字背后的含義,也就是理解人的需求,在理解需求的基礎(chǔ)上,進(jìn)一步通過(guò)推理計(jì)算獲得滿足用戶需求的精準(zhǔn)答案。也就是說(shuō),汪仔擁有認(rèn)知推理能力。
 
從問(wèn)答和對(duì)話領(lǐng)域的人工智能產(chǎn)品來(lái)看,和汪仔產(chǎn)品形態(tài)相對(duì)比較接近的包括聊天機(jī)器人和智能客服兩類當(dāng)前比較熱門(mén)的產(chǎn)品。其中聊天機(jī)器人主要向用戶提供生活服務(wù)、娛樂(lè)資訊等,通常以逗樂(lè)用戶、打發(fā)閑暇時(shí)間為主,并不能為用戶解決實(shí)際問(wèn)題。
 
和汪仔類似,目前有些公司提供的智能客服類產(chǎn)品,也屬于智能問(wèn)答產(chǎn)品,同時(shí)具備感知和認(rèn)知能力,但是這些產(chǎn)品能夠回答的問(wèn)題領(lǐng)域非常有限,基本局限在與公司產(chǎn)品服務(wù)密切相關(guān)的問(wèn)題,而汪仔是一款通用問(wèn)答類產(chǎn)品,它可以回答各類知識(shí)問(wèn)題,不受領(lǐng)域限制,因此它的受眾面更加廣泛,能力更強(qiáng)。
 
一句話來(lái)說(shuō),汪仔是具備感知和認(rèn)知推理能力的通用型知識(shí)問(wèn)答類產(chǎn)品。
身價(jià)4000萬(wàn)的汪仔火了后,我們來(lái)聊聊人工智能技術(shù)
 
汪仔對(duì)搜狗AI未來(lái)發(fā)展有何影響?
 
人工智能未來(lái)的發(fā)展方向是認(rèn)知智能,包括推理和決策能力,而智能問(wèn)答是認(rèn)知智能水平的重要體現(xiàn),本身具有重要的產(chǎn)業(yè)價(jià)值和社會(huì)意義。
 
汪仔的成功表明搜狗在這方面具有較強(qiáng)的研發(fā)能力,具有里程碑意義。未來(lái)搜狗將會(huì)在智能問(wèn)答領(lǐng)域加大投入,逐步提升自動(dòng)回答各類自然語(yǔ)言問(wèn)題的能力,成為代表智能問(wèn)答領(lǐng)先水平的國(guó)內(nèi)外知名人工智能公司。
身價(jià)4000萬(wàn)的汪仔火了后,我們來(lái)聊聊人工智能技術(shù)
 
“搜索的未來(lái)將走向問(wèn)答機(jī)器人。用戶的搜索行為會(huì)從輸入一個(gè)關(guān)鍵詞,變成表達(dá)一個(gè)完整的句子,讓機(jī)器找出其中的含義,同時(shí),搜索引擎返回的內(nèi)容,也將從簡(jiǎn)單的10條鏈接轉(zhuǎn)向直接給出答案或者是建議”,王小川曾多次在公開(kāi)場(chǎng)合這樣表示。
 
搜狗汪仔無(wú)疑是“問(wèn)答機(jī)器人”這一理念的具象形態(tài)。其背后的核心技術(shù)立知便是搜狗在智能問(wèn)答領(lǐng)域的一項(xiàng)重要?jiǎng)?chuàng)舉。 王小川曾表示,搜索未來(lái)向問(wèn)答這一演進(jìn)形式將對(duì)大眾的習(xí)慣形成新的挑戰(zhàn),甚至引發(fā)重大的變革。
 
未來(lái),人們不用再為了適應(yīng)機(jī)器而刻意改變自己的溝通方式,人們可以用更自然流暢的問(wèn)答、交談與機(jī)器進(jìn)行互動(dòng),技術(shù)與人文關(guān)懷可以通過(guò)搜狗人工智能技術(shù)實(shí)現(xiàn)完美的均衡。
 
回看當(dāng)年Watson
 

 
身價(jià)4000萬(wàn)的汪仔火了后,我們來(lái)聊聊人工智能技術(shù)
 
△ Watson在《jeopardy!》里獲勝
 
Watson背后是一套深度問(wèn)答(DeepQA)系統(tǒng)。問(wèn)答系統(tǒng)一般包括三個(gè)主要組成部分:?jiǎn)栴}分析、信息檢索和答案抽取。
 
此前的媒體報(bào)道中,有過(guò)類似的示例:
 
面對(duì)問(wèn)題:誰(shuí)導(dǎo)演了《星球大戰(zhàn)》?人類選手會(huì)根據(jù)知識(shí)積累,給出“盧卡斯”這個(gè)答案,但對(duì)于Watson,這個(gè)過(guò)程要復(fù)雜得多。
 
它會(huì)通過(guò)攝像頭把這個(gè)問(wèn)題“掃描”進(jìn)大腦里。先分析這個(gè)問(wèn)的是人,然后再細(xì)化到是一位導(dǎo)演。接著分析《星球大戰(zhàn)》,會(huì)找到很多文章。它要定位某篇文章,其中把星球大戰(zhàn)的導(dǎo)演那一段找出來(lái),然后對(duì)這一段做深度分析。
 
比如找到一句話,這句話里說(shuō)到這是某人在哪一年執(zhí)導(dǎo)(direct)的,但沒(méi)有提導(dǎo)演(director)這個(gè)詞。實(shí)際上還可以找到很多類似的詞,它就需要過(guò)濾,它先會(huì)找人名,比如斯皮爾伯格、盧卡斯等,這些都是潛在答案。
 
針對(duì)這些答案它要找相關(guān)的證據(jù)去支持。它會(huì)再把“星球大戰(zhàn)”和“斯皮爾伯格”一起搜索,或者是和“盧卡斯”搜索,結(jié)果發(fā)現(xiàn)“星球大戰(zhàn)”和“斯皮爾伯格”共同出現(xiàn)在同一篇文章中比較少,而“盧卡斯”比較多。
 
這只是Watson工作過(guò)程中的一部分。據(jù)介紹這套系統(tǒng)綜合了100多種算法。在參與答題節(jié)目的過(guò)程中,當(dāng)時(shí)的Watson會(huì)在3秒內(nèi)完成計(jì)算并給出答案。

責(zé)任編輯:吳昊