導讀:在阿里,音視頻會議已經(jīng)成為跨地區(qū)溝通、開會以及招聘的首選方式。據(jù)悉,目前阿里巴巴的辦公網(wǎng)絡與音視頻會議已經(jīng)覆蓋全球33個國家和地區(qū),其中,音視頻會議在過去3個月平均每天召開超過2000余場。在使用如此頻繁、覆蓋面如此之廣的音視頻場景中,如何滿足全球各地使用者的不同需求,保障交流的順暢?下面,我們一起來探討、研究。
分享者:阿里巴巴信息平臺事業(yè)部資深技術(shù)專家致凡
音視頻行業(yè)的發(fā)展
音視頻行業(yè)發(fā)展迅速,經(jīng)歷了1970年代的黑白時代、1980年代的數(shù)字化時代、1990年代的數(shù)字標清時代、2006-2015年代的高清時代,2016年逐步開始以融合通信為主的行業(yè)趨勢,高質(zhì)量(4K,高清,高幀率,HDR)、多場景(點播,直播,實時通訊)、云化(硬件軟件化,平臺云化)和行業(yè)化已經(jīng)成為當下音視頻行業(yè)的發(fā)展趨勢。
音視頻行業(yè)未來的發(fā)展趨勢,在我看來就是云+端+服務。
云:平臺云化,從PaaS到SaaS,從私有公有云,一切都是基于云的服務。
端:兼容各種終端,PSTN和VOIP,會議室設備,手機,PC,Web,Android終端等。
服務:包括短信,語音,IM,音視頻,呼叫中心,云客服和附加AI服務等多種服務。
目前,音視頻已廣泛應用于包括B2B(企業(yè)與企業(yè)間、企業(yè)內(nèi)部間)、C2C(用戶與用戶間),以及B2C(企業(yè)和用戶間)。
圖片來自《艾瑞2018通信云服務行業(yè)報告》
根據(jù)著名Cisco的VNI(Virtual Network Index)預測,到2021年,地球上將有46億互聯(lián)網(wǎng)用戶,271億聯(lián)網(wǎng)設備,82%互聯(lián)網(wǎng)的流量是視頻。每一秒鐘將會有一百萬分鐘的視頻內(nèi)容被創(chuàng)建,其中4K高清的內(nèi)容會增加30%,相當于每個月生成71億部DVD影片,直播的需求也會大幅增長15倍。
從視頻本身發(fā)展的趨勢看也是一路狂奔向高清、CIP、4CIP、720P、1080P、UHD4K和8K;加上高幀率FPS 120-160FPS、HDR(High Dynamic Range)、寬色域(Wide Color Gamut),一切發(fā)展變化都是為了給人一種身臨其境的Immersive體驗。當然還有VR、AR、360視頻,這所有的一切都意味著更多的視頻數(shù)據(jù)流將被生成和消費。
網(wǎng)絡環(huán)境讓我們需不斷完善音視頻服務
如果網(wǎng)絡帶寬是無限且暢通無阻的,那世界將是多么美好。但網(wǎng)絡并不是一馬平川的。有時像十一長假堵車,有時像鄉(xiāng)間泥濘小道,而且還有可能布滿大坑。
根據(jù)Silver-Peak跨美國和歐洲的網(wǎng)絡健康報告發(fā)現(xiàn),網(wǎng)絡傳輸?shù)难訒r、抖動和丟包是普遍存在現(xiàn)象。有時網(wǎng)絡狀況就像天氣一樣令人難以捉摸。雖然網(wǎng)絡的平均丟包率只有0.34%,但個別情況下可以達到2.2%;而且丟包從來都不是均勻的,是突發(fā)性的Burst,網(wǎng)絡延遲可能會超過平均值300多倍。這些極端的網(wǎng)絡情況對音視頻的傳輸和用戶體驗來說,都是極大挑戰(zhàn)。
網(wǎng)絡和音視頻流量的供求矛盾,網(wǎng)絡傳輸?shù)牟淮_定和不完善的殘酷現(xiàn)實,倒逼著我們不斷完善和監(jiān)控音視頻服務。
音視頻內(nèi)容從生產(chǎn)到消費的過程會經(jīng)歷不同環(huán)節(jié),且鏈路較長,其中涉及的技術(shù)也較多,下面將主要對其中的視頻編碼,網(wǎng)絡構(gòu)架進行解析。
視頻編碼
視頻編碼標準的選擇
視頻編碼標準作為視頻技術(shù)的核心,在過去幾個世紀出現(xiàn)過很多不同標準,但最終被市場采納主要為以下兩套體系:一套是標準化體系的H264、H265 和正在制定中的VVC;另一套是開源無版稅的VP8、VP9和AOM(Alliance for Open Meida)的AV1。
阿里巴巴是AOM的成員也同時積極參與VVC的制定,對于視頻編碼的核心不能被掐住發(fā)展的咽喉。
針對不同場景的不同編碼需求
視頻不同的應用場景(如:點播、直播、實時通訊),決定了在每一個應用場景底下對編碼的不同需求。
對點播而言最重要的是編碼效率,如何有效節(jié)約帶寬。直播對延時有要求,但是是在秒級的,對編碼的速度和穩(wěn)定性的需求也比點播高。實時通訊對“點對點”的延時要求最高,同時它對穩(wěn)定性和容錯性的要求也很高,這需要通過平衡編碼效率來實現(xiàn)。
如何配對編碼率與分辨率
視頻編碼以前簡單地采用固定壓縮參數(shù),固定碼率和固定分辨率,對于HLS和MPEG-DASH的ABR(Adaptive Bitrate),也用固定編碼率和分辨率來配對。這就無法滿足不同視頻對碼率的不同需求。1M的720P動畫片看起來可能已經(jīng)不錯了,但是1M的720P動作片看起來就會很糊。
但對于ABR,編碼率和分辨率也是一個動態(tài)平衡的過程。在低碼率的情況下用低分辨率以減少塊狀效果(blocking effects),當碼率的提高到一定程度時提升分辨率,包圍不同分辨率RD曲線的就是凸包(Convex Hall)。曲線中的交叉點就是理性的編碼率和分辨率配對。
如何確定視頻質(zhì)量的衡量指標
但怎么確定曲線中的交叉點呢?這需要有衡量視頻質(zhì)量的指標。
通常的視頻指標包括主觀的MOS分和客觀指標比如PSNR,SSIM和VMAF。阿里巴巴的視頻質(zhì)量指標,不但結(jié)合了通用的客觀指標,也同時考慮了影響播放質(zhì)量的的卡頓和網(wǎng)絡狀況。
如何進行自適應編碼
自適應編碼(Content Adaptive Encoding)是視頻編碼的一大趨勢。從One-size-fit-all的單一編碼參數(shù)、碼率和分辨率配對,到根據(jù)視頻內(nèi)容的復雜度進行定制化的編碼參數(shù)適配。自適應編碼可以針對單個視頻、場景、GOP,甚至是Frame用不同的壓縮參數(shù)進行動態(tài)調(diào)整,這樣最大限度優(yōu)化視頻質(zhì)量、節(jié)約帶寬。這種自適應優(yōu)化最重要的就是視頻質(zhì)量的衡量指標。一旦定義好可用的指標,就可以圍繞它進行不同層次的優(yōu)化。
對于自適應編碼,機器學習可以大有用處。比如利用機器學習針對不同的視頻特征,找到對應優(yōu)化的編碼參數(shù)。
人腦占人身體的比例不大,但是消耗人體大約1/3的能量,人的基因特性決定了大腦只會關(guān)注畫面中重要區(qū)域,忽略不重要的區(qū)域。利用這種ROI(Region of Interest)進行編碼,就可以在保持視頻主觀質(zhì)量的情況下減少編碼率。比如人臉和文字是經(jīng)驗意義下的ROI的例子。
音視頻服務器網(wǎng)絡架構(gòu)
實時音視頻服務器的網(wǎng)絡架構(gòu),除了MESH外,還有MCU(Multi-point Control Unit)和SFU(Selectiveforward Unit)兩種。
MCU是集中的媒體處理服務,優(yōu)勢在于可以對媒體和信令進行控制和轉(zhuǎn)換,如對媒體進行轉(zhuǎn)碼、轉(zhuǎn)流、混屏、分流,對信令進行轉(zhuǎn)換,對媒體包進行路由優(yōu)化等等。MCU可以減低Client端的CPU和對網(wǎng)絡帶寬的需求,但是MCU的缺點也較明顯,那就是服務器CPU的開銷以及帶來的延遲。
相對MCU來說,目前更流行的架構(gòu)是SFU,它主要的好處是簡單、低時延、高吞吐,缺點是對client端的帶寬要求比較高,client上傳一路或者多路流同時下載多路流。SFU的客戶端可以發(fā)單流、多流(Simulcast)和SVC。根據(jù)運用場景的不同,客戶端發(fā)流策略也不同。
在阿里巴巴的音視頻會議系統(tǒng)中,采用的是一種SFU+MCU的混合模式,以保證最大的兼容性。這種SFU和MCU級聯(lián)的策略保證對各類客戶端的最大靈活性。此外媒體服務器在不同區(qū)域可以進行級聯(lián),客戶端就近入會、就近補包,減低第一公里和最后一公里對音視頻質(zhì)量的影響。
網(wǎng)絡帶寬評估
網(wǎng)絡帶寬評估是實時通話的關(guān)鍵技術(shù)。阿里巴巴在這方面進行了很多針對會議室場景的優(yōu)化。并且通過評估算法可以在服務器端快速發(fā)布,不用等待更新客戶端軟件。
在弱網(wǎng)不可避免的情況下,通過合理的帶寬分配,確保音頻優(yōu)先傳輸,同時及時把弱網(wǎng)信息傳達給用戶,同樣可以得到用戶理解,提升用戶體驗。
后記
音視頻提供的是服務,不是單點的QoS,用戶的最終體驗不是簡單的抗丟包率、卡頓率的指標,而是端到端的體驗。所以不僅需要我們在事先創(chuàng)造一個良好的音視頻環(huán)境,更需要我們對整體鏈路進行質(zhì)量監(jiān)控。除了能及時發(fā)現(xiàn)問題,快速響應外,還能幫助我們不斷發(fā)現(xiàn)與創(chuàng)造更多新業(yè)務場景。通過把業(yè)務數(shù)據(jù)化,再根據(jù)數(shù)據(jù)來指導業(yè)務,這樣才能讓音視頻的服務體驗達到極致。