哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

探究學(xué)術(shù)界AV1編碼優(yōu)化技術(shù)的進(jìn)展

LiveVideoStack ? 來源:LiveVideoStack ? 作者:朱辰 ? 2021-05-24 16:36 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

學(xué)術(shù)界的一些優(yōu)化工作實涵蓋了編碼過程的大部分模塊。很 明顯的趨勢就是許多深度學(xué)習(xí)的網(wǎng)絡(luò)或者方法已經(jīng)開始與編碼的模塊進(jìn)行結(jié)合,并取得了很多不錯的收益。本文將按照編碼過程的大致順序分享學(xué)術(shù)界AV1編碼優(yōu)化技術(shù)的進(jìn)展。

各位專家以及屏幕前的各位觀眾大家好!我是朱辰,目前是上海交通大學(xué)圖像所的在讀博士生。本次分享的主題是學(xué)術(shù)界AV1編碼優(yōu)化技術(shù)的進(jìn)展。

AV1編碼標(biāo)準(zhǔn)

首先介紹一下AV1編碼標(biāo)準(zhǔn)。AV1是由開放媒體聯(lián)盟AOM陣營提出的面向互聯(lián)網(wǎng)流媒體的開發(fā)編碼標(biāo)準(zhǔn)開放編碼標(biāo)準(zhǔn)。AOM是由谷歌主導(dǎo),并且吸納了很多ICT領(lǐng)域的大廠加入,例如我們國內(nèi)的騰訊還有愛奇藝都是聯(lián)盟成員。AOM建立的初衷是想解決專利問題,形成一些免費(fèi)開源的編碼方案,同時性能超過HEVC。

AV1核心編碼工具

此處是對AV1新增的一些核心編碼工具進(jìn)行了一些整理總結(jié)。首先,最大的編碼單元目前已經(jīng)擴(kuò)展到了128×128的大?。煌瑫r劃分模式是支持2等分和4等分。幀內(nèi)預(yù)測方面,除了擴(kuò)展了方向性的預(yù)測模式以外,還添加了比如交叉分量、遞歸濾波的預(yù)測模式。幀間預(yù)測方面是最多支持7個參考幀,同時支持仿射運(yùn)動軌跡,混合預(yù)測模式等。

變換是支持包含DCT在內(nèi)的4種模式。熵編碼使用的是一種多符號的上下文字適應(yīng)的算術(shù)碼。環(huán)路濾波共支持區(qū)塊濾波,方向增強(qiáng)濾波,還有修復(fù)濾波,總共三種算子。最后特別的對于屏幕內(nèi)容編碼,還涉及了一些例如調(diào)色板,塊匹配等技術(shù)。

AV1編解碼器

AV1在生態(tài)建設(shè)方面步伐非常快,現(xiàn)在可以看到已有三款開源的編碼器和一款開源的解碼器。另外我們也已經(jīng)看到已經(jīng)有三款商用的AV1編碼器。對于AV1性能,相比于HEVC標(biāo)準(zhǔn)下的x265, AV1的前身VP9,大概有20~30%的增益。在商業(yè)應(yīng)用方面,從去年開始AV1已經(jīng)開始有規(guī)模在一些比如瀏覽器端、安卓客戶端、OTT以及智能電視設(shè)備上得到支持和使用。

AV1優(yōu)化技術(shù)工作

56ae405e-bc62-11eb-bf61-12bb97331649.png

接下來是對AV1上的一些優(yōu)化技術(shù)和優(yōu)化工作進(jìn)行一些介紹。因為現(xiàn)在我們的市場上的視頻應(yīng)用種類是非常多的,例如點播、直播,互動類的場景。對于不同類的應(yīng)用,實際上對編碼的需求也有一定差異。

對于AV1定稿的編碼標(biāo)準(zhǔn)而言,往往沒有辦法同時滿足這樣多方面的需求的。所以對標(biāo)準(zhǔn)編碼器還會衍生出很多方面的優(yōu)化,含R-D性能、復(fù)雜度、延遲,一些硬件實現(xiàn)上的優(yōu)化。對此整理了AV1定稿以后近兩三年在學(xué)術(shù)界或者說以論文形式發(fā)表的優(yōu)化工作,發(fā)現(xiàn)目前主要就是集中在性能和復(fù)雜度優(yōu)化方面。上圖中列出了優(yōu)化方法的編碼模塊,實際上也可以看到其中的大部分編碼過程中的大部分模塊都已經(jīng)有相應(yīng)的優(yōu)化路徑。

此次分享會按照編碼過程的大致順序,對各類工作進(jìn)行一些介紹。

#1. 性能優(yōu)化方面

1.1 幀內(nèi)預(yù)測的優(yōu)化

572c07f0-bc62-11eb-bf61-12bb97331649.png

首先是性能優(yōu)化方面的工作。其中首先是幀內(nèi)預(yù)測的優(yōu)化工作。AV1本身是有56個方向性模式,5個非方向的幀內(nèi)模式。這個工作的出發(fā)點是發(fā)現(xiàn)相鄰塊的選擇的幀內(nèi)模式往往是相同的或者是相近的,但目前的AV1里面還沒有應(yīng)用到相鄰塊的模式信息。

此外,AV1幀內(nèi)預(yù)測本身只用了一個相鄰的參考線中的中間塊作為參考,但當(dāng)對于一些像紋理圖案這種相鄰樣本變化比較大的區(qū)域的時,如還是使用單一的參考線,可能會導(dǎo)致殘差較大、預(yù)測誤差較大的現(xiàn)象。所以針對這兩點,工作提出了自適應(yīng)預(yù)測角度,非相鄰的參考線兩種方法。

1.1.1 自適應(yīng)預(yù)測角度

57425e88-bc62-11eb-bf61-12bb97331649.png

自適應(yīng)預(yù)測角度,首先要做的是改變候選角度的一個粒度。意思是說根據(jù)剛剛說的相鄰塊的模式,往往會被當(dāng)前塊選中。上圖中間圖中所示,對于相鄰塊方向的候選角度仍然保持一個細(xì)粒度。

其他方向的候選角度,可以用一個粗粒度去進(jìn)行選擇。在此基礎(chǔ)上它提出了一個叫做“Allowed”,叫做允許的幀內(nèi)測模式集合。最大數(shù)量有40個,意思就是將AV1原有大概60多個可能的幀內(nèi)模式,按照一定的優(yōu)先級順序去填滿 AIPM集合。

它的一個選擇順序:首先是非方向性的模式,這些模式的選中概率是最高的;然后是剛剛說的相鄰塊的方向性模式;其次是優(yōu)先級,相鄰塊方向性模式加上一些細(xì)致度偏置以后的角度模式;最后當(dāng)集合數(shù)量還沒填滿的時候,加入一些默認(rèn)的模式進(jìn)行填充。這個工作對這提出的集合進(jìn)行了一個驗證;發(fā)現(xiàn)在CTC序列上的命中率可以有93%左右,是非常有效的一個方法。

文章還相應(yīng)提出了說對相鄰塊的角度,用一個短碼進(jìn)行編碼替代原來的相同碼上編碼,實現(xiàn)更優(yōu)質(zhì)的編碼。

1.1.2 自適應(yīng)的非近鄰參考線

自適應(yīng)的非近鄰參考線的概念比較易懂的。在原來只有單個參考線的基礎(chǔ)上,額外的添加了三個稍微相鄰的但是較遠(yuǎn)的參考線,僅針對Y分量有效。但如果直接增加這樣幾條參考線,文章中也給出會增加成倍的編碼事,要進(jìn)行一個復(fù)雜度和性能提升之間的權(quán)衡。它也利用了一些快速終止以及較遠(yuǎn)參考線簡化候選模式,只保留方向性模式,去達(dá)到平衡。

1.1.3 幀內(nèi)預(yù)測的結(jié)果

這樣的兩個方法最終取得了Y分量在兩個編碼模式里面2%的一個性能提升。

1.2 幀間預(yù)測的優(yōu)化

1.2.1 針對于幀間預(yù)測的多層、多參考幀的框架

5805f0d2-bc62-11eb-bf61-12bb97331649.png

這個框架目前應(yīng)用在 AV1官方編碼器Libaom中,用到短期參考和長期參考,多參考幀的概念去適應(yīng)不同運(yùn)動內(nèi)容,不同運(yùn)動特性,或者不同種類內(nèi)容的視頻,去達(dá)到一個更好的幀間預(yù)測。

它以AV1前身VP9作為base line,VP9用到三種參考幀,一個是LAST就是緊鄰的前一幀,另一個是golden frame。一個起始的golden frame加上一定數(shù)量的幀,就可以形成一個golden frame group。另一幀叫做ALT幀參考幀,利用一些較遠(yuǎn)的未來幀去通過時域濾波構(gòu)建的,這個幀本身主要用于參考,是不用于具體的顯示的。

在一個golden frame group里會共用golden frame,還有 ALT幀。在此基礎(chǔ)上工作就擴(kuò)展了候選幀的數(shù)量是添加了兩再添加了兩個緊鄰的過去幀,還添加了一個叫做“BWD”可以用于后項參考的參考幀。參考幀數(shù)量達(dá)到翻倍的效果。在目前的AV1版本里面,還會生成新的一幀,中間的ALT幀作為golden frame和原來的ALT參考幀的一個過渡的形態(tài)。所以可以總共有七幀參考。

1.2.2 選候參考幀集合后編碼增益情況

58e7b2a6-bc62-11eb-bf61-12bb97331649.png

有這樣一個很豐富的選候參考幀集合后,可以發(fā)現(xiàn)確實是有非常明顯的效果,有3~10%的一個不同序列上的編碼增益。但是因為參考幀的數(shù)量較多,它的一些模式選擇性較多,復(fù)雜度增加也是較大。

#2. 率失真優(yōu)化和RDO的優(yōu)化工作

59c50336-bc62-11eb-bf61-12bb97331649.png

接下來是一個對于率失真優(yōu)化和RDO的優(yōu)化工作,是我們實驗室團(tuán)隊和谷歌共同合作。它對原有的RDO進(jìn)行了一個感知優(yōu)化。整體的感知編碼的概念是想把很多反映人眼主觀感受的一些視覺模型。最常見的可能就是SSIM、VMAF這種質(zhì)量指標(biāo)模型。它與特定的編碼模塊相結(jié)合,達(dá)到一種去除感知冗余的目標(biāo)。

我們這里的模塊是RDO。像AV1這種主流的編碼器中用到的拉格朗日RDO中使用的失真準(zhǔn)則。它會用一些SSE/SAD這種很簡單的數(shù)學(xué)統(tǒng)計量去作為度量,再用于后續(xù)的一個推導(dǎo)。實際上這種統(tǒng)計量與主觀的感受的差距還是很大的,確實應(yīng)該加入一些感知的因素。對此我們就加入了叫做恰可覺察失真的這個模型。

這個模型是表示大部分觀看者恰好感受到失真時的閾值,也代表了一種失真可容忍的閾值。當(dāng)這種可容忍閾值越高的時表示人眼對于這塊區(qū)域的敏感度越低,有相反的關(guān)系。

在使用JND時,通常首先會生成一些考慮不同視覺感受的,不同視覺因素的因子。這里用到的就是亮度適應(yīng)性、對比度掩蔽、結(jié)構(gòu)性保護(hù)、時域掩蔽。它分別表示人眼對于不同的背景亮度、對比度,邊緣結(jié)構(gòu)強(qiáng)度,運(yùn)動強(qiáng)度的差異化敏感度。有了這樣的很多因子以后,采用像素JND,它會利用一種非線性疊加的形式,把各類因子結(jié)合起來,形成一個最終的整體模型。

2.1 JND模型與RDO更好融合的過程

5a392f54-bc62-11eb-bf61-12bb97331649.png

為了把得到的JND模型與RDO更好融合,進(jìn)行了以下過程:首先是提出了一個感知的指標(biāo),它是將MSE還有整體JND結(jié)合起來形成的一個指標(biāo)。它對于同類不同類的區(qū)域,如果存在相同的MSE失真,當(dāng)它的JND閾值越大,對于人眼的敏感度越低時,它的感知失真應(yīng)該更小,有比較定性的關(guān)系。

利用提出的感知指標(biāo)作為RDO里面新的失真準(zhǔn)則進(jìn)行后續(xù)的數(shù)學(xué)推導(dǎo),最后可以推導(dǎo)出一個包含JND,包含以原來SSE 失真為為推導(dǎo)的拉格朗日乘子的形式。生成一個感知的拉格朗日乘子,去調(diào)節(jié)每個編碼塊的編碼模式,將它往更偏向感知的方向去進(jìn)行編碼。

2.2 JND模型與RDO融合增益情況

5b60f614-bc62-11eb-bf61-12bb97331649.png

這個工作是在一個質(zhì)量較高,速度又比較快的檔位進(jìn)行測試的,得到了4%的 SSIM BD-rate增益。

同時它的額外復(fù)雜度因為JND計算非常簡便,額外復(fù)雜度并不高。

#3. AV1碼率控制模塊優(yōu)化

5ba3af4a-bc62-11eb-bf61-12bb97331649.png

碼控模塊的目標(biāo)是對序列各幀、各個編碼模塊去分配一定的碼率,使得實際輸出的碼率接近目標(biāo)的給定碼率。這個工作里面首先也是對當(dāng)時版本的碼率控制進(jìn)行了測試,發(fā)現(xiàn)AV1當(dāng)時版本的碼率控制在RD性能以及碼控準(zhǔn)確度方面有所不足。我們也對目前版本的碼控方案進(jìn)行了簡單的測試,發(fā)現(xiàn)它在性能上其實與 CQP已經(jīng)比較接近。不過在碼控準(zhǔn)確度方面還可以有一定的改進(jìn)。

3.1 優(yōu)化工作的思路

5c283044-bc62-11eb-bf61-12bb97331649.png

把碼控的一般過程去進(jìn)行一個介紹。首先是要找到碼率和具體編碼參數(shù)的一個關(guān)系,才能作用到實際的編碼。在這個工作里面就找到了碼率與量化步長 RQ的模型。其次要確定一些失真準(zhǔn)則或特征去作為碼率分配的標(biāo)準(zhǔn)。這也是找了一個叫做EMD的特征用于后續(xù)的碼率估計。最后在這兩點的基礎(chǔ)上就可以對碼率問題進(jìn)行建模和求解。

3.2 碼率約束

一般的碼率碼控條件是在碼率約束下尋求最小的失真,在其他給定的失真或者特征情況下,限定一些額外的條件。最后的話這個工作使用了一種遺傳算法的求解方式。是找到了一組碼控的局部最優(yōu)解去優(yōu)化碼率控制。

3.3 增益情況

5c729b0c-bc62-11eb-bf61-12bb97331649.png

這個方法是在三種編碼模式下取得了平均百分之三的增益,但是還會有一定的碼控誤差。

#4. AV1的環(huán)路濾波優(yōu)化

5cd78882-bc62-11eb-bf61-12bb97331649.png

接下來的話就說一下AV1的環(huán)路濾波的優(yōu)化。AV1里面已經(jīng)有三種濾波器,還包括一種叫做電影(紋理)顆粒合成的,后處理的模塊。這幾個濾波器或者模塊在相應(yīng)的位置以一種串聯(lián)的方式對單幀進(jìn)行增強(qiáng)的。

4.1 基于CNN的環(huán)路濾波

5d6cf0de-bc62-11eb-bf61-12bb97331649.png

近年來有很明顯的趨勢,就是深度學(xué)習(xí)網(wǎng)絡(luò)越來越多的被用在環(huán)路濾波中,可以取得非常大的增益。編碼的環(huán)路濾波更多的是基于CNN的環(huán)路濾波,濾波器也有很多優(yōu)化的方向。最主要是第一種設(shè)計一些新的網(wǎng)絡(luò)架構(gòu)。上圖右側(cè)給出的以Resblock為單位的殘差網(wǎng)絡(luò),現(xiàn)在越來越多的被作為一種基本架構(gòu)去優(yōu)化。除此之外,利用輔助的編碼信息,還有基于內(nèi)容自適應(yīng)去進(jìn)行深度學(xué)習(xí)濾波,對這種深度網(wǎng)絡(luò)進(jìn)行復(fù)雜度的優(yōu)化。

4.2 案例

5db75df4-bc62-11eb-bf61-12bb97331649.png

分享以去年ICIP的一個工作為例,它設(shè)計了一種非對稱的卷機(jī)殘差網(wǎng)絡(luò)-ACRN,在網(wǎng)絡(luò)里面還有這樣的幾種設(shè)計,例如寬激活,還有非對稱的卷積層,以及稠密連接。這幾種設(shè)計可以更細(xì)致的捕獲到底層的一些特征,捕獲一些方向性的特征,以及在網(wǎng)絡(luò)中不斷的去強(qiáng)化輸入或者說失真圖像本身的一些信息,比如說編碼的塊信息,達(dá)到上述效果。

4.3 CNN濾波器增益效果

5def223e-bc62-11eb-bf61-12bb97331649.png

通過CNN濾波器設(shè)計替代 AV1新引入的兩種濾波器,可以達(dá)到7~8%的一個編碼增益,相對于其他模塊是比較高的增益。

#5. 紋理合成性能優(yōu)化

5e9049e8-bc62-11eb-bf61-12bb97331649.png

性能優(yōu)化里面的最后一個方向,紋理合成。相比于一些簡單靜態(tài)的場景,復(fù)雜的紋理在基于殘差塊的編碼框架下是非常難編的。所以紋理合成要做的是直接利用紋理本身的特征去進(jìn)行編碼和恢復(fù)。

它的一個常規(guī)的工作流主要包含首先是對紋理進(jìn)行探測,那些被認(rèn)為是紋理的區(qū)域,就直接去對特征進(jìn)行編碼,并傳到解碼端,在解碼端也是利用紋理本身的這種特征去還原和合成紋理。例如剛剛提到的AV1電影顆粒合成也是一種紋理合成的方法。

這個方法中電影的顆粒被建模為是一種叫做自回歸AR的過程,AR的過程里面的一些系數(shù)就可以作為顆粒的參數(shù)或者表達(dá)在解碼端去合成逼真的電影顆粒。

5.1 AV1上的紋理合成工作

5ec78b6a-bc62-11eb-bf61-12bb97331649.png

這里要介紹的一個在AV1上的紋理合成工作,也采用了比較常規(guī)的框架。首先是一個CNN的紋理分析器。它將原始幀去分割成非重疊的小塊,每個小塊過分析器得到二分類的判斷是否為紋理的標(biāo)簽。最后可以在整幀上得到一個基于塊級別的紋理mask。在mask指導(dǎo)下,被認(rèn)為是紋理的區(qū)域就直接通過紋理模式編碼而不再進(jìn)行基于殘差塊的編碼。

5.2 AV1上的紋理合成工作過程

5f12e150-bc62-11eb-bf61-12bb97331649.png

它的一個過程是這樣的:首先是估計紋理的運(yùn)動參數(shù)。這個參數(shù)也是在一種復(fù)合或說多參考幀的預(yù)測下得到的,也是為了降低紋理合成的閃爍以及塊效應(yīng)等偽像。運(yùn)動參數(shù)也是被編碼和傳到解碼端的,在解碼端一些用常規(guī)編碼的參考區(qū)域,就在這種運(yùn)動參數(shù)的指導(dǎo)下進(jìn)行一種warp變換,扭曲成當(dāng)前區(qū)應(yīng)有的這種紋理樣式達(dá)到紋理合成的效果。

5.3 紋理合成的工作結(jié)果

5f475a02-bc62-11eb-bf61-12bb97331649.png

可以看到它工作給的一些結(jié)果,在低QP,高碼率的情況下,這種以參數(shù)替代殘差塊的編碼方法或者說合成方法是可以取得一定的碼率節(jié)省的。

#6. AV1復(fù)雜度優(yōu)化

5f88109c-bc62-11eb-bf61-12bb97331649.png

接下來是復(fù)雜度優(yōu)化方面,AV1新增的很多編碼工具實際上帶來了大量的編碼時間,所以對AV1去進(jìn)行復(fù)雜度的優(yōu)化很有必要,而且會帶來很大的收益。目前看到在AV1上的復(fù)雜度優(yōu)化工作主要包含塊劃分、幀間預(yù)測、變換搜索方面的加速工作。盡管這些加速工作是針對不同模塊,它們也有一些比較共通的路徑。

主要有這樣三種:

第一點是去人為的定義一些特征,并且基于這些特征手工制定相關(guān)的快速決策準(zhǔn)則的傳統(tǒng)方法。

第二點是人為設(shè)定的特征輸入網(wǎng)絡(luò)去學(xué)習(xí)的機(jī)器學(xué)習(xí)方法。

第三點是直接定義輸入輸出,讓網(wǎng)絡(luò)自己去學(xué)習(xí)決策過程的深度學(xué)習(xí)方法。

目前看到的AV1上的工作主要集中于前兩條路徑。

6.1 一個塊劃分的加速方法

603bfcce-bc62-11eb-bf61-12bb97331649.png

首先要介紹的是一個塊劃分的加速方法,這個方法可以算作一個傳統(tǒng)的路徑。比較特殊的點在于它是基于跨分辨率的加速方法。首先是對同一視頻在不同分辨率下的塊劃分情況進(jìn)行了一個查看,發(fā)現(xiàn)精細(xì)的分割區(qū)域其實是共通的或者說相似的,主要是一些復(fù)雜的紋理以及快速運(yùn)動的物體。

基于這個現(xiàn)象,這個文章中就假定了一種特征f,它是表現(xiàn)細(xì)節(jié)的精細(xì)度以及物體運(yùn)動快慢程度的一個特征。有了這樣一個特征后,每個塊被劃分的概率或者趨勢E(X),與這種特征有一個正相關(guān)的關(guān)系,進(jìn)一步的去假定這個特征。f有一個分辨率不變性以后,那f就可以與兩種或者多種分辨率的劃分結(jié)果。

比如說E(X1)、E(X2)有兩種映射關(guān)系,比如說g1和g2。進(jìn)一步把這個f作為中間連接的一個橋梁以后,最終可以達(dá)到這樣一種目的:在得到一個低分辨率的塊劃分結(jié)果E(X2)以后,就可以通過反映射的方式轉(zhuǎn)換為高分辨率的劃分結(jié)果。通過推導(dǎo)后,實際上,f就并不用具體的去提取某一種特征,只是在推導(dǎo)里面被用到。

6.2 應(yīng)用場景

60754fce-bc62-11eb-bf61-12bb97331649.png

理論去具體去用的時候會存在應(yīng)用場景。這個場景就是多分辨率同時編碼的一個情況。這種場景在一些流媒體的服務(wù)器端是經(jīng)常存在的。在具體實現(xiàn)的時候?qū)τ诰幋a的每50幀,所有的50幀都是對于低分辨率,都是常規(guī)的進(jìn)行RDO去進(jìn)行完整編碼,對于50幀里的前5幀的高分辨率編碼,它也是進(jìn)行完整的 RDO過程,然后會得到 E(X1)以及低分辨率的E(X2)的劃分結(jié)果。

首先要通過一個influence Model去推理出這兩種劃分結(jié)果的一個映射關(guān)系?;谇?幀的一個結(jié)果,對于之后的90%,大概是45幀,利用 influence結(jié)果以及實際編碼的低分辨率劃分結(jié)果,直接去推導(dǎo)出高分辨率的劃分結(jié)果,不再進(jìn)行完整的RDO,達(dá)到一個加速的目的。

6.3 節(jié)省效果

60a5a03e-bc62-11eb-bf61-12bb97331649.png

方法最終是實現(xiàn)大約30~40%的時間節(jié)省。這里還設(shè)定了一個預(yù)估錯誤的閾值,閾值越高的話,就會導(dǎo)致比較大的碼率損失。

#7. 幀間預(yù)測加速工作

615b0672-bc62-11eb-bf61-12bb97331649.png

在AV1里面。目前提供了基于單參考幀,以及混合的基于雙參考幀的幀間預(yù)測模式。在這兩種模式下都有一些很豐富的運(yùn)動向量。這篇文章的出發(fā)點,發(fā)現(xiàn)并不是所有的序列都會因為這些豐富的候選模式而產(chǎn)生很大的編碼增益的,可以進(jìn)行一些簡化。

618629ec-bc62-11eb-bf61-12bb97331649.png

文章首先對各個序列的編碼結(jié)果進(jìn)行了評估,發(fā)現(xiàn)了大部分的幀間預(yù)測塊都是以單參考幀的模式被編碼的,所以一個很直接很簡單的嘗試就是去除混合預(yù)測模式。結(jié)果發(fā)現(xiàn)會有很大的編碼復(fù)雜度的降低,但同時對于一些序列會產(chǎn)生很嚴(yán)重的性能損失。還是要找一種能保住性能的穩(wěn)妥做法。

61cfada6-bc62-11eb-bf61-12bb97331649.png

文章中也是使用了基于機(jī)器學(xué)習(xí)的決策樹的網(wǎng)絡(luò)。在網(wǎng)絡(luò)里面首先設(shè)定了4種特征輸入網(wǎng)絡(luò)。特征分別是當(dāng)前塊相鄰的左塊與上塊的預(yù)測模式,左塊、上塊在第二參考幀中的相應(yīng)內(nèi)容。特征輸入以后,一個二分類的分類器就對每一塊進(jìn)行決策,決定當(dāng)前塊是進(jìn)行單參考幀的預(yù)測模式,還是遍歷兩種幀間預(yù)測模式。這樣一個分類器可以最終達(dá)到80%的預(yù)測精度。

63cc7b5c-bc62-11eb-bf61-12bb97331649.png

通過這樣一種做法相比于原有的AV1編碼器可以達(dá)到43%的編碼時間降低,以及0.77%的比較小的性能損失。

#8. 變換搜索加速方法

64857616-bc62-11eb-bf61-12bb97331649.png

最后是一個變換搜索的加速方法。AV1提供了很豐富的變化和帶來了很大的復(fù)雜度。這一個工作是對變換尺寸以及變換核搜索進(jìn)行一個裁剪。

首先是尺寸的裁剪,它對于每一個預(yù)測殘差塊去提取均值以及標(biāo)準(zhǔn)差這兩個特征,輸入到一個相應(yīng)的神經(jīng)網(wǎng)絡(luò)里面去學(xué)習(xí),并最后輸出一個當(dāng)前塊是否應(yīng)該被分割的數(shù)值。這一個數(shù)值會與已經(jīng)設(shè)定好的兩端的閾值進(jìn)行比較,當(dāng)超過閾值的時候可能就不再選取比較大或者比較小的變化尺寸。

第二點就是變化核的裁剪。

64c7559a-bc62-11eb-bf61-12bb97331649.png

這里的做法就是對每一個殘差塊的縱向和橫向兩個方向分別設(shè)置兩個網(wǎng)絡(luò)。網(wǎng)絡(luò)會輸入一些自相關(guān)以及能量分的特征。兩個子網(wǎng)絡(luò)的一些輸出進(jìn)行融合以后,會最終對每一個可能的變換核被選中的概率進(jìn)行一個評估。在具體的編碼中,如果說被評估的是被選中概率很低的一些變化核,可能直接被舍棄,去達(dá)到一個簡化的目的。

8.1 節(jié)省效果

6519c30c-bc62-11eb-bf61-12bb97331649.png

最終這樣一個簡化方法可以在不同分辨率下達(dá)到大概10%到30%不等的時間的節(jié)省。對于變換的簡化,性能損失比較小,在0.1%左右的程度。

#9. 總結(jié)

65ac26e8-bc62-11eb-bf61-12bb97331649.png

學(xué)術(shù)界的一些優(yōu)化工作實際上也涵蓋了編碼過程的大部分模塊。很明顯的趨勢就是許多深度學(xué)習(xí)的網(wǎng)絡(luò)或者方法已經(jīng)開始與編碼的模塊進(jìn)行結(jié)合,并取得了很多不錯的收益。但是在標(biāo)準(zhǔn)編碼器中,這種AI與Codec到底應(yīng)該結(jié)合到怎樣的一個程度還是需要被探究和摸索的。所以也讓我們期待AOM聯(lián)盟的下一代編碼器AV2吧。

以上就是我所有的分享,謝謝大家!

編輯:jq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    4007

    瀏覽量

    143289
  • 開源
    +關(guān)注

    關(guān)注

    3

    文章

    4323

    瀏覽量

    46422
  • DCT
    DCT
    +關(guān)注

    關(guān)注

    1

    文章

    56

    瀏覽量

    20690

原文標(biāo)題:學(xué)術(shù)界AV1編碼優(yōu)化技術(shù)的進(jìn)展

文章出處:【微信號:livevideostack,微信公眾號:LiveVideoStack】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    透過吳文俊獎,看見中國AI的產(chǎn)學(xué)研時刻

    吳文俊獎南下,AI學(xué)術(shù)界開始“卷”產(chǎn)業(yè)了
    的頭像 發(fā)表于 04-07 20:12 ?8826次閱讀
    透過吳文俊獎,看見中國AI的產(chǎn)學(xué)研時刻

    基于 MT6816 的磁編碼器系統(tǒng)調(diào)試與參數(shù)優(yōu)化

    MT6816 是一款基于 AMR 技術(shù)的 14 位高精度絕對式磁編碼器,具備低延時、寬溫區(qū)、多接口等優(yōu)勢,廣泛應(yīng)用于伺服系統(tǒng)、機(jī)器人關(guān)節(jié)、云臺等高精度運(yùn)動控制場景。本文圍繞 MT6816 磁編碼
    的頭像 發(fā)表于 03-03 16:26 ?324次閱讀

    京東方2026年首場技術(shù)策源地論壇成功舉辦

    1月21日,BOE(京東方)2026年首場技術(shù)策源地論壇在京東方技術(shù)創(chuàng)新中心成功舉辦。本次論壇以“踐行第N曲線理論,共謀產(chǎn)業(yè)發(fā)展機(jī)遇”為主題,匯聚學(xué)術(shù)界、產(chǎn)業(yè)界的頂尖專家,聚焦新型顯示
    的頭像 發(fā)表于 01-28 10:59 ?658次閱讀

    摩爾線程在SIGGRAPH Asia 2025斬獲3DGS重建挑戰(zhàn)賽銀獎

    Challenge(3DGS 重建挑戰(zhàn)賽)中憑借自研技術(shù)LiteGS出色的算法實力和軟硬件協(xié)同優(yōu)化能力,斬獲銀獎,再次證明摩爾線程在新一代圖形渲染技術(shù)上的深度積累與全球學(xué)術(shù)界的高度認(rèn)
    的頭像 發(fā)表于 12-22 18:01 ?1931次閱讀
    摩爾線程在SIGGRAPH Asia 2025斬獲3DGS重建挑戰(zhàn)賽銀獎

    多模態(tài)與智能體:學(xué)術(shù)界與產(chǎn)業(yè)界共話邊緣智能新未來-2025安凱微電子開發(fā)者技術(shù)

    2025年10月24日,在“2025安凱微電子開發(fā)者技術(shù)論壇”(ADF 2025)期間,多位學(xué)術(shù)界專家與產(chǎn)業(yè)界行業(yè)資深人士齊聚H大廈多功能廳,圍繞“從多媒體到多模態(tài),從智能硬件到智能體”的核心議題
    的頭像 發(fā)表于 10-29 10:15 ?3650次閱讀
    多模態(tài)與智能體:<b class='flag-5'>學(xué)術(shù)界</b>與產(chǎn)業(yè)界共話邊緣智能新未來-2025安凱微電子開發(fā)者<b class='flag-5'>技術(shù)</b>論

    E203在基于wallace樹+booth編碼的乘法器優(yōu)化后的跑分結(jié)果

    優(yōu)化思路 E203為了實現(xiàn)低功耗的要求,乘法器為基于booth編碼和移位加法器結(jié)合的思路,優(yōu)點是只需要一個加法器,而且該加法器還和除法器復(fù)用,可以說是將面積縮小到了極致。缺點也很明顯,即使通過
    發(fā)表于 10-27 07:54

    EASY EAI Orin-Nano(RK3576主控AIOT 主板)產(chǎn)品數(shù)據(jù)全解

    ,支持8K@30fps的H.265,VP9AVS2和AV1解碼器,4k@60fps的H.264解碼器和4K@60fps的AV1解碼器;還支持4K@60fps的H.
    的頭像 發(fā)表于 10-25 09:00 ?3162次閱讀
    EASY EAI Orin-Nano(RK3576主控AIOT 主板)產(chǎn)品數(shù)據(jù)全解

    EAI3576-Core-T(RK3576 核心板)產(chǎn)品數(shù)據(jù)全解

    Cortex-A53及獨立的NEON協(xié)處理器,支持4K@120fps的H.265,VP9AVS2和AV1解碼器,4k@60fps的H.264解碼器和4K@60fps的AV1
    的頭像 發(fā)表于 10-24 09:00 ?1997次閱讀
    EAI3576-Core-T(RK3576 核心板)產(chǎn)品數(shù)據(jù)全解

    Secure-IC 將參加中國密碼學(xué)會主辦的密碼芯片學(xué)術(shù)會議-CryptoIC 2025

    CryptoIC是一年一度的重要會議,專注于密碼硬件領(lǐng)域的最新研究和技術(shù)進(jìn)展。它為學(xué)術(shù)界與工業(yè)界提供了一個獨特的平臺,用于分享見解、展示成果,并推動安全芯片設(shè)計的創(chuàng)新發(fā)展。會議主要議程將于8月16日
    的頭像 發(fā)表于 08-15 12:31 ?1109次閱讀
    Secure-IC 將參加中國密碼學(xué)會主辦的密碼芯片<b class='flag-5'>學(xué)術(shù)</b>會議-CryptoIC 2025

    超薄晶圓切割液性能優(yōu)化與 TTV 均勻性保障技術(shù)探究

    我將圍繞超薄晶圓切割液性能優(yōu)化與 TTV 均勻性保障技術(shù)展開,從切割液對 TTV 影響、現(xiàn)有問題及優(yōu)化技術(shù)等方面撰寫論文。 超薄晶圓(
    的頭像 發(fā)表于 07-30 10:29 ?582次閱讀
    超薄晶圓切割液性能<b class='flag-5'>優(yōu)化</b>與 TTV 均勻性保障<b class='flag-5'>技術(shù)</b><b class='flag-5'>探究</b>

    知存科技邀您相約第二十一屆全國容錯計算學(xué)術(shù)會議

    7月18日至20日,由中國計算機(jī)學(xué)會主辦的第二十一屆全國容錯計算學(xué)術(shù)會議(CCF CFTC 2025)將在杭州舉行。作為國內(nèi)容錯計算領(lǐng)域一年一度的盛會,此次會議匯聚了來自學(xué)術(shù)界和產(chǎn)業(yè)界的眾多精英,知存科技將作為存算一體領(lǐng)域的代表企業(yè)參會,共同探討前沿
    的頭像 發(fā)表于 07-16 15:20 ?1175次閱讀

    華工科技攜手中科大突破半導(dǎo)體激光退火關(guān)鍵技術(shù)

    ohmic contacts during ultraviolet laser annealing》在國際知名學(xué)術(shù)期刊《Optics and Laser Technology》正式發(fā)表,標(biāo)志著我國在半導(dǎo)體激光制程領(lǐng)域的基礎(chǔ)研究獲得國際學(xué)術(shù)界認(rèn)可。
    的頭像 發(fā)表于 07-14 15:37 ?1122次閱讀

    基于RK3576處理器,EASY EAI Orin Nano開發(fā)板免費(fèi)試用

    8K@30fps的H.265,VP9AVS2 和 AV1解碼器,4k@60fps的H.264 解碼器和4K@60fps的AV1解碼器;還支持4K@60fps的H.264和H.265編碼器。內(nèi)置3D GPU
    的頭像 發(fā)表于 06-09 15:01 ?1627次閱讀
    基于RK3576處理器,EASY EAI Orin Nano開發(fā)板免費(fèi)試用

    Arm與學(xué)術(shù)界密切合作培養(yǎng)AI人才

    人工智能 (AI) 的廣泛采用正在重塑全球各行各業(yè),它在帶來空前機(jī)遇的同時,也引發(fā)了前所未有的挑戰(zhàn)。其中最緊迫的問題之一就是技能缺口,這意味著人才在有效整合和運(yùn)用 AI 技術(shù)所需的專業(yè)知識方面尚存不足。
    的頭像 發(fā)表于 05-28 14:23 ?781次閱讀

    仿真軟件ABAQUS:功能強(qiáng)大的有限元軟件

    的應(yīng)用領(lǐng)域、高精度的計算能力和用戶友好的界面設(shè)計,在眾多同類軟件中脫穎而出,成為工程學(xué)術(shù)界廣泛認(rèn)可的標(biāo)準(zhǔn)工具。
    的頭像 發(fā)表于 04-23 11:05 ?2481次閱讀
    仿真軟件ABAQUS:功能強(qiáng)大的有限元軟件
    沂源县| 嘉善县| 蒙自县| 吴旗县| 大姚县| 北流市| 上蔡县| 长春市| 石河子市| 固阳县| 库车县| 石柱| 平凉市| 金阳县| 将乐县| 湾仔区| 甘洛县| 建德市| 科技| 濮阳县| 平定县| 望谟县| 黄山市| 岗巴县| 星子县| 留坝县| 太仓市| 双桥区| 遵化市| 怀集县| 天祝| 蕲春县| 咸阳市| 吴江市| 通山县| 青铜峡市| 当涂县| 陆川县| 定西市| 长治市| 泰州市|