中国AVS超高清编码标准体系与生态建设

LiveVideoStack 2020年8月14日
中国AVS超高清编码标准体系建设背景 1
大家好,我是来自北京大学的王荣刚,随着5G时代的到来,视频进入以4K,8K,VR超高清时代,国家和地方政府也相继出台了很多超高清视频行动计划。   核心挑战:数据通量爆炸
视频压缩方面一直面临着巨大的挑战,在网络带宽提升后,我们对视频需求更高,两者的上升速度并不匹配。4K视频一秒可达6Gbps数据量,8K视频可达70Gbps,而VR视频上限达500Gbps,另外还有自由视点视频需求,即使使用5G网络,仍然面临极大挑战,因此在视频压缩方面我们依然需要做很多提升。   超高清编码标准之“三国演义”
现今编码标准呈“三国演义”态势。国际主流标准为MPEG和ITU标准。这个标准以针对4K视频的H.265标准为代表,目前正在研发面向8K、VR视频的VVC标准。AV1虽然出现较晚,但备受关注。AVS标准已存在多年,是国内一个相对平价的标准,而AVS2主要面向4K视频。AVS3的发展分为两个阶段,第一阶段主要是面向8K与5G结合,预计在国内广泛使用;第二阶段目标是超越VVC标准压缩效率。 AVS2 2
AVS2框架与H.265类似,在编码工具方面有所创新。其中基于背景建模的场景技术可大幅度提升监控场景30%到50%编码效率。
AVS2性能
上图所示内容是AVS2和HEVC的性能对比。在数字广播、电影、实时通讯领域,二者的性能相当。图中的负号表示相对于H.265节省的码率,正好则是增加的码率。监控场景可比265节省30%到40%码率。总体略优于HEVC。   AVS2 4K视频编码性能
上图是针对4K、10比特的编码序列测试效果。在最优参考软件上,AVS2比HEVC性能高7.4%,测试过程中选用的是央视提供的4K 50P视频。   AVS2应用
基于以上测试结果及前期准备,2018年10月,央视开播了中国第一个超高清频道,在同年11月,广东电视台也开播了超高清频道,目前这两个频道都使用的是AVS2标准。
另外AVS2在IPTV业务方面比广播电视发展4K更早,中国智慧家庭联盟编写了《IPTV业务系统AVS2实施指南》,这是一个针对IPTV系统切换AVS2的指导。目前央视4K视频还未开放给IPTV系统平台,在运营商的推动下,应该很快会开放。
我们在互联网领域也做了很多工作,其中最具代表性的就是腾讯在2017年推出了TPG图像格式。TPG格式不仅适用于图像,图像也可利用它进行压缩,可实现比JPEG提升50%码率的效果。目前腾讯云也已上线TPG。咪咕视频也已经有AVS2内容上线。   AVS2国际化
AVS2国际化工作也取得了重要进展。在2018年,UHD Forum将AVS2列为和H.265并列的超高清编码标准,同年11月,AVS2被正式颁布为IEEE国际标准。   AVS3标准 3
AVS3标准主要为下一代做8K应用布局,如之前所讲,它主要分为两个阶段,第一阶段为希望我们做产业抢跑,避免出现4K、H265那种已经布局机顶盒不便更换的情况。第二阶段目标为实现比VVC高20%码率,通过早发布比上一代国际标准高百分之二三十的新一代标准形成一定国际领先效果。AVS3的另一个预期是希望能在智能编码方面取得一定进展。   AVS3基准档次工具
上图展示的是一些AVS3的编码工具,它的框架与AVS2是基本相同的,在图片右边部分列举了AVS3新增的编码工具。通过这些工具可以实现比HEVC高30%的目标。   AVS3基准档次性能  
上图是AVS3和AVS2在8K视频方面压缩效率的对比情况。AVS3在压缩效率上已经提升超过了30%,在4K、1080P、720P视频上有20%多提升。
上图是AVS3与H265在性能上的对比数据。在4K视频方面有28%码率提升,1080P有20%左右提升。
AVS3主观效果展示图
上图是AVS3相比AVS2节省25%码率情况下的主观性能质量对比,几乎是看不出差别的。   国际上首颗8K@120P芯片
上图的内容主要介绍海思发布了第一款8K 120P解码芯片,目前8K落地项目还很少,可以确定的是2022年北京冬奥会将会实现8K视频转播,最近已经发布要在2022年前开通8K频道的消息。   AVS互联网生态推进组 4 成立背景
在近两年ISO和ITU标准授权政策不确定,中国企业在面临技术供应链安全挑战的背景下,为推进AVS在互联网应用推广,我们联合国内主要互联网厂商,于2019年12月5号在深圳成立了AVS互联网生态推进组。   AVS3基准档次优势
AVS2第一阶段基准档次有以下特点:
  1. 编码效率高:比H265高近30%。
  2. 编码复杂度低:目前AVS3与H265解码复杂度相当,后面的竞争标准比H.265提升了很多。
  3. 授权政策可控:AVS技术只允许AVS专利池授权,AVS专利池一直沿用AV1授权政策,对互联网软件免费,芯片硬件上每台设备一块钱。
  4.  有相当的实现基础:8K芯片已经问世。
  AVS视频生态推进工作组  
  AVS视频生态推进组的目标是两年内建立基于AVS标准的互联网视频自主生态,同时向国外辐射。主要目标是希望打破内容与终端的鸡蛋悖论,另外我们会有开源的项目发布,主要面向AVS3,降低企业研发成本,快速推进应用。
活动主要发起单位  
小组主要组织架构   解码生态推进  
  解码器生态目前已在部署,我们希望国内浏览器内核内置,国外浏览器通过WebASM方式内置,这个方案已经完成。在手机端软解已经开源,之后我会介绍。除了软解,我们第二阶段会实现ARM+DSP软解,这样可以大幅度降低解码功耗。第三阶段是芯片硬解阶段,海思、MTK已经部署下一代芯片支持AVS3硬解,另外还有FFMPEG集成以及播放码流工具,我们会在网站开放提供。   编码生态推进
我们在编码生态推进阶段会实现两个编码器,一个由北大和Intel合作研发的SVT-AVS3编码器,已经可以实现8K实时编码;我们在研制另外一个不依赖于SVT架构的AVS3编码器叫uAVS3e(“天枢”),预计会在2020年3月份正式发布。 AVS3开源解码器“天璇”(uAVS3d) 5
天璇(uAVS3d)是一款PC、手机全覆盖的全平台解码器,同时支持8比特10比特解码。   解码性能评估
天璇的特点是解码速度快,在通用Intel i9上可做8K 60P视频实时解码,对移动端例如iPhone11单线程可做到4K 30P实时解码。对于中低端手机可实现实现实时1080P解码。   PC端解码速度大幅领先AV1
同时,我们也与其它标准做了对比,由于VVC标准还未定稿,我们无法与其做对比,但是AV1有我们对标的对象。我们和最快的dav1d对比,AVS3在PC端单线程解码快41%,比aomdec快112%。   PC端并行效率比AV1更高
AVS3多线程解码比AV1快更多,uavs3d平均比dav1d快90%,比aomdec快125%。   移动端解码性能测试
  上图是海思麒麟芯片团队对比AV1和HEVC移动端的解码性能。Android使用原生LibHEVC解码器,同样从单线程多线程两个方面对比。   移动端性能 —— 单线程
单线程AVS3平均比dav1d快80%,比libhevc慢6%。两者性能并没有太大差别。   移动端性能 —— 多线程
多线程解码比dav1d快80%,比libHEVC慢2%。以上是同码率对比,实际上同质量对比的话,AVS3比libHEVC还要快。
在鹏城实验室的开源平台iHub和OpenI上可以下载源码 (可以免费商用,不强制二次开源)   AVS3 VR编码标准 6
AVS3在VR视频领域也做了相应布局。VR又叫做沉浸视频,可以给用户更好的临场感。与传统视频相比,VR视频具有交互性。按照交互性,VR视频可分为零自由度沉浸视频,三自由度沉浸视频和六自由度沉浸视频三种。零自由度沉浸视频是单视点视频,和以前的视频相比唯一不同就是清晰度不同,我们称为超高清视频。三自由度沉浸视频是全景视频,支持用户在同一地点转头看到不同场景。更高级阶段是六自由度沉浸视频,允许用户自由移动,移动时可以看到如现场看到的场景。   AVS3 DoFVR:全景视频
AVS2已经可以满足超高清视频需求。针对三自由度我们也制定了相应标准,于2019年正式立项,称为《信息技术 虚拟现实内容表达 第二部分:视频》。   AVS3 VR视频标准框架
上图展示了标准名称的由来,实际上VR视频与超高清视频有很多共同点,全景视频是一个球面视频,可以映射为平面视频,然后按照平面视频编码方式进行编码。这其中的核心内容就是映射方式,如何高效地将全景视频映射为平面视频是我们需要着重考虑的内容。   全景视频表示模型  
  上图清晰地分析了全景视频如何压缩、降低码率的过程。其中有两个冗余,一个是从平面映射为球面的展开时产生的展开冗余,另一个是视角冗余,人不能同时看到360度全方位图像,只能看到一定范围内容,所以产生视角冗余。其中,视角冗余相对较大,需要依靠动态码流切换来消除。动态码流方案有两种方案,一种是非对称映射方式,另一种是Tile分块编码方式。   采纳的表示模型
展开冗余用对称映射方式解决,在AVS中定义了一系列表示模型,其中一个用于消除展开冗余,可节省20%到30%码率。另一个是用于消除视角冗余的非矩形表示模型,可节省70%的码率。
基于AVS VR映射模型的VR视频系统已经在阿里云上线。   应用AVS VR映射模型前后传输质量对比
上图是阿里优酷给出的对比图,左边是传统模型,右边是使用AVS VR模型的显示效果,可以看到效果提升是很明显的。   AVS 6DoFVR:自由视点视频 7
我们目前在做的工作是六自由度沉浸视频,它在三自由度的基础上提高了沉浸度。六自由度除了转动,还可以在三个轴上移动。   AVS 6DoF方案  
  实现过程中有多种方案,其中也包括很多挑战。目前我们实现了一套可快速落地的方案——基于5G超高清基础设施方案,用超高清方法做编解码。我们通过多视点、多深度方案表达六自由度视频。在头端部署多个相机,基于多个相机做场景深度信息估计。有了多视点信息、场景深度信息之后,将这些信息拼成一个至少8K的大图,图越大视点信息越多。拼成大图后即可按照平面视频方式编码,编码完成后通过5G发送到解码端,解码端用户在实时位置根据场景深度信息、多视点信息实时绘制,这是目前的一套可落地的方案。   AVS 6DoF标准框架
目前,已形成一套工作组草案(WD),其中的核心技术就是DIBR以及拼接方法。这是我们的重点工作,目前已形成一套基本方案。   自由视点视频原型
上图是效果展示。我们不再是单视角观看体育比赛,用户端可连续自主选择观看视角,比现场体验感更好。并且,此系统无需依赖头盔,可以在手机等设备上使用,大屏幕滑动体验更好,可以达到身临其境的效果。目前我们已经在推进这套系统在冬奥会测试赛上落地应用。  
我们选择了滑雪、速滑、花样滑冰、冰球等作为重点项目使用5G网络在“科技冬奥”上展示。   总结 8
我们如今面临的既是机遇也是挑战,最近一系列事件表明技术也是有国界的,中国标准迎来了发展良机,我们需要做到立足自主,用开放的心态辐射国际。 LiveVideoStackCon 2020 上海/北京/旧金山 讲师招募 2020年LiveVideoStackCon将持续迭代,LiveVideoStackCon将分别在上海(6月13-14日),北京(9月11-12日)和旧金山(11月)举行。欢迎将你的技术实践、踩坑与填坑经历、技术与商业创业的思考分享出来,独乐不如众乐。请将个人资料和话题信息邮件到 speaker@livevideostack.com 或点击【阅读原文】了解成为LiveVideoStackCon讲师的权益与义务,我们会在48小时内回复。
还可输入800
全部评论
作者介绍

王荣刚

北京大学

教授

文章

粉丝

视频

相关文章
阅读排行
  • 2周
  • 4周
  • 16周