音视频技术开发周刊 | 223

LiveVideoStack 2021年12月13日

每周一期,纵览音视频技术领域的干货。

新闻投稿:contribute@livevideostack.com。



好未来直播中台:自研RTC在教育场景的应用实践

近年来随着直播教育的兴起,人们对直播教育的体验感要求越来越高,尤其是在弱网环境下的听课体验显得尤为重要。在本次LiveVideoStackCon 2021 音视频技术大会 北京站,我们邀请到了来自好未来直播中台产品负责人 冯权成,为大家介绍好未来自研RTC是如何进阶演进的、以及如何经受住教育场景严苛的质量要求的。


视频大时代下基础架构的演进


过去十年,随着端上算力和通讯能力的提升,我们见证了一个业务玩法日趋复杂、用户覆盖遍及全球的视频大时代的诞生。近几年,多个市值千亿以上的泛视频公司得到广泛关注,其背后支撑业务高速迭代、承载核心技术的视频基础架构也慢慢浮出水面。视频基础架构包含哪些核心能力,在过去和现在经历着怎样的演进,对未来我们又该如何期许?在本次LiveVideoStackCon 2021音视频技术大会 北京站,快手短视频架构负责人黄琦结合多年来对行业的观察与在快手的自身实践,和大家一起探讨视频大时代下基础架构的演进。



从残差编码到条件编码,构建基于上下文的视频压缩框架DCVC

传统视频压缩方法多采用残差编码框架,虽简单有效但却并不是最优解,其熵往往大于或等于条件编码的熵。通过从残差编码到条件编码的转换,微软亚洲研究院多媒体计算组的研究员们构建了一种基于上下文的视频压缩框架(DCVC),为基于深度学习的视频压缩提供了新思路和新方法。实验表明,该视频压缩框架比常用的残差编码框架有更低的信息熵下界,且能够自适应学习帧内编码和帧间编码,适用于对高频细节的恢复。

使用 Eve 进行大规模视频编码
本次演讲主要介绍了 Two Orioles 视频压缩专家组及其开发的 Eve 商用 VP9 和 AV1 编码器,并与主流的 VP9 标准和 AV1 标准的参考软件及商用编码器的压缩性能和编码速度进行了对比。


音视频开发:浅析 H.264 编码格式

H.264具有低码率、高压缩、高质量的图像、容错能力强、网络适应性强等特点,它最大的优势拥有很高的数据压缩比率,在同等图像质量的条件下,H.264的压缩比是MPEG-2的两倍以上。


在 VVC 中实现胶片颗粒技术


本次演讲将介绍在 VVC 中实现胶片颗粒技术,胶片颗粒通常是一种理想的、有助于表达创作意图的噪声,然而,胶片颗粒在现在视频压缩标准中不能很好保留。在各种滤波和有损压缩步骤中,胶片颗粒被抑制,没有恢复的可能。缓解这个问题的一种方法是使用较低的量化参数,但这会大大增加比特率;另一种方法是使用 SEI 消息传递胶片颗粒元数据。在新的 VVC 标准的背景下,可以使用频率滤波的解决方案来参数化和合成胶片颗粒。


Stylevision:基于 WebRTC、FFmpeg、Tensorflow 的实时风格变换

本次演讲主要从研究背景、理论基础和工程实现三个方面介绍了将图像风格变换技术进行落地的过程,整个工程涉及到 WebRTC、FFmpeg、Tensorflow。
视频插帧的方案实现与对比

本质上说,提高帧率以及降低帧率同样都是构造出不存在于源视频上的帧,两者只存在构造的帧的数量上的差别。构造不存在的帧,我们称之为插帧(Frame Interpolation)。
优化 Facebook 视频的存储效率

本文来自Video @Scale 2021,video infra 与 Facebook capacity team 合作,为每个 FB 视频建立了source + MVE(minimum variable encoding,最小可变编码)的存储策略,通过视频生命周期管理系统,确保视频的存储消耗与它的受欢迎程度成正比。这种技术成功抑制了 2021 年 FB 视频预计的 70% 的存储增长。


谷歌公开裸眼3D全息视频聊天技术:8k屏幕、4块GPU和一堆摄像头

今年 5 月举行的谷歌 I/O 大会上,谷歌公布了一个秘密开发多年的黑科技:全息视频聊天技术 Project Starline。Project Starline 本质上是一个 3D 视频聊天室,旨在取代一对一的 2D 视频电话会议,让用户感觉就像坐在真人面前一样。近日,谷歌在一篇论文中公布了 Project Starline 演示背后的技术。


苹果AR头显明年登场!目标10亿部,搭Mac电脑级芯片

苹果将要推出AR头显的信息已经在业内发酵多时,从去年就陆续有消息放出,而当下元宇宙概念火爆,苹果这次AR头显多个重磅信息的释放,无疑表明苹果也在AR领域积极布局。
基于微流体方案,Meta最新轻量化AR/VR体感手套解析

在VR中玩多人桌游、握手,这些自然的交互对于VR社交场景十分关键,尤其是逼真的手势交互、体感交互更有助于提升VR社交的沉浸感。
慧眼识道——南方航空基于AR技术实现全业务流程数字化的实践探索

在各行各业如火如荼的数字化转型实践中,南航机务系统可谓是走在了行业前列。本文就如何拓宽数字化系统的外延,科学选择层出不穷的新技术新手段,乃至形成一定的规范和标准,让数字化系统“善假于物”这一典型问题进行了简单的探讨。


高性能视觉Transformer!复旦&华为新作SOFT:逼近线性复杂度的ViT

来自复旦大学、萨里大学和华为诺亚方舟实验室的研究者首次提出一种无 softmax Transformer。
机器视觉检测中的图像预处理方法

本文以Dalsa sherlock软件为例,一起来了解一下视觉检测中平滑模糊的图像处理方法。
实时超分新SOTA!AutoML显神威:1%参数量,超清视频70倍加速(ICCV 2021)

东北大学王言治团队将网络结构搜索与剪枝搜索相结合,提出了全新的自动搜索框架。该AutoML框架得到的稀疏模型能够在移动设备上实时且高质量地处理视频超分辨率任务,最高可以将超清视频渲染加速70倍。


无人车业务中的视觉三维重建

在高精建图重建任务中,相比于激光建图路线,视觉建图路线具备精度略低,成本极低,算力消耗较低等特点。因此,视觉建图更适合进行大范围实时的更新。




阅读推荐


音视频领域或将开启”外卷“之路

如果说让我们聊一聊2021年音视频技术领域在这一年中的变化,莫不如从LiveVideoStackCon 2021 音视频技术大会 上海站 & 北京站,这两场大会缩影来看。


程序员35岁破局之路


前段时间,LiveVideoStack采访了在音视频领域从业多年的技术人李天(化名)当35岁遇到裁员,他向我们讲述了在35岁遇到裁员时所面临的困境和感悟。这篇采访在音视频技术圈子里引起了一些反响。“程序员35岁危机”这个话题近几年来一直广受议论,LiveVideoStack最近又采访了三位音视频技术领域的从业人员(三位均为化名),他们中既有已经带团队的技术Leader,又有最近离开教育行业重新开始找工作的技术人士,还有音视频赛道上的年轻选手。对于程序员所面临的35岁危机,他们每个人都表达了自己的看法。虽然对整个行业来说,这些见解不过是管中窥豹,但我们依然希望这篇采访能够给在音视频技术领域工作的人们带来一些启示和思考。


阿里达摩院:以语音为代表的人机交互或许是未来硬件和机器人的标配


语音和多模态人机交互会是以机器人为代表的智能硬件的必备特征, 实践中首先要克服的是声学环境的复杂性。在声学前端核心技术上, 深挖信号处理的在线自适应能力, 以及经典信号处理与任务模型的联合优化是我们的技术特色, 也因此在高噪声、高性价比等实际业务场景都创造了多项业内第一。声学模组和芯片化也是克服场景碎片化的有效手段, 也因此快速合作落地了一批智能硬件产品, 赢得了客户的口碑,为端侧计算能力的平台化, 探索了有生命力的路径。


性能提升10倍以上:阿里达摩院成功研发新型存算一体芯片

本周五,阿里巴巴达摩院宣布成功研发新型存算一体架构芯片。据达摩院介绍,该芯片是全球首款基于 DRAM 的 3D 键合堆叠存算一体 AI 芯片,可突破冯 · 诺依曼架构的性能瓶颈,满足人工智能等场景对高带宽、高容量内存和极致算力的需求。在特定 AI 场景中,该芯片性能提升 10 倍以上,能效比提升高达 300 倍。


还可输入800
全部评论
作者介绍

LiveVideoStack

阅读排行
  • 2周
  • 4周
  • 16周