音视频技术开发周刊 | 290

TCSVT 2022 | 基于环路多帧预测的深度视频压缩 

本文基于端到端深度视频压缩框架,提出了一种环路多帧预测模块(in-loop frame prediction module),在不额外消耗码率的情况下,对当前帧实现基于多个参考帧的高效预测。

 

汇聚音视频新能量 探索行业新蓝海

作者从视频行业趋势和痛点出发,结合快手自身的探索、演进历程,分享技术变革和突破的思路,寻求行业新增长点。

 

英伟达Optical Flow SDK 为 Vulkan 带来加速运动处理

NVOFA是新型 NVIDIA GPU 上的专用硬件单元,用于以高性能计算一对图像之间的光流。NVIDIA Optical Flow SDK 公开了开发人员 API,使用户能够在应用程序中利用 NVOFA 硬件的强大功能。 

https://developer.nvidia.com/blog/accelerated-motion-processing-brought-to-vulkan-with-optical-flow-sdk/

什么是语音识别?

介绍了语音识别技术的基本概念、工作原理和应用场景。此外,作者还提到了一些开源和商业语音识别解决方案,如Google Cloud Speech-to-Text和Twilio Autopilot等。

https://www.twilio.com/blog/what-is-speech-recognition

为什么我们能判断声音的远近

本文探讨了双耳听觉在距离感知方面的重要性。并详细介绍了四个关键参数——声压级、直达声与混响声能量之比、频谱和双耳差异对距离感知的影响。

王博聊声学 | 音频主观评价方法 – MUSHRA
本文从音频感知的主观属性、评价方法、客观参数测量等方面与大家共同探讨技术挑战以及HBK的解决方案。

RedPajama 模型发布,万亿级数据且开源

Together 发布 RedPajama 项目,旨在创建一套领先的全开源模型。目前,该项目已完成了第一步,成功复制了 LLaMA 训练数据集超过 1.2 万亿个数据 token。

https://www.together.xyz/blog/redpajama

ICLR 2023杰出论文奖得主独家分享:适配任意密集预测任务的通用小样本学习器

当计算机视觉模型学会了“举一反三”


对话Peter Lee:大模型在医疗健康领域应用的机遇与挑战

近期在微软研究院最新的 AI 前沿系列播客节目中,Peter Lee 与微软研究院副总裁、微软杰出首席科学家 Ashley Llorens 进行了一次深度对话,表达了他对于大模型在医疗健康领域应用潜力和挑战的看法,以及在大模型潮流的引领下,微软研究院对未来计算的研究规划。

10万月薪,大模型疯狂抢人

有业内人士预计:“国内能够进行相关技术研发的人才应该不超过1000人,保守一点来说仅有两三百号人。”但粗略计算下来,目前市场上已经存在几十个大模型项目了。抢人大战,燃起来了。

梁建章:人工智能如何影响经济和各行各业

未来的问题,不是人工智能能够干什么,而是人类选择会让人工智能干什么。

如何与孩子聊ChatGPT:AI大时代的完整版家长指南

供每一位关心时代变革与孩子成长的家长备查。 

迈向「大」和「统一」的视觉神经网络架构设计新思路

基础模型创新是视觉发展的核心源动力

大语言模型综述