音视频技术开发周刊 | 301

AI 音视频技术计算机视觉图像处理 AR VR 元宇宙

Max 2023年7月10日

过去数月，云巨头们砸下真金白银，研发大模型、战略投资、自研 AI 芯片……大模型的时代方兴未艾，他们已经瞄准了新一代的 AI 软件客户。这篇文章围绕几大海外云巨头进行梳理，试图阐述“什么是今天云厂商们竞争的关键”。

目前，ChatLaw法律大模型提供ChatLaw-13B、ChatLaw-33B和ChatLaw-Text2Vec三个版本，底座为姜子牙-13B、Anima-33B。使用了大量法律新闻、法律论坛、法条、司法解释、法律咨询、法考题、判决文书等原始文本来构造对话数据。

清华系面壁智能开源中文多模态大模型VisCPM

VisCPM 是由面壁智能、清华大学 NLP 实验室和知乎联合开源在 OpenBMB 的多模态大模型系列，其中 VisCPM-Chat 模型支持中英双语的多模态对话能力，VisCPM-Paint 模型支持文到图生成能力，评测显示 VisCPM 在中文多模态开源模型中达到最佳水平。

Inflection融资13亿美元，总融资额仅次于OpenAI

北京时间6月29日晚，总部位于加州的人工智能初创公司Inflection宣布完成13亿美元的最新一轮融资，由微软、英伟达和三位亿万富翁（Reid Hoffman、Bill Gates和Eric Schmidt）牵头投资。据福布斯报道，Inflection的最新估值为40亿美元。本轮融资资金将用于支持Inflection自研的首款名为Pi的人工智能助手。

OpenAI到底做对了什么？

一个区区两三百人（在去年底推出ChatGPT时，OpenAI团队大约270人）的创业公司，何以在众多巨头逐鹿多年的AI竞技场一路披荆斩棘，摘得通用人工智能的圣杯？无论在硅谷，还是在国内，很多人都在问：为什么AGI这样史诗级的革命，背后的核心推手竟然是OpenAI这样的创业公司？OpenAI到底做对了什么？

抓住机遇，积极应对生成式人工智能挑战

但每一项的挑战和改变，必然也意味着新的机会。我们应找准定位，不断寻找探索挑战中蕴含的发展机遇。

DreamDiffusion：从脑电图信号生成高质量图像

这篇论文由清华大学国际研究生院、Tencent AI实验室等撰写，介绍一种可以直接从脑电图（EEG）信号中生成高质量的图像的方法，而无需先将思维转化为文本再生成图像。定量和定性结果证明了该方法作为实现“思维到图像”转换的重要一步，具有潜在的神经科学和计算机视觉应用的可行性。

https://arxiv.org/abs/2306.16934

陶哲轩转赞！ChatGPT自动证明重大突破

尽管许多人并不愿意承认，但是很可能，AI会在十年内赶超人类数学家。

中科院团队用AI设计了一颗CPU

六月底，来自中科院的团队在预印本平台arxiv上发表了重磅论文《Pushing the Limits of Machine Design：Automated CPU Design with AI》（机器设计新突破：使用人工智能自动设计CPU），其中使用了人工智能的方法，成功地在5个小时内完成了一个基于RISC-V指令集的CPU的设计，而且该设计经过后端布局布线后已经成功流片点亮并且能运行Linux和Dhrystone。

芯片管制附加作用：除了设备限制出口外，中国人求职也受限制

这几天荷兰正式出台了限制半导体设备海外出口的法令，这样美国、日本和荷兰正式形成了针对中国半导体技术封锁的铁三角，考虑到这三个国家在半导体以及芯片领域的影响力和技术能力，可以说出口限制会极大程度影响到其他国家在半导体领域上的发展，这其中首当其冲的自然还是中国。

富士康们，抢攻芯片

越来越多的台系厂商近年来逐渐开始转型，寻求技术升级，以提供更高附加值的产品和服务，向上游芯片领域进击是他们的一大选择。

斯坦福大学吴佳俊：通过自然监督编码理解视觉世界

斯坦福大学助理教授吴佳俊带来了精彩的演讲 “通过自然监督编码理解视觉世界”（Understanding the Visual World Through Naturally Supervised Code）。此次演讲从二维图像拓展到三维世界，从人类和自然的先验知识中汲取灵感并应用至生成神经网络。

不“完美”的摄像头眼睛 :人类

想要做一个能够整体超过人眼的相机，首先我们需要分析眼睛到底是一个什么样水平的相机呢？

Magic123：使用2D和3D扩散先验从单张图像生成高质量的3D物体

这篇论文提出了Magic123，一种使用2D和3D先验的两阶段粗到精的方法，用于从单张未姿态化的图像中生成高质量的带纹理3D网格。在第一阶段，通过优化神经辐射场来生成粗略几何结构。在第二阶段，采用内存高效的可微网格表示，得到具有视觉吸引力纹理的高分辨率网格。

https://arxiv.org/abs/2306.17843

音视频学习--图像编辑开源库

这篇文章介绍了8种图像编辑的开源工具。

数十亿人用过的流行开源图像编解码器缺钱，停更

在 libjpeg-turbo 3.0.0 刚完成发布之际，项目的首席开发人员 DRC 就表示，由于资金短缺，其未来的功能开发或将受到限制，可能永远不会有 libjpeg-turbo 3.1 版本。

眼睛也分主次，你的大脑更“偏心”哪一只眼？

你知道吗，人的眼睛是分主副眼的，在专业术语上称为优势眼和非优势眼，或左 / 右利眼，就像左 / 右利手一样。

直播 RTM 推流在抖音的应用与优化

抖音评测实验室团队为抖音直播编码优化助力，支持直播各个场景开启B帧提高视频压缩效率，可以用于提升画质或者节省带宽成本。

PACC: RTC 下基于用户感知的拥塞控制

这篇论文中，作者针对 RTC 提出了基于感知的拥塞控制（PACC: Perception-Aware Congestion Control）。利用卷积神经网络（CNN），论文作者开发了一个质量评估模型来预测视频质量。借助于用户感知的变化趋势分析，PACC 将朝着更好的 QoE 方向去调整码率。

实时视觉通信的盲质量评价

用户产生的内容（如社交媒体，对话视频）通常没有高质量视频作为参考，必须在没有任何参考的情况下进行质量评价，也就是所谓的盲质量评价。

基于MEC的太赫兹无线网络辅助沉浸式VR视频流媒体：一种深度强化学习方法

这篇论文提出了一种最小化基于THz无线接入的MEC系统长期能耗的方法，通过联合优化视口渲染卸载和下行发射功率控制，为高质量沉浸式VR视频服务提供支持。

https://ieeexplore.ieee.org/document/9120235

Interspeech2023 | DualVC—基于模型内蒸馏与混合预测编码的双模语音转换模型

西工大音频语音与语言处理研究组（ASLP@NPU）和网易伏羲合作论文“DualVC: Dual-mode Voice Conversion using Intra-model Knowledge Distillation and Hybrid Predictive Coding ”被语音研究顶级会议INTERSPEECH2023接收。该论文提出一种结合模型内蒸馏与混合预测编码的语音转换模型DualVC，能在一个模型中同时实现流式与整段推理（非流式）两种转换模式。

腾讯会议 AI 音频技术的价值外溢，用软件和服务为助听行业打开新格局

天籁实验室利用腾讯会议 AI 音频技术的积累，以公益的初心开拓新领域，用软件和远程验配服务，帮助助听设备厂商打通从助听器到测听、验配的闭环，为国内助听行业的发展打开了新格局。

用耳朵做选择｜监听音箱的主观评估方法

监听音箱可以作为一套监听系统、一项制作任务、音频工程师/音乐制作人的声音基准，然而它在信号链中处于一个独特的位置。你所听到的它发出来的声音，要比音频路径的任何其他设备（比如音频处理器）受到更多的变量影响。

W3C 计划成立隐私标准工作组

W3C 计划成立隐私标准工作组，现开始筹备小组章程界定标准化范畴及工作模式。隐私工作组的任务是为各标准小组提供建议以避免和减轻 Web 技术相关隐私问题，对提升用户隐私的技术机制进行标准化，进而改善 Web 上的隐私。

Meta眼中的VR办公：确定的方向，不确定的时间

VR 是否会很快成为我们工作生活中常见的一部分还有待观察，但该技术在提升会议体验方面有很大潜力。

Google AR 眼镜项目 Iris 被砍，未来还是想做 AR 界的 Android！

尽管 Google 向 Project Iris 投入了数年的研发，但在今年稍早时候，其实就已经决定放弃了该项目。

开源编解码器 SVT-AV1发布1.6.0版本：性能提升三至四成

SVT-AV1编码器发布新版本，官方更新日志显示v1.6.0最大带来40%的速度提升。

https://gitlab.com/AOMediaCodec/SVT-AV1/-/releases/v1.6.0

高通白皮书发布：混合 AI 是 AI 的未来

高通在白皮书中提到，随着生成式 AI 正以前所未有的速度发展以及计算需求的日益增长，AI 处理必须分布在云端和终端进行，才能实现 AI 的规模化扩展并发挥其最大潜能——正如传统计算从大型主机和瘦客户端演变为当前云端和边缘终端相结合的模式。与仅在云端进行处理不同，混合 AI 架构在云端和边缘终端之间分配并协调 AI 工作负载。

《从营销AIGC化到AIGC营销化》报告发布

7月2日上午，清华大学元宇宙文化实验室举办元宇宙在线沙龙“AIGC热潮与应用”。会议中，清华大学新闻与传播学院教授、元宇宙文化实验室主任、新媒体研究中心执行主任沈阳，对清华大学新闻与传播学院新媒体研究中心和华扬联众共同创作的报告《从营销AIGC化到AIGC营销化》进行了解读。

Coatue的年度预言：衰退与复兴并存的未来12个月

在今年，Coatue进一步指出衰退时代的来临，同时指出下一个科技超级周期的“突破”时刻：AI可能成为经济新的生命线。

什么是“审美茧房”？| 芒种观点

互联网与数字技术的发展破坏了传统审美实践赖以维系的媒介间性，通过不断挤压“反思”和“协商”在审美实践体系中的存在空间，消弭了文化公共性在审美实践中得以形成所必需的批判性距离，进而全面导致了大众品位的私人化，制造了“审美茧房”。

LiveVideoStackCon 2023 上海站日程发布

LiveVideoStackCon 2023 上海站音视频技术大会以「沉浸·新视界」为主题，除了探索音视频技术在不同场景下的融合与发展外，还增添了游戏、AIGC和数字化行业案例等新鲜火爆的话题。在这里，你可以感受到多媒体生态内的头部公司、顶级玩家对行业当前发展趋势、瓶颈挑战，与对未来规划的深入解读。

我们将邀请60余位顶级讲师聚集一堂，与你共同分享他们的专业见解。这是一个与业内顶尖专家进行深入交流的绝佳机会，你将有机会亲自与他们面对面，从他们丰富的经验中获得宝贵的技术心得。

▲扫描图中二维码 ▲

查看更多LveVideoStackCon 2023上海站精彩话题