音视频技术开发周刊 | 322

人工智能 AIGC 计算机视觉沉浸式XR 图像处理

2023年12月14日

音视频技术开发周刊 | 322

每周一期，纵览音视频技术领域的干货。

新闻投稿：contribute@livevideostack.com。

超级AI不会主宰人类，但人工智能必须开源！LeCun最新采访引全网300万人围观

LeCun最新访谈视频中，再次坦露了自己对开源AI的看法。超级AI终有一天会诞生，但不会主宰人类。

扩散模型的出现推动了文本生成视频技术的发展，但这类方法的计算成本通常不菲，并且往往难以制作连贯的物体运动视频。为了解决这些问题，来自中国科学院深圳先进技术研究院、中国科学院大学和 VIVO AI Lab 的研究者联合提出了一个无需训练的文本生成视频新框架 ——GPT4Motion。

网络规模、训练学习速度提升，清华团队在大规模光电智能计算方向取得进展

随着大模型等人工智能技术的突破与发展，算法复杂度剧增，对传统计算芯片带来了算力和功耗的双重挑战。近年来，以光计算为基础、通过光电融合的方式构建光电神经网络的计算处理方法已经成为国际热点研究问题，有望实现计算性能的颠覆性提升。

Mirasol3B:一个多模态自回归模型，用于时间对齐和上下文模式

Mirasol3B 在多模态基准测试中达到了 SOTA 水平，优于规模更大的模型。通过学习更紧凑的表征，控制音频 - 视频特征表征的序列长度，并根据时间对应关系进行建模，Mirasol3B 能够有效满足多模态输入的高计算要求。

https://arxiv.org/abs/2311.05698

ChatGPT性能最多提升214%，刷新7个榜单！IDEA、港科大广州等提出ToG思维图谱

思维链已经out啦！想让大模型会推理还是得靠知识库：基座模型还是ChatGPT，最新思维图谱技术在多个基准数据集上实现巨大性能提升！

国产大模型黑马诞生，千亿级拿下双榜第一！知识正确性能力突出，大幅降低LLM幻觉问题

夸克，也下场大模型了。甫一问世，夸克大模型就迅速登顶权威测评双榜第一，幻觉率大幅降低，可以预见，风靡年轻人的夸克APP，要掀起新的飓风了。

文生图10倍速，视频实时渲染！清华发布LCM：兼容全部SD大模型、LoRA、插件等

全面兼容Stable Diffusion生态，LCM模型成功实现5-10倍生成速度的提升，实时AI艺术时代即将到来，所想即所得！

无图感知更进一步！ScalableMap：迈向大范围高精地图新方案！

ScalableMap提出了一种新的端到端范式，用于纯视觉构建在线long-range矢量化高精地图。HD地图的矢量化表示，使用polyline和polygon来表示地图元素，进而应用到下游的地图构建。然而，以前参考动态目标检测设计的方案忽略了线性地图元素内的结构约束，导致在长距离场景中性能下降。因此本文利用地图元素的特性来提高地图构建的性能。

Stable Video Diffusion问世！3D合成功能引关注，网友：进步太快

Stability AI官方博客显示，全新SVD支持文本到视频、图像到视频生成。

为什么GNSSer要学习RTKLIB？

从高须知二先生2006年发布RTKLIB第一个版本开始，至今已17年，该开源代码可以说造福了无数的GNSS相关的研究者和初创公司。（https://www.rtklib.com/）

没有Ai Pin的时代，只有时代的AI

凭借特殊的可穿戴产品形态，以AI大模型作为核心驱动，加之前苹果高管下场带队，OpenAI创始人Sam Altman、微软、高通等投资背景，初创企业Humane首款硬件产品Ai Pin一鸣惊人，全球吸睛无数。

打破“硬件厂商”固有印象，HTC转舵探寻沉浸式XR生态

回看整个2023年，XR行业起伏较大，有人欢喜有人愁，但仍保持着稳步发展的趋势。不少XR硬件厂商积极推出新设备时，能明显看到技术上的进步，且大众对XR的基础认知也在走向成熟。

微软专利提出优化的空间环境3D映射更新方法

环境的3D映射是环境中的3D位置和与3D位置相关的捕获图像的集合。所述关联或者来自描述环境中3D位置的landmark的捕获图像，或者来自由具有环境中的3D位置和方向的捕获设备捕获的图像。绘制的环境是任何室内或室外环境，如家庭、办公室内部、花园、公共火车站或其他环境。

短波红外成像: 新时代的消费电子市场新机遇

随着短波红外（SWIR）技术在消费电子领域的新兴应用，我们正见证一个创新技术的崛起，它有潜力彻底改变我们与设备的互动方式。苹果公司在其最新的AirPods 3和iPhone 14 Pro中采用的SWIR单像素传感器，虽然仅用于基础感应，却为功能丰富的设备增添了一个全新维度。这一突破性的应用不仅展示了SWIR技术在实现更精准、更智能的传感方面的潜力，而且还预示着它在消费电子市场中的广阔前景。

噪声分析与图像传感器生产

最近看业内新闻，听说三星的图像传感器工厂购买了Keysight的噪声分析设备，用来测量分析sensor的1/f noise和Random Telegraph noise。以前没听说过Keysight这家公司，上网wiki了一下，原来就是大名鼎鼎的安捷伦，把信号测量设备部门分拆出来就成了现在的Keysight，中文名叫‘是德科技’。惠普（HP）是安捷伦的前身，在1999年把测试测量设备部门分拆命名为安捷伦。所以也就是惠普 --> 安捷伦--> Keysight。

元镜头 —— 手机相机的下一场革命

手机相机模组的小型化一直是个难题，受光学技术限制，手机相机模组很难做得更薄，所以现在的手机机身在相机的位置都会有不同程度的突起。

颠覆性语音识别：单词级时间戳和说话人分离

Vue Vben Admin 是一个免费开源的中后台模板，使用最新的 vue3、vite4 和 TypeScript 等主流技术进行开发。该项目提供了现成的中后台前端解决方案，并可用于学习参考。

联合语音识别与口音识别的解耦交互多任务学习网络

由西工大音频语音与语言处理研究组（ASLP@NPU）和腾讯TEG合作的论文“Decoupling and Interacting Multi-Task Learning Network for Joint Speech and Accent Recognition”发表在语音研究顶级期刊IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP)。

https://arxiv.org/abs/2311.07062

开源语音大语言模型来了！阿里基于Qwen-Chat提出Qwen-Audio!

大型语言模型（LLMs）由于其良好的知识保留能力、复杂的推理和解决问题能力，在通用人工智能（AGI）领域取得了重大进展。然而，语言模型缺乏像人类一样感知非文本模态（如图像和音频）的能力。作为一种重要模态，语音提供了超越文本的多样且复杂的信号，如人声中的情感、语调和意图，自然声音中的火车汽笛、钟声和雷声，以及音乐中的旋律。使LLMs能够感知和理解丰富的音频信号以进行音频交互引起了广泛关注。

天琴实验室打造首支“全AI”歌手—AI力宏首支单曲《Letting Go》

10月26日，据媒体报道，华语乐坛首位官方授权的声音、视觉及衍生品均由AI生成的“全AI”歌手——AI力宏正式发行的首支单曲《Letting Go》发布，据悉，该单曲由腾讯音乐娱乐集团（TME）、宏声文化有限公司（王力宏工作室）联合打造，在QQ音乐正式上线，歌曲及视觉形象由TME旗下的天琴实验室、制作家工作室、MUX设计团队联合制作。

B站故障演练平台实践

在云原生的架构下，微服务的数量呈现爆炸式增长，服务间的调用关系错综复杂，对系统可靠性也提出了更高的要求。在这样的背景之下，混沌工程的关注度也不断提升。

2024年全球半导体市场走向预测

11月28日，世界半导体贸易统计组织(WSTS)公布其对半导体市场的最新预测。由于今年第二季度和第三季度的业绩略好于春季预测，WSTS对其预测进行了修订，预计2023年全球半导体市场将出现个位数的萎缩，萎缩幅度为9.4%。WSTS指出，受惠生成式AI普及、带动逻辑芯片需求急增，加上存储需求也呈现改善，因此全球半导体市场已在2023年下半年转趋复苏，2023年全球半导体销售额预估值自前次预估的5,150.95亿美元上修至5,201.26亿美元、将年减9.4%，将为4年来(2019年以来、大减12.0%)首度陷入萎缩。

3D NAND，如何发展？

增加3D（三维）NAND闪存密度的方法正在发生变化。这是因为支持传统高密度技术的基本技术预计将在不久的将来达到其极限。2025 年至 2030 年间，新的基础技术的引入和转化很可能会变得更加普遍。

传Vision Pro首批备货40万台，2024年目标100万台，第三年1000万台

据称Vision Pro首批备货40万台左右，2024年的销量目标是100万台，第三年达到1000万台

哔哩哔哩与华为达成合作，启动鸿蒙原生应用开发

在科技领域，合作与创新是推动进步的双引擎。近日，哔哩哔哩与华为在鸿蒙系统领域的全面合作，正是这一理念的最新体现。这一跨界合作不仅为哔哩哔哩带来了进入鸿蒙生态的机遇，也为华为开拓新的内容领域和技术创新提供了强有力的支持。在这个快速变化的数字时代，这次合作预示着双方将共同探索更多创新的可能性，为用户带来前所未有的智能体验。

AMD加码印度，开设最大全球设计中心

美国芯片制造商 AMD 周二在班加罗尔开设了其最大的全球设计中心，扩大其在印度的研究、开发和工程业务。该公司在一份新闻稿中表示，这个最先进的园区计划在未来几年容纳约 3,000 名 AMD 工程师，专注于半导体技术的设计和开发，包括 3D 堆叠、人工智能和机器学习。

从LiveVideoStackCon 2023深圳看音视频的未来

LiveVideoStackCon 2023深圳的第二天，大会结束之后，也意味着我们今年主要的活动都告一段落了。正好借这个机会简单总结下当下的多媒体生态，并展望下未来。

重磅首发｜2024音视频技术发展报告（文末附下载）

11月24日，在LiveVideoStackCon 2023深圳站大会上，我们与腾讯云音视频联合首发《2024音视频技术发展报告》。报告通过300+音视频开发者调研，40+专家一线访谈，下沉8大细分技术领域进行全面解读，涵盖音视频编解码/AI编码/多媒体处理框架/媒体传输协议/超低延迟技术/虚拟现实/AIGC/出海等领域，深入洞察音视频技术现状和未来发展趋势。