音视频技术开发周刊 | 320

人工智能 AIGC 计算机视觉 XR 音视频技术

2023年12月14日

音视频技术开发周刊 | 320

每周一期，纵览音视频技术领域的干货。

新闻投稿：contribute@livevideostack.com。

一周倒计时！深圳站大会亮点前瞻

LiveVideoStackCon 深圳站倒计时一周，一周后将迎来精彩纷呈的主题演讲。期待您的参与！

●时间：2023年11月24日-25日
●地点：深圳圣淘沙酒店（翡翠店）
●咨询：13520771810（微信同号）了解详情。
●官方链接：https://sz2023.livevideostack.com/topics

抖音背后的体验增长奥秘，在这里为你揭晓

在【抖音背后的体验增长实战揭秘】专题中，我们将深入解析抖音背后的体验增长实践，结合抖音拥有的亿级日活跃用户所沉淀的经验，剖析在大规模用户背景下如何实现降本增效。

复制链接，免费报名火山专场演讲。
http://livevideostack.mikecrm.com/EIvkisN

1分钟预测10天全球天气！谷歌DeepMind全新AI天气预报登上Science，碾压行业SOTA

谷歌DeepMind再次在科学细分领域——天气预报迈出重要的一步。全新AI模型GraphCast可在1分钟内，精准预测10天全球天气，甚至还可以预测极端天气事件。

基于LLaMA却改张量名，李开复公司大模型引争议，官方回应来了

有研究者发现，李开复「零一万物」公司的 Yi-34B 模型基本上采用了 LLaMA 的架构，只是重命名了两个张量。对此，「零一万物」给出了官方回应。

斯坦福提出对比偏好学习：无需强化学习即可从人类反馈中学习

我们知道，ChatGPT 的成功离不开 RLHF 这个「秘密武器」。不过 RLHF 并不是完美无缺的，存在难以处理的优化难题。本文中，斯坦福大学等研究机构的团队探索用「对比偏好学习」替换掉「强化学习」，在速度和性能上都有不俗的表现。

ChatGPT版iPhone终面世！Sam Altman联手苹果前员工祭出苹果杀手

Sam Altman投资的消费硬件初创公司Humane交卷了！名为Ai Pin的可穿戴设备由OpenAI提供技术支持，专为与大模型交互而设计。这是要用ChatGPT革了iPhone的命？

LLM幻觉问题全梳理！哈工大团队50页综述重磅发布

最近，来自哈尔滨工业大学和华为的研究团队发表了一篇长达50页的综述，细致地盘点了有关LLM幻觉问题你该知道的所有事。

终结扩散模型，IGN单步生成逼真图像！UC伯克利谷歌革新LLM，美剧成灵感来源

生成式AI模型的新范式要来了。UC伯克利谷歌提出幂等生成网络（IGN），只需单步即可生图。

Github发布Octoverse开源报告！印度将超美国成最大开发者社区，生成式AI增长248%，Copilot重构GitHub

GitHub公布了今年的Octoverse开源状态报告，AI成为了当仁不让的主角。印度也将替代美国成为最大的开发者社区。还有更多趋势和详细信息，开发者千万不能错过!

NeRF与自动驾驶的前世今生，近10篇论文汇总！

神经辐射场（Neural Radiance Fields）自2020年被提出以来，相关论文数量呈指数增长，不但成为了三维重建的重要分支方向，也逐渐作为自动驾驶重要工具活跃在研究前沿。

清华等发布|照片级连贯性3D物体生成，超逼真！

DreamCraft3D，这是一种层次化的3D内容生成方法，能够生成高保真度和连贯性的3D物体。我们通过利用2D参考图像来引导几何雕刻和纹理增强的阶段，解决了这个问题。这项工作的核心焦点是解决现有工作所遇到的一致性问题。3D先验模型，优先考虑了几何一致性，但会牺牲纹理的保真度。

国防科技大学发布快速准确的深度回环闭合和可靠的Lidar SLAM重定位

闭环和重定位是解决位姿估计漂移和退化，建立可靠和鲁棒的长期SLAM的关键技术。本文首先在一个统一的框架内制定闭环和重定位。然后，本文提出了一种新颖的多头网络LCR - Net来有效地处理这两个任务。它利用新颖的特征提取和姿态感知注意力机制来精确地估计两两LiDAR扫描之间的相似性和6 - DoF姿态。

最强AI芯片英伟达H200深夜发布，Llama2-70B推理提速90%，2024年二季度发货

英伟达在 2023 年全球超算大会（SC2023）上发布了目前世界上最强的 AI 芯片 H200。

三星再出售ASML股份，获得10亿美元

全球最大的存储芯片制造商三星电子公司周二发布的第三季度监管报告显示，该公司已以约 1.34 万亿韩元（10 亿美元）的价格出售了荷兰芯片设备制造商 ASML Holdings NV 0.3% 的股份。

全球首颗用2D半导体做的芯片：1000个晶体管

当信息和通信技术 (ICT) 处理数据时，它们会将电能转化为热量。如今，全球 ICT 生态系统的 CO 2足迹已与航空业相媲美。然而事实证明，计算机处理器消耗的大部分能量并没有用于执行计算。相反，用于处理数据的大部分能量都花在了内存和处理器之间的字节传输上。

XR技术正助力医疗：虽然缺点重重，但已渐成主流

就在去年进行首次肩关节置换大手术的前几天，Jake Shine医生戴上VR头显开始工作。

iPhone 15 Pro系列正式支持空间视频录制；苹果指环输入设备新专利曝光

immerGallery是一款VR相册APP，最早于2022年4月上线，目前应用在APP Lab的售价为15欧元。近日，immerGallery迎来更新，现已支持在Quest 3设备上拍摄3D照片和视频。

消息称腾讯2024底在中国大陆独家代理销售 Meta VR 头显

11 月 13 日消息，据华尔街日报近日报道，Meta 已与腾讯达成初步协议，将在中国大陆销售其新的低价版 VR 头显。

为什么事件相机可能是计算机视觉的未来

计算机视觉是否即将迎来革命性的自我革新？

最强开源大模型刚刚易主！李开复率队问鼎全球多项榜单，40万文本处理破纪录

百模大战，最备受期待的一位选手，终于正式亮相！它便是来自李开复博士创办的AI 2.0公司零一万物的首款开源大模型——Yi系列大模型

栩栩如生,音色克隆,Bert-vits2文字转语音打造鬼畜视频实践(Python3.10)

诸公可知目前最牛逼的TTS免费开源项目是哪一个？没错，是Bert-vits2，没有之一。它是在本来已经极其强大的Vits项目中融入了Bert大模型，基本上解决了VITS的语气韵律问题，在效果非常出色的情况下训练的成本开销普通人也完全可以接受。

ASRU2023 | 基于隐空间变换的可区分说话人匿名

说话人匿名 (Speaker Anonymization) 的旨在保留原语音的音质和可懂度的情况下，隐藏说话人的身份，该任务的目标是满足以下要求：(a)输出语音波形；(b)隐藏说话人的身份；(c)保持语言内容和副语言属性不变；(d)确保来自给定说话人的所有数据均由同一个伪说话人发出，而来自不同说话人的语音由不同的伪说话人发出。目前主流方案通过将说话人表征和语义信息解耦，而后通过修改说话人表征来实现匿名。

GitHub 开源神器 Bark模型，让文本转语音更简单！

Bark 是由Suno创建的基于转换器的文本到音频模型。Bark 可以生成高度逼真的多语言语音以及其他音频 - 包括音乐、背景噪音和简单的音效。该模型还可以产生非语言交流，如大笑、叹息和哭泣。

语聊房架构演进实践

罗马不是一天建成的。语聊房当前架构也是不断演进的结果。在技术架构层面，语聊房作为搭建在直播体系上的业务，使用既有技术架构体系可以帮助我们快速搭建早期产品，但随着业务迭代，已有技术体系又成为新的技术架构的负债。

多容器动态化方案在游戏SDK中的实践

从产品运营角度来说，功能的用户触达是实现用户价值转化的最基本前提。所以如何快速将一个新的功能触达到用户，同时减少触达过程中对运营推广、用户带来额外的成本就成了一个必须被重视的课题。

音视频通信&边缘平台产品干货库

腾讯云音视频通信&边缘平台产品干货库

OpenAI开出1000万美元天价年薪，挖走谷歌顶尖工程师？北大AI博士未毕业拿百万offer

OpenAI和谷歌抢人抢疯了，一边给出500万到1000万美元的天价年薪，另一边许诺自己的offer薪水更高。而国内的AI博士也是遭到疯抢，还没毕业就要被几百万年薪挖走了。

大模型幻觉率排行：GPT-4 3%最低，谷歌Palm竟然高达27.2%

人工智能发展进步神速，但问题频出。OpenAI 新出的 GPT 视觉 API 前脚让人感叹效果极好，后脚又因幻觉问题令人不禁吐槽。

HTC Vive发布针对400名美军使用VR实训的调查报告

HTC日前发布了一份关于美军使用XR的报告《The State of Extended Reality (XR) Training in the U.S. Military/美国军队的扩展现实训练状况》。据介绍，这份报告对美国陆军、海军、空军、海军陆战队和海岸警卫队的400名现役军事培训师和专家进行了调查。

全部评论

作者介绍

LiveVideoStack

阅读排行

2周
4周
16周

热门视频

LiveVideoStackCon 2023 深圳站