LiveVideoStack

音视频技术开发周刊 | 300

人工智能 AIGC 编解码

Max 2023年7月4日

人工智能

著名数据和AI企业Databricks，收购类ChatGPT开源平台MosaicML

6月27日，Databricks在官网宣布，以13亿美元（约94亿元）价格收购了类ChatGPT开源平台MosaicML。本次交易是全球生成式AI赛道第一笔超过10亿美元的收购。

LangKit：ChatGPT等大语言模型界的“安全管家”开源了

ChatGPT等大语言模型一直有生成虚假信息、数据隐私、生成歧视信息等难题，阻碍了业务场景化落地。为了解决这些痛点并增强大语言模型的安全性，AI和数据监控平台WhyLabs推出了LangKit。

加速大模型应用落地，“火山方舟”正式发布

6月28日，在2023火山引擎V-Tech体验创新科技峰会上，火山引擎发布大模型服务平台“火山方舟”，面向企业提供模型精调、评测、推理等全方位的平台服务（MaaS，即Model-as-a-Service）。

理解指向，说出坐标，Shikra开启多模态大模型参考对话新维度

在人类的日常交流中，经常会关注场景中不同的区域或物体，人们可以通过说话并指向这些区域来进行高效的信息交换。这种交互模式被称为参考对话（Referential Dialogue）。如果 MLLM 擅长这项技能，它将带来许多令人兴奋的应用。例如，将其应用到 Apple Vision Pro 等混合现实 (XR) 眼镜中，用户可以使用视线注视指示任何内容与 AI 对话。

LinkedIn 将开放 AIGC 辅助撰写简历功能

面向职场的社交平台LinkedIn，将生成式 AI 引入帖文写作中，此项功能在测试完成之后会面向所有用户开放。

ChatGPT的iPhone应用程序更新：添加了Bing搜索引擎

ChatGPT for iOS现在提供与Bing搜索的连接。这意味着AI驱动的ChatGPT应用程序，能够获取更近期的信息，而不仅仅使用它在训练过程中所接触到的旧数据（ChatGPT知识库截至2021年）。

https://www.digitaltrends.com/mobile/chatgpts-iphone-app-now-has-bing-built-in/

字节跳动服务器芯片负责人创立 RISC-V CPU 公司，估值超 1 亿美元

据获悉，字节跳动前 RISC-V 和服务器芯片项目负责人卢山已离职创业，成立蓝芯算力，方向为 RISC-V 数据中心 CPU（中央处理器），蓝芯算力正在进行首轮融资，投前估值超过 1 亿美元。

芯片工艺决定了未来计算芯片架构

论文作者总结了ISCA（国际计算机架构会议）举办至今五十年内，每个十年发表论文的共性主题，结合论文主题和半导体芯片工艺两者的变化进行了脉络梳理。在此基础上，作者提出观点：未来十年将是计算芯片架构领域的黄金十年。

Meta一直在为自主研发尽可能多的芯片做出努力

本月初，苹果发布了其Vision Pro混合现实头戴设备，将激化Apple和Meta之间在AR和VR市场的竞争。在过去的五年中，Meta一直在努力自主研发尽可能多的芯片，以更好地区分其产品与苹果的产品。

https://www.theinformation.com/articles/how-meta-stumbled-in-quest-for-chip-independence

COMSOL：基于图像数据生成网格的方法

这篇文章解释了COMSOL 软件如何帮助用户，利用三维成像技术获得的数据生成仿真网格。

老照片修复算法：具有细节和结构增强的修复网络

论文作者在这篇文章中，提出了一种级联的由粗到细的老照片修复算法，可以同时恢复老照片中的结构化和非结构化损伤。

科学量化的色差值DE不一定能真实反映人眼感受的颜色差异

在工业界，对于色差公式在人眼可感知阈值或者可接受容限附近色差的预测性能非常关注，因为色差公式对于产品颜色质量控制的评价主要处于这个色差范围。但人类对大自然中不同色彩的辨别能力是不一样的。

绿屏的6种检测方案

在这篇文章中，作者使用了opencv检测、图像全域检测等六种方案尝试解决问题，并提出了关于提高方案效率和健壮性的若干建议。

沉浸式视频流媒体的Versatile Video Coding（VVC）标准

该论文介绍了VVC（Versatile Video Coding）标准及其在沉浸式视频流媒体中的应用，以及VVC的ISOBMFF存储格式。

聊聊新一代蓝牙技术：LE Audio横空出世，无线耳机迎来进化

这篇文章梳理了蓝牙技术的发展脉络，并介绍了常见的蓝牙音频格式，并详细阐述了为何LE Audio能成为未来蓝牙音频中的主流。

建设高性能终端平台——传音元宇宙的基础设施探索

本次分享将分为三个部分，第一部分介绍全球用户在音视频业务中的痛点；第二部分主要阐述传音针对不同用户所研发的网络优化，音视频影像，游戏体验优化等技术。第三部分详细介绍了，为提前布局元宇宙，并在AIGC时代迎来新的机遇，传音针对不同地区的人群研发了AI语音，虚拟人等技术；在未来也将在终端平台搭建异构计算，交互体验预测等新的技术平台。

华科开源：半直接法视觉-激光雷达里程计 SDV-LOAM

在这篇文章中，作者提出了SDV-LOAM，它结合了半直接视觉里程计和自适应扫描到地图激光雷达里程计，用于避免跟踪误差、实现高跟踪精度。

远程渲染虚拟现实中的眼底部分聚焦空间压缩技术

在远程渲染的虚拟现实（VR）中，应用程序的渲染被移至云端，使得高质量实时内容可以在低功耗的独立式头戴显示器（HMD）上消费。此篇论文探讨了，在远程渲染的虚拟现实中应用聚焦技术和超分辨率的策略，以解决延迟和高带宽要求的挑战，并优化传输的图像质量。

https://dl.acm.org/doi/pdf/10.1145/3597063.3597359

Zoom加入AOMedia，双方的“见面礼”不仅是AV1

6月21日消息，视频会议软件Zoom加入了开放媒体联盟（AOMedia），成为了该联盟组织的其中一员。这意味着，下一代编解码器AV1有望获得Zoom公司的支持。

LiveVideoStackCon 2023 上海站日程发布

LiveVideoStackCon 2023 上海站音视频技术大会以「沉浸·新视界」为主题，除了探索音视频技术在不同场景下的融合与发展外，还增添了游戏、AIGC和数字化行业案例等新鲜火爆的话题。在这里，你可以感受到多媒体生态内的头部公司、顶级玩家对行业当前发展趋势、瓶颈挑战，与对未来规划的深入解读。

我们将邀请60余位顶级讲师聚集一堂，与你共同分享他们的专业见解。这是一个与业内顶尖专家进行深入交流的绝佳机会，你将有机会亲自与他们面对面，从他们丰富的经验中获得宝贵的技术心得。