音视频技术开发周刊 | 297

Max 2023年7月5日

Geenee AR为品牌商和零售商提供虚拟试穿应用

这意味着Geenee AR的虚拟试穿解决方案能够与品牌商现有的销售渠道无缝集成。

 

谁说苹果掉队了?WWDC上只字未提AI,却已低调入场大模型

尽管苹果没有在 WWDC 上谈论AI 大模型,但他们介绍了一些基于 AI 的新功能,如改进iPhone 的自动更正功能,当你按下空格键时,它可以完成一个单词或整个句子。该功能基于使用 Transformer 语言模型的 ML 程序,使自动更正比以往任何时候都更加准确,而 Transformer 是支持 ChatGPT 的重要技术之一。

用于开源项目的 ChatGPT 驱动的代码审查器机器人

ChatGPT可以审查代码了:作者利用开源的ChatGPT制作的代码审查机器人,可以进行代码审查,并提供有关代码质量、安全性和最佳实践方面的反馈。

https://www.cncf.io/blog/2023/06/06/a-chatgpt-powered-code-reviewer-bot-for-open-source-projects/ 

使用 SQuId 评估TTS模型

文章评估了TTS的系统表现。作者介绍了一种名为“ManyEars”的自动评估框架,该框架可以同时处理多个声学和语言特征,并使用机器学习算法来生成客观的质量评估指标。他们还提出了一种基于GAN(生成对抗网络)的数据增强方法,以帮助改善TTS模型的性能。 

https://ai.googleblog.com/2023/06/evaluating-speech-synthesis-in-many.html

视觉字幕:使用大语言模型通过动态视觉效果增强视频会议

本文介绍了一个新的视觉字幕生成模型,该模型使用大语言模型训练,自动生成对图像的描述。该模型在未来可能会被用于诸如辅助无障碍输入、图像搜索和自动图像描述等领域。

https://ai.googleblog.com/2023/06/visual-captions-using-large-language.html、

高翔博士分享:单目SLAM在移动端应用的实现难点有哪些? 

 

华为手机的"超光谱摄像头"

 

英伟达发布Neuralangelo,借助神经网络将2D视频转换为更精细的3D结构

Neuralangelo可以生成雕塑的具有复杂细节和纹理的3D结构。然后,创意专业人士可以将这些3D对象导入设计应用程序,进一步编辑它们以用于艺术、视频游戏开发、机器人和工业数字孪生等应用。