音视频技术开发周刊 | 294

Max 2023年7月6日

五问「ChatGPT+医学影像」:新一代的 AI 能否成为放射科医生的一把利器?

在医学等专业性较强的领域内,ChatGPT的表现还不够好,如果想将ChatGPT应用到医学影像之中,多模态学习必不可少。医学领域中目前存在很多的图像、音频、文本等不同种类的数据,必须利用多模态学习将其进行结合,才能应用在临床工作中。

 

SAP与微软合作,通过ChatGPT简化招聘流程

通过此次合作,SAP将微软的多项类ChatGPT功能集成在人力资源解决方案SAP Success Factors中,通过自然语言就能生成职位描述、面试问题等,加速人才招聘流程。

 

谷歌通过强化学习来优化电子商务推荐系统 

传统的推荐系统往往只关注单一目标,如点击率或购买率,而MORL则可以同时考虑多个目标,例如用户满意度、收益和转化率等。通过对这些目标进行综合权衡,谷歌团队的推荐系统可以更加准确地预测用户的偏好并提供更有针对性的推荐。 

https://ai.googleblog.com/2023/05/using-reinforcement-learning-for.html

LLM Accelerator:使用参考文本无损加速大语言模型推理

由于大模型的参数量巨大、推理成本高,因此如何在大规模部署大模型的过程中降低成本、减小延迟是一个关键课题。针对此问题,微软亚洲研究院的研究员们提出了一种使用参考文本无损加速大语言模型推理的方法 LLM Accelerator,在大模型典型的应用场景中可以取得两到三倍的加速。

 

ChatGPT之父舌战国会山!OpenAI欲与政府联手,权力通天 

北京制定通用人工智能创新措施,这21项值得关注

一种高效模拟大型室内声学的方法 

室内声学建模和仿真的一个挑战是准确模拟一个房间内全部频率范围内的声学性能。这篇文章讨论了在 COMSOL Multiphysics® 软件中对室内声学进行建模的一种混合方法,就是将多种方法的结果集成到一个模型中,来提高准确性并确保方法的可行性。接下来,我们来看看如何做到这一点。

 

音频品鉴与歌唱评价——音频内容理解实践

本次LiveVideoStackCon 2022 北京站邀请到腾讯音乐天琴实验室高级研究员——江益靓,为大家介绍全民K歌的多维度评价技术和深度歌唱评价技术的实践,以及优质内容挖掘中使用的音频品鉴系统。

为什么我们能判断声音的远近 - 初始时间延迟差的作用

本文以初始时间延迟差为例,来介绍应该如何设计对应的听力测试,探究其在双耳距离感知中的作用。 

SMPTE Motion Imaging Journal 2023 | COTS实用媒体处理平台构建案例 

为了在商用非专用硬件上使用来自不同供应商的元素构成可扩展的基于软件的广播系统,并避免在设施和云中的锁定,需要采用混合多云方法。作为一个案例研究,本文构建了一个可扩展的边缘平台,用于转码、人工智能(AI)推理和其他视频和音频处理。多架构、容器化应用程序使用 Kubernetes 进行部署和管理。

使用FFmpeg模拟视频播放列表的实时流

本文展示了如何使用FFmpeg生成一个m3u8播放列表文件以及相关的ts媒体文件,并通过本地服务器将其提供给客户端进行播放。此外,文中还讨论了一些常见问题和解决方案,例如如何处理不同分辨率的视频、如何支持HTTPS等等。

https://www.mux.com/blog/simulate-a-live-stream-of-a-video-playlist-with-ffmpeg

SRT 技术是如何改变现场视频直播的?

据2023年的HAIVISION的广播转型报告显示:SRT已经成为互联网直播视频传输最常用的流媒体协议。2023年,SRT联盟成立六周年,成员超600人。

https://www.haivision.com/blog/broadcast-video/live-video-evolves-with-srt-technology-and-the-internet/