音视频技术开发周刊 | 295

Max 2023年7月6日

微软炸通Windows与ChatGPT全家桶!人手一个Copilot,AI宇宙降临

三位OpenAI掌舵人亲自撰文:我们应该如何治理超级智能?

OpenAI 的三位联合创始人——CEO Sam Altman、总裁 Greg Brockman、首席科学家 Ilya Sutskever 共同撰文探讨了如何治理超级智能(superintelligence)的问题。他们认为,现在是开始思考超级智能治理的好时机了--未来的人工智能系统甚至比AGI的能力还要大。 

InstructPix2Pix: 用于图像编辑的动态扩散模型

本文提出了一种协作扩散模型,无需重新训练已有的单模态扩散模型便可实现多模态的人脸合成与编辑。这个方法在图像质量和条件一致性方面表现出优越性。

FreestyleNet:自由式布局到图像生成

本文提出了一个基于diffusion model的框架,即FreestyleNet,其可以从给定的布局(layout)生成包含丰富语义的图像。

天琴实验室发布三项开源大模型加速版本

天琴实验室MUSELight大模型推理加速引擎已在HuggingFace公开发布三个lyra系列模型的加速版本,具体可关注HuggingFace主页:TMElyralab。

生成式 AI 与版权法

当下的主要问题集中在使用版权作品作为训练数据是否侵犯版权,以及人工智能程序的输出是否侵犯使用图像的衍生作品。

生成式AI,可以设计芯片了

百闻不如一试,目前PaLM 2已经在谷歌的Bard平台上线开放公测,因此作者也尝试使用Bard去体会了一把PaLM 2生成Verilog代码的能力。

AIGC新玩法:任意模态输入、任意模态输出

使用AI技术,帮助听力障碍者更好地生活

英特尔宣布了帮助听力损失者的新技术,其中包括一种可以实时转录语音的AI系统。系统内置于名为 SoundWatch 的应用程序中,该应用程序使用机器学习算法来检测和识别声音,它还可以为火警或门铃等重要噪音提供警报。此外,英特尔还开发了一款新的无线耳塞原型,可以帮助用户在嘈杂的环境中更好地听到对话。这些新技术有可能大大改善听力损失者的生活质量。

https://www.intel.com/content/www/us/en/newsroom/news/intel-brings-more-tech-people-with-hearing-loss.html#gs.ykq823

LIveVideoStackCon2023上海站九折期优惠进行中

https://sh2023.livevideostack.cn/tickets