LiveVideoStack » AI重新定义音视频生产力“新范式”

编者按：AIGC无疑是当下的热门话题和场景。面对AI带来的技术变革和算力挑战，该如何应对？LiveVideoStackCon 2023上海站邀请到了网心科技副总裁武磊为我们分享网心在面对AI应用场景和业务需求下的实践经验。

文/武磊

编辑/LiveVideoStack

大家好，我今天分享的主题是AI重新定义音视频生产力“新范式”。

分享内容主要分为三部分：①AI引领内容消费升级；②“云”训练“边”推理是最优架构；③网心的音视频架构演进。

-01-

AI引领内容消费升级

首先是内容视频化。过去几年，整个社会的表达、创作都在视频化转型与升级。从人类自身来看，大脑处理视觉信息的速度比文字要快60000倍，视觉辅助可以将学习效率提高多达400%。这在科学层面印证了视频化叙事的喜闻乐见。从中国整个视频用户规模来看，2010到2022年的12年时间里增长了3.5倍，并于2022年网络视听用户规模也正式超越了即时通讯，成为互联网第一大应用。而移动互联网的用户使用时长更能反映出这种趋势，2019年短视频用户使用总时长还落后即时通讯15%，到2021年已经实现反超，今年5月这一数据已经扩大到6.1%。

第二点是优质内容视频化效率有待提升。从网文到漫画、电影的内容视频化，产生了很多成功的商业案例。斗罗大陆最早在起点中文网上连载，到2018年点击量达到6千多万，期间也改编过动画，凭借着广泛的受众面，在游戏化后创造了破百亿的累计流水。还有大家熟知的鬼吹灯系列，2015年改编上映的《寻龙诀》电影，由陈坤和黄渤等主演，票房高达16.8亿，成为当年度中国电影票房第三名。

优质IP的视频化拥有非常显著的经济效益，但从视频化的效率上来看，还有很多待提升的空间。比如将IP拍成电影，需要经历剧本的打磨、选角、道具准备、拍摄、后期制作、宣发、时间和人力上都是巨大的投入。以阅文为例，2022年进入IP改编的作品还不到新增作品的0.5%。随着AI技术的加入，在剧本、剪辑、配音、特效、宣发海报等环节，都能够很好地利用AI工具实现自动化生成，带来效率提升。

第三点是AI+音视频的全方位创新。从图片、音乐、配音、视频和交互等各方面已经有了很成熟的应用。

最近发生了好莱坞罢工事件，演员和编剧们对于被AI取代的担忧已经逐渐成为了现实，技术的革命意味着行业的洗牌和利益的重新分配。

以游戏制作为例，在AIGC的加持下逐渐构建出来了新的创作模式与内容价值。具体来说：1、AIGC可以给创意产生提供思路，同时提升画质和交互性。2、为游戏制作提效。我们都知道《原神》，它从立项到上线测试耗时2年左右，如果在一些环节使用AI的确可以提升游戏制作效率，例如网易现在用自研AI技术应用于游戏工业化全流程，对关键环节的工作效率提升多达90%。3、降本，由于减少了人员和时间投入，可以很好地降低制作成本。4、玩法迭代，助力游戏创新。

来自第三方的调查数据显示，游戏行业平均研发费用占收入比例为25%左右，如果用AI的方式，可优化制作成本约266亿元，40%的研发成本可以得到优化。这里包含了美术设计、自动化测试、音效制作等环节。

从文字到视频，用户量级呈几何倍数的增加。阅文2022年平均月付费用户为790万人，而视频应用仅爱奇艺一家会员用户就是过亿，抖音用户更是达到惊人的8.09亿。视频的特点是内容听得到、看得着、强交互，具有广覆盖的用户群体，从网文到音视频的转化，网文IP价值进一步放大，随着AI的加入，生成大量的虚拟人物，产生强互动，为元宇宙的到来奠定基础。

从文字到音视频的内容消费升级，内容生产成本从过去的以人工单位定价转为算力定价。过去的配音、动漫制作、影视剧制作还是游戏开发，核心的成本还是人员投入。但在AIGC模式下，平均算力成本主要由GPU性能等决定；训练成本与推理成本的比例大约是1：9，以Midjourney为例，大约10%的云成本用于训练，90%是用户制作图像的推理。

AI的投入，在带来生产力质的飞跃同时，背后是天量算力的缺口。OpenAI分析表明，2012-2019年，AI训练使用的算力每3.5个月就会翻一倍，相对比摩尔定律是每18个月翻倍，对算力的需求七年增长了30万倍。而巨大的算力需求背后是高昂的算力成本。以GPT3训练为例，单次训练成本高达460万美元，日常运营对应的单月运营成本高达千万美元。

-02-

“云”训练“边”推理是最优架构

实际上，边缘计算一定不是建设驱动和比拼资金密度的行业，基于碎片化的供给，会有很强的平台效应。

网心通过合作招募+自建+共建等方式触达到的云、边、端的资源，这也是网心从2015年一直从各个渠道拓宽触达更广的边缘资源。有了稳定供给的资源，中间一层核心工作是异构资源的治理和标准化，通过统一的接入流程，千万节点的容器化的平台支撑，做到资源的合理调度和高效应用。最上层是我们的解决方案产品矩阵，网心当前两大成熟场景：边缘计算平台和基于边缘资源的带宽加速解决方案。

网心的定位是做边缘云计算服务提供商，提供支持未来任何算力的需求场景；在算力场景，我们构建了一个健壮，弹性，高可用的基础设施平台，通过智能调度服务，能够更加经济节省的满足客户的AI推理，自动驾驶，工业互联网等场景需求。

我们希望通过提供底层的边端资源，中心云进行模型训练、算法迭代等，得到一个合适的推理模型放在边缘做数据建模。例如，我们最近在和某电动汽车厂商合作，尝试把智能语音模型推理从云端改到边端。

接下来讲一下新架构带来的变化。

第一、多云融合，需要把中心云和边缘云的能力进行契合，通过探索和实践实现训练和推理的无缝衔接。

第二、资源视图升级为服务视图，我们不仅作为资源提供方，更要亲身实践，提供相关的服务。

第三、边缘云的多层计算力分配，将分散、异构、多层级、闲置的算力集合起来。

第四、延时降低，交互增加，带来更多的沉浸式和“临场感”需求，需要增加相应的技术积累。

在此基础上，我们提出IAAS+架构。最底层就是上文提到的中心云与边缘云的合作，以提供更好的资源管理；中间层通过模型托管平台，把开源和闭源模型做好衔接；最上层是应用层，包括端到端应用等。

在AIGC实践上。我们尝试将AIGC中的某些业务模块，所需要的算力从中心下沉至边缘节点，当然目前还是将数据回传至中心存储，未来希望能直接存储在边缘，达到真正的云边端协同。

-03-

网心的音视频架构演进

AIGC的爆发会使更多的内容在边缘产生，同时带来了低延时的需求。

在直播场景中，需要将一路流拆分成多路，分配到离用户更近的边缘节点，在播放端需要这路流时，寻找多个边缘节点拉起多路子流合成最终直播流。这个流程目前已经相对成熟，无论是在QoS还是QoE方面，都和传统的方式没有太大差异。

目前我们的要求有两点：1、质量上与云厂持平，包括流畅度、画质、延时等；2、成本上保证边缘要服务80%以上的流量。在关键技术点上，云负责起播和回切，边负责多链路传输通道以及网络传输优化。

在做双端优化的过程中，我们通过用户端的网络容量评估，实现对单个链路的带宽分配，通过用户和每个链路之间的实时质量评估以及冗余FEC多通道容错机制，尽量减少重传。

在云游戏中，延时要求更高。接入端和玩家距离越近，延迟越低，网心智能调度服务可以根据网络距离实现最优覆盖，通过调度返回最优节点列表，实现更低延迟。

在这里，谈谈基于Serverless构建边缘算力服务。内容在边缘产生，边缘是一定有用的。内容在边缘分发，超低延时的技术积累一定有用。

内容在边缘大量产生，就需要把它们组织起来。我们目前的思路是，中心云在Serverless存在实践难点，而在边缘云当中是刚需，所以需要充分发挥新业务+端+Serverless相结合的优势。

网心作为全球边缘计算创领者，从2015年至今一直深耕边缘计算，目前拥有首屈一指的边缘网络资源，而且资源的丰富度和异构度是非常充足。

关于未来网心的业务演进方向，大致是三步走的策略：

第一步是降本增效，采用更高效的方式、更好的资源配比，助推企业良性扩张。

第二步是功能迭代，在算力场景下不断积累，逐步探索和实践出真正能跑通的业务场景和商业模型。

第三步是构建生态，推动边缘网络和算力叠加，对接产业场景并实现产业场景产品化，并构建开放网络平台，吸引开发者、合作伙伴共同构建生态。

以上就是我的分享，谢谢大家！

LiveVideoStackCon是每个多媒体技术人的舞台，如果您在团队、公司中独当一面，在某一领域或技术拥有多年实践，并热衷于技术交流，欢迎申请成为LiveVideoStackCon的出品人/讲师。

扫描下方二维码，可查看讲师申请条件、讲师福利等信息。提交页面中的表单完成讲师申请。大会组委会将尽快对您的信息进行审核，并与符合条件的优秀候选人进行沟通。

扫描上方二维码

填写讲师申请表单

AI重新定义音视频生产力“新范式”

AI重新定义音视频生产力“新范式”

「线上分享」采用Zynq系列FPGA实现NDI AV over IP 应用

「线上分享」基于AMD MPSoC的AV over IP创新解决方案

「线上分享」AMD面向8K UHD应用解决方案