LiveVideoStack

建设元宇宙基础设施 ——PPIO 边缘云在云渲染 / 云游戏的思考和实践

元宇宙

2023年4月28日

关于 “元宇宙” 的讨论越发火热，而建设元宇宙不可避免需要布设基础设施，LiveVideoStackCon 2022 北京站邀请到 PPIO 边缘云联合创始人 —— 王闻宇，同大家探讨元宇宙网络时延的最优解–边缘云基础设施的架构与建设，并介绍 PPIO 边缘云在泛云游戏领域的一些思考和实践。

文 / 王闻宇

编辑 / LiveVideoStack

“元宇宙 “源于 1992 年出版的美国著名科幻小说 ——《雪崩》（Snow Crash）。

在他的描绘中，所有现实世界中的人在元宇宙中都有一个 “网络分身”。数字世界主干道灯火通明，可容纳数百万人的 “网络分身” 在街上往来穿行。

包括后来的《黑客帝国》《头号玩家》《赛博朋克 2077》等所有元宇宙作品，都描述的是在视网膜级视觉体验中，也就是人的视觉完全沉侵在虚拟的计算机世界中。

2014 年，Facebook 以 23 亿美元收购了 Oculus，并在 VR 业务上持续投入了大量研发费用。Facebook 和 Ray-Ban 公司研发轻便型 AR 眼睛 ——Ray-Ban Stories，并且研发 Project Nazare 从而实现 MR 眼镜。

Facebook 提炼出了元宇宙的 8 个特点：

①身临其境感（Feeling of Presence）②虚拟形象（Avatar）；

③家庭空间（Home Space）④远距离传输（Teleporting）；

⑤互操作性（Interoperability）⑥隐私安全（Privacy and Safety）；

⑦虚拟物品（Virtual Goods）⑧自然界面（Natural interfaces）。

第一要素是身临其境感，即完全把人类的视听觉包裹在沉浸世界中。

近期 AIGC 发展势头很足，包括 ChatGPT 及 AI 作图 Midjourney 等产品的诞生，都彰显着 AI 已经进入新的高速发展的时代。元宇宙和 AI 结合的终局会是怎样呢？我设想未来会有一款超级设备，首先用脑机接口从人脑中读取信息，再通过 AIGC 实时生成完全 3D 且高清的画面，通过 AI 设备实时回传到人的神经视觉中，从而实现 “所想即所得” 的状态，即想到的事情会瞬间反映为所见所听。

在我看来，不论科幻还是现实，元宇宙终极追求的是，类真实世界的音视频体验。我提出了 “视网膜级视觉体验”，那么技术上要如何做到呢？且看下文分享。

我是王闻宇，现任 PPIO 边缘云联合创始人、CTO。我从 2004 年开始做音视频，当时的网络情况较差，我在学生宿舍写出 PPTV 第一版，后来主导了 PPTV 的音视流，P2P/CDN，点播，直播，编解码等，担任 PPTV 首席架构师。2014 年暂时地离开音视频行业，联合创办极豆车联网，服务 BBA 车厂。2018 年与原 PPTV 创始人姚欣联合创办了 PPIO 边缘云，发展靠近用户侧的边缘节点，提供边缘的算力，传输，存储业务，主要服务音视频行业。

VR 的视觉原理是靠双眼产出不同图像后在大脑中产生视觉差，继而大脑通过细微差距计算输出 3D 效果。也就是说要使人眼产生 3D 视觉，就必须渲染出两种不同的画面。

大家可能疑惑多少分辨率才能实现视网膜级体验。图中是人眼结构，PPD 是每度像素，FoV 是视域 / 视场角。视网膜屏最初由苹果定义，假设手机屏幕距离人眼 40cm，视场角为 10 度，覆盖 640 像素，推演得到 300PPI，此时的人眼分辨率最精准。iPhone 14 的 PPI 已经提升到了 460，这是因为 iPhone 14 假设屏幕距人眼 25cm。根据 iPhone 4 和 14 进行倒推，同时我浏览了大量关于人眼精度的测验报告，根据多项实验证明，视网膜分辨率大概是 60PPD，即每度 60 像素。

图中数据来自多位科学家的实验结果，既然我们已经知道了 PPD 是 60，那么 FoV 又是多少？人眼是一个非常精细的器官，中心地带的视觉比较清晰，周围则较模糊。大量资料中提到窄域和宽域，窄域是人眼感知非常精确的部位，视场角大概是 60 度，宽域是眼球不刻意转动时单眼的视场角，大概是 25 度，双眼会更高。

为了达到视网膜级视觉体验，元宇宙设备需要覆盖宽域，这是因为戴在眼睛外，需要达到全方位清晰。将 124 度乘以 60PPD，得出 7740，由于人眼是球状的，所以分辨率接近 7740*7740，计算得出像素在 6000 万左右。

对比当前常见的分辨率，人眼宽域最高精度是单眼超过的 8K 多一些，也就是说元宇宙设备的分辨率必须达到 8K，才能实现视网膜级视觉体验。

图中是当今世界主流 VR 设备的参数，目前最先进的是 Pimax 8K X，分辨率达到单眼 3840*2160，当然其价格较贵，（不属于消费级产品，用于工业为主），距离视网膜级视觉体验要求还差 3-5 倍，所以可能还需 5-10 年才能出现一款达到要求的设备。

AR 设备运用了光学反射原理，其 FoV 难以做高。右侧是市面上所有 AR 设备的参数，可以推断 AR 设备达到视网膜级视觉体验至少还需 10 年。

另一个概念是刷新率，即达到类真实事件体验时每秒出现的画面帧数，目前没有严格的评测人眼的刷新率。电影界共识是 24 帧 /s 可以让人眼感受不到画面晃动。从现在手机 / 显示器的实际体验来看，60 帧基本满足显示效果，120 帧完美满足高速动作（一般 PFS 射击游戏玩家会比较在意），240 帧则为发烧级。在后面的测算都采用的 60 帧。

那么 60 帧、8K 的画面需要多少码率呢？以上是截止 2020 年的音视频编解码算法评测数据，其中表现较好的是 AV1，即单眼 68Mbps 的码率。这里差不多，内容不同，会有些差些，我们暂时采纳这个数字来作为测算。

图中总结了目前消费级的能够支持 8K 分辨率，120Hz 的渲染显卡。整体看来，无论是 NVIDIA 还是 AMD，它们的功率基本在 350w 左右，重量大概为 2kg，所以实时渲染 8K 高清画面的发热量和重量都非常高。

我以最新的 NVIDA GeForce RTX 4090 为样本进行了测算，试想无论是 VR 或 AR 设备，在终极状态下，为了实现双眼 8K 的算力，需要承载两张 4090 显卡，其发热量相当于一匹空调，重量达到 5kg，再加上电磁辐射，结论是不可能在人们的头上戴这样的设备。要解决视网膜级视觉体验，唯一的办法就是引入串流方案。从云端或者局域网，通过串流方式到达 VR/AR 设备，此时的 VR/AR 设备仅仅作为渲染和反馈的终端，而非计算终端，这是未来必然的趋势。

大家可能会说，芯片技术不断发展，也许几年后能够做小做轻。

右侧是 iPhone 芯片工艺的发展历史，从 2007 年的 90nm 到 2022 年的 4nm，其遵循的摩尔定律即将达到极限，1nm 相当于 3-5 个原子紧密排列的长度，若继续压缩，会出现热效应、量子效应、成本及工艺问题，这都意味着其不可能性。

从事芯片相关行业的同学可能会提出 SIP 封装技术，但 SIP 封装技术只是更高密度的工程优化，并不是纳米技术的本质突破，它可以通过堆叠提高算力，但无法降低重量和发热量。

前不久可能大家也听说了，量子计算机取得了大的突破，资料显示量子计算机的原理主要包括超导原理和离子阱原理，前者需在超低温下运行，后者在高温下运行，无论如何都无法存在于日常家庭中，即使要用也只可能放在云端机房。

综上，在能预见到的未来，要实现终极的视网膜级视觉体验，是无法摆脱音视频串流技术方案的。

提到串流，不得不考虑一个问题：VR 设备为什么会导致眩晕？

这是由于大脑感觉 “被欺骗”，包括瞳距、景深等问题，但难解决的是 M2P 时延问题，即运动到光子的时延，当人的头移动后，画面是否能足够低时延地反映效果，若是慢了，大脑会产生 “被欺骗” 的感觉，从而引发 M2P 时延。许多评测数据显示，低运动状态下，M2P 时延不能高于 20ms，高运动状态下，M2P 时延不能高于 7ms。

在当下的串流方案中，包括编码、解码和传输环节，即使做到极限，也很难达到 20ms 的响应值，基本在 30-100ms 之间。最复杂的瓶颈在网络时延环节，因为它和基础设施有关，和非常分散的网络环境部署相关，不是仅仅单方面的努力就能改善的。

因此，要用边缘云的方案来解决这样的问题，也就是要将算力放在靠近用户的边缘，在这可以分布式应对高并发、大带宽、能真正地做到低时延。

只有将云计算的算力从千里之外放到社区周边，才可能实现超低时延。

图中是我们进行的数据测量，在大流量高负载的传输中评估的（至少是每秒 50Mb 的传输），即达到城域网级别时，时延可以达到 5ms 及以下，再结合编解码等其他环节的时延优化，才能控制在 20ms 以下，达到 M2P 时延要求，这非常具有挑战性，也是未来需要长期坚持的事。

再推演一下，全国需要多少节点才能实现这件事呢？

城域网节点基本覆盖在县级，全国三大运营商，考虑部分人口密集的城域网要布设多个节点，边缘云差不多要覆盖 1w + 个节点才能覆盖所有的城域网。

PPIO 正通过汇聚边缘碎片化算力资源，提供超低时延的边缘计算服务。我们要和中心云形成良好的协同，边缘云并非中心云的替代品，而是起到补足的作用，从而更好地解决客户需求。

在我看来，凡是需要边缘节点，利用算力进行实时渲染，通过 RTC 技术，流媒体方式、端通信技术，统称为 “泛云游戏”，包括云游戏、云手机、数字孪生、VR/AR 等，泛云游戏可以说是元宇宙的音视频初级形态。

随着未来设备的升级，其终局可能就是视网膜级视觉体验。

PPIO 也正在建设未来元宇宙的基础设施，应用场景包括长短视频、互动直播、云通讯、云游戏、AR/VR。随着方案的逐步升级，时延会越来越低，这里的时延指的是触控时延。

云游戏的时延只要达到 50ms 就能让玩家获得良好的体验，但 VR/AR 需要 20ms 的时延（M2P 时延要求），其中 AR 要求时延更低，因为它存在和现实世界同频的问题。

PPIO 边缘云在发展的同时，也在全国高速建设节点，至今已经覆盖了 200 + 个城市，1000 + 个区县，达到了 30T 的带宽规模。

PPIO 服务了云游戏平台及元宇宙场景。前者包括跨端随心玩，支持在移动端、TV 端随时随地玩 PC 端游，让玩家游戏不中断，后者包括元宇宙营销、元宇宙社交、元宇宙空间及元宇宙线上发布会。

我们也沉淀出了比较完善的云游戏 IaaS 实践案例，从硬件，基础服务到业务接入一系列的过程。此外还支持 X86 及 ARM，能够在云端运行安卓程序。

在机房部署方面，我们也有完善的云端解决方案，通过控制台引入需求，再通过接口依靠无盘系统，通过高速内网调用周围机器，及 RTC 转发服务，使用户形成 streaming 的效果。

图中是无盘方案的细节，既能支持游戏下载、镜像存储，还支持回写，将用户存档有区别地保留下来。

PPIO 主张高性价比、强大云能力及对游戏体验进行优化。

关于元宇宙未来发展趋势的思考，我设计了一个公式：音视频服务用量 = 使用服务的在线用户数 * 算力用量 = 设备数 * 联网率 * 平均使用渗透率 * 算力用量（算力用量包括码流率和渲染 / AI 算力）。

目前国内视频 CDN 约 500T，70% 左右集中在移动设备上，10 亿移动用户每人每天上网 7～8 小时，其中 30% 时间用于视频。试想，未来实现了视网膜级视觉体验，双 8K + 分辨率，它所带来的整个音视频服务用量会是现在的几十倍甚至上百倍。虽然短期流量有些波动，但从 3～10 年是未来看，我相信各位从业者的前景都非常好。