我一向都是游戏水平比较菜,但是视觉上的极度强迫症,不把画质拉满不舒服斯基。看见用上各种炫酷技术的 3A 游戏就会感到振奋。但在之前 20 年我们玩的一直都是国外的 3A,而黑神话悟空自从 2020 年公布 13 分钟的实机视频以来,就作为中国的第一款单机 3A 大作备受期待。而现在黑神话悟空终于发售了,其在首日 Steam 同时在线人数就超过 220 万,位列所有游戏第二仅次于绝地求生。
当然为作为一个有点极端但又手残的画面党,我最关心的并不是游戏的剧情 / 操作,也不是销量和商业前景,而是游戏的画面表现 / 技术和性能,我在第一次使用 RTX 4090 跑黑神话 Benchmark 的时候,这画质这帧率不仅让我怀念起 2007 年使用 8800 GTX 运行 Crysis 1024x768 跑 25FPS 的好日子,感觉到幸福。我这样的画面党是很纯粹的,因此我在这里只谈画面和性能,而不展开谈游戏性 / 剧情 / 销量乃至扩展出来的中国人第一个 3A 这样的家国情怀。
本文可能是知乎内原创的最详细的黑神话悟空的性能 / 画质测试项目,点个收藏您不亏。
测试的简单说明
- 本次测试使用的是 14900K+ROG APEX Encore+ 金士顿 DDR5 6800 16GBx2 OC 8000 作为测试平台。
- 显卡采用 NVIDIA 全家桶,包括目前已经停售的 GeForce RTX 4090,不过我们的测试重点放在了 RTX 4070 SUPER 这条线,希望匹配主流配置人群。
- 测试驱动是针对黑神话悟空优化 560.87 版本,和 NVIDIA day-0 发布的公开驱动 560.94 一样,大家可以前往 GeForce Experience 和 NVIDIA app Beta 版中下载最新公开驱动。
超分和超帧的问题
现在有不少人说黑神话悟空设置的分辨率和帧率是假的,的确,的确是假的。现在游戏默认是开启超级分辨率和帧生成,这样说并没什么问题。问题是假的就是真的罪大恶极么?在讨论画面和性能之前,必须要说明这个问题,否则后面的数据理解就无从谈起。
因为虚幻 5 引擎对于渲染系统有极大压力,所以虚幻 5 引擎是默认开启超级分辨率的,使用虚幻 5 引擎的黑神话也不例外。黑神话悟空在图像设置里有个超采样清晰度的设置,这个设置比率是实际渲染分辨率的单方向的像素比率,比如 3840x2160 设置 50 的超采样清晰度,那实际渲染分辨率为 1920x1080,虽然总像素数量仅为原始分辨率的 1/4,但通过超采样算法,可以将渲染分辨率通过插值算法拉伸到输出分辨率。但插值算法有多种 ,黑神话悟空除了支持 UE5 原生的 TSR 时间超分辨率,也支持 FSR/XeSS 和 DLSS,这几种算法的性能提升幅度差不多(因为实际渲染分辨率一样),但实现的输出画质效果还是有比较明显的差别,基于深度学习算法的 DLSS 的画质还是更好。
- 之前游戏基本都是预设质量 / 平衡 / 性能几档预设,而黑神话悟空让用户以 1 为步进可调,超采样 66%对应以往 DLSS 质量模式,50%对应 DLSS 性能模式 。66%的质量模式放大对比都很难发现同原生分辨率的差别,而 50%的性能模式虽然在静态画面仔细对比的确可用发现画质损失,但在快速运动和激烈战斗的场景也很难发现差别。4K 这两个超采样清晰度的实际渲染分辨率就是 2K 和 1080P,其性能相比这两个原生分辨率性能损失很小,但画质更好,如果你是 4K 显示器,用 2K 原生分辨率不如用 4K 66%超采样清晰度。
- 在全特效的情况下,RTX 4090 在原生 4K 分辨率平均帧数为 23 帧,跑原生 1080p 甚至也不能稳定 60,任何 GPU 在不使用超分的情况下都无法满足目标分辨率的性能需求,因此开启 DLSS 对于跑流畅黑神话悟空几乎是必需的。特别是在开启光线追踪的情况下,分辨率越高,需要计算的光线就越多,BVH 求交计算的需求就越大,因此降低渲染分辨率可以大幅的提升光线追踪的性能。
黑神话悟空帧生成画质性能对比https://www.zhihu.com/video/1808465344278450176
- 黑神话设置默认是开帧生成的,这其实是很鸡贼的事情,很多不明事理的普通用户就“被”用上了 DLSS 3 自己还懵然不知,但这其中也没多少人反应有啥问题,看来 DLSS 3 的确也没啥问题。黑神话悟空的 DLSS 3 帧生成提升比例在 70-80%,RTX 4090 在全特性 4K 66%采样清晰度(相当于 2K 原生分辨率)可以实现从 43 到 72 FPS 的提升,而之前赛博朋克 2077 的 FG 提升幅度不到 50%。
- 在 Benchmark 中即使是 4K 原生分辨率,显存占用也没有超过 12GB(不过在开启帧生成后显存会有明显增加),在 1080p 的渲染分辨率甚至不到 8GB。虽然实际游戏肯定会有更大更复杂的场景需要占用更多的显存,但在显存爆掉之前,你和 GPU 核心负载会先爆掉,因此对于显存容量其实不用过于焦虑。
- 虽然黑神话的硬件最低性能需求的 GTX 1660,但我试了 GTX 1060 这样更低的显卡也是可以运行的。并且在 UE5 自带 TSR 的加持下,不仅可以实现超分还可以插帧,但效果比 DLSS 差不少。
开光线追踪比不开性能更好?
黑神话悟空虽然是从 UE4 迁移到 UE5,但还是充分利用了 UE5 的很多新特性,特别是 Nanite 虚拟集合体和 Lumen 光照系统。
Nanite 可以以极低性能代价绘制千万级的多边形面数的景物,并通过 VSM 虚拟阴影贴图产生合适阴影。但虚幻 5 相比虚幻 4 变化最大的还是 Lumen 光照系统。UE5 考虑到家用机甚至移动设备的孱弱性能,其全局光照实现并不是通过对逐个像素每个光线路径通过求交计算来实现折射 / 反射 / 多次反射的效果,而是采用一种讨巧的混合追踪方法,这种方法将场景表面参数化,生成对应的一个低分辨率表面缓存 Surface Cache,这个表面缓存是可以预生成的,这样可以降低实时计算的性能需求。
在渲染主场景时,发射光线相交处查询该 mesh 中的表面缓存,以获得该相交点的间接光照,这样就生成一个 Lumen Scene。这个过程可以软件实现也可以硬件实现,甚至可以在 GTX 1060 这样不支持硬件光线追踪的 GPU 上实现简化的全局光照,当然在有光线追踪硬件的时候,也能使用基于 mesh 的 BVH,这样 GI 精度比表面缓存要好。
但这样的问题 Lumen 究竟只是个简化的全局光照,并不是像光线追踪那样对每个像素每道光线路径都是通过遵循物理规律的方式进行计算,场景的光照也只能说个大概,谈不上精确和正确。稍早发布同样采用 UE5 的地狱之刃 2 就是完全采用 Lumen 的光照系统,比如上面场景的水面倒影反射是通过屏幕空间反射 Screen Space Refraction 实现,这种方法虽然可以实现漂亮反射,但问题是只能反射屏幕上看得见内容,如果视角下移,顶部的钟乳石就会在屏幕外,这样水面的倒影也消失了。
所以游戏科学在 UE5 的 Lumen 之上又重新构建了基于路径再采样的实时路径追踪的光照系统(对 黑神话悟空其实是路径追踪,但这个细节游戏科学和 NVIDIA 都很低调并没宣传),我在这里分析 UE5 自带的 Lumen 和全景光线追踪对于性能和画质会有什么影响,怎么设置比较合适。(这几张对比图我本来准备自己截的,但黑神话开关光线追踪必须重启游戏才生效,又没实时存档,所以就使用官方对比图)
其中最为关键的是全分辨率多次反射光线追踪间接照明,自然色彩照明可以反射两次,并由这个系统来统一实现间接光照和遮蔽效果。比如上图的砖墙石雕可以接收到更多的环境二次反射光线而不再是死黑,全新的多重反弹光线追踪间接光照完全取代了之前的 SSR/SSAO 这些传统技术,可以为场景和物体提供更精确的照明。
这套系统的第二个重要改变是全分辨率光线追踪反射,这个场景的右边岩壁可以在地面积水形成了反射倒影,这种反射相比传统的屏幕空间反射有更高精度,并且在最高设置还可以实时反射复杂的粒子效果。当然黑神话悟空在关闭 RT 的时候,水面倒影依然也是使用的屏幕空间反射,存在和地狱之刃 2 一样的问题。
而光线追踪阴影相比虚幻 5 原生的阴影贴图更为正确且有更高的精度,我们可以发现上图前方山坡上光线追踪阴影树木枝叶的投影相比 UE5 的阴影贴图更为清晰。
光线追踪最高档还有独有的光线追踪焦散效果,光线照射到水平不仅会反射还会折射,这样光线就可以达到水面下的卵石上,并且由于光路由于折射偏移焦散,还会导致水下的景物反射光线发生扭曲。
在 Lumen 之上黑神话有三档光线追踪设置,三档都有完整的光线追踪阴影,但只有超高独有光线追踪散焦和完整分辨率的光线追踪反射和路径再采样的实时路径追踪全局光照,而中档没光线追踪散焦,光线追踪反射和全局光照的分辨率也是砍半的。
再来看看光照系统对于性能的影响,我这里使用定位和性能居中的 RTX 4070 SUPER 进行测试。
首先让我感到惊讶的是,在 RTX 40 系显卡上开启全局光线追踪相比全特效的 Lumen 光照性能损失并不大,在 2K 分辨率下大概只有 10%的性能差别,甚至中档的全局光线追踪性能要好于 Lumen 的全局光照。
但 RTX ON 提升性能的好事应该仅限于 40 系列,这里我那同 RTX 4070 SUPER 规格接近的 RTX 3090 测试(这两张卡的 FP32 和 RT FLOPS 都基本一样),开启全景光线追踪中档性能还是有一定的下降,如果拉满到超高的话,性能有 1/3 的损失。
这样看来 RTX 40 系列的光线追踪效能是有大幅提升的,这其中影响最大的应该是 Opacity Micro-Map 透明微映射算法的改进,之前 30 系在做第一步 BVH 遍历和交叉的时候,需要对每个光线进行计算,在碰见植被树叶和火焰这样不规则的复杂半透明物体时候,效能会大幅下降,而 40 系通过 Opacity Micromap Engine 则可以进行遮罩,后续只用处理边缘部分,这样可以大幅提升性能。而黑神话悟空的 Benchmark 场景中恰好就有大量的茂密植被树木投射阴影的场景,这样的场景刚好可以充分受益于 40 系的 Opacity Micromap Engine 来获得巨大的性能提升。
另外我也尝试过将全局光线追踪拉满,再单独降低全局光照 / 反射和阴影到低的情况,RTX 4090 50 超分清晰度的情况下,平均 FPS 会从 65 FPS 小幅提升到 67 FPS,并不能像关闭光追那样大幅提升性能,这说明全局光照在很大程度上替代了 Lumen 的作用。但这个替代也应该不是完全取代,将全局光照和阴影降到低画质还是有明显损失,特别是阴影的作用距离和漫反射效果,所以下面的测试开启光线追踪时候其他设置依然保持影视级。
黑神话悟空优化设置画面性对比https://www.zhihu.com/video/1808427887411462144
在不开启全景光线追踪的情况下,将全局光照和阴影降低到超高对于性能影响不大,但降低到高档可以大幅的提升性能,并且全局光照和阴影同步降低性能提升幅度是可以叠加的,对于 RTX 4060 Ti 或者以下显卡是很有性价比的设置。我在这里录制了 RTX 4060 Ti 设置为影视级和将全局光照和阴影降为高的设置性能和画质对比,我们可以发现这个设置可以在画面感官下降不大的情况下,可以将平均帧数从 44 提高到 72 FPS,提升幅度超过 60%。
黑神话悟空的其他设置提供了低 / 中 / 高 / 超高 / 影院级的五档画面设置,这五档画面设置会同步影响下面所有设置(具体的单项设置和 UE5 SDK 一模一样),但实际这些设置对于画质和性能的影响是有不同性价比的。
黑神话的植被系统还是 SpeedTree,Benchmark 的植被密度很高,植被质量对于性能还是有一定影响,对于 RTX 4060 这样的入门级 RTX GPU 可以尝试降低这个设置来提升性能。
贴图质量主要影响是材质纹理的分辨率,黑神话使用串流的虚拟纹理技术执行效率很高,即使是在入门级的 RTX 4060 也基本不是瓶颈,但降低贴图质量会大幅降低画质,RTX 4060 以上的卡都建议影视级。
后处理内容应该是包含景深 / 炫光 / 色调映射这些(比如上图土地公背后的焦外柔化效果),后处理整体对于性能影响不大,但可用明显提升电影感。运动模糊也应该算后处理,但是被放在显示设置里,对于性能大概有 1 帧的影响,这个开关更多是个人喜好问题(反正我是关的)。
UE5 的毛发系统 Chaos 物理引擎的 Niagara 部分,可用实时的渲染数十万根的毛发,真实的再现人类的头发和动物 / 怪物的茸毛和羽毛,这样的功能实在是太贴合西游题材了,并且让我这样的 Furry 控狂喜,看着上面的虎先锋就想 RUA。但这个 Benchmark 场景,没有玩家操控角色,敌人数量不仅少,而且也远离视觉中心,这样 LOD 精度就会比较低。而实际游戏悟空会占屏幕中心区域更大空间,还有众多的 BOSS 和小怪,毛发质量的设定会对性能有更大的影响。另外衣物的柔性物理特性模拟也是使用的 Chaos。
特效质量主要影响是烟雾 / 灰尘 / 火焰这些粒子特效,这部分也是由 UE5 Chaos 物理引擎的 Niagara 视觉特效系统实现,但这些是属于次生特效,并不会对游戏性产生影响,由于这个 Benchmark 由于没有战斗场景,特效质量对于性能影响也会比实际游戏低。
视野距离降到低对于性能略有提升,但 LOD 降太低会有割裂感,部分物件会突然跳跃出现,一般不建议降低。
整体来说这个 Benchmark 测试是一个 Flyby 的野外飞行过场,并无战斗场景,虽然场景复杂度比较高,但整体负载还是比实际游戏低,因此玩家跑出来的性能实际游戏里还是要打一定的折扣。黑神话虽然高特效,特别是在开启光线追踪的后性能需求极高,但在合理降低画质后,在画质损失不大的情况下依然获得很不错的性能,可以说画面表现的下限很高,各个显卡怎么设置可以获得性能和画质的最大平衡,我会在性能测试之后说明。
再来说说黑神话悟空画面的几个问题,最大的问题是画面过于锐化,细看给人感觉边缘部分比较毛糙,现在已经有人针对这个问题做了降低锐化程度的第三方 Mod。再就是光线追踪存在一些噪点,从之前 benchmark 的 CFG 看游戏当下还没有开启 DLSS3.5 的光线重构,这个后面要解决应该不难。
另外黑神话悟空现在不支持独占全屏模式,这会影响一点性能,也不支持 HDR,不过在更新黑神话的 day-0 驱动后,可以通过 NVIDIA app Beta 版开启 RTX HDR,当然我还是希望游戏科学在后续更新能够提供原生 HDR 的支持。
性能测试
这次测试我主要测试 2560x1440 50 超分清晰度,这个分辨率比较合适统一标准评估现在所有主流 GPU 性能,这个设置实际渲染分辨率实际只有 1280 x 720,如果你了解 1080p 的性能,这个性能基本也跟 1080p 66 超分清晰度一致。
首先测试的关闭全景光线追踪的最高影视级设置,RTX 4080 SUPER 以上可以满足 4K 50 清晰度的性能需求,2K 分辨率 RTX 4070/RTX 3090 也可以满足。
当然,前面说过在关闭 RT 全影视级对于 40 系显卡是很没性价比的设置,40 系显卡在开启全景光线追踪中档后,性能都有小幅度的上升。并且这样的收益不仅局限于 40 的高档卡,RTX 4060 Ti 在关闭 RT 的情况下,44 FPS 的性能要比 RX 7800 XT 慢 8 帧,但在开启 RT 后性能上升到 48 FPS,而 RX 7800 XT 的性能则从 52 大幅下降到 29,性能损失接近一半。
不过光线追踪中档性能优于影视级的结论主要是对 2K 50 这样的中低分辨率有效,如果拉高到 4K 50 采样清晰度中档性能还是要略慢于关闭光线追踪的影视级,从种开到高还有额外的 10FPS 以上的性能损失,主要是分辨率提高大大提升了光线追踪 BVH 计算的性能需求。
另外我们也测试了将全局光照 / 阴影改到高档的优化设置 ,RTX 4060 基本都可以满足 2K 50 清晰度的性能需求,当然要完全流畅还是需要使用 1080p 分辨率,或者适当降低植被和特效质量的设置。
当然上面都是没有开启帧生成的性能,其实很神话我是很建议开始 DLSS3 的:以 RTX 4080 SUPER 为例,4K 50 超分清晰度 全特效大概是 49 帧的性能,这个性能虽然不算完全不能玩但至少很自虐,但在开启 DLSS3 之后,性能基本可以提升 60%到 78 FPS,这个帧数玩起来就很舒服了。DLSS3 的性能提升是从量变到质变,有这样的性能冗余就至少可将渲染分辨率再提一档,以获得更好的视觉体验。
i9 14900K 宛若鸡肋 有强大 RTX GPU 才是正道
黑神话悟空毫无疑问完全是 GPU 瓶颈游戏,CPU 性能只要不是太古董就是无所谓的。但我还是要简单测试下,将我的 14900K+Apex Encore+DDR5 8000,换成了 12400 和 DDR5 6400C40,使用 1920x1080 50%超分清晰度 全局光照 / 阴影高这样一个对于 RTX 4090 比较轻松的设置。
通过 CPU 使用率看,黑神话悟空会充分利用 14900K 的 8 个 P-core,但基本不会使用 E-Core 和超线程。但测试结果还是有点出乎意料,12400 相比 14900K 还快 2 帧,虽然 14900K 的最低帧稳定性更好,但这结果还是很不正常,我又复测了几次,甚至关闭 14900K 的 E-Core 结果都没改变。但至少说明了无论是 6 核心 4GHz 的 12400 还是 8 核心的 5.7GHz 的 14900K,对于黑神话悟空的性能都没太大影响。其实判断游戏是否存在 CPU 瓶颈有个很简单的办法,就是在游戏的时候使用 RTSS 或者游戏加加之类的 OSD 工具,观察 GPU 使用率,如果占用率不满,那基本就是 CPU 瓶颈了,限制了 GPU 性能的发挥,而黑神话使用 12400 RTX 4090 一直也都跑满,那就基本上不存在 CPU 瓶颈。
虽然黑神话对于 CPU 性能不怎么敏感,但对于稳定性要求却很高,我的 14900K 在第一次进游戏编译着色器的时候就报错(虽然离谱,但也正常,毕竟最近 14900K 离谱的事情过于频繁),官方还针对这个问题还发出公告说明 intel 13/14 代处理器的稳定性问题和解决办法,我是降频到 5.5GHz 才能顺利进行游戏(0X129 微码,PL1/PL2 都是 253W,采用 Intel 默认设置的 Extreme 也基本可以解决问题,如果用 ASUS OC 的话,也许会出现随机不稳定),不过还好后面测试和游戏 5.7 GHz 还是可以稳定运行的。
各 GPU 的优化设置建议
游戏科学的 CEO/ 黑神话的制作人在微博吐槽,黑神话对于硬件是史上最公平的游戏,无论你是 4W 的超跑还是 4K 的老爷车,最后跑出来的帧数差不多,画质也差不多。我测试下来感觉黑神话的硬件需求有很强的弹性,虽然拉满 4K 光线追踪,RTX 4090 也才 20FPS,但选择合适的特效和分辨率并开启 DLSS3 之后,就还是有相当不错的可玩效能,并且也能维持相当不错的画质,可以说是下限极高,最近两代的主流卡都可以有不错的体验。
- 对于我们这样的 RTX 4090/D 用户而言,全特效在 50 超采样精细度下可以达成 4K60 FPS 可用性能,但我建议大家都开 DLSS3 插帧换取更高的超采样精细度。
- RTX 4070 级别的显卡则建议在 2K 分辨率将全景光线追踪开到中,这样能获得比关闭光线追踪影视级更好的画面表现和性能。当然如果愿意接受稍微降低画质 / 或者愿意开始帧生成,RTX 4070 Ti SUPER 也有一战 4K 的实力。
- RTX 4060 Ti 一般我建议将全局光照 / 阴影设置降低到高,这样也可以满足 2K 50 超采样精细度的性能需求。当然如果想体验光线追踪,那就可以尝试开启帧生成 / 或者使用 1080p 的的分辨率。
- RTX 4060 的设置原则和 RTX 4060 Ti 类似,但需要降低植被质量,甚至降低到 1080p 分辨率获得更好的流畅度。
虽然这个 Benchmark 场景是没战斗的,但实际场景的复杂度(植被密度 / 水面反射)要高于游戏后几章的绝大部分场景,因此其性能基本还是可用代表游戏的实际性能。只不过打起来毛发质量和特效质量带来的负载会加大,中端以下显卡这两个设置在实际游戏过程中应该还需要降低。但基于前面的画质设置性价比分析,画质选项设置原则还是很清楚,RTX 4070 以上都应该优先开启光线追踪中档来获得更好效能和画面,而 RTX 4060 Ti/RTX 3070/ 之下或者 A 卡就需要适当全局光照 / 阴影甚至植被质量来保证基本的流畅性能。而高超采样精细度调节就是十分具有弹性的,如果你觉得不够流畅就降低点,如果觉得画面不够锐就拉高点。
另外需要强调 DLSS3 对于黑神话悟空很重要:DLSS3 会增加操作延迟,但黑神话不是那种对于延迟敏感的射击游戏,玩家控制角色在按键后因为有过渡帧动作本来执行就有延迟,因此黑神话对于延迟并不敏感,我是推荐开启帧生成,这样就可以至少将可用的分辨率或者特效提升一大档。
很多人对 DLSS 这样的超分技术嗤之以鼻,认为这牺牲了游戏画质,是奇技淫巧罢了。但我观点刚好相反,如果没有 DLSS 这样超分技术 RTX 4090 也只能跑 20 FPS,从市场受众的硬件水平考虑,游戏科学必然不敢将画质做到现在的水平。因此正是因为有 DLSS 这样的"奇技淫巧"来根本性的提升渲染效率,游戏科学这样的游戏开发商才敢尝试新技术,黑悟空的画面才会到达现在的水平。
我觉得我必须感谢 Epic Games,赞美 Tim Sweeney,创造出虚幻 5 这样高效且具有弹性的引擎,将游戏的画面表现引入了新的世代,我更要赞美游戏科学,在虚幻 5 巨人的肩上构建了全新的全局光线追踪系统,不仅能够提供更为真实的全景光线追踪,又能兼顾效率。我感觉现在对于玩家而言是一个好世代,只有像 EPIC/ 游戏科学 /NVIDIA 这样积极探索新技术,才能真正的促进游戏图像大迈步的向前发展。