良好的顶点数据布局和压缩对于任何图形应用程序的性能都至关重要,无论应用程序是包含 2D 用户界面还是大型 3D 开放世界游戏。对数十款顶级 Android 游戏进行的内部测试(使用 Android GPU 检查器 的帧分析器)表明,在顶点数据管理方面可以做很多改进。我们观察到,顶点数据通常对所有顶点属性使用全精度 32 位浮点数,并且顶点缓冲区布局使用一个结构数组,该数组以完全交错的属性格式化。
本文讨论了如何通过使用以下技术优化 Android 应用程序的图形性能
- 顶点压缩
- 顶点流分割
实施这些技术可以将顶点内存带宽使用率提高高达 50%,减少与 CPU 的内存总线争用,减少系统内存上的停顿,并延长电池寿命;所有这些都是对开发人员和最终用户都有利的改进!
所有提供的数据来自一个示例静态场景,该场景包含约 19,000,000 个顶点,在 Pixel 4 上运行
图 1:包含 6 个环和 1900 万个顶点的示例场景
顶点压缩
顶点压缩是用于有损压缩技术的总称,这些技术使用高效的打包来减少运行时和存储期间顶点数据的大小。减小顶点的大小有很多好处,包括减少 GPU 上的内存带宽(通过用计算换取带宽),提高缓存利用率,并可能降低溢出寄存器的风险。
顶点压缩的常见方法包括
- 降低顶点数据属性的数值精度(例如:32 位浮点数到 16 位浮点数)
- 以不同的格式表示属性
例如,如果一个顶点对位置(vec3)、法线(vec3)和纹理坐标(vec2)使用完整的 32 位浮点数,则将所有这些替换为 16 位浮点数将使顶点大小减少 50%(在平均 32 字节的顶点上为 16 字节)。
顶点位置
在绝大多数网格中,顶点位置数据可以从全精度 32 位浮点数压缩到半精度 16 位浮点数,并且几乎所有移动设备上的硬件都支持半浮点数。从 float32 到 float16 的转换函数如下所示(改编自本指南)
uint16_t f32_to_f16(float f) {
uint32_t x = (uint32_t)f;
uint32_t sign = (unsigned short)(x >> 31);
uint32_t mantissa;
uint32_t exp;
uint16_t hf;
mantissa = x & ((1 << 23) - 1);
exp = x & (0xFF << 23);
if (exp >= 0x47800000) {
// check if the original number is a NaN
if (mantissa && (exp == (0xFF << 23))) {
// single precision NaN
mantissa = (1 << 23) - 1;
} else {
// half-float will be Inf
mantissa = 0;
}
hf = (((uint16_t)sign) << 15) | (uint16_t)((0x1F << 10)) |
(uint16_t)(mantissa >> 13);
}
// check if exponent is <= -15
else if (exp <= 0x38000000) {
hf = 0; // too small to be represented
} else {
hf = (((uint16_t)sign) << 15) | (uint16_t)((exp - 0x38000000) >> 13) |
(uint16_t)(mantissa >> 13);
}
return hf;
}
这种方法有一个限制;精度随着顶点离原点越远而降低,这使得它不太适合空间上非常大的网格(具有超出 1024 的元素的顶点)。您可以通过将网格分割成较小的块来解决此问题,将每个块的中心放在模型原点周围,并进行缩放,以便每个块的所有顶点都适合 [-1, 1] 范围,该范围包含浮点数的最高精度。压缩的伪代码如下所示
for each position p in Mesh:
p -= center_of_bounding_box // Moves Mesh back to the center of model space
p /= half_size_bounding_box // Fits the mesh into a [-1, 1] cube
vec3<float16> result = vec3(f32_to_f16(p.x), f32_to_f16(p.y), f32_to_f16(p.z));
您将比例因子和平移烘焙到模型矩阵中,以便在渲染时解压缩顶点数据。请记住,您不希望将此相同的模型矩阵用于变换法线,因为它们没有应用相同的压缩。您将需要一个没有这些解压缩变换的法线矩阵,或者您可以使用基本模型矩阵(可用于法线),然后在着色器中将额外的解压缩变换应用于模型矩阵。一个例子
vec3 in in_pos;
void main() {
...
// bounding box data packed into uniform buffer
vec3 decompress_pos = in_pos * half_size_bounding_box + center_of_bounding_box;
gl_Position = proj * view * model * decompress_pos;
}
另一种方法涉及使用 有符号归一化整数 (SNORM)。SNORM 数据类型使用整数而不是浮点数来表示 [-1, 1] 之间的值。对位置使用 16 位 SNORM 可以为您提供与 float16 相同的内存节省,而没有非均匀分布的缺点。我们建议用于 SNORM 的实现如下所示
const int BITS = 16
for each position p in Mesh:
p -= center_of_bounding_box // Moves Mesh back to the center of model space
p /= half_size_bounding_box // Fits the mesh into a [-1, 1] cube
// float to integer value conversion
p = clamp(p * (2^(BITS - 1) - 1), -2^(BITS - 1), 2^(BITS - 1) - 1)
格式 | 大小 | |
---|---|---|
之前 | vec4<float32 > |
16 字节 |
之后 | vec3<float16/SNORM16 > |
6 字节 |
顶点法线和切线空间
顶点法线需要用于照明,切线空间需要用于更复杂的技术,例如法线贴图。
切线空间
切线空间是一个坐标系,其中每个顶点都包含法线、切线和副切线向量。因为这三个向量通常彼此正交,所以我们只需要存储其中两个,并且可以通过在顶点着色器中取其他两个的叉积来计算第三个。
这些向量通常可以使用 16 位浮点数表示而不会有任何视觉保真度的感知损失,所以这是一个好的起点!
我们可以使用 称为 QTangents 的技术 进行进一步压缩,该技术将整个切线空间存储在一个四元数中。由于四元数可以用来表示旋转,通过将切线空间向量视为表示旋转的 3x3 矩阵的列向量(在本例中是从模型空间到切线空间),我们可以在这两者之间进行转换!四元数可以按数据方式被视为 vec4,并且根据上面链接的论文以及 改编自此处的实现,从切线空间向量到 QTangent 的转换如下所示
const int BITS = 16
quaternion tangent_space_to_quat(vec3 normal, vec3 tangent, vec3 bitangent) {
mat3 tbn = {normal, tangent, bitangent};
quaternion qTangent(tbn);
qTangent.normalize();
//Make sure QTangent is always positive
if (qTangent.w < 0)
qTangent = -qTangent;
const float bias = 1.0 / (2^(BITS - 1) - 1);
//Because '-0' sign information is lost when using integers,
//we need to apply a "bias"; while making sure the Quaternion
//stays normalized.
// ** Also our shaders assume qTangent.w is never 0. **
if (qTangent.w < bias) {
Real normFactor = Math::Sqrt( 1 - bias * bias );
qTangent.w = bias;
qTangent.x *= normFactor;
qTangent.y *= normFactor;
qTangent.z *= normFactor;
}
//If it's reflected, then make sure .w is negative.
vec3 naturalBinormal = cross_product(tangent, normal);
if (dot_product(naturalBinormal, binormal) <= 0)
qTangent = -qTangent;
return qTangent;
}
四元数将被归一化,并且您可以使用 SNORM 对其进行压缩。16 位 SNORM 提供良好的精度和内存节省。8 位 SNORM 可以提供更多节省,但可能会在高镜面反射材质上造成伪影。您可以尝试两者,看看哪种最适合您的资源!四元数的编码如下所示
for each vertex v in mesh:
quaternion res = tangent_space_to_quat(v.normal, v.tangent, v.bitangent);
// Once we have the quaternion we can compress it
res = clamp(res * (2^(BITS - 1) - 1), -2^(BITS - 1), 2^(BITS - 1) - 1);
在顶点着色器中解码四元数(改编自此处)
vec3 xAxis( vec4 qQuat )
{
float fTy = 2.0 * qQuat.y;
float fTz = 2.0 * qQuat.z;
float fTwy = fTy * qQuat.w;
float fTwz = fTz * qQuat.w;
float fTxy = fTy * qQuat.x;
float fTxz = fTz * qQuat.x;
float fTyy = fTy * qQuat.y;
float fTzz = fTz * qQuat.z;
return vec3( 1.0-(fTyy+fTzz), fTxy+fTwz, fTxz-fTwy );
}
vec3 yAxis( vec4 qQuat )
{
float fTx = 2.0 * qQuat.x;
float fTy = 2.0 * qQuat.y;
float fTz = 2.0 * qQuat.z;
float fTwx = fTx * qQuat.w;
float fTwz = fTz * qQuat.w;
float fTxx = fTx * qQuat.x;
float fTxy = fTy * qQuat.x;
float fTyz = fTz * qQuat.y;
float fTzz = fTz * qQuat.z;
return vec3( fTxy-fTwz, 1.0-(fTxx+fTzz), fTyz+fTwx );
}
void main() {
vec4 qtangent = normalize(in_qtangent); //Needed because 16-bit quantization
vec3 normal = xAxis(qtangent);
vec3 tangent = yAxis(qtangent);
float biNormalReflection = sign(in_qtangent.w); //ensured qtangent.w != 0
vec3 binormal = cross(normal, tangent) * biNormalReflection;
...
}
格式 | 大小 | |
---|---|---|
之前 | vec3<float32 > + vec3<float32 > + vec3<float32 > |
36 字节 |
之后 | vec4<SNORM16 > |
8 字节 |
仅法线
如果您只需要存储法线向量,则有一种不同的方法可以带来更多节省 - 使用 单位向量的八面体映射而不是笛卡尔坐标来压缩法线向量。八面体映射通过将单位球体投影到八面体,然后将八面体投影到 2D 平面上来工作。结果是您可以使用仅两个数字来表示任何法线向量。这两个数字可以被认为是我们用来“采样”我们将其投影到的 2D 平面的纹理坐标,允许我们恢复原始向量。然后,这两个数字可以存储在 SNORM8 中。
图 2:八面体映射可视化(来源)
const int BITS = 8
// Assumes the vector is unit length
// sign() function should return positive for 0
for each normal n in mesh:
float invL1Norm = 1.0 / (abs(n.x) + abs(n.y) + abs(n.z));
vec2 res;
if (n.z < 0.0) {
res.x = (1.0 - abs(n.y * invL1Norm)) * sign(n.x);
res.y = (1.0 - abs(n.x * invL1Norm)) * sign(n.y);
} else {
res.x = n.x * invL1Norm;
res.y = n.y * invL1Norm;
}
res = clamp(res * (2^(BITS - 1) - 1), -2^(BITS - 1), 2^(BITS - 1) - 1)
顶点着色器中的解压缩(转换回笛卡尔坐标)成本不高;在大多数现代移动设备上,我们在实现此技术时没有看到任何重大的性能下降。顶点着色器中的解压缩
//Additional Optimization: twitter.com/Stubbesaurus/status/937994790553227264
vec3 oct_to_vec(vec2 e):
vec3 v = vec3(e.xy, 1.0 - abs(e.x) - abs(e.y));
float t = max(-v.z, 0.0);
v.xy += t * -sign(v.xy);
return v;
此方法也可用于存储整个切线空间,使用此技术使用vec2<SNORM8
>存储法线和切线向量,但您需要找到一种方法来存储副切线的方向(对于模型上具有镜像 UV 坐标的常见场景是必需的)。实现此目的的一种方法是将切线向量编码的一个分量映射为始终为正,然后在需要翻转副切线方向时翻转其符号,并在顶点着色器中检查该符号。
const int BITS = 8
const float bias = 1.0 / (2^(BITS - 1) - 1)
// Compressing
for each normal n in mesh:
//encode to octahedron, result in range [-1, 1]
vec2 res = vec_to_oct(n);
// map y to always be positive
res.y = res.y * 0.5 + 0.5;
// add a bias so that y is never 0 (sign in the vertex shader)
if (res.y < bias)
res.y = bias;
// Apply the sign of the binormal to y, which was computed elsewhere
if (binormal_sign < 0)
res.y *= -1;
res = clamp(res * (2^(BITS - 1) - 1), -2^(BITS - 1), 2^(BITS - 1) - 1)
// Vertex shader decompression
vec2 encode = vec2(tangent_encoded.x, abs(tangent_encoded.y) * 2.0 - 1.0));
vec3 tangent_real = oct_to_vec3(encode);
float binormal_sign = sign(tangent_encode.y);
格式 | 大小 | |
---|---|---|
之前 | vec3<float32 > |
12 字节 |
之后 | vec2<SNORM8 > |
2 字节 |
顶点 UV 坐标
UV 坐标,用于纹理映射(以及其他用途),通常使用 32 位浮点数存储。使用 16 位浮点数压缩它们会导致大于 1024x1024 的纹理出现精度问题;[0.5, 1.0] 之间的浮点精度意味着值将以大于 1 像素的速度递增!
更好的方法是使用无符号归一化整数 (UNORM),特别是 UNORM16;这在整个纹理坐标范围内提供均匀分布,支持高达 65536x65536 的纹理!这假设每个元素的纹理坐标都在 [0.0, 1.0] 范围内,根据网格情况可能并非如此(例如,墙可以使用超出 1.0 的环绕纹理坐标),因此在查看此技术时请记住这一点。转换函数如下所示
const int BITS = 16
for each vertex_uv V in mesh:
V *= clamp(2^BITS - 1, 0, 2^BITS - 1); // float to integer value conversion
格式 | 大小 | |
---|---|---|
之前 | vec2<float32 > |
8 字节 |
之后 | vec2<UNORM16 > |
4 字节 |
顶点压缩结果
这些顶点压缩技术导致顶点内存存储减少了 66%,从 48 字节减少到 16 字节。这表现为
- 顶点内存读取带宽
- Binning:27GB/s 至 9GB/s
- 渲染:4.5B/s 至 1.5GB/s
- 顶点获取停顿
- Binning:50% 至 0%
- 渲染:90% 至 90%
- 平均每个顶点字节数
- Binning:48B 至 16B
- 渲染:52B 至 18B
图 3:未压缩顶点的 Android GPU Inspector 视图
图 4:压缩顶点的 Android GPU Inspector 视图
顶点流分割
顶点流拆分优化了顶点缓冲区中数据组织。这是一种缓存性能优化,对 Android 设备中通常使用的基于图块的 GPU 产生了影响 - 特别是在渲染过程的 binning 阶段。
基于图块的 GPU 创建一个着色器,该着色器根据提供的顶点着色器计算归一化设备坐标以进行 binning。它首先在场景中的每个顶点上执行,无论是否可见。因此,保持顶点位置数据在内存中连续是一个很大的优势。此顶点流布局在其他地方也可能带来好处,例如阴影传递,因为通常您只需要位置数据进行阴影计算,以及深度预传递,这是一种通常用于控制台/桌面渲染的技术;此顶点流布局可以为渲染引擎的多个类带来优势!
流拆分涉及设置顶点缓冲区,其中包含一个连续的顶点位置数据部分和另一个包含交错顶点属性的部分。大多数应用程序通常会设置其缓冲区,完全交错所有属性。此视觉效果解释了差异
Before:
|Position1/Normal1/Tangent1/UV1/Position2/Normal2/Tangent2/UV2......|
After:
|Position1/Position2...|Normal1/Tangent1/UV1/Normal2/Tangent2/UV2...|
查看 GPU 如何获取顶点数据有助于我们了解流拆分的优势。假设为了论证的目的
- 32 字节缓存行(一个非常常见的大小)
- 由以下组成的顶点格式:
- 位置,vec3<float32> = 12 字节
- 法线 vec3<float32> = 12 字节
- UV 坐标 vec2<float32> = 8 字节
- 总大小 = 32 字节
当 GPU 从内存中获取数据以进行 binning 时,它将提取 32 字节的缓存行进行操作。在没有顶点流拆分的情况下,它实际上只会使用此缓存行的前 12 个字节进行 binning,并在获取下一个顶点时丢弃其他 20 个字节。使用顶点流拆分,顶点位置将在内存中连续,因此当将 32 字节块提取到缓存时,它实际上将包含 2 个完整的顶点位置以进行操作,然后再返回到主内存中获取更多数据,这将提高 2 倍!
现在,如果我们将顶点流拆分与顶点压缩结合起来,我们将把单个顶点位置的大小减少到 6 个字节,因此从系统内存中提取的单个 32 字节缓存行将有 5 个完整的顶点位置可以操作,这将提高 5 倍!
顶点流拆分结果
- 顶点内存读取带宽
- Binning:27GB/s 至 6.5GB/s
- 渲染:4.5GB/s 至 4.5GB/s
- 顶点获取停顿
- Binning:40% 至 0%
- 渲染:90% 至 90%
- 平均每个顶点字节数
- Binning:48B 至 12B
- 渲染:52B 至 52B
图 5:未拆分顶点流的 Android GPU Inspector 视图
图 6:拆分顶点流的 Android GPU Inspector 视图
复合结果
- 顶点内存读取带宽
- Binning:25GB/s 至 4.5GB/s
- 渲染:4.5GB/s 至 1.7GB/s
- 顶点获取停顿
- Binning:41% 至 0%
- 渲染:90% 至 90%
- 平均每个顶点字节数
- Binning:48B 至 8B
- 渲染:52B 至 19B
图 7:未拆分、未压缩顶点流的 Android GPU Inspector 视图
图 8:拆分、压缩顶点流的 Android GPU Inspector 视图
其他注意事项
16 位与 32 位索引缓冲区数据
- 始终拆分/分块网格,使其适合 16 位索引缓冲区(最大 65536 个唯一顶点)。这将有助于移动设备上的索引渲染,因为它获取顶点数据的成本更低,并且消耗的电量更少。
不支持的顶点缓冲区属性格式
- SSCALED 顶点格式在移动设备上不受广泛支持,并且在使用时,如果驱动程序没有硬件支持,则可能会在尝试模拟它们的驱动程序中产生代价高昂的性能权衡。始终选择 SNORM 并支付可忽略不计的 ALU 成本以进行解压缩。