通过降低精度进行优化

图形数据和着色器计算的数值格式会对游戏性能产生重大影响。

最佳格式的作用如下：

提高 GPU 缓存使用效率
降低内存带宽消耗，节省电量并提升性能
最大限度地提高着色器程序中的计算吞吐量
最大限度地减少游戏的 CPU RAM 使用量

浮点格式

现代 3D 图形中的大多数计算和数据都使用浮点数。Android 上的 Vulkan 使用 32 位或 16 位的浮点数。32 位浮点数通常称为单精度或全精度；16 位浮点数则称为半精度。

Vulkan 定义了一种 64 位浮点类型，但 Android 上的 Vulkan 设备通常不支持此类型，因此不建议使用。64 位浮点数通常称为双精度。

整数格式

有符号和无符号整数也用于数据和计算。标准整数大小为 32 位。对其他位大小的支持取决于设备。在 Android 上运行的 Vulkan 设备通常支持 16 位和 8 位整数。Vulkan 定义了一种 64 位整数类型，但 Android 上的 Vulkan 设备通常不支持此类型，因此不建议使用。

次优半精度行为

现代 GPU 架构将两个 16 位值组合成一个 32 位对，并实现对该对进行操作的指令。为获得最佳性能，请避免使用标量 16 位浮点变量；将数据向量化为二元素或四元素向量。着色器编译器可能能够在向量操作中使用标量值。但是，如果您依赖编译器优化标量，请检查编译器输出以验证向量化。

32 位和 16 位精度浮点之间的转换具有计算成本。通过最大程度地减少代码中的精度转换来降低开销。

对算法的 16 位和 32 位版本进行基准测试，以比较性能差异。半精度并不总能带来性能提升，尤其对于复杂的计算。大量使用向量化数据上的乘加 (FMA) 指令的算法是半精度性能提升的良好候选者。

数值格式支持

Android 上的所有 Vulkan 设备都支持数据和着色器计算中的单精度 32 位浮点数和 32 位整数。不保证支持其他格式，即使支持，也不保证适用于所有用例。

Vulkan 对可选数值格式有两种支持类别：算术和存储。在使用特定格式之前，请确保设备在这两个类别中都支持它。

算术支持

Vulkan 设备必须声明对数值格式的算术支持，才能在着色器程序中使用它。Android 上的 Vulkan 设备通常支持以下格式进行算术运算：

32 位整数（强制）
32 位浮点（强制）
8 位整数（可选）
16 位整数（可选）
16 位半精度浮点（可选）

要确定 Vulkan 设备是否支持 16 位整数用于算术运算，请通过调用 vkGetPhysicalDeviceFeatures2() 函数并检查 VkPhysicalDeviceFeatures2 结果结构中的 shaderInt16 字段是否为 true 来检索设备的功能。

要确定 Vulkan 设备是否支持 16 位浮点数或 8 位整数，请执行以下步骤：

检查设备是否支持 VK_KHR_shader_float16_int8 Vulkan 扩展。此扩展是 16 位浮点数和 8 位整数支持所必需的。
如果支持 VK_KHR_shader_float16_int8，则将 VkPhysicalDeviceShaderFloat16Int8Features 结构指针附加到 VkPhysicalDeviceFeatures2.pNext 链。
在调用 vkGetPhysicalDeviceFeatures2() 后，检查 VkPhysicalDeviceShaderFloat16Int8Features 结果结构中的 shaderFloat16 和 shaderInt8 字段。如果字段值为 true，则着色器程序算术支持该格式。

虽然 Vulkan 1.1 或 2022 年的 Android 基准配置文件并未要求，但 Android 设备普遍支持 VK_KHR_shader_float16_int8 扩展。

存储支持

Vulkan 设备必须声明对特定存储类型的可选数值格式的支持。VK_KHR_16bit_storage 扩展声明了对 16 位整数和 16 位浮点格式的支持。该扩展定义了四种存储类型。设备可以支持这些存储类型中的零种、部分或全部的 16 位数字。

存储类型包括：

存储缓冲区对象
统一缓冲区对象
推送常量块
着色器输入和输出接口

Android 上大多数（但不是全部）Vulkan 1.1 设备支持存储缓冲区对象中的 16 位格式。不要根据 GPU 模型假设支持。某些 GPU 型号使用较旧驱动程序的设备可能不支持存储缓冲区对象，而使用较新驱动程序的设备则支持。

对统一缓冲区、推送常量块和着色器输入/输出接口中 16 位格式的支持通常取决于 GPU 制造商。在 Android 上，GPU 通常要么支持所有这三种类型，要么都不支持。

一个测试 Vulkan 算术和存储格式支持的函数示例

struct ReducedPrecisionSupportInfo {
  // Arithmetic support
  bool has_8_bit_int_ = false;
  bool has_16_bit_int_ = false;
  bool has_16_bit_float_ = false;
  // Storage support
  bool has_16_bit_SSBO_ = false;
  bool has_16_bit_UBO_ = false;
  bool has_16_bit_push_ = false;
  bool has_16_bit_input_output_ = false;
  // Use 16-bit floats if we have arithmetic
  // support and at least SSBO storage support.
  bool use_16bit_floats_ = false;
};

void CheckFormatSupport(VkPhysicalDevice physical_device,
    ReducedPrecisionSupportInfo &info) {

  // Retrieve the device extension list so we
  // can check for our desired extensions.
  uint32_t device_extension_count;
  vkEnumerateDeviceExtensionProperties(physical_device, nullptr,
      &device_extension_count, nullptr);
  std::vector<VkExtensionProperties> device_extensions(device_extension_count);
  vkEnumerateDeviceExtensionProperties(physical_device, nullptr,
      &device_extension_count, device_extensions.data());

  bool has_16_8_extension = HasDeviceExtension("VK_KHR_shader_float16_int8",
      device_extensions);

  // Initialize the device features structure and
  // chain the storage features structure and 8/16-bit
  // support structure if applicable.
  VkPhysicalDeviceFeatures2 device_features;
  memset(&device_features, 0, sizeof(device_features));
  device_features.sType = VK_STRUCTURE_TYPE_PHYSICAL_DEVICE_FEATURES_2;

  VkPhysicalDeviceShaderFloat16Int8Features f16_int8_features;
  memset(&f16_int8_features, 0, sizeof(f16_int8_features));
  f16_int8_features.sType =
      VK_STRUCTURE_TYPE_PHYSICAL_DEVICE_FLOAT16_INT8_FEATURES_KHR;

  VkPhysicalDevice16BitStorageFeatures storage_features;
  memset(&storage_features, 0, sizeof(storage_features));
  storage_features.sType =
      VK_STRUCTURE_TYPE_PHYSICAL_DEVICE_16BIT_STORAGE_FEATURES;
  device_features.pNext = &storage_features;

  if (has_16_8_extension) {
    storage_features.pNext = &f16_int8_features;
  }

  vkGetPhysicalDeviceFeatures2(physical_device, &device_features);

  // Parse the storage features and determine
  // what kinds of 16-bit storage access are available.
  if (storage_features.storageBuffer16BitAccess ||
      storage_features.uniformAndStorageBuffer16BitAccess) {
    info.has_16_bit_SSBO_ = true;
  }
  info.has_16_bit_UBO_ = storage_features.uniformAndStorageBuffer16BitAccess;
  info.has_16_bit_push_ = storage_features.storagePushConstant16;
  info.has_16_bit_input_output_ = storage_features.storageInputOutput16;

  info.has_16_bit_int_ = device_features.features.shaderInt16;
  if (has_16_8_extension) {
    info.has_16_bit_float_ = f16_int8_features.shaderFloat16;
    info.has_8_bit_int_ = f16_int8_features.shaderInt8;
  }

  // Get arithmetic and at least some form of storage
  // support before enabling 16-bit float usage.
  if (info.has_16_bit_float_ && info.has_16_bit_SSBO_) {
    info.use_16bit_floats_ = true;
  }
}

数据的精度级别

半精度浮点数可以以比单精度浮点数更低的精度表示更小范围的值。半精度通常是单精度的一种简单且感知上无损的选择。然而，半精度可能并非在所有用例中都实用。对于某些类型的数据，降低的范围和精度可能会导致图形伪影或不正确的渲染。

适合以半精度浮点表示的数据类型包括：

局部空间坐标中的位置数据
用于较小纹理且 UV 缠绕有限的纹理 UV，可限制在 -1.0 到 1.0 的坐标范围内
法线、切线和副切线数据
顶点颜色数据
以 0.0 为中心且对精度要求不高的数据

不建议以半精度浮点表示的数据类型包括：

全局世界坐标中的位置数据
高精度用例的纹理 UV，例如图集工作表中的 UI 元素坐标

着色器代码中的精度

OpenGL 着色语言 (GLSL) 和高级着色语言 (HLSL) 着色器编程语言支持为数值类型指定宽松精度或显式精度。宽松精度被视为对着色器编译器的建议。显式精度是对指定精度的要求。Android 上的 Vulkan 设备通常在宽松精度建议时使用 16 位格式。其他 Vulkan 设备，尤其是在使用不支持 16 位格式的图形硬件的台式计算机上，可能会忽略宽松精度并仍使用 32 位格式。

GLSL 中的存储扩展

必须定义适当的 GLSL 扩展，才能在存储和统一缓冲区结构中启用 16 位或 8 位数值格式的支持。相关的扩展声明是：

// Enable 16-bit formats in storage and uniform buffers.
#extension GL_EXT_shader_16bit_storage : require
// Enable 8-bit formats in storage and uniform buffers.
#extension GL_EXT_shader_8bit_storage : require

这些扩展特定于 GLSL，在 HLSL 中没有等效项。

GLSL 中的宽松精度

在浮点类型前使用 highp 限定符来建议单精度浮点数，使用 mediump 限定符来建议半精度浮点数。Vulkan 的 GLSL 编译器会将旧版 lowp 限定符解释为 mediump。宽松精度的一些示例如下：

mediump vec4 my_vector; // Suggest 16-bit half precision
highp mat4 my_matrix;   // Suggest 32-bit single precision

GLSL 中的显式精度

在 GLSL 代码中包含 GL_EXT_shader_explicit_arithmetic_types_float16 扩展，以启用 16 位浮点类型的使用：

#extension GL_EXT_shader_explicit_arithmetic_types_float16 : require

在 GLSL 中使用以下关键字声明 16 位浮点标量、向量和矩阵类型：

float16_t   f16vec2     f16vec3    f16vec4
f16mat2     f16mat3     f16mat4
f16mat2x2   f16mat2x3   f16mat2x4
f16mat3x2   f16mat3x3   f16mat3x4
f16mat4x2   f16mat4x3   f16mat4x4

在 GLSL 中使用以下关键字声明 16 位整数标量和向量类型：

int16_t     i16vec2     i16vec3    i16vec4
uint16_t    u16vec2     u16vec3    u16vec4

HLSL 中的宽松精度

HLSL 使用术语最小精度而不是宽松精度。最小精度类型关键字指定了最小精度，但如果更高的精度更适合目标硬件，编译器可能会替换为更高的精度。最小精度 16 位浮点数由 min16float 关键字指定。最小精度有符号和无符号 16 位整数分别由 min16int 和 min16uint 关键字指定。最小精度声明的其他示例如下：

// Four element vector and four-by-four matrix types
min16float4 my_vector4;
min16float4x4 my_matrix4x4;

HLSL 中的显式精度

半精度浮点数由 half 或 float16_t 关键字指定。有符号和无符号 16 位整数分别由 int16_t 和 uint16_t 关键字指定。显式精度声明的其他示例如下：

// Four element vector and four-by-four matrix types
half4 my_vector4;
half4x4 my_matrix4x4;