ANR

当 Android 应用的 UI 线程被阻塞过长时间时,会触发“应用程序无响应”(ANR)错误。如果应用位于前台,系统会向用户显示一个对话框,如图 1 所示。ANR 对话框使用户有机会强制退出应用。

Figure 1. ANR dialog displayed to the user

图 1. 向用户显示的 ANR 对话框

ANR 是一个问题,因为负责更新 UI 的应用主线程无法处理用户输入事件或进行绘制,从而导致用户感到沮丧。有关应用主线程的更多信息,请参阅 进程和线程

当发生以下任一情况时,会为您的应用触发 ANR

  • 输入分发超时:如果您的应用在 5 秒内未响应输入事件(例如按键或屏幕触摸)。
  • 执行服务:如果您的应用声明的服务无法在几秒钟内完成执行 Service.onCreate()Service.onStartCommand()/Service.onBind()
  • 未调用 Service.startForeground():如果您的应用使用 Context.startForegroundService() 在前台启动新服务,但服务随后未在 5 秒内调用 startForeground()
  • 意图广播:如果一个BroadcastReceiver在设定的时间内没有完成执行。如果应用有任何活动处于前台,则此超时时间为 5 秒。
  • JobScheduler 交互:如果一个JobService在几秒钟内没有从JobService.onStartJob()JobService.onStopJob()返回,或者如果一个用户发起的作业开始并且您的应用在JobService.onStartJob()被调用后的几秒钟内没有调用JobService.setNotification()。对于目标平台为 Android 13 及以下的应用,ANR 是静默的,不会向应用报告。对于目标平台为 Android 14 及以上的应用,ANR 是明确的,并会向应用报告。

如果您的应用遇到 ANR,您可以使用本文中的指南来诊断和解决问题。

检测问题

如果您已经发布了您的应用,您可以使用 Android vitals 查看应用的 ANR 信息。您可以使用其他工具来检测现场的 ANR,但请注意,与 Android vitals 不同,第三方工具无法在旧版本的 Android(Android 10 及以下版本)上报告 ANR。

Android 核心指标

Android vitals 可以帮助您监控和改善应用的 ANR 率。Android vitals 测量多个 ANR 率

  • ANR 率:每天活跃用户中遇到任何类型 ANR 的百分比。
  • 用户感知 ANR 率:每天活跃用户中至少遇到一次用户感知 ANR的百分比。目前,只有类型为Input dispatching timed out的 ANR 被视为用户感知的。
  • 多次 ANR 率:每天活跃用户中至少遇到两次 ANR 的百分比。

每天活跃用户是指在单日内使用您的应用的唯一用户,使用同一设备,可能包含多个会话。如果用户在同一天内使用您的应用超过一台设备,则每台设备都将计入当天的活跃用户数量。如果多个用户在同一天内使用同一台设备,则计为一个活跃用户。

用户感知 ANR 率是核心指标,这意味着它会影响您的应用在 Google Play 上的发现性。它很重要,因为其统计的 ANR 总是发生在用户与应用交互时,造成最大的干扰。

Play 在此指标上定义了两个不良行为阈值

  • 整体不良行为阈值:至少 0.47% 的每日活跃用户在所有设备型号上都遇到用户感知的 ANR。
  • 每个设备的不良行为阈值:至少 8% 的每日活跃用户遇到用户感知的 ANR,针对单个设备型号

如果您的应用超过了整体不良行为阈值,则其在所有设备上的发现性可能会降低。如果您的应用在某些设备上超过了每个设备的不良行为阈值,则其在这些设备上的发现性可能会降低,并且您的商店列表中可能会显示警告。

当您的应用出现过多的 ANR 时,Android vitals 可以通过Play Console向您发出警报。

有关 Google Play 如何收集 Android vitals 数据的信息,请参阅Play Console 文档。

诊断 ANR

在诊断 ANR 时,有一些常见的模式需要查找

  • 应用正在主线程上执行涉及 I/O 的缓慢操作。
  • 应用正在主线程上执行长时间计算。
  • 主线程正在对另一个进程进行同步 Binder 调用,并且该进程需要很长时间才能返回。
  • 主线程被阻塞,等待另一个线程上的长时间操作的同步块。
  • 主线程与另一个线程(在您的进程中或通过 Binder 调用)发生死锁。主线程不仅仅是在等待长时间操作完成,而是在死锁状态。有关更多信息,请参阅维基百科上的死锁

以下技术可以帮助您确定 ANR 的原因。

HealthStats

HealthStats 通过捕获总的用户和系统时间、CPU 时间、网络、无线电统计信息、屏幕开启/关闭时间以及唤醒警报来提供有关应用程序运行状况的指标。这可以帮助衡量整体 CPU 使用率和电池消耗。

Debug

Debug 帮助在开发过程中检查 Android 应用程序,包括跟踪和分配计数,以识别应用中的卡顿和延迟。您还可以使用Debug获取运行时和原生内存计数器,以及可以帮助识别特定进程内存占用量的内存指标。

ApplicationExitInfo

ApplicationExitInfo 在 Android 11(API 级别 30)或更高版本上可用,并提供有关应用程序退出原因的信息。这包括 ANR、内存不足、应用崩溃、过多的 CPU 使用率、用户中断、系统中断或运行时权限更改。

严格模式

使用StrictMode可以帮助您在开发应用时查找主线程上意外的 I/O 操作。您可以在应用程序或活动级别使用StrictMode

启用后台 ANR 对话框

Android 仅当设备的开发者选项中启用了显示所有 ANR时,才会为处理广播消息花费过长时间的应用显示 ANR 对话框。因此,后台 ANR 对话框并不总是显示给用户,但应用可能仍然存在性能问题。

Traceview

您可以在执行用例时使用 Traceview 获取正在运行的应用的跟踪,并识别主线程繁忙的位置。有关如何使用 Traceview 的信息,请参阅使用 Traceview 和 dmtracedump 进行性能分析

提取跟踪文件

Android 在遇到 ANR 时会存储跟踪信息。在较旧的操作系统版本上,设备上有一个单独的/data/anr/traces.txt文件。在新版操作系统上,有多个/data/anr/anr_*文件。您可以使用以 root 身份运行的Android 调试桥 (adb)从设备或模拟器访问 ANR 跟踪。

adb root
adb shell ls /data/anr
adb pull /data/anr/<filename>

您可以使用设备上的“获取错误报告”开发者选项或开发机器上的 adb bugreport 命令从物理设备捕获错误报告。有关更多信息,请参阅捕获和读取错误报告

修复问题

确定问题后,您可以使用本节中的提示修复常见问题。

主线程上的缓慢代码

确定应用的主线程繁忙超过 5 秒的代码位置。查找应用中可疑的用例,并尝试重现 ANR。

例如,图 2 显示了一个 Traceview 时间线,其中主线程繁忙超过 5 秒。

Figure 2. Traceview timeline showing a busy main
thread

图 2. 显示繁忙主线程的 Traceview 时间线

图 2 显示大部分有问题的代码发生在onClick(View) 处理程序中,如下面的代码示例所示

Kotlin

override fun onClick(v: View) {
    // This task runs on the main thread.
    BubbleSort.sort(data)
}

Java

@Override
public void onClick(View view) {
    // This task runs on the main thread.
    BubbleSort.sort(data);
}

在这种情况下,您应该将主线程中运行的工作移动到工作线程。Android 框架包含可帮助将任务移动到工作线程的类。有关更多信息,请参阅工作线程

主线程上的 IO

在主线程上执行 IO 操作是主线程上缓慢操作的常见原因,这会导致 ANR。建议将所有 IO 操作移动到工作线程,如上一节所示。

一些 IO 操作的示例包括网络和存储操作。有关更多信息,请参阅执行网络操作保存数据

锁争用

在某些情况下,导致 ANR 的工作并非直接在应用的主线程上执行。如果工作线程持有主线程完成其工作所需资源的锁,则可能会发生 ANR。

例如,图 3 显示了一个 Traceview 时间线,其中大部分工作是在工作线程上执行的。

Figure 3. Traceview timeline that shows the work being executed on a worker
thread

图 3. 显示工作在工作线程上执行的 Traceview 时间线

但是,如果您的用户仍然遇到 ANR,则应查看 Android 设备监控器中主线程的状态。通常,如果主线程已准备好更新 UI 并且通常响应迅速,则其处于RUNNABLE状态。

但是,如果主线程无法恢复执行,则它处于BLOCKED状态,无法响应事件。该状态在 Android 设备监控器上显示为监控等待,如图 5 所示。

Figure 4. Main thread in the Monitor
status

图 4. 主线程处于监控状态

以下跟踪显示了一个应用的主线程被阻塞,等待资源

...
AsyncTask #2" prio=5 tid=18 Runnable
  | group="main" sCount=0 dsCount=0 obj=0x12c333a0 self=0x94c87100
  | sysTid=25287 nice=10 cgrp=default sched=0/0 handle=0x94b80920
  | state=R schedstat=( 0 0 0 ) utm=757 stm=0 core=3 HZ=100
  | stack=0x94a7e000-0x94a80000 stackSize=1038KB
  | held mutexes= "mutator lock"(shared held)
  at com.android.developer.anrsample.BubbleSort.sort(BubbleSort.java:8)
  at com.android.developer.anrsample.MainActivity$LockTask.doInBackground(MainActivity.java:147)
  - locked <0x083105ee> (a java.lang.Boolean)
  at com.android.developer.anrsample.MainActivity$LockTask.doInBackground(MainActivity.java:135)
  at android.os.AsyncTask$2.call(AsyncTask.java:305)
  at java.util.concurrent.FutureTask.run(FutureTask.java:237)
  at android.os.AsyncTask$SerialExecutor$1.run(AsyncTask.java:243)
  at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1133)
  at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:607)
  at java.lang.Thread.run(Thread.java:761)
...

查看跟踪可以帮助您找到阻塞主线程的代码。以下代码负责持有在先前跟踪中阻塞主线程的锁

Kotlin

override fun onClick(v: View) {
    // The worker thread holds a lock on lockedResource
    LockTask().execute(data)

    synchronized(lockedResource) {
        // The main thread requires lockedResource here
        // but it has to wait until LockTask finishes using it.
    }
}

class LockTask : AsyncTask<Array<Int>, Int, Long>() {
    override fun doInBackground(vararg params: Array<Int>): Long? =
            synchronized(lockedResource) {
                // This is a long-running operation, which makes
                // the lock last for a long time
                BubbleSort.sort(params[0])
            }
}

Java

@Override
public void onClick(View v) {
    // The worker thread holds a lock on lockedResource
   new LockTask().execute(data);

   synchronized (lockedResource) {
       // The main thread requires lockedResource here
       // but it has to wait until LockTask finishes using it.
   }
}

public class LockTask extends AsyncTask<Integer[], Integer, Long> {
   @Override
   protected Long doInBackground(Integer[]... params) {
       synchronized (lockedResource) {
           // This is a long-running operation, which makes
           // the lock last for a long time
           BubbleSort.sort(params[0]);
       }
   }
}

另一个示例是应用的主线程正在等待工作线程的结果,如下面的代码所示。请注意,在 Kotlin 中使用wait()notify()不是推荐的模式,Kotlin 有自己的并发处理机制。使用 Kotlin 时,应尽可能使用 Kotlin 特定的机制。

Kotlin

fun onClick(v: View) {
    val lock = java.lang.Object()
    val waitTask = WaitTask(lock)
    synchronized(lock) {
        try {
            waitTask.execute(data)
            // Wait for this worker thread’s notification
            lock.wait()
        } catch (e: InterruptedException) {
        }
    }
}

internal class WaitTask(private val lock: java.lang.Object) : AsyncTask<Array<Int>, Int, Long>() {
    override fun doInBackground(vararg params: Array<Int>): Long? {
        synchronized(lock) {
            BubbleSort.sort(params[0])
            // Finished, notify the main thread
            lock.notify()
        }
    }
}

Java

public void onClick(View v) {
   WaitTask waitTask = new WaitTask();
   synchronized (waitTask) {
       try {
           waitTask.execute(data);
           // Wait for this worker thread’s notification
           waitTask.wait();
       } catch (InterruptedException e) {}
   }
}

class WaitTask extends AsyncTask<Integer[], Integer, Long> {
   @Override
   protected Long doInBackground(Integer[]... params) {
       synchronized (this) {
           BubbleSort.sort(params[0]);
           // Finished, notify the main thread
           notify();
       }
   }
}

还有一些其他情况可能会阻塞主线程,包括使用LockSemaphore以及资源池(例如数据库连接池)或其他互斥(互斥量)机制的线程。

您应该评估应用通常持有的资源锁,但是如果您想避免 ANR,则应查看为主线程所需资源持有的锁。

确保锁保持的时间最短,或者更好的是,评估应用是否首先需要持有该锁。如果您使用锁来确定何时根据工作线程的处理来更新 UI,请使用onProgressUpdate()onPostExecute()等机制在工作线程和主线程之间进行通信。

死锁

当一个线程进入等待状态,因为它需要的资源被另一个线程持有,而该线程也正在等待第一个线程持有的资源时,就会发生死锁。如果应用的主线程处于这种情况,则很可能发生 ANR。

死锁是计算机科学中一个经过充分研究的现象,您可以使用一些死锁预防算法来避免死锁。

有关更多信息,请参阅维基百科上的死锁死锁预防算法

缓慢的广播接收器

应用可以通过广播接收器来响应广播消息,例如启用或禁用飞行模式或连接状态更改。当应用花费过长时间处理广播消息时,就会发生 ANR。

在以下情况下会发生 ANR

您的应用应该只在BroadcastReceiveronReceive()方法中执行简短的操作。但是,如果您的应用需要对广播消息进行更复杂的处理,则应将任务延迟到IntentService中。

您可以使用Traceview等工具来识别您的广播接收器是否在应用的主线程上执行长时间运行的操作。例如,图6显示了广播接收器在主线程上处理消息大约100秒的时间线。

Figure 5. Traceview timeline showing the `BroadcastReceiver` work on the main
thread

图5. Traceview时间线显示BroadcastReceiver在主线程上的工作

此行为可能是由于在BroadcastReceiveronReceive()方法中执行长时间运行的操作引起的,如下例所示

Kotlin

override fun onReceive(context: Context, intent: Intent) {
    // This is a long-running operation
    BubbleSort.sort(data)
}

Java

@Override
public void onReceive(Context context, Intent intent) {
    // This is a long-running operation
    BubbleSort.sort(data);
}

在类似情况下,建议将长时间运行的操作移至IntentService,因为它使用工作线程来执行其工作。以下代码显示了如何使用IntentService来处理长时间运行的操作

Kotlin

override fun onReceive(context: Context, intent: Intent) {
    Intent(context, MyIntentService::class.java).also { intentService ->
        // The task now runs on a worker thread.
        context.startService(intentService)
    }
}

class MyIntentService : IntentService("MyIntentService") {
    override fun onHandleIntent(intent: Intent?) {
        BubbleSort.sort(data)
    }
}

Java

@Override
public void onReceive(Context context, Intent intent) {
    // The task now runs on a worker thread.
    Intent intentService = new Intent(context, MyIntentService.class);
    context.startService(intentService);
}

public class MyIntentService extends IntentService {
   @Override
   protected void onHandleIntent(@Nullable Intent intent) {
       BubbleSort.sort(data);
   }
}

由于使用了IntentService,长时间运行的操作是在工作线程而不是主线程上执行的。图7显示了在Traceview时间线上延迟到工作线程的工作。

Figure 6. Traceview timeline showing the broadcast message processed on a
worker thread

图6. Traceview时间线显示在工作线程上处理的广播消息

您的广播接收器可以使用goAsync()向系统发出信号,表明它需要更多时间来处理消息。但是,您应该在PendingResult对象上调用finish()。以下示例显示了如何调用finish()以让系统回收广播接收器并避免ANR

Kotlin

val pendingResult = goAsync()

object : AsyncTask<Array<Int>, Int, Long>() {
    override fun doInBackground(vararg params: Array<Int>): Long? {
        // This is a long-running operation
        BubbleSort.sort(params[0])
        pendingResult.finish()
        return 0L
    }
}.execute(data)

Java

final PendingResult pendingResult = goAsync();
new AsyncTask<Integer[], Integer, Long>() {
   @Override
   protected Long doInBackground(Integer[]... params) {
       // This is a long-running operation
       BubbleSort.sort(params[0]);
       pendingResult.finish();
   }
}.execute(data);

但是,如果广播在后台,将代码从缓慢的广播接收器移动到另一个线程并使用goAsync()不会修复ANR。ANR超时仍然适用。

GameActivity

GameActivity库减少了使用C或C++编写的游戏和应用案例研究中的ANR。如果用GameActivity替换现有的原生活动,则可以减少UI线程阻塞并防止某些ANR发生。

有关ANR的更多信息,请参阅保持应用响应。有关线程的更多信息,请参阅线程性能

  • 注意:当JavaScript关闭时显示链接文本
  • 过度唤醒