Coding妙妙屋

软件漫谈:从底层实现到架构设计

0%

pyperf使用指南

Python pyperf module

一、概述

在实际编码过程中常常需要对系统的性能进行剖析和优化,有以下工具可以使用:

perf是一款linux性能分析工具,它提供了一个性能分析框架,可以用于分析程序运行过程中发生的硬件时间(CPU的时钟周期)/软件时间(进程切换,缺页错误)来定位程序的性能瓶颈。

pyperf则是python中用于性能测试、分析的工具包。本文主要介绍如何快速上手pyperf,对指定代码块或模块进行简单的性能测试。

二、Quick Start

2.1 Install

执行命令行安装:

python3 -m pip install pyperf

若提示依赖的版本较低,可以尝试执行setuptools:

python3 -m pip install -U setuptools

2.2 Command line

  • 通过命令行可以执行代码块并进行简单的时间性能测量(benchmark),基本的测量方法为循环执行取均值。先看一个简单例子:
1
2
3
$ python3 -m pyperf timeit '[1,2]*1000'
.....................
Mean +- std dev: 4.19 us +- 0.05 us
  • 使用--output-o输出结果到 JSON 文件中:
1
2
3
$ python3 -m pyperf timeit '[1,2]*1000' -o bench.json
.....................
Mean +- std dev: 4.22 us +- 0.08 us
  • 使用stats指令计算多次执行的统计数据(均值/最大/最小值等):
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
$ python3 -m pyperf stats outliers.json -q
Total duration: 11.6 sec
Start date: 2017-03-16 16:30:01
End date: 2017-03-16 16:30:16
Raw value minimum: 135 ms
Raw value maximum: 197 ms

Number of calibration run: 1
Number of run with values: 20
Total number of run: 21

Number of warmup per run: 1
Number of value per run: 3
Loop iterations per value: 2^15
Total number of values: 60

Minimum: 4.12 us
Median +- MAD: 4.25 us +- 0.05 us
Mean +- std dev: 4.34 us +- 0.31 us
Maximum: 6.02 us

0th percentile: 4.12 us (-5% of the mean) -- minimum
5th percentile: 4.15 us (-4% of the mean)
25th percentile: 4.21 us (-3% of the mean) -- Q1
50th percentile: 4.25 us (-2% of the mean) -- median
75th percentile: 4.30 us (-1% of the mean) -- Q3
95th percentile: 4.84 us (+12% of the mean)
100th percentile: 6.02 us (+39% of the mean) -- maximum

Number of outlier (out of 4.07 us..4.44 us): 9
  • 使用直方图(hist指令)显示上述结果:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
$ python3 -m pyperf hist outliers.json -q
4.10 us: 15 ##############################
4.20 us: 29 ##########################################################
4.30 us: 6 ############
4.40 us: 3 ######
4.50 us: 2 ####
4.60 us: 1 ##
4.70 us: 0 |
4.80 us: 1 ##
4.90 us: 0 |
5.00 us: 0 |
5.10 us: 0 |
5.20 us: 2 ####
5.30 us: 0 |
5.40 us: 0 |
5.50 us: 0 |
5.60 us: 0 |
5.70 us: 0 |
5.80 us: 0 |
5.90 us: 0 |
6.00 us: 1 ##
  • 对于一些测试可能无法获得稳定的结果,此时可以尝试使用中位数median absolute deviation (MAD) 去进行数据统计。

更多高级统计方法可见:https://pyperf.readthedocs.io/en/latest/analyze.html

2.3 Python API

2.3.1 bench_func()

bench_func()用于对函数进行性能测试,主要包括如下参数:

  • name: 本次benchmark的名称,在脚本中应保持唯一;
  • func: 回调函数;
  • inner_loop: 用于标准化每次循环迭代的时间。

bench_func()方法在设计时具有不可忽略的执行开销,如果func本身时间较短(<1ms)则不建议使用该方法,此时使用timeit() bench_time_func()更加合适。下面给出一个用例,使用bench_func() 测量1ms的睡眠经过的时间:

1
2
3
4
5
6
7
8
9
10
11
#!/usr/bin/env python3
import pyperf
import time


def func():
time.sleep(0.001)


runner = pyperf.Runner()
runner.bench_func('sleep', func)

2.3.2 timeit()

timeit()同样用于性能测试,主要包括以下参数:

  • name: 本次benchmark的名称,在脚本中应保持唯一;
  • stmt: 执行的python语句;
  • setup: 在每次进行性能统计循环前执行的Python语句;
  • teardown: 在每次进行性能统计循环后执行的Python语句;
  • duplicate: stmt中语句的重复次数,减少外循环的性能成本。

下面给出一个例子,使用timeit() 测量1000个数字的排序列表时间性能:

1
2
3
4
5
6
7
#!/usr/bin/env python3
import pyperf

runner = pyperf.Runner()
runner.timeit("sorted(list(range(1000)), key=lambda x: x)",
stmt="sorted(s, key=f)",
setup="f = lambda x: x; s = list(range(1000))")

2.3.3 bench_command()

使用time.perf_counter()计时器对命令的执行时间进行基准测试,测量Wall-time而不是CPU-time

两者的区别为:

  • Wall-time: 计算开始到计算结束的时间;
  • CPU-time: CPU用来执行程序的时间;

部分程序由于需要线程等待IO完成用户输入,导致CPU无法100%被利用,所以通常CPU-timewall-time小。多线程时程序的CPU-time 是各个线程的CPU-time 时间统计之和。

关键参数如下:

  • name: 本次benchmark的名称,在脚本中应保持唯一;
  • command: 命令参数列表,第一个参数通常是程序,这里我们一般就使用sys.executable
1
2
3
4
5
6
#!/usr/bin/env python3
import sys
import pyperf

runner = pyperf.Runner()
runner.bench_command('python_startup', [sys.executable, '-c', 'pass'])

2.3.4 bench_time_func()

bench_time_func()与其他方法的差异是要求我们自己编写测量函数,返回所有循环经过的总时间。

  • name: 本次lbenchmark的名称,在脚本中应保持唯一;
  • time_func(loops, *args): 时间统计函数,需要我们基于loops参数内循环测量时间并返回。

下面给出一个例子,测量dict[key]的查询性能:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
#!/usr/bin/env python3
import pyperf


def bench_dict(loops, mydict):
range_it = range(loops)
t0 = pyperf.perf_counter()

for loops in range_it:
mydict['0']
mydict['100']
mydict['200']
mydict['300']
mydict['400']
mydict['500']
mydict['600']
mydict['700']
mydict['800']
mydict['900']

return pyperf.perf_counter() - t0


runner = pyperf.Runner()
mydict = {str(k): k for k in range(1000)}
# inner-loops: dict[str] is duplicated 10 times
runner.bench_time_func('dict[str]', bench_dict, mydict, inner_loops=10)

三、参考文献

pyperf API参考手册

pyperf 用户手册