reload响应高点问题

leozhangjs · 2015-12-21T10:55:17+00:00

Hello! On Sun, Dec 20, 2015 at 5:49 PM, XI WANG wrote: > balancer_by_lua 没合并进来啊？ > 还没&...

reload响应高点问题

leozhangjs

现在用nginx做反向代理负载均衡，碰到reload有时候出现响应高点的问题，追查了一下是accept比较慢的问题

环境：流量比较大，2Gb/s左右，测试的是一个本地的很小的测试文件

chenweidelphi

用nginx高版本的reuse port 1.9.1版本以上

------------------ 原始邮件 ------------------

发件人: Zhangjs Jinshui <leoz...@gmail.com>

发送时间: 2015年12月21日 10:55

收件人: openresty <openresty@googlegroups.com>

主题: [openresty] reload响应高点问题

现在用nginx做反向代理负载均衡，碰到reload有时候出现响应高点的问题，追查了一下是accept比较慢的问题

环境：流量比较大，2Gb/s左右，测试的是一个本地的很小的测试文件

leozhangjs

那这个内核的问题？reuse port对内核版本有一定要求，我在2.6.32上尝试过有问题，有没有别的解决方案的？

在 2015年12月21日星期一 UTC+8上午11:03:10，泡泡鱼写道：

用nginx高版本的reuse port 1.9.1版本以上

发自我的iPhone

------------------ 原始邮件 ------------------
发件人: Zhangjs Jinshui <leozh...@gmail.com>
发送时间: 2015年12月21日 10:55
收件人: openresty <open...@googlegroups.com>
主题: [openresty] reload响应高点问题

Hi

现在用nginx做反向代理负载均衡，碰到reload有时候出现响应高点的问题，追查了一下是accept比较慢的问题

环境：流量比较大，2Gb/s左右，测试的是一个本地的很小的测试文件
相关配置：
  worker_processes 8;
events {
  use epoll;
  worker_connections 100000;
}

大家有没遇到过，有什么解决思路

--

agentzh

Hello!

2015-12-20 18:55 GMT-08:00 Zhangjs Jinshui:
>       相关配置：
>               worker_processes 8;
>              events {
>                         use epoll;
>                         worker_connections  100000;
>              }
>

建议在 events {} 里面加上 accept_mutex off; 这一行配置。参见

    http://nginx.org/en/docs/ngx_core_module.html#accept_mutex

Regards,
-agentzh

yuansheng_2f16

春哥几次提及了在高并发情况下要关闭 accept_mutex 。

这篇文章，写的很通俗，顺路给自己补补。

文章连接： http://huoding.com/2013/08/24/281

闲扯Nginx的accept_mutex配置

通常多数人不会注意Nginx的accept_mutex配置，不过实际上它对系统的吞吐量有一定的影响，今天生物钟紊乱睡不着觉，索性闲扯一下Nginx的accept_mutex配置。

让我们看看accept_mutex的意义：当一个新连接到达时，如果激活了accept_mutex，那么多个Worker将以串行方式来处理，其中有一个Worker会被唤醒，其他的Worker继续保持休眠状态；如果没有激活accept_mutex，那么所有的Worker都会被唤醒，不过只有一个Worker能获取新连接，其它的Worker会重新进入休眠状态，这就是「惊群问题」... ...

2015-12-22 2:54 GMT+08:00 Yichun Zhang (agentzh) <age...@gmail.com>:

Hello!

2015-12-20 18:55 GMT-08:00 Zhangjs Jinshui:
> 相关配置：
> worker_processes 8;
> events {
> use epoll;
> worker_connections 100000;
> }
>

建议在 events {} 里面加上 accept_mutex off; 这一行配置。参见

http://nginx.org/en/docs/ngx_core_module.html#accept_mutex

Regards,
-agentzh

--

Membhis

My github: https://github.com/membphis

Our Book: OpenResty Best Practices

leozhangjs

试过关闭accept_mutex，并不能解决reload高点问题，而且会导致系统负载高，泡泡鱼提供的reuse_port或者在其基础上的fastsocket是可以解决。

在 2015年12月22日星期二 UTC+8上午2:54:31，agentzh写道：

Hello!

2015-12-20 18:55 GMT-08:00 Zhangjs Jinshui:
> 相关配置：
> worker_processes 8;
> events {
> use epoll;
> worker_connections 100000;
> }
>

建议在 events {} 里面加上 accept_mutex off; 这一行配置。参见

http://nginx.org/en/docs/ngx_core_module.html#accept_mutex

Regards,
-agentzh

yuansheng_2f16

> 泡泡鱼提供的reuse_port或者在其基础上的fastsocket是可以解决

很关注你们最后用的哪个方案，压测结果表现如何，尤其是稳定性。

欢迎分享一下。

2015-12-22 11:16 GMT+08:00 zhangjs <leoz...@gmail.com>:

试过关闭accept_mutex，并不能解决reload高点问题，而且会导致系统负载高，泡泡鱼提供的reuse_port或者在其基础上的fastsocket是可以解决。

在 2015年12月22日星期二 UTC+8上午2:54:31，agentzh写道：
Hello!

2015-12-20 18:55 GMT-08:00 Zhangjs Jinshui:
> 相关配置：
> worker_processes 8;
> events {
> use epoll;
> worker_connections 100000;
> }
>

建议在 events {} 里面加上 accept_mutex off; 这一行配置。参见

http://nginx.org/en/docs/ngx_core_module.html#accept_mutex

Regards,
-agentzh

--

Membhis

My github: https://github.com/membphis

Our Book: OpenResty Best Practices

leozhangjs

reuse_port需要内核3.9以上，尝试了3.18的内核，结果有网卡软中断飙高的问题，就先跳过去了。

Fastsocket的内核版本也是基于Centos6.x的2.6.32，与我们现在使用的环境的版本基本一致，测试后reload高点问题是解决了，跑了一天没什么大问题，

不过reload的时候连接数会下降几K，然后经过十几秒又快速恢复到之前的水平，从监控的流量上看没有影响，还不知道其中的原因。

在 2015年12月22日星期二 UTC+8下午1:29:21，YuanSheng Wang写道：

> 泡泡鱼提供的reuse_port或者在其基础上的fastsocket是可以解决

很关注你们最后用的哪个方案，压测结果表现如何，尤其是稳定性。

欢迎分享一下。

2015-12-22 11:16 GMT+08:00 zhangjs <leozh...@gmail.com>:
试过关闭accept_mutex，并不能解决reload高点问题，而且会导致系统负载高，泡泡鱼提供的reuse_port或者在其基础上的fastsocket是可以解决。

在 2015年12月22日星期二 UTC+8上午2:54:31，agentzh写道：
Hello!

2015-12-20 18:55 GMT-08:00 Zhangjs Jinshui:
> 相关配置：
> worker_processes 8;
> events {
> use epoll;
> worker_connections 100000;
> }
>

建议在 events {} 里面加上 accept_mutex off; 这一行配置。参见

http://nginx.org/en/docs/ngx_core_module.html#accept_mutex

Regards,
-agentzh

--

--

Membhis
My github: https://github.com/membphis
Our Book: OpenResty Best Practices

wonderbeyond

我还专门对比了开启和关闭accept_mutex两种情况的性能表现，发现在我的场景下，accept_mutex on的性能表现明显更优秀！

我用来测试的服务是把Request Headers编码成JSON并输出到Response，配置如下：

server {
    listen 8011;
    location /lua {
        default_type text/plain;
        content_by_lua_block {
            local cjson = require 'cjson'
            ngx.say(cjson.encode(ngx.req.get_headers()))
        }
    }
}

然后设置 accept_mutex on;, 并用ab做并发测试，连续执行 ab -c4 -n100000 'http://localhost:8011/lua' 两次，输出参见：http://dpaste.com/3QNPDM1

然后再设置 accept_mutex off;, 并用ab做并发测试，连续执行 ab -c4 -n100000 'http://localhost:8011/lua' 两次，输出参见：http://dpaste.com/3A30NPN

由此可以accept_mutex on表现明显更优秀，而且多次测试效果可重现（我上面也分别贴了两次输出结果）。

系统信息:

$ uname -a
Linux wz 3.13.0-70-generic #113~precise1-Ubuntu SMP Tue Nov 17 10:28:32 UTC 2015 x86_64 x86_64 x86_64 GNU/Linux

$ lsb_release -a
No LSB modules are available.
Distributor ID:    Ubuntu
Description:    Ubuntu 12.04.5 LTS
Release:    12.04
Codename:    precise

$ /usr/sbin/nginx -V
nginx version: nginx/1.9.7
built by gcc 4.6.3 (Ubuntu/Linaro 4.6.3-1ubuntu5) 
built with OpenSSL 1.0.1 14 Mar 2012
TLS SNI support enabled
configure arguments: --prefix=/usr --sbin-path=/usr/sbin/nginx --conf-path=/etc/nginx/nginx.conf --error-log-path=/var/log/nginx/error.log --pid-path=/var/run/nginx.pid --lock-path=/var/lock/nginx.lock --user=www-data --group=www-data --with-http_ssl_module --with-http_flv_module --with-http_gzip_static_module --with-http_stub_status_module --http-log-path=/var/log/nginx/access.log --http-client-body-temp-path=/var/tmp/nginx/client/ --http-proxy-temp-path=/var/tmp/nginx/proxy/ --with-ld-opt=-Wl,-rpath,/usr/lib --add-module=/home/wonder/projects/uni_zlfund_nginx_build_helper/bundle/ngx_devel_kit-0.2.19 --add-module=/home/wonder/projects/uni_zlfund_nginx_build_helper/bundle/echo-nginx-module-0.58 --add-module=/home/wonder/projects/uni_zlfund_nginx_build_helper/bundle/ngx_http_redis-0.3.7 --add-module=/home/wonder/projects/uni_zlfund_nginx_build_helper/bundle/ngx_cache_purge-2.3 --add-module=/home/wonder/projects/uni_zlfund_nginx_build_helper/bundle/nginx-http-concat-1.2.2 --add-module=/home/wonder/projects/uni_zlfund_nginx_build_helper/bundle/lua-nginx-module-0.9.20 --add-module=/home/wonder/projects/uni_zlfund_nginx_build_helper/bundle/set-misc-nginx-module-0.29 --add-module=/home/wonder/projects/uni_zlfund_nginx_build_helper/bundle/srcache-nginx-module-0.30 --add-module=/home/wonder/projects/uni_zlfund_nginx_build_helper/bundle/redis2-nginx-module-0.12

$ nproc 
4

在 2015年12月22日下午2:09，zhangjs <leoz...@gmail.com>写道：

reuse_port需要内核3.9以上，尝试了3.18的内核，结果有网卡软中断飙高的问题，就先跳过去了。

Fastsocket的内核版本也是基于Centos6.x的2.6.32，与我们现在使用的环境的版本基本一致，测试后reload高点问题是解决了，跑了一天没什么大问题，
不过reload的时候连接数会下降几K，然后经过十几秒又快速恢复到之前的水平，从监控的流量上看没有影响，还不知道其中的原因。

在 2015年12月22日星期二 UTC+8下午1:29:21，YuanSheng Wang写道：
> 泡泡鱼提供的reuse_port或者在其基础上的fastsocket是可以解决

很关注你们最后用的哪个方案，压测结果表现如何，尤其是稳定性。

欢迎分享一下。

2015-12-22 11:16 GMT+08:00 zhangjs <leozh...@gmail.com>:
试过关闭accept_mutex，并不能解决reload高点问题，而且会导致系统负载高，泡泡鱼提供的reuse_port或者在其基础上的fastsocket是可以解决。

在 2015年12月22日星期二 UTC+8上午2:54:31，agentzh写道：
Hello!

2015-12-20 18:55 GMT-08:00 Zhangjs Jinshui:
> 相关配置：
> worker_processes 8;
> events {
> use epoll;
> worker_connections 100000;
> }
>

建议在 events {} 里面加上 accept_mutex off; 这一行配置。参见

http://nginx.org/en/docs/ngx_core_module.html#accept_mutex

Regards,
-agentzh

--

--

Membhis
My github: https://github.com/membphis
Our Book: OpenResty Best Practices

--

work wonders together!

wonderbeyond

我刚才测试的时候都是4个并发，有点少了，其实你们之前也说了高并发关掉accept_mutex会有优势，于是我调高到了1000并发，输出如下：

在 2016年1月6日上午9:47，wonderbeyond <wonde...@gmail.com>写道：

我还专门对比了开启和关闭accept_mutex两种情况的性能表现，发现在我的场景下，accept_mutex on的性能表现明显更优秀！

我用来测试的服务是把Request Headers编码成JSON并输出到Response，配置如下：
server {
    listen 8011;
    location /lua {
        default_type text/plain;
        content_by_lua_block {
            local cjson = require 'cjson'
            ngx.say(cjson.encode(ngx.req.get_headers()))
        }
    }
}
然后设置 accept_mutex on;, 并用ab做并发测试，连续执行 ab -c4 -n100000 'http://localhost:8011/lua' 两次，输出参见：http://dpaste.com/3QNPDM1

然后再设置 accept_mutex off;, 并用ab做并发测试，连续执行 ab -c4 -n100000 'http://localhost:8011/lua' 两次，输出参见：http://dpaste.com/3A30NPN

由此可以accept_mutex on表现明显更优秀，而且多次测试效果可重现（我上面也分别贴了两次输出结果）。

系统信息:
$ uname -a
Linux wz 3.13.0-70-generic #113~precise1-Ubuntu SMP Tue Nov 17 10:28:32 UTC 2015 x86_64 x86_64 x86_64 GNU/Linux

$ lsb_release -a
No LSB modules are available.
Distributor ID:    Ubuntu
Description:    Ubuntu 12.04.5 LTS
Release:    12.04
Codename:    precise

$ /usr/sbin/nginx -V
nginx version: nginx/1.9.7
built by gcc 4.6.3 (Ubuntu/Linaro 4.6.3-1ubuntu5) 
built with OpenSSL 1.0.1 14 Mar 2012
TLS SNI support enabled
configure arguments: --prefix=/usr --sbin-path=/usr/sbin/nginx --conf-path=/etc/nginx/nginx.conf --error-log-path=/var/log/nginx/error.log --pid-path=/var/run/nginx.pid --lock-path=/var/lock/nginx.lock --user=www-data --group=www-data --with-http_ssl_module --with-http_flv_module --with-http_gzip_static_module --with-http_stub_status_module --http-log-path=/var/log/nginx/access.log --http-client-body-temp-path=/var/tmp/nginx/client/ --http-proxy-temp-path=/var/tmp/nginx/proxy/ --with-ld-opt=-Wl,-rpath,/usr/lib --add-module=/home/wonder/projects/uni_zlfund_nginx_build_helper/bundle/ngx_devel_kit-0.2.19 --add-module=/home/wonder/projects/uni_zlfund_nginx_build_helper/bundle/echo-nginx-module-0.58 --add-module=/home/wonder/projects/uni_zlfund_nginx_build_helper/bundle/ngx_http_redis-0.3.7 --add-module=/home/wonder/projects/uni_zlfund_nginx_build_helper/bundle/ngx_cache_purge-2.3 --add-module=/home/wonder/projects/uni_zlfund_nginx_build_helper/bundle/nginx-http-concat-1.2.2 --add-module=/home/wonder/projects/uni_zlfund_nginx_build_helper/bundle/lua-nginx-module-0.9.20 --add-module=/home/wonder/projects/uni_zlfund_nginx_build_helper/bundle/set-misc-nginx-module-0.29 --add-module=/home/wonder/projects/uni_zlfund_nginx_build_helper/bundle/srcache-nginx-module-0.30 --add-module=/home/wonder/projects/uni_zlfund_nginx_build_helper/bundle/redis2-nginx-module-0.12

$ nproc 
4
在 2015年12月22日下午2:09，zhangjs <leoz...@gmail.com>写道：
reuse_port需要内核3.9以上，尝试了3.18的内核，结果有网卡软中断飙高的问题，就先跳过去了。

Fastsocket的内核版本也是基于Centos6.x的2.6.32，与我们现在使用的环境的版本基本一致，测试后reload高点问题是解决了，跑了一天没什么大问题，
不过reload的时候连接数会下降几K，然后经过十几秒又快速恢复到之前的水平，从监控的流量上看没有影响，还不知道其中的原因。

在 2015年12月22日星期二 UTC+8下午1:29:21，YuanSheng Wang写道：
> 泡泡鱼提供的reuse_port或者在其基础上的fastsocket是可以解决

很关注你们最后用的哪个方案，压测结果表现如何，尤其是稳定性。

欢迎分享一下。

2015-12-22 11:16 GMT+08:00 zhangjs <leozh...@gmail.com>:
试过关闭accept_mutex，并不能解决reload高点问题，而且会导致系统负载高，泡泡鱼提供的reuse_port或者在其基础上的fastsocket是可以解决。

在 2015年12月22日星期二 UTC+8上午2:54:31，agentzh写道：
Hello!

2015-12-20 18:55 GMT-08:00 Zhangjs Jinshui:
> 相关配置：
> worker_processes 8;
> events {
> use epoll;
> worker_connections 100000;
> }
>

建议在 events {} 里面加上 accept_mutex off; 这一行配置。参见

http://nginx.org/en/docs/ngx_core_module.html#accept_mutex

Regards,
-agentzh

--

--

Membhis
My github: https://github.com/membphis
Our Book: OpenResty Best Practices

--

--
work wonders together!

work wonders together!

wonderbeyond

注意，实际的命令是 `-c 1000`, 我贴到dpaste的写title的时候输入错了，请忽略title，以贴出来的内容为准。

Sorry！

在 2016年1月6日上午10:10，wonderbeyond <wonde...@gmail.com>写道：

我刚才测试的时候都是4个并发，有点少了，其实你们之前也说了高并发关掉accept_mutex会有优势，于是我调高到了1000并发，输出如下：

ab -c100000 -n100000 ‘http://localhost:8011/lua’ # with accept_mutex on;

ab -c100000 -n100000 ‘http://localhost:8011/lua’ # with accept_mutex off;
在 2016年1月6日上午9:47，wonderbeyond <wonde...@gmail.com>写道：
我还专门对比了开启和关闭accept_mutex两种情况的性能表现，发现在我的场景下，accept_mutex on的性能表现明显更优秀！

我用来测试的服务是把Request Headers编码成JSON并输出到Response，配置如下：
server {
    listen 8011;
    location /lua {
        default_type text/plain;
        content_by_lua_block {
            local cjson = require 'cjson'
            ngx.say(cjson.encode(ngx.req.get_headers()))
        }
    }
}
然后设置 accept_mutex on;, 并用ab做并发测试，连续执行 ab -c4 -n100000 'http://localhost:8011/lua' 两次，输出参见：http://dpaste.com/3QNPDM1

然后再设置 accept_mutex off;, 并用ab做并发测试，连续执行 ab -c4 -n100000 'http://localhost:8011/lua' 两次，输出参见：http://dpaste.com/3A30NPN

由此可以accept_mutex on表现明显更优秀，而且多次测试效果可重现（我上面也分别贴了两次输出结果）。

系统信息:
$ uname -a
Linux wz 3.13.0-70-generic #113~precise1-Ubuntu SMP Tue Nov 17 10:28:32 UTC 2015 x86_64 x86_64 x86_64 GNU/Linux

$ lsb_release -a
No LSB modules are available.
Distributor ID:    Ubuntu
Description:    Ubuntu 12.04.5 LTS
Release:    12.04
Codename:    precise

$ /usr/sbin/nginx -V
nginx version: nginx/1.9.7
built by gcc 4.6.3 (Ubuntu/Linaro 4.6.3-1ubuntu5) 
built with OpenSSL 1.0.1 14 Mar 2012
TLS SNI support enabled
configure arguments: --prefix=/usr --sbin-path=/usr/sbin/nginx --conf-path=/etc/nginx/nginx.conf --error-log-path=/var/log/nginx/error.log --pid-path=/var/run/nginx.pid --lock-path=/var/lock/nginx.lock --user=www-data --group=www-data --with-http_ssl_module --with-http_flv_module --with-http_gzip_static_module --with-http_stub_status_module --http-log-path=/var/log/nginx/access.log --http-client-body-temp-path=/var/tmp/nginx/client/ --http-proxy-temp-path=/var/tmp/nginx/proxy/ --with-ld-opt=-Wl,-rpath,/usr/lib --add-module=/home/wonder/projects/uni_zlfund_nginx_build_helper/bundle/ngx_devel_kit-0.2.19 --add-module=/home/wonder/projects/uni_zlfund_nginx_build_helper/bundle/echo-nginx-module-0.58 --add-module=/home/wonder/projects/uni_zlfund_nginx_build_helper/bundle/ngx_http_redis-0.3.7 --add-module=/home/wonder/projects/uni_zlfund_nginx_build_helper/bundle/ngx_cache_purge-2.3 --add-module=/home/wonder/projects/uni_zlfund_nginx_build_helper/bundle/nginx-http-concat-1.2.2 --add-module=/home/wonder/projects/uni_zlfund_nginx_build_helper/bundle/lua-nginx-module-0.9.20 --add-module=/home/wonder/projects/uni_zlfund_nginx_build_helper/bundle/set-misc-nginx-module-0.29 --add-module=/home/wonder/projects/uni_zlfund_nginx_build_helper/bundle/srcache-nginx-module-0.30 --add-module=/home/wonder/projects/uni_zlfund_nginx_build_helper/bundle/redis2-nginx-module-0.12

$ nproc 
4
在 2015年12月22日下午2:09，zhangjs <leoz...@gmail.com>写道：
reuse_port需要内核3.9以上，尝试了3.18的内核，结果有网卡软中断飙高的问题，就先跳过去了。

Fastsocket的内核版本也是基于Centos6.x的2.6.32，与我们现在使用的环境的版本基本一致，测试后reload高点问题是解决了，跑了一天没什么大问题，
不过reload的时候连接数会下降几K，然后经过十几秒又快速恢复到之前的水平，从监控的流量上看没有影响，还不知道其中的原因。

在 2015年12月22日星期二 UTC+8下午1:29:21，YuanSheng Wang写道：
> 泡泡鱼提供的reuse_port或者在其基础上的fastsocket是可以解决

很关注你们最后用的哪个方案，压测结果表现如何，尤其是稳定性。

欢迎分享一下。

2015-12-22 11:16 GMT+08:00 zhangjs <leozh...@gmail.com>:
试过关闭accept_mutex，并不能解决reload高点问题，而且会导致系统负载高，泡泡鱼提供的reuse_port或者在其基础上的fastsocket是可以解决。

在 2015年12月22日星期二 UTC+8上午2:54:31，agentzh写道：
Hello!

2015-12-20 18:55 GMT-08:00 Zhangjs Jinshui:
> 相关配置：
> worker_processes 8;
> events {
> use epoll;
> worker_connections 100000;
> }
>

建议在 events {} 里面加上 accept_mutex off; 这一行配置。参见

http://nginx.org/en/docs/ngx_core_module.html#accept_mutex

Regards,
-agentzh

--

--

Membhis
My github: https://github.com/membphis
Our Book: OpenResty Best Practices

--

--
work wonders together!
--
work wonders together!

work wonders together!

agentzh

Hello!

2016-01-05 17:47 GMT-08:00 wonderbeyond:
> 我还专门对比了开启和关闭accept_mutex两种情况的性能表现，发现在我的场景下，accept_mutex on的性能表现明显更优秀！
>

这个和 worker 进程的数目有关系，你一共也只有 4 个逻辑 CPU 核，所以也就应该配置 4 个 worker
进程。另外，你测的不是虚拟机哈？另外确保你正确设置了 nginx worker 的 CPU 亲缘性。

另外，我注意到你的 ab 报告里面有 Failed requests. 请注意观察 nginx 错误日志里面的输出。

Regards,
-agentzh

wonderbeyond

nginx确实开了4个worker，nginx和测试命令都是跑在物理机的，亲缘性啥的没有配置呢，我的配置比较干净：

```nginx

user www-data;

worker_processes 4;

pid /var/run/nginx.pid;

events {

worker_connections 768;

# multi_accept on;

accept_mutex on;

}

...

```

在 2016年1月6日上午10:19，Yichun Zhang (agentzh) <age...@gmail.com>写道：

Hello!

2016-01-05 17:47 GMT-08:00 wonderbeyond:
> 我还专门对比了开启和关闭accept_mutex两种情况的性能表现，发现在我的场景下，accept_mutex on的性能表现明显更优秀！
>

这个和 worker 进程的数目有关系，你一共也只有 4 个逻辑 CPU 核，所以也就应该配置 4 个 worker
进程。另外，你测的不是虚拟机哈？另外确保你正确设置了 nginx worker 的 CPU 亲缘性。

另外，我注意到你的 ab 报告里面有 Failed requests. 请注意观察 nginx 错误日志里面的输出。

Regards,
-agentzh

--

work wonders together!

wonderbeyond

> 另外，我注意到你的 ab 报告里面有 Failed requests. 请注意观察 nginx 错误日志里面的输出。

我也刚注意到 `C1000(with accept_mutex on)` 的那个ab报告都是失败的，而且我又在同样条件下重复测试了多次还是全部报告失败。

测试的过程中，access.log全部是200输出，error.log没有任何错误输出，这是什么什么情况？我搞不懂了，好奇怪。我应该如何排查？

备注：同样情况，把C调到100，报告里面就不会有Failed requests了。

Regards,
-agentzh

--

work wonders together!

agentzh

Hello!

2016-01-05 18:40 GMT-08:00 wonderbeyond:
> 我也刚注意到 `C1000(with accept_mutex on)` 的那个ab报告都是失败的，而且我又在同样条件下重复测试了多次还是全部报告失败。
> 测试的过程中，access.log全部是200输出，error.log没有任何错误输出，这是什么什么情况？我搞不懂了，好奇怪。我应该如何排查？
>
> 备注：同样情况，把C调到100，报告里面就不会有Failed requests了。

你的 worker_connections 配置太低了。开启 accept_mutex 时容易导致请求在各个 worker
之间分布不均匀。另外，请检查你的 error_log 配置指令是否配置了过高的过滤级别（比如 crit
之类），过高的话，你什么错误都不会看到的。worker_rlimit_nofile 指令在并发很高时可能也需要调整。

Regards,
-agentzh

wonderbeyond

> 你的 worker_connections 配置太低了。开启 accept_mutex 时容易导致请求在各个 worker
之间分布不均匀。

`C1000+accept_mutex on`那个测试，其它条件不变，我把worker_connections设置成10000，ab报告里面就没有失败的请求了。多谢！（这是我的本地环境，配置比较干净，我们生产环境的worker_connections=65535）

> 另外，请检查你的 error_log 配置指令是否配置了过高的过滤级别（比如 crit
之类），过高的话，你什么错误都不会看到的。

多谢！被你说对了！我的error_log还是默认的配置，我把过滤级别设置成debug后，再重现有问题的那个`C1000+accept_mutex on`场景，发现错误日志大量输出如下：

2016/01/06 13:13:41 [info] 20716#0: *5052575 client closed connection while waiting for request, client: 127.0.0.1, server: 0.0.0.0:8011
2016/01/06 13:13:41 [info] 20716#0: *5052642 client closed connection while waiting for request, client: 127.0.0.1, server: 0.0.0.0:8011

ab的报告是全部失败，但其实这个时候你去看access.log，还是会有大量200输出的，我不解，难道是nginx在处理请求的时候和ab丢了连接？烦请春哥解释。

> worker_rlimit_nofile 指令在并发很高时可能也需要调整。

多谢指教，先记下这个指令，暂时没空测试了。

我平时对nginx的研究比较现实一点，主要面向业务需要。

随着对nginx的基本配置慢慢熟练起来（特别是概念），精力也得到了解放，现在也能尝试高级玩法了，以后不断跟你们飞！

work wonders together!

agentzh

Hello!

2016-01-05 21:26 GMT-08:00 wonderbeyond:
>> 2016/01/06 13:13:41 [info] 20716#0: *5052575 client closed connection
>> while waiting for request, client: 127.0.0.1, server: 0.0.0.0:8011
>> 2016/01/06 13:13:41 [info] 20716#0: *5052642 client closed connection
>> while waiting for request, client: 127.0.0.1, server: 0.0.0.0:8011
>
> ab的报告是全部失败，但其实这个时候你去看access.log，还是会有大量200输出的，我不解，难道是nginx在处理请求的时候和ab丢了连接？烦请春哥解释。
>

你贴的这些是 info 级别的，连警告（warn）都不是，更谈不上错误。

ab 报告的 Failed requests 也未必真的是失败，因为如果你的响应长度会发生变化，则 ab 也会认为是 Failed，并记录在
Length 那一子项里面。具体问题得具体分析。

在做性能测试和上生产时，用 debug 日志级别有些过了，毕竟刷错误日志也是高代价操作，很容易成为性能瓶颈。一般用 warn 就很够了。

Regards,
-agentzh

wonderbeyond

响应长度是不会变的，如果长度变化导致了ab报失败，那相同条件的c100测试一样会全报错。

从nginx日志看，ab的失败确实不是真失败，毕竟nginx的访问日志都是200。这说明哪里不靠谱，要么是ab，要么是nginx，导致我的测试不可信。

我等下继续用我的开发机看下，现在在上班路上。

2016年1月7日 06:56，"Yichun Zhang (agentzh)" <age...@gmail.com>写道：

Hello!

2016-01-05 21:26 GMT-08:00 wonderbeyond:
>> 2016/01/06 13:13:41 [info] 20716#0: *5052575 client closed connection
>> while waiting for request, client: 127.0.0.1, server: 0.0.0.0:8011
>> 2016/01/06 13:13:41 [info] 20716#0: *5052642 client closed connection
>> while waiting for request, client: 127.0.0.1, server: 0.0.0.0:8011
>
> ab的报告是全部失败，但其实这个时候你去看access.log，还是会有大量200输出的，我不解，难道是nginx在处理请求的时候和ab丢了连接？烦请春哥解释。
>

你贴的这些是 info 级别的，连警告（warn）都不是，更谈不上错误。

ab 报告的 Failed requests 也未必真的是失败，因为如果你的响应长度会发生变化，则 ab 也会认为是 Failed，并记录在
Length 那一子项里面。具体问题得具体分析。

在做性能测试和上生产时，用 debug 日志级别有些过了，毕竟刷错误日志也是高代价操作，很容易成为性能瓶颈。一般用 warn 就很够了。

Regards,
-agentzh

--

wonderbeyond

我留意到ab报告里面有关于Length的错误99744个，我觉得这是不可能的，应该是其它方面的问题，导致报告失误。

Failed requests:        100000
   (Connect: 0, Receive: 0, Length: 99744, Exceptions: 256)

我还改造了下lua service，看看到底每次生成的内容是否一样，最后观察日志，排除几百个异常的情况，剩下的9万多个输出都是一样的。

lua_shared_dict cache 10m;

server {
    listen 8011;
    location /lua {
        default_type text/plain;
        content_by_lua_block {
            local cjson = require 'cjson'
            local cache = ngx.shared.cache
            local json_data = cjson.encode(ngx.req.get_headers())
            local key = ngx.var.arg_ver
            cached = cache:get(key)
            if cached then
                ngx.log(ngx.ERR, (cached == json_data and 'equal' or 'not equal') .. ' with cached')
                ngx.say(json_data)
            else
                cache:set(key, json_data)
                ngx.log(ngx.ERR, 'Saved ' .. key .. ' in cache')
                ngx.say(json_data)
            end
        }
    }
}

测试命令是 ab -c1000 -n100000 'http://localhost:8011/lua?ver=abtest4'，结果就不贴出来了，跟之前一样全部报失败（Connect: 0, Receive: 0, Length: 99744, Exceptions: 256）

然后统计nginx error.log：

$ grep 'equal with' /var/log/nginx/error.log | grep 'abtest4' | wc -l
99743

也就是说有99743次响应的内容都跟第一次缓存的内容是一模一样的。

暂时到这里，不深究了。

在 2016年1月7日上午7:44，wonderbeyond <wonde...@gmail.com>写道：

响应长度是不会变的，如果长度变化导致了ab报失败，那相同条件的c100测试一样会全报错。

从nginx日志看，ab的失败确实不是真失败，毕竟nginx的访问日志都是200。这说明哪里不靠谱，要么是ab，要么是nginx，导致我的测试不可信。

我等下继续用我的开发机看下，现在在上班路上。

2016年1月7日 06:56，"Yichun Zhang (agentzh)" <age...@gmail.com>写道：
Hello!

2016-01-05 21:26 GMT-08:00 wonderbeyond:
>> 2016/01/06 13:13:41 [info] 20716#0: *5052575 client closed connection
>> while waiting for request, client: 127.0.0.1, server: 0.0.0.0:8011
>> 2016/01/06 13:13:41 [info] 20716#0: *5052642 client closed connection
>> while waiting for request, client: 127.0.0.1, server: 0.0.0.0:8011
>
> ab的报告是全部失败，但其实这个时候你去看access.log，还是会有大量200输出的，我不解，难道是nginx在处理请求的时候和ab丢了连接？烦请春哥解释。
>

你贴的这些是 info 级别的，连警告（warn）都不是，更谈不上错误。

ab 报告的 Failed requests 也未必真的是失败，因为如果你的响应长度会发生变化，则 ab 也会认为是 Failed，并记录在
Length 那一子项里面。具体问题得具体分析。

在做性能测试和上生产时，用 debug 日志级别有些过了，毕竟刷错误日志也是高代价操作，很容易成为性能瓶颈。一般用 warn 就很够了。

Regards,
-agentzh

--

work wonders together!