ngx.shared.DICT 可以锁定吗？

the.warl0ck.1989

Hi,

ngx.shared.DICT 可以锁定吗，在nginx上的文档没有说明这一点；

如果我自己单独设置一个变量作为锁，那么肯定有并发的问题

请问有什么建议吗？

agentzh

Hello!

On Fri, Jan 18, 2013 at 3:05 AM, Aaron Lewis wrote:
> ngx.shared.DICT 可以锁定吗，在nginx上的文档没有说明这一点；
>
> 如果我自己单独设置一个变量作为锁，那么肯定有并发的问题
>
> 请问有什么建议吗？
>

请参考 openresty-en 英文邮件列表中关于这个主题的讨论：

https://groups.google.com/group/openresty-en/browse_thread/thread/4c91de9fc25dd2d7

Best regards,
-agentzh

the.warl0ck.1989

好的，非常感谢.

On Saturday, January 19, 2013 3:03:19 AM UTC+8, agentzh wrote:

Hello!
On Fri, Jan 18, 2013 at 3:05 AM, Aaron Lewis wrote:
> ngx.shared.DICT 可以锁定吗，在nginx上的文档没有说明这一点；
>
> 如果我自己单独设置一个变量作为锁，那么肯定有并发的问题
>
> 请问有什么建议吗？
>
请参考 openresty-en 英文邮件列表中关于这个主题的讨论：
https://groups.google.com/group/openresty-en/browse_thread/thread/4c91de9fc25dd2d7
Best regards,
-agentzh

the.warl0ck.1989

貌似有问题，第一个请求可以成功删除 lock，之后的就会死循环，直到超时为止

如果 as_lock:get (key) 返回 nil, ok 仍然是 false, err 仍然是 exists，

-- 以下代码省略了key的定义，key 由ip + md5(uri) 组成，所以不会冲突

local ok, err

repeat

ok, err = as_lock:add(key, 1, 60)

if not ok then

if err == "exists" then

-- some other nginx worker is already updating it, so we give up

ngx.log (ngx.ERR, "waiting for other siblings: " .. addr .. " key: " .. lock_stat_key)

ngx.sleep (2)

else

-- some other error happens, handle it here

ngx.log (ngx.ERR, "unknown error! " .. addr)

ngx.exit (ngx.OK)

end

until ok

ngx.log (ngx.ERR, "processing() " .. key)

as_lock:delete (lock_key)

ngx.log (ngx.ERR, "Key expunged .. " .. key)

On Sunday, January 20, 2013 1:13:49 PM UTC+8, Aaron Lewis wrote:

好的，非常感谢.

On Saturday, January 19, 2013 3:03:19 AM UTC+8, agentzh wrote:
Hello!
On Fri, Jan 18, 2013 at 3:05 AM, Aaron Lewis wrote:
> ngx.shared.DICT 可以锁定吗，在nginx上的文档没有说明这一点；
>
> 如果我自己单独设置一个变量作为锁，那么肯定有并发的问题
>
> 请问有什么建议吗？
>
请参考 openresty-en 英文邮件列表中关于这个主题的讨论：
https://groups.google.com/group/openresty-en/browse_thread/thread/4c91de9fc25dd2d7
Best regards,
-agentzh

the.warl0ck.1989

请忽略这封邮件，我弄错了变量名字；-（

On Wednesday, February 27, 2013 11:36:49 AM UTC+8, Aaron Lewis wrote:

貌似有问题，第一个请求可以成功删除 lock，之后的就会死循环，直到超时为止

如果 as_lock:get (key) 返回 nil, ok 仍然是 false, err 仍然是 exists，

-- 以下代码省略了key的定义，key 由ip + md5(uri) 组成，所以不会冲突
local ok, err

repeat
ok, err = as_lock:add(key, 1, 60)
if not ok then
if err == "exists" then
-- some other nginx worker is already updating it, so we give up
ngx.log (ngx.ERR, "waiting for other siblings: " .. addr .. " key: " .. lock_stat_key)
ngx.sleep (2)
else
-- some other error happens, handle it here
ngx.log (ngx.ERR, "unknown error! " .. addr)
ngx.exit (ngx.OK)
end
end
until ok

ngx.log (ngx.ERR, "processing() " .. key)

as_lock:delete (lock_key)
ngx.log (ngx.ERR, "Key expunged .. " .. key)

On Sunday, January 20, 2013 1:13:49 PM UTC+8, Aaron Lewis wrote:
好的，非常感谢.

On Saturday, January 19, 2013 3:03:19 AM UTC+8, agentzh wrote:
Hello!
On Fri, Jan 18, 2013 at 3:05 AM, Aaron Lewis wrote:
> ngx.shared.DICT 可以锁定吗，在nginx上的文档没有说明这一点；
>
> 如果我自己单独设置一个变量作为锁，那么肯定有并发的问题
>
> 请问有什么建议吗？
>
请参考 openresty-en 英文邮件列表中关于这个主题的讨论：
https://groups.google.com/group/openresty-en/browse_thread/thread/4c91de9fc25dd2d7
Best regards,
-agentzh

zhanlandetian

@agentzh

我想做一个简单的nginx 日志分析，计算QPS,成功率，平均响应时间等，，使用shared.dict作为存储一段时间内所有request的平均响应时间等，，这时候对共享内存的存取，明显有一个race condition,请问如何能更好的解决这个问题？我对lua_ngx不是太熟悉，，请问是否有这样的一个机制，比如所有的request在处理完成后，都发一个Async的请求到shared dict ,increase本次request的响应时间，这样对于共享内存来说就是一个顺序的读写,不会存在race condtion ?

On Saturday, January 19, 2013 at 3:03:19 AM UTC+8, agentzh wrote:

Hello!
On Fri, Jan 18, 2013 at 3:05 AM, Aaron Lewis wrote:
> ngx.shared.DICT 可以锁定吗，在nginx上的文档没有说明这一点；
>
> 如果我自己单独设置一个变量作为锁，那么肯定有并发的问题
>
> 请问有什么建议吗？
>
请参考 openresty-en 英文邮件列表中关于这个主题的讨论：
https://groups.google.com/group/openresty-en/browse_thread/thread/4c91de9fc25dd2d7
Best regards,
-agentzh

agentzh

Hello!

2015-12-31 3:36 GMT-08:00 Johnny Wong:
>        我想做一个简单的nginx
> 日志分析，计算QPS,成功率，平均响应时间等，，使用shared.dict作为存储一段时间内所有request的平均响应时间等，，这时候对共享内存的存取，明显有一个race
> condition,请问如何能更好的解决这个问题？

我没看懂你这里说的 race condition，你能仔细描述一下吗？最好附带最小化的代码示例。

> 我对lua_ngx不是太熟悉，，请问是否有这样的一个机制，比如所有的request在处理完成后，都发一个Async的请求到shared dict
> ,increase本次request的响应时间，这样对于共享内存来说就是一个顺序的读写,不会存在race condtion ?
>

由于共享内存的存储并不涉及 I/O，甚至不涉及任何系统调用，我不明白你这里发到 shared dict 的"async
请求"有什么意义。如果你只是想作严格的串行化的话，我们可以在 lua shared dict 中引入 pipeline 的原语，类似
redis 的 pipeline 支持，这样可以稍微接近一点“事务”。你有兴趣贡献一个补丁吗？

Regards,
-agentzh

zhanlandetian

是这样子, 比如说要计算10分钟之内的所有请求的平均响应时间, 假设我们使用log_by_lua_file 这样的指令, 在这个lua脚本文件里做统计所有请求的处理时间总和,但是每累加一次请求的处理时间，我们必须存储总时间到共享内存里，以便下次请求来的时候取出来后再累加，因为请求是并发过来的，这样每次存取共享内存内的『总时间』就会有race condition,一个请求在做存储，另外一个请求在做get, 那么后边这个请求或取到的就有可能是脏数据。从这样的角度看，每个请求对共享内存的存取，就是一个多线程的并发操作，必然要引入『锁』的概念，，另外的方法就是可以将所有get/set请求的做成异步的串行化操作。

On Saturday, January 2, 2016 at 5:23:32 AM UTC+8, agentzh wrote:

Hello!

2015-12-31 3:36 GMT-08:00 Johnny Wong:
> 我想做一个简单的nginx
> 日志分析，计算QPS,成功率，平均响应时间等，，使用shared.dict作为存储一段时间内所有request的平均响应时间等，，这时候对共享内存的存取，明显有一个race
> condition,请问如何能更好的解决这个问题？

我没看懂你这里说的 race condition，你能仔细描述一下吗？最好附带最小化的代码示例。

> 我对lua_ngx不是太熟悉，，请问是否有这样的一个机制，比如所有的request在处理完成后，都发一个Async的请求到shared dict
> ,increase本次request的响应时间，这样对于共享内存来说就是一个顺序的读写,不会存在race condtion ?
>

由于共享内存的存储并不涉及 I/O，甚至不涉及任何系统调用，我不明白你这里发到 shared dict 的"async
请求"有什么意义。如果你只是想作严格的串行化的话，我们可以在 lua shared dict 中引入 pipeline 的原语，类似
redis 的 pipeline 支持，这样可以稍微接近一点“事务”。你有兴趣贡献一个补丁吗？

Regards,
-agentzh

agentzh

Hello!

2016-01-01 20:06 GMT-08:00 Johnny Wong:
> 是这样子, 比如说要计算10分钟之内的所有请求的平均响应时间, 假设我们使用log_by_lua_file 这样的指令,
> 在这个lua脚本文件里做统计所有请求的处理时间总和,但是每累加一次请求的处理时间，我们必须存储总时间到共享内存里，以便下次请求来的时候取出来后再累加，因为请求是并发过来的，这样每次存取共享内存内的『总时间』就会有race
> condition,一个请求在做存储，另外一个请求在做get, 那么后边这个请求或取到的就有可能是脏数据。
> 从这样的角度看，每个请求对共享内存的存取，就是一个多线程的并发操作，必然要引入『锁』的概念，，另外的方法就是可以将所有get/set请求的做成异步的串行化操作。
>

如果你是说总时间的计算，则你可以使用 incr() 来避免 get() + set() 操作序列可能带来的 data race
问题。如果你说的是计算平均响应时间的两次 get() （一次取总时间，一次取总请求数）的操作序列可能带来的 data
race，则使用我先前说的“事务”或者“pipeline”模式倒是可以解决。即每个请求增加总时间和总次数的两次 incr() 在一个
pipeline 操作里面，而取总时间和总次数的两个 get() 也总是在一个 pipeline 序列里面。这样就不存在失准的问题。

不过值得一提的是，如果采样的时间区间已经很长了，比如 10 分钟，那么这个 10 分钟之类的请求数会大到因为 data race
而产生的计量误差小到可以忽略不计（毕竟你 10 分钟才计算一次平均值），除非对应的流量实在太低了。

Regards,
-agentzh

zhanlandetian

lua_shared_dict log_dict 5M;

 server {
     location / {
         proxy_pass http://mybackend;

         log_by_lua '
             local log_dict = ngx.shared.log_dict
             local upstream_time = tonumber(ngx.var.upstream_response_time)

             local sum = log_dict:get("upstream_time-sum") or 0
             sum = sum + upstream_time
             log_dict:set("upstream_time-sum", sum)

             local newval, err = log_dict:incr("upstream_time-nb", 1)
             if not newval and err == "not found" then
                 log_dict:add("upstream_time-nb", 0)
                 log_dict:incr("upstream_time-nb", 1)
             end
         ';
     }

     location = /status {
         content_by_lua '
             local log_dict = ngx.shared.log_dict
             local sum = log_dict:get("upstream_time-sum")
             local nb = log_dict:get("upstream_time-nb")

             if nb and sum then
                 ngx.say("average upstream response time: ", sum / nb,
                         " (", nb, " reqs)")
             else
                 ngx.say("no data yet")
             end
         ';
     }
 }

@agentzhang

拿上边的这个例子说,log_dict:get，log_dict:set 两个操作以我的理解不是线程安全的, 因为每次http 请求处理完成后，都会执行这个操作，多并发http请求下，某个请求的处理线程执行log_dict:get/set时必然拿到的是脏数据, 如果这个server的 QPS特别高,拿到脏数据的情况就越大。所以这样的计算结果肯定是不准确的.

On Saturday, January 2, 2016 at 12:14:12 PM UTC+8, agentzh wrote:

Hello!

2016-01-01 20:06 GMT-08:00 Johnny Wong:
> 是这样子, 比如说要计算10分钟之内的所有请求的平均响应时间, 假设我们使用log_by_lua_file 这样的指令,
> 在这个lua脚本文件里做统计所有请求的处理时间总和,但是每累加一次请求的处理时间，我们必须存储总时间到共享内存里，以便下次请求来的时候取出来后再累加，因为请求是并发过来的，这样每次存取共享内存内的『总时间』就会有race
> condition,一个请求在做存储，另外一个请求在做get, 那么后边这个请求或取到的就有可能是脏数据。
> 从这样的角度看，每个请求对共享内存的存取，就是一个多线程的并发操作，必然要引入『锁』的概念，，另外的方法就是可以将所有get/set请求的做成异步的串行化操作。
>

如果你是说总时间的计算，则你可以使用 incr() 来避免 get() + set() 操作序列可能带来的 data race
问题。如果你说的是计算平均响应时间的两次 get() （一次取总时间，一次取总请求数）的操作序列可能带来的 data
race，则使用我先前说的“事务”或者“pipeline”模式倒是可以解决。即每个请求增加总时间和总次数的两次 incr() 在一个
pipeline 操作里面，而取总时间和总次数的两个 get() 也总是在一个 pipeline 序列里面。这样就不存在失准的问题。

不过值得一提的是，如果采样的时间区间已经很长了，比如 10 分钟，那么这个 10 分钟之类的请求数会大到因为 data race
而产生的计量误差小到可以忽略不计（毕竟你 10 分钟才计算一次平均值），除非对应的流量实在太低了。

Regards,
-agentzh

doujiang24

Hello,

在 2016年1月4日上午10:42，Johnny Wong <zhanla...@gmail.com>写道：

lua_shared_dict log_dict 5M;

 server {
     location / {
         proxy_pass http://mybackend;

         log_by_lua '
             local log_dict = ngx.shared.log_dict
             local upstream_time = tonumber(ngx.var.upstream_response_time)

             local sum = log_dict:get("upstream_time-sum") or 0
             sum = sum + upstream_time
             log_dict:set("upstream_time-sum", sum)

             local newval, err = log_dict:incr("upstream_time-nb", 1)
             if not newval and err == "not found" then
                 log_dict:add("upstream_time-nb", 0)
                 log_dict:incr("upstream_time-nb", 1)
             end
         ';
     }

     location = /status {
         content_by_lua '
             local log_dict = ngx.shared.log_dict
             local sum = log_dict:get("upstream_time-sum")
             local nb = log_dict:get("upstream_time-nb")

             if nb and sum then
                 ngx.say("average upstream response time: ", sum / nb,
                         " (", nb, " reqs)")
             else
                 ngx.say("no data yet")
             end
         ';
     }
 }

@agentzhang

春哥昵称是：agentzh，你这么写春哥会不开心的哦 :(

拿上边的这个例子说,log_dict:get，log_dict:set 两个操作以我的理解不是线程安全的,

这也就是春哥之前提过的，推荐使用 incr 这个原子操作

当然，如果配合上这个 PR，代码会简洁很多（incr 有了默认值）

https://github.com/openresty/lua-nginx-module/pull/579

因为每次http 请求处理完成后，都会执行这个操作，多并发http请求下，某个请求的处理线程执行log_dict:get/set时必然拿到的是脏数据, 如果这个server的 QPS特别高,拿到脏数据的情况就越大。所以这样的计算结果肯定是不准确的.

更加严谨的说，这个跟你配置的 nginx worker 相关，如果你的 worker 是 1，那么也是没有问题的

因为这个 get / set 之间，只有 worker 之间有竞争

On Saturday, January 2, 2016 at 12:14:12 PM UTC+8, agentzh wrote:
Hello!

2016-01-01 20:06 GMT-08:00 Johnny Wong:
> 是这样子, 比如说要计算10分钟之内的所有请求的平均响应时间, 假设我们使用log_by_lua_file 这样的指令,
> 在这个lua脚本文件里做统计所有请求的处理时间总和,但是每累加一次请求的处理时间，我们必须存储总时间到共享内存里，以便下次请求来的时候取出来后再累加，因为请求是并发过来的，这样每次存取共享内存内的『总时间』就会有race
> condition,一个请求在做存储，另外一个请求在做get, 那么后边这个请求或取到的就有可能是脏数据。
> 从这样的角度看，每个请求对共享内存的存取，就是一个多线程的并发操作，必然要引入『锁』的概念，，另外的方法就是可以将所有get/set请求的做成异步的串行化操作。
>

如果你是说总时间的计算，则你可以使用 incr() 来避免 get() + set() 操作序列可能带来的 data race
问题。如果你说的是计算平均响应时间的两次 get() （一次取总时间，一次取总请求数）的操作序列可能带来的 data
race，则使用我先前说的“事务”或者“pipeline”模式倒是可以解决。即每个请求增加总时间和总次数的两次 incr() 在一个
pipeline 操作里面，而取总时间和总次数的两个 get() 也总是在一个 pipeline 序列里面。这样就不存在失准的问题。

不过值得一提的是，如果采样的时间区间已经很长了，比如 10 分钟，那么这个 10 分钟之类的请求数会大到因为 data race
而产生的计量误差小到可以忽略不计（毕竟你 10 分钟才计算一次平均值），除非对应的流量实在太低了。

Regards,
-agentzh

--

zhanlandetian

如果log_dict:incr是atomic的, 我很好奇它是如何实现的？incr操作会不会因为线程同步而失败(类似java对数据结构的non block操作)？我们必须检查incr的返回结果，如果失败就重试，直到成功，这样的话就block了当前这次的http请求处理。

From: <openresty@googlegroups.com> on behalf of DeJiang Zhu <douj...@gmail.com>
Reply-To: <openresty@googlegroups.com>
Date: Monday, January 4, 2016 at 12:10 PM
To: <openresty@googlegroups.com>
Subject: Re: [openresty] ngx.shared.DICT 可以锁定吗？

Hello,
在 2016年1月4日上午10:42，Johnny Wong <zhanla...@gmail.com>写道：
lua_shared_dict log_dict 5M;

 server {
     location / {
         proxy_pass http://mybackend;

         log_by_lua '             local log_dict = ngx.shared.log_dict             local upstream_time = tonumber(ngx.var.upstream_response_time)             local sum = log_dict:get("upstream_time-sum") or 0             sum = sum + upstream_time             log_dict:set("upstream_time-sum", sum)             local newval, err = log_dict:incr("upstream_time-nb", 1)             if not newval and err == "not found" then                 log_dict:add("upstream_time-nb", 0)                 log_dict:incr("upstream_time-nb", 1)             end         ';
     }

     location = /status {
         content_by_lua '             local log_dict = ngx.shared.log_dict             local sum = log_dict:get("upstream_time-sum")             local nb = log_dict:get("upstream_time-nb")             if nb and sum then                 ngx.say("average upstream response time: ", sum / nb,                         " (", nb, " reqs)")             else                 ngx.say("no data yet")             end         ';
     }
 }
@agentzhang
春哥昵称是：agentzh，你这么写春哥会不开心的哦 :(

拿上边的这个例子说,log_dict:get，log_dict:set 两个操作以我的理解不是线程安全的,

这也就是春哥之前提过的，推荐使用 incr 这个原子操作
当然，如果配合上这个 PR，代码会简洁很多（incr 有了默认值）
https://github.com/openresty/lua-nginx-module/pull/579

因为每次http 请求处理完成后，都会执行这个操作，多并发http请求下，某个请求的处理线程执行log_dict:get/set时必然拿到的是脏数据, 如果这个server的 QPS特别高,拿到脏数据的情况就越大。所以这样的计算结果肯定是不准确的.

更加严谨的说，这个跟你配置的 nginx worker 相关，如果你的 worker 是 1，那么也是没有问题的
因为这个 get / set 之间，只有 worker 之间有竞争

On Saturday, January 2, 2016 at 12:14:12 PM UTC+8, agentzh wrote:
Hello!

2016-01-01 20:06 GMT-08:00 Johnny Wong:
> 是这样子, 比如说要计算10分钟之内的所有请求的平均响应时间, 假设我们使用log_by_lua_file 这样的指令,
> 在这个lua脚本文件里做统计所有请求的处理时间总和,但是每累加一次请求的处理时间，我们必须存储总时间到共享内存里，以便下次请求来的时候取出来后再累加，因为请求是并发过来的，这样每次存取共享内存内的『总时间』就会有race
> condition,一个请求在做存储，另外一个请求在做get, 那么后边这个请求或取到的就有可能是脏数据。
> 从这样的角度看，每个请求对共享内存的存取，就是一个多线程的并发操作，必然要引入『锁』的概念，，另外的方法就是可以将所有get/set请求的做成异步的串行化操作。
>

如果你是说总时间的计算，则你可以使用 incr() 来避免 get() + set() 操作序列可能带来的 data race
问题。如果你说的是计算平均响应时间的两次 get() （一次取总时间，一次取总请求数）的操作序列可能带来的 data
race，则使用我先前说的“事务”或者“pipeline”模式倒是可以解决。即每个请求增加总时间和总次数的两次 incr() 在一个
pipeline 操作里面，而取总时间和总次数的两个 get() 也总是在一个 pipeline 序列里面。这样就不存在失准的问题。

不过值得一提的是，如果采样的时间区间已经很长了，比如 10 分钟，那么这个 10 分钟之类的请求数会大到因为 data race
而产生的计量误差小到可以忽略不计（毕竟你 10 分钟才计算一次平均值），除非对应的流量实在太低了。

Regards,
-agentzh
--
--

doujiang24

Hello,

在 2016年1月4日下午2:09，johnny wong <zhanla...@gmail.com>写道：

如果log_dict:incr是atomic的, 我很好奇它是如何实现的？

https://github.com/openresty/lua-nginx-module/blob/master/src/ngx_http_lua_shdict.c#L1164

具体，你可以翻翻源码

incr操作会不会因为线程同步而失败(类似java对数据结构的non block操作)？我们必须检查incr的返回结果，如果失败就重试，直到成功，这样的话就block了当前这次的http请求处理。

实际上，是用了 nginx 的自旋锁，也就是你描述的 `block`

同时，每次 dict 操作其实是很快的，只有内存的读写，也就不是像网络通讯那样的 block 了

From: <openresty@googlegroups.com> on behalf of DeJiang Zhu <douj...@gmail.com>
Reply-To: <openresty@googlegroups.com>
Date: Monday, January 4, 2016 at 12:10 PM
To: <openresty@googlegroups.com>
Subject: Re: [openresty] ngx.shared.DICT 可以锁定吗？

Hello,

在 2016年1月4日上午10:42，Johnny Wong <zhanla...@gmail.com>写道：
lua_shared_dict log_dict 5M; server { location / { proxy_pass http://mybackend; log_by_lua ' local log_dict = ngx.shared.log_dict local upstream_time = tonumber(ngx.var.upstream_response_time) local sum = log_dict:get("upstream_time-sum") or 0 sum = sum + upstream_time log_dict:set("upstream_time-sum", sum) local newval, err = log_dict:incr("upstream_time-nb", 1) if not newval and err == "not found" then log_dict:add("upstream_time-nb", 0) log_dict:incr("upstream_time-nb", 1) end '; } location = /status { content_by_lua ' local log_dict = ngx.shared.log_dict local sum = log_dict:get("upstream_time-sum") local nb = log_dict:get("upstream_time-nb") if nb and sum then ngx.say("average upstream response time: ", sum / nb, " (", nb, " reqs)") else ngx.say("no data yet") end '; } }
@agentzhang

春哥昵称是：agentzh，你这么写春哥会不开心的哦 :(

拿上边的这个例子说,log_dict:get，log_dict:set 两个操作以我的理解不是线程安全的,

这也就是春哥之前提过的，推荐使用 incr 这个原子操作
当然，如果配合上这个 PR，代码会简洁很多（incr 有了默认值）
https://github.com/openresty/lua-nginx-module/pull/579

因为每次http 请求处理完成后，都会执行这个操作，多并发http请求下，某个请求的处理线程执行log_dict:get/set时必然拿到的是脏数据, 如果这个server的 QPS特别高,拿到脏数据的情况就越大。所以这样的计算结果肯定是不准确的.

更加严谨的说，这个跟你配置的 nginx worker 相关，如果你的 worker 是 1，那么也是没有问题的
因为这个 get / set 之间，只有 worker 之间有竞争

On Saturday, January 2, 2016 at 12:14:12 PM UTC+8, agentzh wrote:
Hello!

2016-01-01 20:06 GMT-08:00 Johnny Wong:
> 是这样子, 比如说要计算10分钟之内的所有请求的平均响应时间, 假设我们使用log_by_lua_file 这样的指令,
> 在这个lua脚本文件里做统计所有请求的处理时间总和,但是每累加一次请求的处理时间，我们必须存储总时间到共享内存里，以便下次请求来的时候取出来后再累加，因为请求是并发过来的，这样每次存取共享内存内的『总时间』就会有race
> condition,一个请求在做存储，另外一个请求在做get, 那么后边这个请求或取到的就有可能是脏数据。
> 从这样的角度看，每个请求对共享内存的存取，就是一个多线程的并发操作，必然要引入『锁』的概念，，另外的方法就是可以将所有get/set请求的做成异步的串行化操作。
>

如果你是说总时间的计算，则你可以使用 incr() 来避免 get() + set() 操作序列可能带来的 data race
问题。如果你说的是计算平均响应时间的两次 get() （一次取总时间，一次取总请求数）的操作序列可能带来的 data
race，则使用我先前说的“事务”或者“pipeline”模式倒是可以解决。即每个请求增加总时间和总次数的两次 incr() 在一个
pipeline 操作里面，而取总时间和总次数的两个 get() 也总是在一个 pipeline 序列里面。这样就不存在失准的问题。

不过值得一提的是，如果采样的时间区间已经很长了，比如 10 分钟，那么这个 10 分钟之类的请求数会大到因为 data race
而产生的计量误差小到可以忽略不计（毕竟你 10 分钟才计算一次平均值），除非对应的流量实在太低了。

Regards,
-agentzh
--

--
--

doujiang24

Hello,

在 2016年1月4日下午2:09，johnny wong <zhanla...@gmail.com>写道：

如果log_dict:incr是atomic的, 我很好奇它是如何实现的？incr操作会不会因为线程同步而失败(类似java对数据结构的non block操作)？

需要补充一点，shdict 是共享内存词典，每个 nginx worker 都是操作同一个共享内存

我们并不需要主动去做线程/进程同步（nginx 是每 worker 单进程的）

我们必须检查incr的返回结果，如果失败就重试，直到成功，这样的话就block了当前这次的http请求处理。

From: <openresty@googlegroups.com> on behalf of DeJiang Zhu <douj...@gmail.com>
Reply-To: <openresty@googlegroups.com>
Date: Monday, January 4, 2016 at 12:10 PM
To: <openresty@googlegroups.com>
Subject: Re: [openresty] ngx.shared.DICT 可以锁定吗？

Hello,

在 2016年1月4日上午10:42，Johnny Wong <zhanla...@gmail.com>写道：
lua_shared_dict log_dict 5M; server { location / { proxy_pass http://mybackend; log_by_lua ' local log_dict = ngx.shared.log_dict local upstream_time = tonumber(ngx.var.upstream_response_time) local sum = log_dict:get("upstream_time-sum") or 0 sum = sum + upstream_time log_dict:set("upstream_time-sum", sum) local newval, err = log_dict:incr("upstream_time-nb", 1) if not newval and err == "not found" then log_dict:add("upstream_time-nb", 0) log_dict:incr("upstream_time-nb", 1) end '; } location = /status { content_by_lua ' local log_dict = ngx.shared.log_dict local sum = log_dict:get("upstream_time-sum") local nb = log_dict:get("upstream_time-nb") if nb and sum then ngx.say("average upstream response time: ", sum / nb, " (", nb, " reqs)") else ngx.say("no data yet") end '; } }
@agentzhang

春哥昵称是：agentzh，你这么写春哥会不开心的哦 :(

拿上边的这个例子说,log_dict:get，log_dict:set 两个操作以我的理解不是线程安全的,

这也就是春哥之前提过的，推荐使用 incr 这个原子操作
当然，如果配合上这个 PR，代码会简洁很多（incr 有了默认值）
https://github.com/openresty/lua-nginx-module/pull/579

因为每次http 请求处理完成后，都会执行这个操作，多并发http请求下，某个请求的处理线程执行log_dict:get/set时必然拿到的是脏数据, 如果这个server的 QPS特别高,拿到脏数据的情况就越大。所以这样的计算结果肯定是不准确的.

更加严谨的说，这个跟你配置的 nginx worker 相关，如果你的 worker 是 1，那么也是没有问题的
因为这个 get / set 之间，只有 worker 之间有竞争

On Saturday, January 2, 2016 at 12:14:12 PM UTC+8, agentzh wrote:
Hello!

2016-01-01 20:06 GMT-08:00 Johnny Wong:
> 是这样子, 比如说要计算10分钟之内的所有请求的平均响应时间, 假设我们使用log_by_lua_file 这样的指令,
> 在这个lua脚本文件里做统计所有请求的处理时间总和,但是每累加一次请求的处理时间，我们必须存储总时间到共享内存里，以便下次请求来的时候取出来后再累加，因为请求是并发过来的，这样每次存取共享内存内的『总时间』就会有race
> condition,一个请求在做存储，另外一个请求在做get, 那么后边这个请求或取到的就有可能是脏数据。
> 从这样的角度看，每个请求对共享内存的存取，就是一个多线程的并发操作，必然要引入『锁』的概念，，另外的方法就是可以将所有get/set请求的做成异步的串行化操作。
>

如果你是说总时间的计算，则你可以使用 incr() 来避免 get() + set() 操作序列可能带来的 data race
问题。如果你说的是计算平均响应时间的两次 get() （一次取总时间，一次取总请求数）的操作序列可能带来的 data
race，则使用我先前说的“事务”或者“pipeline”模式倒是可以解决。即每个请求增加总时间和总次数的两次 incr() 在一个
pipeline 操作里面，而取总时间和总次数的两个 get() 也总是在一个 pipeline 序列里面。这样就不存在失准的问题。

不过值得一提的是，如果采样的时间区间已经很长了，比如 10 分钟，那么这个 10 分钟之类的请求数会大到因为 data race
而产生的计量误差小到可以忽略不计（毕竟你 10 分钟才计算一次平均值），除非对应的流量实在太低了。

Regards,
-agentzh
--

--
--

zhanlandetian

On Monday, January 4, 2016 at 3:33:33 PM UTC+8, doujiang wrote:

Hello,

在 2016年1月4日下午2:09，johnny wong <zhanla...@gmail.com>写道：
如果log_dict:incr是atomic的, 我很好奇它是如何实现的？incr操作会不会因为线程同步而失败(类似java对数据结构的non block操作)？

需要补充一点，shdict 是共享内存词典，每个 nginx worker 都是操作同一个共享内存
我们并不需要主动去做线程/进程同步（nginx 是每 worker 单进程的）

"每个nginx woker操作的都市同一个共享内存" ? 多个nginx worker同时读写操作同一个共享内存，一定会造成data race的，怎么不需要做线程或进程同步呢 ? 我对nginx的理解: nginx 有多个worker, 每个worker异步的处理某一批http请求，如同我举的那段代码:

location / {
         proxy_pass http://mybackend;

         log_by_lua '             local log_dict = ngx.shared.log_dict             local upstream_time = tonumber(ngx.var.upstream_response_time)             local sum = log_dict:get("upstream_time-sum") or 0             sum = sum + upstream_time             log_dict:set("upstream_time-sum", sum)             local newval, err = log_dict:incr("upstream_time-nb", 1)             if not newval and err == "not found" then                 log_dict:add("upstream_time-nb", 0)                 log_dict:incr("upstream_time-nb", 1)             end         ';
     }

每个worker处理完某一个http请求后都会到达了nginx 的 log_by_lua阶段,再将此段代码运行一次,而且运行此段代码时应该是block方式的运行，跟从后端upstream proxy读响应结果是不同的(这段是epoll事件模型异步处理的), 所以 log_by_lua这段代码运行如果阻塞了，肯定会阻塞这个worker的。所以在这段代码内读写共享内存(sharedict的方式), 如果有锁的话，会影响nginx worker的处理效率的。不知道我对此的理解对不对?

我们必须检查incr的返回结果，如果失败就重试，直到成功，这样的话就block了当前这次的http请求处理。

From: <open...@googlegroups.com> on behalf of DeJiang Zhu <douji...@gmail.com>
Reply-To: <open...@googlegroups.com>
Date: Monday, January 4, 2016 at 12:10 PM
To: <open...@googlegroups.com>
Subject: Re: [openresty] ngx.shared.DICT 可以锁定吗？

Hello,

在 2016年1月4日上午10:42，Johnny Wong <zhanla...@gmail.com>写道：
lua_shared_dict log_dict 5M; server { location / { proxy_pass http://mybackend; log_by_lua ' local log_dict = ngx.shared.log_dict local upstream_time = tonumber(ngx.var.upstream_response_time) local sum = log_dict:get("upstream_time-sum") or 0 sum = sum + upstream_time log_dict:set("upstream_time-sum", sum) local newval, err = log_dict:incr("upstream_time-nb", 1) if not newval and err == "not found" then log_dict:add("upstream_time-nb", 0) log_dict:incr("upstream_time-nb", 1) end '; } location = /status { content_by_lua ' local log_dict = ngx.shared.log_dict local sum = log_dict:get("upstream_time-sum") local nb = log_dict:get("upstream_time-nb") if nb and sum then ngx.say("average upstream response time: ", sum / nb, " (", nb, " reqs)") else ngx.say("no data yet") end '; } }
@agentzhang

春哥昵称是：agentzh，你这么写春哥会不开心的哦 :(

拿上边的这个例子说,log_dict:get，log_dict:set 两个操作以我的理解不是线程安全的,

这也就是春哥之前提过的，推荐使用 incr 这个原子操作
当然，如果配合上这个 PR，代码会简洁很多（incr 有了默认值）
https://github.com/openresty/lua-nginx-module/pull/579

因为每次http 请求处理完成后，都会执行这个操作，多并发http请求下，某个请求的处理线程执行log_dict:get/set时必然拿到的是脏数据, 如果这个server的 QPS特别高,拿到脏数据的情况就越大。所以这样的计算结果肯定是不准确的.

更加严谨的说，这个跟你配置的 nginx worker 相关，如果你的 worker 是 1，那么也是没有问题的
因为这个 get / set 之间，只有 worker 之间有竞争

On Saturday, January 2, 2016 at 12:14:12 PM UTC+8, agentzh wrote:
Hello!

2016-01-01 20:06 GMT-08:00 Johnny Wong:
> 是这样子, 比如说要计算10分钟之内的所有请求的平均响应时间, 假设我们使用log_by_lua_file 这样的指令,
> 在这个lua脚本文件里做统计所有请求的处理时间总和,但是每累加一次请求的处理时间，我们必须存储总时间到共享内存里，以便下次请求来的时候取出来后再累加，因为请求是并发过来的，这样每次存取共享内存内的『总时间』就会有race
> condition,一个请求在做存储，另外一个请求在做get, 那么后边这个请求或取到的就有可能是脏数据。
> 从这样的角度看，每个请求对共享内存的存取，就是一个多线程的并发操作，必然要引入『锁』的概念，，另外的方法就是可以将所有get/set请求的做成异步的串行化操作。
>

如果你是说总时间的计算，则你可以使用 incr() 来避免 get() + set() 操作序列可能带来的 data race
问题。如果你说的是计算平均响应时间的两次 get() （一次取总时间，一次取总请求数）的操作序列可能带来的 data
race，则使用我先前说的“事务”或者“pipeline”模式倒是可以解决。即每个请求增加总时间和总次数的两次 incr() 在一个
pipeline 操作里面，而取总时间和总次数的两个 get() 也总是在一个 pipeline 序列里面。这样就不存在失准的问题。

不过值得一提的是，如果采样的时间区间已经很长了，比如 10 分钟，那么这个 10 分钟之类的请求数会大到因为 data race
而产生的计量误差小到可以忽略不计（毕竟你 10 分钟才计算一次平均值），除非对应的流量实在太低了。

Regards,
-agentzh
--

--
--

doujiang24

Hello,

在 2016年1月4日下午3:52，Johnny Wong <zhanla...@gmail.com>写道：

On Monday, January 4, 2016 at 3:33:33 PM UTC+8, doujiang wrote:
Hello,

在 2016年1月4日下午2:09，johnny wong <zhanla...@gmail.com>写道：
如果log_dict:incr是atomic的, 我很好奇它是如何实现的？incr操作会不会因为线程同步而失败(类似java对数据结构的non block操作)？

需要补充一点，shdict 是共享内存词典，每个 nginx worker 都是操作同一个共享内存
我们并不需要主动去做线程/进程同步（nginx 是每 worker 单进程的）

"每个nginx woker操作的都市同一个共享内存" ? 多个nginx worker同时读写操作同一个共享内存，一定会造成data race的，怎么不需要做线程或进程同步呢 ?

我在上面提过了，是有加锁的

现在是一把大锁，未来换成读写锁应该也是有一定价值的

我对nginx的理解: nginx 有多个worker, 每个worker异步的处理某一批http请求，如同我举的那段代码:
location / { proxy_pass http://mybackend; log_by_lua ' local log_dict = ngx.shared.log_dict local upstream_time = tonumber(ngx.var.upstream_response_time) local sum = log_dict:get("upstream_time-sum") or 0 sum = sum + upstream_time log_dict:set("upstream_time-sum", sum) local newval, err = log_dict:incr("upstream_time-nb", 1) if not newval and err == "not found" then log_dict:add("upstream_time-nb", 0) log_dict:incr("upstream_time-nb", 1) end '; }
每个worker处理完某一个http请求后都会到达了nginx 的 log_by_lua阶段,再将此段代码运行一次,而且运行此段代码时应该是block方式的运行，跟从后端upstream proxy读响应结果是不同的(这段是epoll事件模型异步处理的), 所以 log_by_lua这段代码运行如果阻塞了，肯定会阻塞这个worker的。

对的，如果你在 Lua 里跑了一个 CPU 死循环，会阻塞整个 nginx worker ，无论在那个时序阶段都一样的

所以在这段代码内读写共享内存(sharedict的方式), 如果有锁的话，会影响nginx worker的处理效率的。

正如我上面提过的，操作共享内存很快的，指令级别的速度，并不会影响 nginx worker 的整体效率

如果你担心这一点，可以跑一个测试验证一下（锁并没有那么可怕，得看怎么用了）

不知道我对此的理解对不对?
我们必须检查incr的返回结果，如果失败就重试，直到成功，这样的话就block了当前这次的http请求处理。

From: <open...@googlegroups.com> on behalf of DeJiang Zhu <douji...@gmail.com>
Reply-To: <open...@googlegroups.com>
Date: Monday, January 4, 2016 at 12:10 PM
To: <open...@googlegroups.com>
Subject: Re: [openresty] ngx.shared.DICT 可以锁定吗？

Hello,

在 2016年1月4日上午10:42，Johnny Wong <zhanla...@gmail.com>写道：
lua_shared_dict log_dict 5M; server { location / { proxy_pass http://mybackend; log_by_lua ' local log_dict = ngx.shared.log_dict local upstream_time = tonumber(ngx.var.upstream_response_time) local sum = log_dict:get("upstream_time-sum") or 0 sum = sum + upstream_time log_dict:set("upstream_time-sum", sum) local newval, err = log_dict:incr("upstream_time-nb", 1) if not newval and err == "not found" then log_dict:add("upstream_time-nb", 0) log_dict:incr("upstream_time-nb", 1) end '; } location = /status { content_by_lua ' local log_dict = ngx.shared.log_dict local sum = log_dict:get("upstream_time-sum") local nb = log_dict:get("upstream_time-nb") if nb and sum then ngx.say("average upstream response time: ", sum / nb, " (", nb, " reqs)") else ngx.say("no data yet") end '; } }
@agentzhang

春哥昵称是：agentzh，你这么写春哥会不开心的哦 :(

拿上边的这个例子说,log_dict:get，log_dict:set 两个操作以我的理解不是线程安全的,

这也就是春哥之前提过的，推荐使用 incr 这个原子操作
当然，如果配合上这个 PR，代码会简洁很多（incr 有了默认值）
https://github.com/openresty/lua-nginx-module/pull/579

因为每次http 请求处理完成后，都会执行这个操作，多并发http请求下，某个请求的处理线程执行log_dict:get/set时必然拿到的是脏数据, 如果这个server的 QPS特别高,拿到脏数据的情况就越大。所以这样的计算结果肯定是不准确的.

更加严谨的说，这个跟你配置的 nginx worker 相关，如果你的 worker 是 1，那么也是没有问题的
因为这个 get / set 之间，只有 worker 之间有竞争

On Saturday, January 2, 2016 at 12:14:12 PM UTC+8, agentzh wrote:
Hello!

2016-01-01 20:06 GMT-08:00 Johnny Wong:
> 是这样子, 比如说要计算10分钟之内的所有请求的平均响应时间, 假设我们使用log_by_lua_file 这样的指令,
> 在这个lua脚本文件里做统计所有请求的处理时间总和,但是每累加一次请求的处理时间，我们必须存储总时间到共享内存里，以便下次请求来的时候取出来后再累加，因为请求是并发过来的，这样每次存取共享内存内的『总时间』就会有race
> condition,一个请求在做存储，另外一个请求在做get, 那么后边这个请求或取到的就有可能是脏数据。
> 从这样的角度看，每个请求对共享内存的存取，就是一个多线程的并发操作，必然要引入『锁』的概念，，另外的方法就是可以将所有get/set请求的做成异步的串行化操作。
>

如果你是说总时间的计算，则你可以使用 incr() 来避免 get() + set() 操作序列可能带来的 data race
问题。如果你说的是计算平均响应时间的两次 get() （一次取总时间，一次取总请求数）的操作序列可能带来的 data
race，则使用我先前说的“事务”或者“pipeline”模式倒是可以解决。即每个请求增加总时间和总次数的两次 incr() 在一个
pipeline 操作里面，而取总时间和总次数的两个 get() 也总是在一个 pipeline 序列里面。这样就不存在失准的问题。

不过值得一提的是，如果采样的时间区间已经很长了，比如 10 分钟，那么这个 10 分钟之类的请求数会大到因为 data race
而产生的计量误差小到可以忽略不计（毕竟你 10 分钟才计算一次平均值），除非对应的流量实在太低了。

Regards,
-agentzh
--

--
--
--