你可以检查网络是否足够稳定,比如是否在跨机房发送
另外,你是有设置 error_handler 来处理发送失败呢

Chandler Zhou <chandl...@gmail.com> 于2020年2月25日周二 下午2:46写道:
请问有没有朋友遇到过使用openresty生产数据发送到kafka时,间歇性的遇到send timeout的情况,虽然不多,但是会有部分数据会丢失,发送失败在百分之1左右.
目前我使用的库时https://github.com/doujiang24/lua-resty-kafka 这个库.

    另外补充一点,resty.kafka 是这么设计的,libray 本身只保证 「最多一次」
    调用方可以自己处理,来实现 「最少一次」

    DeJiang Zhu <douj...@gmail.com> 于2020年2月26日周三 上午12:54写道:
    你可以检查网络是否足够稳定,比如是否在跨机房发送
    另外,你是有设置 error_handler 来处理发送失败呢

    Chandler Zhou <chandl...@gmail.com> 于2020年2月25日周二 下午2:46写道:
    请问有没有朋友遇到过使用openresty生产数据发送到kafka时,间歇性的遇到send timeout的情况,虽然不多,但是会有部分数据会丢失,发送失败在百分之1左右.
    目前我使用的库时https://github.com/doujiang24/lua-resty-kafka 这个库.

      同一个公司的机房, 基本上网络通讯没太大问题,目前的访问量是4w+/s, 失败率每五分钟 1k个左右
      error_handle 已经设置过, error_handle 失败重试也没用, 重发还是会失败.

      在 2020年2月26日星期三 UTC+8上午12:54:56,doujiang写道:
      你可以检查网络是否足够稳定,比如是否在跨机房发送
      另外,你是有设置 error_handler 来处理发送失败呢

      Chandler Zhou <chandl...@gmail.com> 于2020年2月25日周二 下午2:46写道:
      请问有没有朋友遇到过使用openresty生产数据发送到kafka时,间歇性的遇到send timeout的情况,虽然不多,但是会有部分数据会丢失,发送失败在百分之1左右.
      目前我使用的库时https://github.com/doujiang24/lua-resty-kafka 这个库.

        这个比较奇怪,你可以搞一个网络稳定的环境压测一下不?
        我之前压测过,生产也跑过比较大的量,没碰到过这个情况
        大概率还是网络的问题

        Chandler Zhou <chandl...@gmail.com> 于2020年2月28日周五 上午8:57写道:
        同一个公司的机房, 基本上网络通讯没太大问题,目前的访问量是4w+/s, 失败率每五分钟 1k个左右
        error_handle 已经设置过, error_handle 失败重试也没用, 重发还是会失败.

        在 2020年2月26日星期三 UTC+8上午12:54:56,doujiang写道:
        你可以检查网络是否足够稳定,比如是否在跨机房发送
        另外,你是有设置 error_handler 来处理发送失败呢

        Chandler Zhou <chandl...@gmail.com> 于2020年2月25日周二 下午2:46写道:
        请问有没有朋友遇到过使用openresty生产数据发送到kafka时,间歇性的遇到send timeout的情况,虽然不多,但是会有部分数据会丢失,发送失败在百分之1左右.
        目前我使用的库时https://github.com/doujiang24/lua-resty-kafka 这个库.

          18 days later
          重启完集群,一个错误都没有了....但是跑的时间一久,错误就上来了

          在 2020年2月28日星期五 UTC+8下午8:04:06,doujiang写道:
          这个比较奇怪,你可以搞一个网络稳定的环境压测一下不?
          我之前压测过,生产也跑过比较大的量,没碰到过这个情况
          大概率还是网络的问题

          Chandler Zhou <chandl...@gmail.com> 于2020年2月28日周五 上午8:57写道:
          同一个公司的机房, 基本上网络通讯没太大问题,目前的访问量是4w+/s, 失败率每五分钟 1k个左右
          error_handle 已经设置过, error_handle 失败重试也没用, 重发还是会失败.

          在 2020年2月26日星期三 UTC+8上午12:54:56,doujiang写道:
          你可以检查网络是否足够稳定,比如是否在跨机房发送
          另外,你是有设置 error_handler 来处理发送失败呢

          Chandler Zhou <chandl...@gmail.com> 于2020年2月25日周二 下午2:46写道:
          请问有没有朋友遇到过使用openresty生产数据发送到kafka时,间歇性的遇到send timeout的情况,虽然不多,但是会有部分数据会丢失,发送失败在百分之1左右.
          目前我使用的库时https://github.com/doujiang24/lua-resty-kafka 这个库.

            我觉得大概率还是 resty.kafka 更下面层的问题,比如 tcp buffer 小,又比如 kafka 接收端处理不及时

            比较好确认问题的是,抓包来分析一下,不过你这里网络吞吐量不小,也不容易搞

            > 目前的访问量是4w+/s, 失败率每五分钟 1k个左右
            另外,这个算起来失败率是万分之一,不是百分之一呢

            Chandler Zhou <chandl...@gmail.com> 于2020年3月17日周二 上午11:00写道:
            重启完集群,一个错误都没有了....但是跑的时间一久,错误就上来了

            在 2020年2月28日星期五 UTC+8下午8:04:06,doujiang写道:
            这个比较奇怪,你可以搞一个网络稳定的环境压测一下不?
            我之前压测过,生产也跑过比较大的量,没碰到过这个情况
            大概率还是网络的问题

            Chandler Zhou <chandl...@gmail.com> 于2020年2月28日周五 上午8:57写道:
            同一个公司的机房, 基本上网络通讯没太大问题,目前的访问量是4w+/s, 失败率每五分钟 1k个左右
            error_handle 已经设置过, error_handle 失败重试也没用, 重发还是会失败.

            在 2020年2月26日星期三 UTC+8上午12:54:56,doujiang写道:
            你可以检查网络是否足够稳定,比如是否在跨机房发送
            另外,你是有设置 error_handler 来处理发送失败呢

            Chandler Zhou <chandl...@gmail.com> 于2020年2月25日周二 下午2:46写道:
            请问有没有朋友遇到过使用openresty生产数据发送到kafka时,间歇性的遇到send timeout的情况,虽然不多,但是会有部分数据会丢失,发送失败在百分之1左右.
            目前我使用的库时https://github.com/doujiang24/lua-resty-kafka 这个库.

              8 days later

              如果只是用传openresty的日志到kafka,其实在生产中还有一种方式,就是直接将日志落到本地文件,格式可以是json形式,然后用kafkacat把数据发送到kakfka,如果是想做对照测试,可以同时用resty-kafka和kafkacat一起对照传数据到kafaka。

                12 days later
                Write a Reply...