本文首发于 🍀 永浩，转载请注明来源。

20、【对线面试官】使用kafka会考虑什么问题

你提到了你这边会从交易的消息报获取到订单的数据，然后做业务的处理；也提到了你用的是Kafka，我想问下，Kafka会丢数据吗？

首先，要想client端消费数据不能丢，肯定是不能使用autoCommit的，所以必须是手动提交的。
我们这边是这样实现的：
一、从Kafka拉取消息、（一次批量拉取500条，这里主要看配置）二、为每条拉取的消息分配一个msgld（递增）三、将msgld存入内存队列（sortSet）中四、使用Map存储msgld.与msg（有offset相关的信息）的映射关系
五、当业务处理完消息后，ack时，获取当前处理的消息nsgld，然后从sortSet删除该msgld（此时代表已经处理过了）六、接着与sortSet队列的首部第一个ld比较（其实就是最小的msgld），如果当前msgld<=sort Set第一个ID，则提交当前offset
七、系统即便挂了，在下次重启时就会从sortSet队首的消息开始拉取，实现至少处理一次语义八、会有少量的消息重复，但只要下游做好幂等就OK了

嗯，也是有的，我举个例子
订单的状态比如有支付、确认收货、完成等等，而订单下还有计费、退款的消息报
理论上来说，支付的消息报肯定要比退款消息报先到嘛，但程序处理的过程中可不一定的嘛
所以在这边也是有消费顺序的问题（先处理了支付，才能退款啊）
但在广告场景下不是「强顺序」的，只要保证最终一致性就好了。
所以我们这边处理「乱序」消息的实现是这样的：
1）宽表：将每一个订单状态，单独分出一个或多个独立的字段。消息来时只更新对应的字段就好，消息只会存在短暂的状态不一致问题，但是状态最终是一致的
2）消息补偿机制：另一个进行消费相同topicl的数据，消息落盘，延迟处理。将消息与DB进行对比，如果发现数据不一致，再重新发送消息至主进程处理
3）还有部分场景，可能我们只需要把相同userld/orderld.发送到相同的partition（因为一个partition由一个Consumer消费），又能解决大部分消费顺序的问题了呢。