鼎盛崩了#,衝到了热搜第一。
他点进去。二十分钟前,鼎盛系三款核心app集体闪退,用户打开就白屏。
推荐系统的崩溃没有触发熔断。坏掉的模块像传染病一样顺著调用链往上爬,拖垮了依赖它的內容分发、搜索、首页加载,最后整条链路全死了。
十一点十五分鼎盛发了紧急公告。十一点四十分,app陆续恢復上线,他们手动把推荐系统整个切掉了。
微博上有人贴了恢復后的截图。首页乾乾净净,没有“猜你喜欢”,没有个性化推荐,没有千人千面。就一个光禿禿的货架。
“这是2015年的app吧?”
“鼎盛的推荐系统呢?去哪了?”
“切了。不切整个app都用不了,你选哪个?”
韩路一打开视界。
【事件性质:系统级故障(无熔断→全链路雪崩)】
【根因:画像格式不適配→解析异常堆积→內存泄漏触发oom→数据管道断裂→ 23%用户画像错乱→推荐模块崩溃未熔断→级联击穿全链路】
【影响范围:宕机期间全量用户(峰值约1200万在线),当前降级运行中】
【当前状態:手动切断推荐模块,app降级运行】
【预测恢復周期:版本回退至原架构,约14天】
跟他的判断一模一样。
三月中旬他扫那个外包需求时看到的d-评级,一百四十个bug,就指向这个结局。当时看到的是七十二小时。
从周一上午全量上线到周二晚上全线崩溃,还不到四十八小时。
比原本预估的还快了一天。
……
天亮之后的事,像多米诺骨牌。
有人翻出了韩路一一个月前那篇《推荐系统架构改造的七个经典陷阱》,发了一条帖子——
“兄弟们!nullpointer是预言家!一个月前精准描述了鼎盛今天的崩溃路径,七个陷阱全踩了!”
“什么预言家,是重生者!”
“不是全踩。我数了数,至少五个。”
“你数错了。第二个和第六个也中了,只是症状还没完全暴露。”
“所以是七个全踩?”
“七杀。”
帖子被版主置顶。博客阅读量开始飆。中午两万九。下午四万二。晚上破六万。技术媒体引用,大厂群截图传播,连几个头部科技公眾號都转了

