返回第十九章 我是预言家  佚名首页

关灯 护眼     字体:

上一页 目录 下一页

退出阅读模式,即可阅读全部内容

鼎盛崩了#,衝到了热搜第一。

他点进去。二十分钟前,鼎盛系三款核心app集体闪退,用户打开就白屏。

推荐系统的崩溃没有触发熔断。坏掉的模块像传染病一样顺著调用链往上爬,拖垮了依赖它的內容分发、搜索、首页加载,最后整条链路全死了。

十一点十五分鼎盛发了紧急公告。十一点四十分,app陆续恢復上线,他们手动把推荐系统整个切掉了。

微博上有人贴了恢復后的截图。首页乾乾净净,没有“猜你喜欢”,没有个性化推荐,没有千人千面。就一个光禿禿的货架。

“这是2015年的app吧?”

“鼎盛的推荐系统呢?去哪了?”

“切了。不切整个app都用不了,你选哪个?”

韩路一打开视界。

【事件性质:系统级故障(无熔断→全链路雪崩)】

【根因:画像格式不適配→解析异常堆积→內存泄漏触发oom→数据管道断裂→ 23%用户画像错乱→推荐模块崩溃未熔断→级联击穿全链路】

【影响范围:宕机期间全量用户(峰值约1200万在线),当前降级运行中】

【当前状態:手动切断推荐模块,app降级运行】

【预测恢復周期:版本回退至原架构,约14天】

跟他的判断一模一样。

三月中旬他扫那个外包需求时看到的d-评级,一百四十个bug,就指向这个结局。当时看到的是七十二小时。

从周一上午全量上线到周二晚上全线崩溃,还不到四十八小时。

比原本预估的还快了一天。

……

天亮之后的事,像多米诺骨牌。

有人翻出了韩路一一个月前那篇《推荐系统架构改造的七个经典陷阱》,发了一条帖子——

“兄弟们!nullpointer是预言家!一个月前精准描述了鼎盛今天的崩溃路径,七个陷阱全踩了!”

“什么预言家,是重生者!”

“不是全踩。我数了数,至少五个。”

“你数错了。第二个和第六个也中了,只是症状还没完全暴露。”

“所以是七个全踩?”

“七杀。”

帖子被版主置顶。博客阅读量开始飆。中午两万九。下午四万二。晚上破六万。技术媒体引用,大厂群截图传播,连几个头部科技公眾號都转了

『加入书签,方便阅读』

上一页 目录 下一页