返回第六十四章 救火版  佚名首页

关灯 护眼     字体:

上一页 目录 下一页

退出阅读模式,即可阅读全部内容

。赵磊坐在工位上,三个终端窗口全开著,右边的监控面板一片红,姜亦心站在他身后,不知道该干什么。苏念念、李婷和陆明洲在会议室,手在电脑上疯狂打字,用户反馈群一直在弹消息。

他径直走到座位上,打开电脑。

开启视界。

【开物·系统状態】

【推理实例:6/6过载|gpu利用率:100%】

【推理队列:2847请求等待|平均推理时间:>120s(正常值:8-12s)】

【请求超时率:42.3%|状態:服务降级】

【原因:为同时在线两千人设计,现在在线五千+】

每个用户都在提交生成请求,算力根本扛不住,请求堆进来出不去,用户刷新又製造新请求,越堆越崩。

“赵磊,姜亦心。”

两个人立刻围了过来。

“赵磊,你先把队列监控拉出来,一会儿队列分离你来做。“他看了一眼姜亦心,“小姜,你搬把椅子过来,学习的机会,一会帮我跑脚本。“

韩路一低头开始敲命令。

“要不要把陈建业叫回来?”赵磊问了一句。

“他孩子生病了,別叫了。”韩路一说,眼睛没离开屏幕。

第一步,扩推理实例。

梁宇那边动作快,青岳已经把配额放开了,韩路一在配置文件里把实例数从六个直接拉到二十个,改完推给姜亦心。

“跑这个部署。”

姜亦心接过来,手指都在发抖,但敲得很快,部署脚本跑起来了,终端开始刷日誌。

新实例一个一个上线,监控面板上队列在分流,超时率开始往下掉,三十五……三十……

两分钟后,超时率降到百分之十五。还是高,但至少不是瀑布式崩溃了。

第二步,加速率限制。

韩路一现写了一个中间件:单用户请求频率超过閾值,不再让请求排进队列等到超时,直接返回一个“排队中,请稍后重试”的提示页。

“这个也部署上去。”

姜亦心接过去跑。

效果立竿见影——用户端从“一直转圈”变成“排队中”,带预计排队时间。刷新不再製造新请求,死亡螺旋的输入被切断了。

第三步,分离队列。

现在ai推理和网页页面共用一个请求队列,推理慢了会把页面加载也拖死;要把推理请

『加入书签,方便阅读』

上一页 目录 下一页