一切始于一个失控的数据流。生产环境的事件生产者开始以每秒数千次的频率向我们的系统推送特征向量,而负责处理这些数据的机器学习推理服务却频繁地内存溢出、响应超时,最终彻底崩溃。最初的实现方案简单得可笑:一个直接从消息队列拉取数据、调用模型API
2023-10-27