大模型服务资源限制策略优化

大模型服务资源限制策略优化踩坑记录

最近在为大模型微服务做资源限制优化时，踩了一个比较典型的坑。原本以为设置容器资源限制很简单，结果发现实际使用中存在不少细节问题。

我们的大模型服务在K8s集群中运行，最初配置了requests: 4CPU, 8Gi的资源请求，但随着业务增长，发现服务经常出现OOM（内存溢出）问题。起初以为是代码内存泄漏，后来通过监控发现是资源限制设置不当导致。

通过分析，我们发现原来只设置了CPU和内存的request，但没有设置limit。正确的做法应该是：

resources:
  requests:
    memory: "8Gi"
    cpu: "4"
  limits:
    memory: "16Gi"
    cpu: "8"

优化后服务稳定运行超过一周，容器重启次数从每日5次降低到0次。