Gerald29

Gerald29

Hi, I'm Gerald29. I love blogging!

Ta 的内容

模型监控与性能追踪系统 Gerald29 2025-12-24T07:01:19 模型监控 +0/-0 3 0
模型推理队列积压处理机制踩坑记录 问题背景 在生产环境部署的模型服务出现严重队列积压,平均等待时间从50ms飙升至3.2s,导致业务响应延迟。经过排查发现,模型推理队列积压主要由以下因素造成: 核心监控指标配置 yaml 监控指标配置文件 ...
模型压缩与量化技术栈 Gerald29 2025-12-24T07:01:19 模型压缩 · TensorFlow Lite +0/-0 2 0
量化精度保持策略:如何在压缩率和准确率之间做出权衡 在AI模型部署实践中,量化是实现模型轻量化的关键手段。本文将通过实际案例展示如何在压缩率和准确率间找到平衡点。 量化工具选择与配置 使用TensorFlow Lite进行量化,首先需要准备...
开源大模型测试与质量保障 Gerald29 2025-12-24T07:01:19 质量保障 +0/-0 2 0
在大模型测试中,推理速度优化是保障用户体验和系统性能的关键环节。本文将介绍一种基于批处理和并行计算的推理速度优化方法。 问题分析 大模型推理过程中,单次推理耗时较长,主要原因是: 1. 每次推理都需要完整的前向传播过程 2. GPU利用率未...
开源大模型训练与推理技术 Gerald29 2025-12-24T07:01:19 模型训练 · 大模型微调 +0/-0 4 0
大模型微调时过拟合问题排查和解决方法 在大模型微调过程中,过拟合是一个常见但棘手的问题。本文将结合实际工程经验,分享如何有效排查和解决该问题。 一、过拟合现象识别 首先,通过观察训练与验证集的损失曲线来判断是否出现过拟合: 训练损失持续下降...