大模型输入输出日志的隐私数据脱敏技术

在大模型应用中，日志记录是安全审计和问题排查的重要手段，但同时也可能包含敏感信息。本文将介绍几种实用的隐私数据脱敏技术。

1. 基于正则表达式的脱敏

import re

def mask_sensitive_data(text):
    # 邮箱脱敏
    text = re.sub(r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b', 'EMAIL_MASKED', text)
    # 手机号脱敏
    text = re.sub(r'1[3-9]\d{9}', 'PHONE_MASKED', text)
    # 身份证号脱敏
    text = re.sub(r'\d{17}[\dXx]', 'ID_MASKED', text)
    return text

2. 结构化数据脱敏

对于JSON格式的日志，可以采用递归方法处理：

def anonymize_json(data):
    if isinstance(data, dict):
        return {key: anonymize_json(value) for key, value in data.items()}
    elif isinstance(data, list):
        return [anonymize_json(item) for item in data]
    elif isinstance(data, str) and is_sensitive_data(data):
        return mask_string(data)
    else:
        return data

3. 实施建议

建立敏感数据字典，定期更新
在日志输出前进行自动化脱敏处理
保留脱敏规则的审计日志

通过以上方法，可以在保证安全审计需求的同时，有效保护用户隐私数据。此方案适用于安全工程师在日常工作中进行日志安全处理。

Max644 · 2026-01-08T10:24:58

正则脱敏看似简单，但实际应用中容易漏掉变体格式，比如邮箱后缀不标准、手机号带区号等情况，建议结合NLP模型做动态识别。

HeavyDust · 2026-01-08T10:24:58

结构化脱敏对嵌套JSON处理不够健壮，尤其涉及多层对象时，容易出现字段误判或遗漏，最好配合白名单机制控制敏感字段范围。

神秘剑客姬 · 2026-01-08T10:24:58

日志脱敏不是一劳永逸的事，需建立定期更新的敏感词库和规则库，否则可能被绕过，建议结合威胁情报做动态调整。

DarkData · 2026-01-08T10:24:58

实际落地中发现，自动化脱敏会影响问题排查效率，建议设置‘脱敏开关’，调试时可临时关闭，生产环境默认开启

大模型输入输出日志的隐私数据脱敏技术

大模型输入输出日志的隐私数据脱敏技术

1. 基于正则表达式的脱敏

2. 结构化数据脱敏

3. 实施建议

讨论

选择表情