OpenAI开源发布隐私信息检测工具Privacy Filter-AI前沿快讯-AI工具导航

OpenAI开源发布隐私信息检测工具Privacy Filter

OpenAI于当地时间22日开源发布了一款名为Privacy Filter的双向token分类模型。

该模型专注于个人身份信息检测与脱敏处理，可识别账户号码、私人地址、电子邮件、姓名、电话号码、URL、日期及密钥等8类隐私信息，旨在帮助企业实现数据清洗流程的高效化与合规化。

据悉，该模型参数量为1.5B，其中活跃参数约5000万，可在浏览器或笔记本电脑上本地运行。Privacy Filter提供128,000 token的上下文窗口，支持长文本一次性处理，无需分块操作。用户在运行期间可通过预设操作点调整召回率与精确率的平衡，灵活适配不同业务场景需求。

该模型采用Apache 2.0开源许可证，对实验研究、商业部署及定制化开发均不设限制。开发者可通过Python API或CLI命令行工具将其集成至现有数据管道，模型权重已上传至Hugging Face平台，开发者可免费获取。

技术层面，该模型基于类似gpt-oss的架构改造而来，采用有监督分类损失函数进行后训练。推理阶段运用约束Viterbi解码算法，将全局路径优化与局部token决策相结合，以BIOES标注体系对检测边界进行精确标注，确保脱敏区域连贯完整。

核心参数一览

项目	规格
模型类型	双向token分类模型
总参数量	1.5B
活跃参数	约5000万
上下文窗口	128,000 token
许可证	Apache 2.0
检测类别	8类隐私信息

业内专家表示，随着数据隐私保护法规在全球范围内日趋严格，市场对高效隐私信息检测工具的需求持续增长。该工具的发布为企业在本地化部署场景下提供了新的选择，有助于降低数据泄露风险。

不过专家同时提醒，该模型应作为整体隐私保护方案的组成部分，而非独立的匿名化解决方案；在医疗、金融、法律等高敏感领域，仍需结合人工审核以确保处理效果。