OpenAI开源发布隐私信息检测工具Privacy Filter

前沿资讯 1776929459更新

0

OpenAI于当地时间22日开源发布了一款名为Privacy Filter的双向token分类模型。

该模型专注于个人身份信息检测与脱敏处理,可识别账户号码、私人地址、电子邮件、姓名、电话号码、URL、日期及密钥等8类隐私信息,旨在帮助企业实现数据清洗流程的高效化与合规化。

据悉,该模型参数量为1.5B,其中活跃参数约5000万,可在浏览器或笔记本电脑上本地运行。Privacy Filter提供128,000 token的上下文窗口,支持长文本一次性处理,无需分块操作。用户在运行期间可通过预设操作点调整召回率与精确率的平衡,灵活适配不同业务场景需求。

该模型采用Apache 2.0开源许可证,对实验研究、商业部署及定制化开发均不设限制。开发者可通过Python API或CLI命令行工具将其集成至现有数据管道,模型权重已上传至Hugging Face平台,开发者可免费获取。

技术层面,该模型基于类似gpt-oss的架构改造而来,采用有监督分类损失函数进行后训练。推理阶段运用约束Viterbi解码算法,将全局路径优化与局部token决策相结合,以BIOES标注体系对检测边界进行精确标注,确保脱敏区域连贯完整。

核心参数一览

项目规格
模型类型双向token分类模型
总参数量1.5B
活跃参数约5000万
上下文窗口128,000 token
许可证Apache 2.0
检测类别8类隐私信息

业内专家表示,随着数据隐私保护法规在全球范围内日趋严格,市场对高效隐私信息检测工具的需求持续增长。该工具的发布为企业在本地化部署场景下提供了新的选择,有助于降低数据泄露风险。

不过专家同时提醒,该模型应作为整体隐私保护方案的组成部分,而非独立的匿名化解决方案;在医疗、金融、法律等高敏感领域,仍需结合人工审核以确保处理效果。