本文设计并评估了一种帮助用户审核机器学习模型,以确定其数据是否用于训练这些模型的技术。应用于文本生成模型,且审计员只能对模型进行黑盒访问。使用方法是影子模型方法。"Song C, Shmatikov V. Auditing data provenance in text-generation models[C]//Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2019: 196-206."
本文的优点在于从实际出发,以用户角度考虑问题。在实践中,审计员可能不知道目标模型训练数据的整个分布,因此影子训练数据不需要从与目标模型的训练数据相同的分布中提取。
本文的缺点在于其实际场景中的可用性不足。其绪论举例的DeepMind事件,未经授权使用NHS患者数据有160万份。而图2的实验结果说明,当用户数量越多时这种审计技术效果越差,用户数在4000个时精确度在80%以下,而用户数到10000时下降更多。其次本文设计的黑盒场景中,要求审计员知道目标模型的学习算法,并不是完全黑盒。
2023年2月3日
标签:Auditing,邹昱夫,KDD,text,模型,generation,黑盒,CCF,审计员 From: https://www.cnblogs.com/FBprivacy/p/17087334.html