可信机器学习是机器学习的一个新兴的分支,旨在解决现有机器学习算法和模型的可信度问题。
可解释性
一般鲁棒性
对抗鲁棒性(对抗性攻击和防御)
数据中毒(数据中毒和防御)
后门鲁棒性(后门攻击和防御)
隐私(数据泄露和模型窃取)
差分隐私
联邦学习
公平性
数据篡改和伪造
机器学习不同层次的理解
机器学习模型是一个学习器
机器学习模型是一个计算器
机器学习模型是一个存储器
机器学习模型是一个复杂函数
模型窃取
模型窃取攻击的目标是通过一定手段窃取得到一个跟{受害者模型}功能和性能相近的窃取模型,从而避开昂贵的模型训练并从中获益。
基于方程式求解的窃取攻击
早在2016年,Tramèr等人 (Tramèr et al., 2016) 便提出通过求解模型结构方程式来窃取机器学习模型参数。在该攻击方法中,攻击者向受害者模型发送大量查询并构建模型参数方程式,随后通过受害者模型返回的预测输出来窃取模型参数。