研究人员在摆脱数据方面取得了有限的成功


人工智能系统有着奇怪的记忆 。机器拼命地依赖于他们已经训练过的数据,因此难以删除它的部分内容 。实际上,它们通常必须使用较新的较小数据集从头开始重新训练 。
在个人可以根据欧洲的GDPR规则等隐私措施要求将其个人数据从公司数据库中删除的时代,这并不好 。如何从已经过培训的机器学习中删除一个人的敏感信息?一个2017年的研究论文通过法律和政策的学者暗示,甚至是不可能的 。
“删除很困难,因为大多数机器学习模型都是复杂的黑盒子,因此不清楚数据点或数据点是如何被真正使用的,”斯坦福大学生物医学数据科学助理教授James Zou告诉The 。注册 。
为了省略特定数据,通常必须使用较新的较小数据集重新训练模型 。这是一个痛苦,因为它花费金钱和时间 。
由斯坦福大学博士生Antonio Ginart领导的这项研究研究了试图删除机器学习模型中数据的问题,并设法制作了两个“可证明删除有效的算法”来删除六个不同数据集中的数据,用于k均值聚类模型,一种开发分类器的机器学习方法 。结果已经公布,本周在一份文件中的arXiv 。
诀窍是评估从训练模型中删除数据的影响 。在某些情况下,它可能会导致系统性能下降 。
“首先,快速检查删除数据点是否会对机器学习模型产生任何影响 - 有些设置没有效果,因此我们可以非常有效地执行此检查 。其次,看看要删除的数据是否只影响学习系统的某些本地组件,只是在本地更新,“邹解释说 。
在某些情况下,当数据可以更容易分离时,它似乎对于k-means聚类模型是可行的 。但是,对于像现代深度学习模型那样不具有确定性的系统,删除数据非常困难 。
【研究人员在摆脱数据方面取得了有限的成功】邹说,这并非完全不可能 。“我们还没有工具,但我们希望在未来几个月内开发这些删除工具 。”

    推荐阅读