Genevera Allen说,数据挖掘算法不善于在结果中传达不确定性,机器EUREKA数据科学家Genevera Allen表示,直到这些计算机程序能够更好地评估自己的不确定性,才能从人工智能中获取科学发现的风险 。
华盛顿 -我们生活在科学数据的黄金时代,拥有比以往更多的遗传信息,医学图像和天文观测资源 。人工智能可以挖掘这些宝库,以便比人们更快地发现潜在的新科学发现 。但数据科学家Genevera Allen认为,我们不应盲目相信AI的科学见解,直到这些计算机程序可以更好地衡量它们在自己的结果中的确定程度 。
休斯顿莱斯大学的艾伦说,使用机器学习的人工智能系统 - 通过研究数据而不是遵循明确的指示来学习如何做的程序 - 可以委托做出一些决定 。也就是说,人工智能在人类可以轻松检查其工作的区域做出决策是可靠的,例如计算月球上的陨石坑或预测地震余震(SN:12/22/18,第25页) 。
但更多的探索性算法围绕大型数据集来识别以前未知的模式或各种特征之间的关系“很难验证”,艾伦2月15日在科学促进会年会上的新闻发布会上说 。她警告说,推迟对这种自主的数据探测系统的判断可能会导致错误的结论 。
【为什么数据科学家警告不要总是信任AI的科学发现】自我意识系统Genevera Allen(如图)和她的同事正在设计新的不确定性测量方案,以帮助AI程序估计其发现的准确性和可重复性 。TOMMY LAVERGNE /莱斯大学
以精准医学为基础,研究人员通常旨在寻找基因相似的患者群体来帮助定制治疗 。通过基因数据筛选的AI程序已成功识别某些疾病的患者群体,如乳腺癌 。但是对于许多其他疾病,例如结肠直肠癌,它并没有起到很好的作用 。检查不同数据集的算法将不同的,相互冲突的患者分类聚集在一起 。这让科学家们想知道AI应该信任哪个(如果有的话) 。
艾伦解释说,这些矛盾的产生是因为数据挖掘算法的设计遵循程序员的精确指令而没有优柔寡断的余地 。“如果你告诉一个聚类算法,'在我的数据集中查找组',它会回来,它会说,'我找到了一些组 。'“告诉它找到三组,它找到三组 。请求四,它会给你四个 。
艾伦说,人工智能真正应该做的事情是,“我真的认为这些患者群体真的,真的分组相似......但是这些人在这里,我不太确定 。”
科学家对处理不确定性并不陌生 。但传统的不确定性测量技术是针对科学家分析专门收集的数据来评估预定假设的情况而设计的 。这不是数据挖掘AI程序通常如何工作的方式 。这些系统没有指导性的假设,它们混淆了大量数据集,这些数据集通常是为了单一目的而收集的 。然而,像Allen这样的研究人员正在设计协议,以帮助下一代AI估计其发现的准确性和可重复性 。
其中一种技术依赖于这样一种观点,即如果AI程序已经发现了一个真正的发现 - 比如识别一组具有临床意义的患者群体 - 那么该发现应该在其他数据集中保留 。对于科学家来说,收集全新的大型数据集以测试人工智能所发现的内容通常太昂贵了 。但是,艾伦说,“我们可以获取当前的数据,我们可以干扰数据并以模仿[收集]未来数据集的方式随机化数据 。”如果AI发现相同类型的患者分类,例如,“你手上可能有一个很好的发现,”她说 。
推荐阅读
- 梦到与死人说话 周公解梦原文 梦到与死人说话好不好
- 欧莱雅染发剂味道大吗
- 伊恩和凯莉游戏 伊恩和凯莉
- 三星Galaxy F62:搭载Exynos 9825处理器
- 梦见钱包被偷走了啥意思 梦见钱包被偷了是什么预兆
- 向祖国致敬寄语 向祖国敬礼
- 敏感肌适合用黄金棒吗 黄油敏感肌可以用吗
- 周公解梦梦见很多馒头 梦见许多馒头代表
- 衣服能晒在外面过夜吗