数据分析和可视化软件中加入统计保护措施

现代数据可视化软件使用户可以很容易地探索大型数据集，以寻找有趣的相关性和新发现。但是这种易用性——只需点击几下鼠标就可以对数据集提出一个又一个问题的能力——带来了一个严重的缺陷:它增加了错误发现的可能性。

【数据分析和可视化软件中加入统计保护措施】统计学家称之为“多重假设误差”的问题。问题本质上是这样的:人们对数据集提出的问题越多，他们就越有可能无意中发现一些看起来像是真正的发现，但实际上只是数据集中的一个随机波动。
布朗大学的一组研究人员正在开发软件来帮助解决这个问题。本周在芝加哥举行的SIGMOD2017会议上，他们提出了一种名为QUDE的新系统，该系统为交互式数据探索系统增加了实时统计保护，以帮助减少错误发现。
“越来越多的人在使用Tableau和Spark等数据探索软件，但这些用户大多不是统计或机器学习方面的专家，”布朗大学计算机科学助理教授、该研究的合著者蒂姆·克拉斯卡(Tim Kraska)说。“你可能会犯很多统计错误，所以我们正在开发帮助人们避免这些错误的技术。”
多重假设检验误差是统计学中一个众所周知的问题。克拉斯卡表示，在大数据和交互式数据探索的时代，这个问题再次受到重视。
“这些工具让查询数据变得很容易，”他说。“使用这些可视化工具，你可以在一个小时内轻松测试100个假设。如果不对多重假设误差进行校正，你很可能会发现一个完全虚假的相关性。”
有众所周知的统计技术来处理这个问题。这些技术大多涉及调整统计显著性水平，以便根据总共测试了多少个假设来验证特定的假设。随着假设检验数量的增加，判断一个发现是否有效所需的显著性水平也会增加。
但这些修正技术几乎都是事后调整。它们是在研究项目结束时使用的工具，在所有的假设测试完成之后，这对于实时的、交互式的数据探索是不理想的。
“我们不想等到会议结束后才告诉人们，他们的结果是否有效，”布朗大学的计算机科学教授、该研究的合著者伊莱·厄普法尔(Eli Upfal)说。“我们也不希望系统在某一阶段告诉你某件事很重要，但在你测试了更多的假设之后，又告诉你你的早期结果已经不重要了，这样就会让系统自己反转过来。”
这两种情况都可以使用最常见的多重假设校正方法。因此，研究人员为这个项目开发了一种不同的方法，使他们能够在假设测试正在进行时监测错误发现的风险。
Upfal说:“我们的想法是，你有一个可以承担多少错误发现风险的预算，当用户与数据交互时，我们会实时更新这个预算。”“我们还考虑了用户浏览数据的方式。通过理解他们的问题顺序，我们可以调整我们的算法，改变我们分配预算的方式。”
对于用户来说，这种体验类似于使用任何数据可视化软件，只是使用彩色编码的反馈，给出统计意义方面的信息。
“绿色意味着可视化代表了一个重要的发现，”Kraska说。“如果是红色，意思是小心;这是不可靠的统计数据。”
研究人员说，该系统不能保证绝对的准确性。没有系统。但在一系列使用合成数据的用户测试中，真实和虚假的相关性已经得到了验证，研究人员表明，该系统确实减少了用户做出虚假发现的数量。
研究人员认为这项工作是迈向数据探索和可视化系统的一步，该系统完全集成了一套统计保护措施。
“我们的目标是让更广泛的用户更容易获得数据科学，”Kraska说。“解决多重假设问题很重要，但也很难做到。我们认为这是良好的第一步。”

数据分析和可视化软件中加入统计保护措施

推荐阅读

关于节约粮食的名言诗句关于节约粮食的名言和诗句

奋斗励志朋友圈句子励志短句致自己奋斗朋友圈

想发朋友圈表示心情不好的句子心情不好发朋友圈的句子心情短句

贝拉玻尿酸是合法的吗贝拉玻尿酸是进口的还是国产的

核桃仁做菜的菜谱，您知道桃仁脆溜鸡的做法

浅紫色显皮肤黑还是白

库伦旗景点

居家隔离和集中隔离的区别什么情况下要隔离28天

蝉蛹是什么

怎样能丰胸最安全有效