随着深度学习模型在现实世界中的业务应用中变得越来越流行以及训练数据集变得越来越大,机器学习(ML)基础结构正成为许多公司中的关键问题 。
为了帮助您了解ML基础架构的最新研究进展,我们总结了最近在该领域引入的一些最重要的研究论文 。阅读这些
我们选择的论文涵盖了数据标签和数据验证框架,用于ML模型的分布式训练的不同方法,用于跟踪生产中ML模型性能的新颖方法等等 。
标记培训数据越来越成为部署机器学习系统的最大瓶颈 。我们展示了Snorkel,这是首创??的系统,它使用户能够训练最先进的模型而无需人工标记任何训练数据 。相反,用户编写了表示任意试探法的标签函数,这些试探法可能具有未知的准确度和相关性 。通过整合我们最近提出的机器学习范例数据编程的第一个端到端实现,Snorkel对输出进行了降噪处理而无须了解真实情况 。我们根据过去一年与公司,代理商和研究实验室的合作经验,提供了一个灵活的接口层来编写标签功能 。在用户研究中,主题专家构建模型的速度提高了2.8倍,平均预测性能提高了45倍 。相对于7个小时的手工贴标,为5% 。我们研究了在这种新设置中的建模权衡,并提出了用于自动权衡决策的优化器,该优化器可使每次管道执行的速度提高1.8倍 。通过与退伍事务部和食品与药物管理局的两次合作,在代表其他部署的四个开源文本和图像数据集上,Snorkel的预测性能比以前的启发式方法平均提高了132%,并且不超过大型手工策展训练集的预测性能的3.60% 。
【机器学习基础设施的顶级AI研究进展】
推荐阅读
- 相思鸟夏天怎么养
- 二期 诺泰生物子公司拟投建杭州澳赛诺医药中间体建设项目
- 质量的单位换算公式 1kg质量等于多少重量
- 乌鸫夏天怎么养
- 【网眼看来宾】乘风破浪的来宾!
- 1平方米等于几米 一平方米多少厘米
- 三星Galaxy S11规格发布日期设计等:到目前为止我们所知道的一切
- 路通视信上半年扣非净利亏损492.67万元
- 华硕开始为ROG Phone II推出安卓10系统更新