爱丁堡大学,伦敦大学学院(UCL)和奈良科学技术研究所的研究人员开发了一种基于非固定多臂强盗和专家建议算法的新的集合主动学习方法。他们的方法在预先发布在arXiv上的论文中提出,可以减少投入手动注释数据的时间和精力。

“传统的监督机器学习需要数据,标签数据可能成为数据注释成本高昂的瓶颈,”进行这项研究的研究人员Timothy Hospedales告诉Tech Xplore。“主动学习通过预测最具信息性的数据点进行注释来支持监督学习,从而可以用减少的注释预算来训练好的模型。”

主动学习是机器学习的一个特定领域,其中学习算法可以主动选择它想要学习的数据。这通常会带来更好的性能,并且训练数据集明显更小。

研究人员开发了各种主动学习算法,可以降低注释成本,但到目前为止,这些解决方案都没有被证明对所有问题都有效。因此,其他研究使用强盗算法来识别给定数据集的最佳主动学习算法。

“匪徒一词”指的是一种多臂强盗老虎机,这是一种方便的探索/开发问题的数学抽象,“Hospedales解释说。“一个强盗算法在探索所有老虎机所花费的精力之间找到了很好的平衡,以找出最赚钱的东西,并花费在开发目前为止发现的最好的老虎机上。”

主动学习算法的效果在不同问题和不同学习阶段随时间变化。这种观察类似于玩老虎机,其中支付概率随时间而变化。

“我们研究的目的是开发一种新的强盗算法,通过考虑主动学习问题的这一方面来提高性能,”Hospedales说。

为了解决这一局限,研究人员提出了一种基于非固定强盗的动态集合主动学习器(DEAL)。该学习者基于在每次数据注释之后获得的奖励(重要性加权准确度),在线建立每个主动学习算法的功效的估计。

“通过使用每种主动学习算法对这一点表达的偏好来做到这一点,”进行这项研究的另一位研究员Kunkun Pang告诉Tech Xplore。“为了解决主动学习者随时间变化的功效问题,我们会定期重新启动学习算法以刷新其主动学习者的偏好。有了这个能力,如果最有效的主动学习算法在学习的早期和晚期之间发生变化,我们能够迅速适应这种变化。“

研究人员对13种流行数据集进行了测试,取得了非常令人鼓舞的成果。他们的DEAL算法具有数学性能保证,这意味着它对它的工作效率有很高的信心。

“保证涉及我们的算法的性能,这是一个理想的神谕,它总是知道主动学习者的正确选择,”Hospedales解释道。“它提供了这种最佳案例算法与我们的算法之间的性能差距。”

Hospedales及其同事进行的实证评估证实,他们的DEAL算法提高了一套基准测试的主动学习性能。它通过不断识别针对不同任务和不同训练阶段的最有效的主动学习算法来实现这一点。

“今天,虽然主动学习很有吸引力,但由于将算法与问题和学习阶段相匹配的麻烦,它对机器学习实践的影响有限,”Hospedales说。“DEAL消除了这一困难,提供了解决许多问题和所有学习阶段的方法。通过使主动学习更容易使用,我们希望它可以对降低机器学习实践中的注释成本产生更大的影响。”

尽管结果非常有希望,但研究人员设计的技术仍具有显着的局限性。DEAL在单个问题中完成所有学习,这导致​​“冷启动”,这意味着算法以空白的方式处理所有新问题。

“在正在进行的工作中,我们正在学习如何对许多不同问题进行注释,并最终将这些知识转移到一个新问题,以便在没有预热要求的情况下立即进行有效注释,”Pang说。“我们在这个主题上的初步工作已经出版,并且还获得了ICML 2018 AutoML研讨会的最佳论文奖。”