1. 首页
  2. 教育
  3. 深度学习

业务场景数据的采集和标注

无论是在传统机器学习领域还是现今炙手可热的深度学习领域,基于训练样本有明确标签或结果的监督学习仍然是一种主要的模型训练方式。尤其是深度学习领域,需要更多数据以提升模型效果。目前,已经有一些规模较大的公开数据集,如ImageNet,COCO等。对于深度学习入门者,这些公开数据集可以提供非常大的帮助;但是对于大部分企业开发者,特别在医学成像、自动驾驶、工业质检等领域中,他们更需要利用专业领域的实际业务数据定制AI模型应用,以保证其能够更好地应用在业务中。因此,业务场景数据的采集和标注也是在实际AI模型开发过程中必不可少的重要环节。

无论是在传统机器学习领域还是现今炙手可热的深度学习领域,基于训练样本有明确标签或结果的监督学习仍然是一种主要的模型训练方式。尤其是深度学习领域,需要更多数据以提升模型效果。目前,已经有一些规模较大的公开数据集,如ImageNet,COCO等。对于深度学习入门者,这些公开数据集可以提供非常大的帮助;但是对于大部分企业开发者,特别在医学成像、自动驾驶、工业质检等领域中,他们更需要利用专业领域的实际业务数据定制AI模型应用,以保证其能够更好地应用在业务中。因此,业务场景数据的采集和标注也是在实际AI模型开发过程中必不可少的重要环节。

数据标注的质量和规模通常是提升AI模型应用效果的重要因素,然而完全通过人力手动标注数据建立一个高质量、大规模专业领域数据集却并不容易:标注人员的培训与手工标注成本高、耗时长。为解决此问题,我们可以利用主动学习的方法,采用“Human-in-the-loop”的交互式框架(图1)进行数据标注,以有效减少人工数据标注量。

业务场景数据的采集和标注

图1 基于主动学习的“Human-in-the-loop”交互式数据标注框架

主动学习(ActiveLearning, AL)是一种挑选具有高信息度数据的有效方式,它将数据标注过程呈现为学习算法和用户之间的交互。其中,算法负责挑选对训练AI模型价值更高的样本,而用户则标注那些挑选出来的样本。如“Human-in-the-loop”交互式数据标注框架,通过用户已标注的一部分数据来训练AI模型,通过此模型来标注剩余数据,再从中筛选出AI模型标注较为困难的数据进行人工标注,再将这些数据用于模型的优化。几轮过后,用于数据标注的AI模型将会具备较高的精度,更好地进行数据标注。以图像分类问题举例,首先,人工挑选并标注一部分图像数据,训练初始模型,然后利用训练的模型预测其余未标注的数据,再通过“主动学习”中的“查询方法”挑选出模型比较难分辨类别的数据,再人为修正这些“难”数据的标签并加入训练集中再次微调(Fine-tuning)训练模型。“查询方法”是主动学习的核心之一,最常见的“查询方法”有基于不确定性的样本查询策略和基于多样性的样本查询策略。

基于不确定性的样本查询策略可查询出深度学习模型预测时,靠近决策边界的样本。以二分类问题举例,当一个未标注样本被预测为任一标签的概率都是50%时,则该样本对于预测模型而言是“不确定”的,极有可能被错误分类。要注意的是,主动学习是一个迭代过程,每次迭代,模型都会接收认为修正后的标注数据微调模型,通过这个过程直接改变模型决策的边界,提高分类的正确率。

基于多样性的查询策略,可实现对当前深度学习模型下状态未知样本的查询。将通过多样性查询挑选出的数据加入训练集,可丰富训练集的特征组合,提升模型的泛化能力。模型学习过的数据特征越丰富,泛化能力越强,预测模型适用的场景也越广。

为解决大数据量标注的痛点,基于主动学习且融合多样查询策略的智能标注AI解决方案应运而生。通过EasyDL平台使用智能标注后,开发者们只需标注数据集中30%左右的数据,即可启动智能标注在EasyDL后台自动标注剩余数据,再返回少量后台难以确定的数据再次进行人工标注,同时提升自动标注的准确性,经过几轮之后,在实际项目测试中,智能标注功能可以帮助用户节省70%的数据标注量,极大地减少数据标注中的人力成本和时间成本。

EasyDL零门槛AI开发平台,面向企业开发者提供智能标注、模型训练、服务部署等全流程功能,针对AI模型开发过程中繁杂的工作,提供便捷高效的平台化解决方案。目前,EasyDL的智能标注功能已支持计算机视觉CV方向的物体检测模型、图像分割、自然语言处理NLP方向的文本分类模型的数据标注。

智能标注解决了模型开发过程中庞大的数据准备难题,那么在模型训练与部署阶段,EasyDL是否还有其他“武功秘籍”帮助开发者高效开发?

本周六,AI快车道EasyDL零门槛模型训练营来到六朝古都南京,依托桨声灯影里的秦淮河,为这座历史悠久的城市带来AI科技的新气息!

各行业如何做到技术与场景结合,高效用AI?

视觉模型背后的核心技术点如何理解?

从云到端,端侧模型的技术原理与部署如何操作?

模型精度难以提升,有没有关键效果提升技巧尚未掌握?

责任编辑:xj

原文标题:百度工程师带来干货分享,助你转型AI应用工程师!

文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

免责声明:本站旨在传递信息,不代表有传资讯的观点和立场。本站遵循行业规范,如转载您的文章未标注版权,请联系我们(QQ:78799268)改正。本站的原创文章,如若转载,请注明出处:http://www.ainoline.cn/jiaoyu/shenduxuexi/14245.html

发表评论

电子邮件地址不会被公开。 必填项已用*标注

联系我们

在线咨询:点击这里给我发消息

邮件:78799268@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

QR code