1. 首页
  2. 教育
  3. 深度学习

深度学习:小样本学习下的多标签分类问题初探

摘要 小样本学习(Few-shotLearning)近年来吸引了大量的关注,但是针对多标签问题(Multi-label)的研究还相对较少。在本文中,我们以用户意图检测任务为切入口,研究了的小样本多标签分类问题。对于多标签分类的SOTA方法往往会先估计标签-样本相关性得分,然后使用阈值来选择多个关联的标签。

摘要

小样本学习(Few-shotLearning)近年来吸引了大量的关注,但是针对多标签问题(Multi-label)的研究还相对较少。在本文中,我们以用户意图检测任务为切入口,研究了的小样本多标签分类问题。对于多标签分类的SOTA方法往往会先估计标签-样本相关性得分,然后使用阈值来选择多个关联的标签。

为了在只有几个样本的Few-shot场景下确定合适的阈值,我们首先在数据丰富的多个领域上学习通用阈值设置经验,然后采用一种基于非参数学习的校准(Calibration)将阈值适配到Few-shot的领域上。为了更好地计算标签-样本相关性得分,我们将标签名称嵌入作为表示(Embedding)空间中的锚点,以优化不同类别的表示,使它们在表示空间中更好的彼此分离。在两个数据集上进行的实验表明,所提出的模型在1-shot和5-shot实验均明显优于最强的基线模型(baseline)。

1.Introduction

1.1背景一:用户意图识别

用户意图识别是任务型对话理解的关键组成部分,它的任务是识别用户输入的话语属于哪一个领域的哪一种意图[1]。

当下的用户意图识别系统面临着两方面的关键挑战:

频繁变化的领域和任务需求经常导致数据不足

用户在一轮对话中经常会同时包含多个意图[2,3]

深度学习:小样本学习下的多标签分类问题初探

图1.示例:意图理解同时面领域繁多带来数据不足和多标签的挑战

1.2背景二:多标签分类&小样本学习

小样本学习(Few-shotLearning)旨在像人一样利用少量样本完成学习,近年来吸引了大量的关注[4,5]。

但是针对多标签问题的小样本学习研究还相对较少。

1.3本文研究内容

本文以用户意图检测任务为切入口,研究了的小样本多标签分类问题,并提出了MetaCalibratedThreshold(MCT)和AnchoredLabelReps(ALR)从两个角度系统地为小样本多标签学习提供解决方案。

2.ProblemDefinition

2.1多标签意图识别

如图2所示,目前State-of-the-art多标签意图识别系统往往使用基于阈值(Threshold)的方法[3,6,7],其工作流程可以大致分为两步:

计算样本-标签类别相关性分数

然后用预设或从数据学习的阈值选择标签

2.2小样本多标签用户意图识别

观察一个给定的有少量样例的支持集(SupportSet)

预测未见样本(QueryInstance)的意图标签

深度学习:小样本学习下的多标签分类问题初探

图2.小样本多标签意图识别框架概览

3.方法

深度学习:小样本学习下的多标签分类问题初探

图3.我们提出的小样本多标签识别模型

3.1阈值计算

(1)挑战:

多标签分类任务在小样本情景下主要面临如下挑战:

a.因为要从数据中学习阈值,现有方法只适用于数据充足情况。小样本情景下,模型很难从几个样本中归纳出阈值;

b.此外,不同领域间阈值无法直接迁移,难以利用先验知识。

(2)解决方案:

为了解决上述挑战,我们提出MetaCalibratedThreshold(MCT),具体可以分为两步(如图3左边所示):

a.首先在富数据领域,学习通用的thresholding经验

深度学习:小样本学习下的多标签分类问题初探

b.然后在Few-shot领域上,用KernelRegression来用领域内的知识矫正阈值(Calibration)

深度学习:小样本学习下的多标签分类问题初探

这样,我们在估计阈值时,既能迁移先验知识,又能利用领域特有的知识:

深度学习:小样本学习下的多标签分类问题初探

3.2样本-标签类别相关度计算

(1)挑战:

如图4所示,经典的小样本方法利用相似度计算样本-标签类别相关性,这在多标签场景下会失效。

深度学习:小样本学习下的多标签分类问题初探

图4.经典的基于相似度的小样本学习模型:原型网络

如图3所示,例子中,time和location两个标签因为supportexample相同,导致这两个类别由样本得到的表示相同不可分,进而无法进行基于相似度的样本-类别标签相关度计算。

(2)解决方案:

为了解决上述挑战,我们提出了AnchoredLabelReps(ALR)。具体的,如图三右边所示,我们

a.利用标签名作为锚点来优化Embedding空间学习

b.利用标签名语义来分开多标签下的类别表示

4.实验

4.1主实验结果

实验结果显示,我们的方法在两个数据集上显著的优于最强baseline。同时可以看到,我们的方法很多时候只用小的预训练模型就超过了所有使用大预训练模型的baseline,这在计算资源受限的情景下格外有意义。

深度学习:小样本学习下的多标签分类问题初探

表1.主实验结果。+E代表使用Electra-small(14M);+B为BERT-base(110M)

4.2实验分析

图5的消融实验显示所提出的ALR和MCT都对最终的效果产生了较大的贡献。

深度学习:小样本学习下的多标签分类问题初探

图5.消融实验

在图6中,我们对MetaCalibratedThreshold中各步骤对最终标签个数准确率的影响进行了探索。结果显示Meta学习和基于KernelRegression的Calibration过程都会极大地提升最终模型的准确率。

深度学习:小样本学习下的多标签分类问题初探

图6.标签个数准确率结果

参考文献

[1]Young,S.;Gasiˇc,M.;Thomson,B.;andWilliams,J.D.´2013.Pomdp-basedstatisticalspokendialogsystems:Areview.InProc.oftheIEEE,volume101,1160–1179.IEEE.

[2]Xu,P.;andSarikaya,R.2013.Exploitingsharedinformationformulti-intentnaturallanguagesentenceclassification.InProc.ofInterspeech,3785–3789.

[3]Qin,L.;Xu,X.;Che,W.;andLiu,T.2020.TD-GIN:Token-levelDynamicGraph-InteractiveNetworkforJointMultipleIntentDetectionandSlotFilling.arXivpreprintarXiv:2004.10087.

[4]Vinyals,O.;Blundell,C.;Lillicrap,T.;Kavukcuoglu,K.;andWierstra,D.2016.Matchingnetworksforoneshotlearning.InProc.ofNeurIPS,3630–3638.

[5]Bao,Y.;Wu,M.;Chang,S.;andBarzilay,R.2020.Few-shotTextClassificationwithDistributionalSignatures.InProc.oftheICLR.

[6]Xu,G.;Lee,H.;Koo,M.-W.;andSeo,J.2017.Convolutionalneuralnetworkusingathresholdpredictorformultilabelspeechactclassification.InIEEEinternationalconferenceonbigdataandsmartcomputing(BigComp),126–130.

[7]Gangadharaiah,R.;andNarayanaswamy,B.2019.JointMultipleIntentDetectionandSlotLabelingforGoalOrientedDialog.InProc.oftheACL,564–569.

责任编辑:xj

原文标题:【赛尔AAAI2021】小样本学习下的多标签分类问题初探

文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

免责声明:本站旨在传递信息,不代表有传资讯的观点和立场。本站遵循行业规范,如转载您的文章未标注版权,请联系我们(QQ:78799268)改正。本站的原创文章,如若转载,请注明出处:http://www.ainoline.cn/jiaoyu/shenduxuexi/15939.html

发表评论

电子邮件地址不会被公开。 必填项已用*标注

联系我们

在线咨询:点击这里给我发消息

邮件:78799268@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

QR code