1. 首页
  2. 教育
  3. 深度学习

深度学习:基于语境的文本分类弱监督学习

高成本的人工标签使得弱监督学习备受关注。seed-driven是弱监督学习中的一种常见模型。该模型要求用户提供少量的seedwords,根据seedwords对未标记的训练数据生成伪标签,增加训练样本。

高成本的人工标签使得弱监督学习备受关注。seed-driven是弱监督学习中的一种常见模型。该模型要求用户提供少量的seedwords,根据seedwords对未标记的训练数据生成伪标签,增加训练样本。

但是由于一词多义现象的存在,同一个seedword会出现在不同的类别中,从而增加生成正确伪标签的难度;同时,单词w在语料库中的所有位置都使用一个的词向量,也会降低分类模型的准确性。

而本篇论文主要贡献有:

开发一种无监督的方法,可以根据词向量和seedwords,解决语料库中单词的一词多义问题。

设计一种排序机制,消除seedwords中一些无效的单词;并将有效的单词扩充进seedwords中。

模型整体结构为:

深度学习:基于语境的文本分类弱监督学习

第一步:使用聚类算法解决语料库中单词的一词多义问题

对于每一个单词w,假设w出现在语料库的n个不同位置,分别为,使用K-Means算法将分成K类,这里K可理解为单词w的K个不同解释。

用下列公式计算K的值:

深度学习:基于语境的文本分类弱监督学习

其中代表第i个聚类中心的向量。的计算方法如下:

深度学习:基于语境的文本分类弱监督学习

这里s表示一个seedword,且表示s在语料库第i次出现,对应的词向量为。

sim()表示余弦函数,median()表示取中位数。

则对于任意,有

深度学习:基于语境的文本分类弱监督学习

综上,一词多义问题解决算法如下:

深度学习:基于语境的文本分类弱监督学习

使用上面算法,我们就可以将原始语料库转变为基于语境下的语料库:

深度学习:基于语境的文本分类弱监督学习

第二步:对未标记的训练数据生成伪标签令表示文档d的伪标签;表示类别为的seedword集合;表示单词w出现在文档d的词频

深度学习:基于语境的文本分类弱监督学习

第三步:使用基于语境下的语料库进行文档分类

本篇论文使用HierarchicalAttentionNetworks(HAN)进行文本分类。

深度学习:基于语境的文本分类弱监督学习

第四步:设计排序函数,更新seedwords我们设计出一个打分函数,用于表示单词w仅高频的出现在类别为的文档。分值越高,表示单词w对类别越重要。我们可以选择分值最高的前几个单词作为新的seedword。也可以剔除一些不重要的seedword。

深度学习:基于语境的文本分类弱监督学习

其中:

深度学习:基于语境的文本分类弱监督学习

表示类别为的文档的数量。表示类别为且含有单词w的文档的数量。表示在类别为的文档中,单词w的词频。

n为语料库D的文档总数目表示语料库D中含有单词w的文档的数量。

结果

我们的完整模型称为ConWea,

而ConWea-NoCon是ConWea确实缺少第一步的变体。

ConWea-NoExpan是ConWea确实缺少第四步的变体。

ConWea-WSD是将ConWea第一步的方法换成Lesk算法。

深度学习:基于语境的文本分类弱监督学习

责任编辑:xj

原文标题:【ACL2020】基于语境的文本分类弱监督学习

文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

免责声明:本站旨在传递信息,不代表有传资讯的观点和立场。本站遵循行业规范,如转载您的文章未标注版权,请联系我们(QQ:78799268)改正。本站的原创文章,如若转载,请注明出处:http://www.ainoline.cn/jiaoyu/shenduxuexi/16135.html

发表评论

电子邮件地址不会被公开。 必填项已用*标注

联系我们

在线咨询:点击这里给我发消息

邮件:78799268@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

QR code