【ACL2020】NAT: Noise-Aware Training for Robust Neural Sequence Labeling

news/2024/7/4 9:28:18 标签: 自然语言处理, 人工智能, nlp

原文链接:https://arxiv.org/abs/2005.07162
NAT acl2020源码链接:https://github.com/mnamysl/nat-acl2020

1Intro

对于有噪输入的序列标注问题,本文提出了2种Noise-Aware Training (NAT) 方法来提高有噪输入的序列标注任务系统的准确性和鲁棒性。作者还提出了模拟真实噪声的引入。
实验部分,作者使用了原始数据及其变体,这些数据都被真实的OCR错误和拼写错误干扰。在英语和德语命名实体识别基准上的广泛实验证实,NAT始终提高了流行的序列标记模型的健壮性,保持了原始输入的准确性。
下图展示了问题和作者的方法。
image

问题定义

下图给出了序列标注问题的典型结构。
image

2噪声引入

作者通过引入符号 ϵ \epsilon ϵ 来模拟删除和插入。
噪声引入过程如下图。对于每个输入系列x,在x的每个token中的每个字符间插入符号 ϵ \epsilon ϵ,然后根据对应的概率分布替换字符,最后移除所有的符号 ϵ \epsilon ϵ,就会得到带噪的token。
image

3Mehod

下图中a和b分别展示了两种方法。
image

3.1Data Augmentation Method(数据增强)

作者通过在训练过程中引入各种形式的人工噪声,可以提高测试时对噪声的鲁棒性。
在训练工程中,使用2中的方法在原始序列中引入噪声,并使用clean和noisy的序列的混合,训练模型。x为输入序列,y是对应的正确标签, θ \theta θ为F(x)的参数,x尖是扰动后的序列, α \alpha α是损失的权重,定义损失函数如下
image
对带噪声的输入数据,模型鲁棒性更好,并保持在clean输入上表现良好的能力。

3.2 Stability Training Method(稳定训练)

(Improving the robustness of deep neural networks via stability training)括号中的文章指出了深度神经网络的输出不稳定问题。他们提出了一种针对小输入扰动稳定深层网络的训练方法,并将其应用于近似重复图像检测、相似图像排序和图像分类任务。受他们的启发,作者将Stability Training Method应用到自然语言场景中。
作者将稳定性训练目标Lstail定义如下:
image
D是特定于任务的特征距离度量
image
将D建模为KL散度,它衡量原始输入和扰动输入的可能性之间的对应关系:
image

4实验

下表给出了该实验的结果。
作者发现,2种方法提高了对所有基线模型和两种语言的噪声输入数据的准确性。同时,他们保留了原始输入的准确性。数据增强的表现似乎略好于稳定性训练。
image
作者选择FLAIR+GloVe模型作为基准,因为它在初步分析中(上表)取得了最好的结果,表现出良好的性能。
下图给出了灵敏度实验结果,基线模型 α \alpha α=0 。与基线相比,使用了作者NAT方法训练的模型对原始数据
的准确度基本保持,甚至提高。在受自然噪音干扰的数据上,他们的表现明显优于基线。在10%~30%的范围内,训练的准确率最高,大致相当于保留标签的噪声范围。得出结论,与完全基于干净数据训练的模型相比,在训练过程中产生的非零噪声水平(训练>0)总是能改善有噪输入数据。 α \alpha α最佳选择范围为0.-2.0, α \alpha α=5.0在原始数据上表现出较低的性能。此外,基于真实误差分布训练的模型至多表现出稍好的性能,这表明在训练时不必知道确切的噪声分布。
image
为了量化作者方法带来的改进,在不同扰动级别的数据子集上测量了序列标注的准确性。此外,我们根据命名实体类对数据进行划分,以评估噪声对不同实体类型识别的影响。在这个实验,使用了英语CoNLL 2003数据集的测试部分和开发部分,并用作者的噪声处理程序引入OCR错误。下图显示了基线和建议方法的结果。
image
可以看出,作者的方法在所有扰动级别和所有实体类型上实现了显著的误差降低。此外,通过缩小对扰动标记的分析范围,发现基线模型对来自LOC和MISC类别的噪声标记特别敏感。作者的方法大大减少了这种负面影响。此外,由于稳定性训练在LOC类上的效果略好,而数据增强在ORG类型上更准确,作者认为这两种方法可以结合起来进一步提高整体序列标注的准确性。请注意,即使特定的token没有受到干扰,其上下文也可能是嘈杂的,这就解释了作者的方法即使对没有干扰的token也提供了改进这一事实。

future work

包括改进所提出的噪声模型(acl2021),以研究保真度对真实世界错误模式的重要性。此外,我们计划对其他真实噪声分布(例如,来自ASR)的NAT和其他序列标注任务进行评估。


http://www.niftyadmin.cn/n/1372265.html

相关文章

疯娘(含泪转载)建议各位都看看。

23年前,有个年轻的女子流落到我们村,蓬头垢面,见人就傻笑,且毫不避讳地当众小便。因此,村里的媳妇们常对着那女子吐口水,有的媳妇还上前踹几脚,叫她“滚远些”。可她就是不走,依然傻…

Randomized Substitution and Vote for Textual Adversarial Example Detection

文本对抗样本检测的随机替换和投票 https://arxiv.org/pdf/2109.05698.pdf 摘要 这篇工作提出了一种对抗样本检测模块,针对检测出数据集中通过单词替换生成的对抗样本。 方法 Motivation 对一个文本中的单词进行替换生成了预测和标签不一致的对抗样本&#xf…

新华社内参:股市惨跌之谜

文章来源:乐趣园-黑马乐园,2005-03-23 http://my.ziqu.com/bbs/665293/messages/90763.html 转贴者:KKOK ]背景资料:2001年6月,中国第4任证监会管理班子上任时的中国证券市场总市值5万4000亿人民币,而到今…

【coling 2020】Attentively Embracing Noise for Robust Latent Representation in BERT

原文链接:https://aclanthology.org/2020.coling-main.311.pdf intro 本文针对ASR转化成文本之后的文本分类任务进行鲁棒性研究。作者基于EBERT进行优化,EBERT比传统bert的优点在于后者只使用输入的第一个【CLS】token生成输入的表征,其余的…

Are We NER Yet? Measuring the Impact of ASR Errors on Named Entity Recognition in Spontaneous Con

贡献 在本文中,我们研究了与识别命名实体的下游任务相关的 ASR-NLP 差距的真实大小。 使用基准和内部数据集(他们自己做的数据集)的组合,我们展示了最先进的语言模型如何无法发现自发人类对话记录中命名实体主要类别的实体跨度&a…

虚假数字造成恶性循环 谁更需要“73%”就业率

虚假数字造成恶性循环 谁更需要“73%”就业率 -------------------------------------------------------------------------------- http://www.sina.com.cn 2005/06/01 10:19 人民网-华南新闻   教育部高校学生司一负责人在日前启动的“2005关注中国大学生就业”系列活…

[COLING 2018] Modeling Semantics with Gated Graph Neural Networks for KBQA 阅读笔记

[COLING 2018] Modeling Semantics with Gated Graph Neural Networks for KBQA 阅读笔记 motivation: 大多数知识库问答方法都是基于语义分析的。在本文中,作者解决了由多个实体和关系组成的复杂语义解析的学习向量表示问题。以前的工作主要集中在为一个问题选择…

看《青红》及其其他

刚刚看了这个片子,感觉和《天浴》差不多,让人酸酸的。。。 我们都知道这是制度的问题,哪些被扭曲的心灵的挣扎看在眼里,痛在心里。。 可是,在这个我们自认为现代的今天,从未来看,何尝又不是生活…