摘要

（Distant supervision）远程监督的问题在于引入了大量噪声标签，即句子并不能表达标注关系。本文提出ARNOR，一种先进的基于注意力正则化的远程监督关系分类降噪框架。ARNOR假设一个可信关系标注是可被神经网络注意力模型解释的。本文首先引入注意力正则化强迫关注那些可解释关系标签的模式。之后，如果学到的模型能够清晰地定位到训练集中侯选对示例的关系模式，这样我们选择该示例作为可信示例用于下一步的训练。在NYT10上的实验结果，反映ARNOR这个框架在关系分类与去噪两个方面都有很好的效果。

简介

Relation Classification（RC）属于自然语言处理中的基础任务，对于知识库的构建特别重要。RC的目标是识别给定实体对在句子中的关系类型。通常一个关系应该会被一些线索词表达，例如：“was born in” ，这样的指示词被称为模式patterns。

远程监督带来大量噪声可能很降低RC模型的效果，这可能是因为没有明确的关系模式来识别关系。在2009年Mintz等人说明了远程监督导致超过30%噪声示例。另一方面，由下图所示基于噪声数据，基于注意力机制的神经网络模型经常关注于实体词而忽略了模式。

目前有三种方法处理噪声问题。（1）multi-instance learning，假设同样实体对提及的包中句子至少有一句表达对应标注的关系，在bag-level上效果不错但是sentence-level表现不佳。（2）为了减少句子级预测的噪音，采用强化学习或者对抗生成训练选择可信数据，这一研究路线通过将学习模型的预测标签与远程监督生成的标签相匹配选择置信关系关系标签。但是模型就是从远程监督数据学习的，当模型预测与远程监督生成标签都是错误的情况下模型失效。（3）relation patterns，这种方式在信息抽取中有着广泛的应用，其中典型代表Data programming融合基于远程监督标签与手工标记模式减少噪音。

ARNOR减少噪声基于假设：模型对实力中关系解释得越清楚，示例就越可信。本文首先采用注意力正则化神经网络模型关注关系模式。如果被学习的模型能够从候选示例中发现patterns，本文挑选这些候选作为正确标注数据用于下一步训练，这样两部分相互作用，即模型可解释性越强，选择的训练数据越好，反之亦然。

以前的方法测试集是从训练集中分出来的，因此也是包含噪音的。而本文使用2017年Ren等人提出的测试集做评估，这个数据集也有对应的问题，故本文提出了一个更大更精准的版本。

本文贡献如下：

提出了先进的attention regularization方法减少远程监督噪音。
ARNOR框架在去噪与RC表现上效果不错。
发布了一个更好的手工标注的句子级评估关系分类的测试集，包含1024个句子和4543个关系对。

ARNOR Framework

ARNOR框架由两部分组成：注意力正则化训练与示例选择。attention regularization的目的是希望模型有定位关系模式的能力，因此被应用于训练模型，迫使模型关注给出的模式词，之后选择示例检查是否模型能够给出远程监督标注的关系一个合理的解释，这两步不断重复 in a booststrap procedure。方法框架如下图所示。

为了捕获识别关系的关键特征词，本文在BILSTM Encoder基础上应用一个注意力机制。输入embeddings包含三个部分：word embedding，position embedding，entity type embedding。本文引入实体类型信息通过实体类型embedding matrix。

后面接一般的注意力机制帮助捕获分类任务重要特征。然而远程监督生成的噪声数据大多关注实体信息而忽略关系分类任务中更有价值的关系模式。

Attention Regularization

给定一个T个词的句子$s = \lbrace xi \rbrace {i=1}^T$，句子中的实体对$(e_1,e_2)$，relation label $y$，relation patterns $m$用来解释$e_1$和$e_2$的关系$y$。我们可以在输入$m$的情况下根据模式提及显著性函数$q(z|s,e_1,e_2,m)$，计算attention guidance value $a^m$。这里$z$表示句子中的模式词，本文希望分类器能够近似注意力分布$a^s=p(z|s)$为$a^m$，其中$p$表示分类器网络。故直观地，本文应用KL散度作为优化函数，描述分布的不同：

$KL（a^m||a^s）= \sum a^m \log \frac{a^m}{a^s}$

由于$a^m$含有固定值，所以注意力正则化损失可以表示为：

$loss_a = -\sum a^m \log a^s$

本文最终的损失考虑将注意力正则损失加入分类器损失中学习，最终的损失如下：

$loss = loss_c+\beta loss_a$

$\beta$是$loss_a$的权重，通常在实验里被设置为1。在本文中采用了一个简单的函数生成$a^m$

$b_i =\begin{cases} 1 & x_i \in \lbrace e1,e2,m\rbrace \\ 0 & else \end{cases}$ $a^m =\lbrace \frac{b_k}{\sum_{i=1}^T b_i} \rbrace_{k=1}^T$

$b$表示$x_i$是否属于实体词以及关系模式词。

Instance Selection with Attention

对于一个训练示例，如果模式关注的关系模式词不能匹配解释关系类型的模式$m$，那么这个示例可能是错误被标记成了正样本。文章仍使用KL散度去度量示例是否是false positive的概率。给定RC模型的注意力权重$a^s$以及计算的模式$a^m$，一个示例的置信度分数$c$归一化得：

$c = \frac{1}{1+KL(a^m||a^s)}$

$c$值越高，示例越可信。本文计算训练集中的所有示例并选择示例超过一个阈值$c^t$，其中$c^t$是一个超参数。

Bootstrap learning Procedure

在ARNOR框架中，一个重要的问题是怎么获取训练模型中的关系模式$m$以及示例选择步数。在示例选择步骤中，为了选择更可信的数据以及发现更可信的关系模式，需要给定更多种类模式。在模型训练中，给定一个模式抽取器$e$，它可以从示例中抽取一个关系模式；定义一个初始的可信任模式集$m$（它可以用$e$从原始训练数据集$d$计数或是手工收集），本文重复bootstrap procedure操作直到F1分数在验证集上不再增加。bootstrap procedure详细如下：

Relation Pattern Extraction

另外一个问题是怎样构建一个关系模式抽取器$E$抽取一个示例中的一个模式。这并非十分重要。即使使用十分简单的模型也能够得到很大的提升。当然复杂且表现良好的抽取器带来了额外的提升。这是本文未来的工作。这里的模式抽取器$E$抽取两实体之间的词。而初始模式集$M$的构建，本文从原始数据集中的所有实例中提取关系模式并进行统计。$M$最初是通过选择初始出现的模式构建的，本文保留每个关系类型的前10%（最大20）模式。

在模式集$M$构建后，数据集$D$将使用这些模式重新分布。所有正示例不匹配那些模式将被放入负样本集，并将他们的关系标签改为”None”。

实验

数据集与评估

NYT是一个新闻数据集来自294k 1989-2007年纽约时报新闻文章最早于2010年Riedel等人提出的。通过和Freebase对齐的方法虽然没有人工代价但是只能提供大概的估量由于远程监督存在噪声数据。相比之下，Ren等人在2017年发布一个手工标注测试集包含2011年Hoffmann等人提出的395个句子。这个测试集标记一个实体对一句话。测试集仅包含一半的训练集的关系类型。

为了解决这些问题以及评估ARNOR框架更准确，本文标注并发布一个新的句子级测试集在Ren等人工作基础上，也包含标注的命名实体类型。首先，本文修改了最初395个测试句子中错误标注的实例。然后，从原始训练集中抽取约600个句子并删除。之后仔细检查了它们的标签并将它们合并到测试集中。另外，本文还移除了一些重叠和不明确的关系类型，或是太过噪声而无法获得非噪声测试样本的关系类型。

为了评估，本文在句子级及示例级评估模型，句子级预测有助于理解句子任务，例如问答以及语义分析。与常用的bag level评估不同，句子级别评估直接针对数据集中的所有单个实例计算精度（prec.）、召回（rec.）和f1度量。本文认为这样的评估更直观，更适合实际应用。

Baselines

结论

本文提出ARNOR，一个基于注意力正则化的远程监督关系分类的降噪框架。本文发现关系模式是一个重要的特征极少被以往的模型在噪声数据方面考虑进去。因此，本文设计注意力正则化帮助模型学习关系模式的定位。对于一个更易于解释的模型，我们通过评估模型对实例关系的解释程度来进行降噪。bootstrap learning procedure构建用于迭代改善模型，训练数据与可信模式集。使用一个非常简单的模式提取器，本文模型的性能优于几个基于RL-based baselines，在关系分类与噪声抑制方面都取得了显著的改进。此外，本文发布了一个更好的手工标注测试集用于句子级评估。

在未来，本文希望通过使用更好的基于模型的模式抽取器，并借助隐变量模型对实例选择器进行联合建模来改进工作。此外，还希望验证方法在更多任务上的有效性，包括开放信息抽取和事件抽取，以及重叠关系抽取模型。