【论文阅读】Entity-Relation Extraction as Multi-Turn Question Answering

Introduction

文章提出了一个解决实体-关系抽取问题的新范式。

文章要解决的问题如下：

We need to extract four different types of entities,i.e., Person, Company, Time and Position, and three types of relations, FOUND, FOUNDING-TIME and SERVING-ROLE.

比如下面这段文本：

转换后的结果为下面的结构化形式：

文章将上述结构化文本形式化为：REL(e1,e2)REL(e1,e2)，其中e1e1和e2e2是实体，RELREL是关系。

解决这一问题的当前的方法模型主要有两种：流水线模型和联合模型。

但是当前这些模型都存在一些问题：

三元组的形式化问题。类似于三元组REL(e1,e2)REL(e1,e2)这样的形式不能充分表现文本背后的结构化信息，因为往往在文本中存在层级性的依赖关系。比如上面的文本，Time 的抽取要依赖 Position，而 Position 的抽取要依赖 Company。独立地考虑两种实体可能导致依赖关系的间断。
算法程序上本身的问题，现存的模型都是输入一个文本句子和两个标记实体，输出是这两个实体间是否有关系，对于这样的神经模型而言，识别上述形式化中的词汇、语义和句法线索是非常困难的，特别是当：
- 实体相距很远；
- 一个实体出现在多个三元组中；
- 一个句子包含多个同类关系，关系跨度相交

所以，在本文中，我们把 ERE 视为一种多轮问答任务：每种实体类型和每种关系类型都用一个问答模板进行刻画，从而这些实体和关系可以通过回答这些模板化的问题来进行抽取。问题的答案就是文本的一段（span），所以我们就可以用阅读理解（MRC）的框架去解决。

比如对于上面那段文字，为了抽取出类似上述表格的结构化形式结果，模型需要依次回答下面的问题：