关系抽取是自然语言处理中的知识图谱构建的关键任务,主要目的是获取实体之间的关系。

参考文章:https://www.cnblogs.com/sandwichnlp/p/12020066.html

关系抽取的2种流行方法:

  1. pipelined:先进行实体抽取(NER),在进行关系判断,将实体识别与关系抽取分为2步完成。
  2. joint:联合抽取,实体关系通过一个EndtoEnd模型抽取。

两种方法的优缺点:

pipeline

  • 误差累积:实体抽取的误差会严重影响关系抽取的性能
  • 交互缺失:忽略了实体与关心两者的内在联系和依赖
  • 实体冗余:每个实体多次计算增加了复杂度

joint

  • 多任务学习:实体与关系共用同一个模型,但实质上还是pipeline方式,并没有解决误差积累
  • 建模复杂

关系抽取分类

关系集合的确定性

  • 限定关系抽取:事先确定好所有需要抽取的关系集合,所提取的关系存在于集合之中。
  • 开放式关系抽取:需要抽取的关系集合是不确定的,另一方面抽取预料的所属领域也可能是不确定的。

关系抽取的监督性

  • 有监督学习:监督学习的关系集合通常是确定的,我们仅需要将其当作一个简单的分类问题来处理即可。高质量监督数据下的监督学习模型的准确率会很高,但缺点就是需要大量的人力成本和时间成本来对文本数据进行标注,且其难以扩展新的关系类别,模型较为脆弱,泛化能力有限。
  • 半监督学习利用少量的标注信息作为种子模版,从非结构化数据中抽取大量的新的实例来构成新的训练数据。主要方法包括 Bootstraping 以及远程监督学习的方法
  • 无监督学习一般利用语料中存在的大量冗余信息做聚类,在聚类结果的基础上给定关系,但由于聚类方法本身就存在难以描述关系和低频实例召回率低的问题,因此无监督学习一般难以得很好的抽取效果。

pipline model模型的发展

  1. Relation Classification via Convolutional Deep Neural Network
  2. Relation Extraction: Perspective from Convolutional Neural Networks
  3. Classifying Relations by Ranking with Convolutional Neural Networks
  4. Bidirectional Long Short-Term Memory Networks for Relation Classification
  5. Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification
  6. Bidirectional Recurrent Convolutional Neural Network for Relation Classification
 
目前共有0条评论
  • 暂无Trackback
你目前的身份是游客,评论请输入昵称和电邮!