simple for nlp

关系抽取综述

关系抽取中两种类型的模型: joint模型: 将实体识别等任务与关系抽取一起完成 多任务学习(共享参数的联合抽取模型) 多头选择:构建 × × 的关系分类器对每一个实体pair进行关系预测(N为序列长度,C为关系类别总数),输入的实体pair其实是每一个抽取实体的最后一个token。后续基于多头选择机制,也有paper引入预训练语言模型和bilinear分类。层叠式指针标注:将关系看作是SPO(Subject-Pre...

[pipline]simple for Relation Extraction

关系抽取是自然语言处理中的知识图谱构建的关键任务,主要目的是获取实体之间的关系。参考文章:https://www.cnblogs.com/sandwichnlp/p/12020066.html 关系抽取的2种流行方法: pipelined:先进行实体抽取(NER),在进行关系判断,将实体识别与关系抽取分为2步完成。joint:联合抽取,实体关系通过一个EndtoEnd模型抽取。 两种方法的优缺点: pipeline 误差累积:实体抽取的误差会严重影...

Simple to Bert

2018年是nlp重大改革的一年,bert的横空出世使得未来nlp的发展有利跨时代的进步,其在多个领域的完美成功使nlp研究方向有了很大的改变,一直到现在很多比赛的榜单都是由bert或者其畸形霸占。本文让我们简单了解bert,看看它是如何达到如此成就的。 Bert: bert其实并没想象中的那么复杂,只要了解其中的几个知识点和两幅图便可以知晓它的原理和思想。而bert与其他网络之间也有很多参考和改变,...

Pre-training in nlp

什么是预训练: AI 中的预训练是指使用一个任务训练模型,以帮助它形成可用于其他任务的参数,从而节约大量的时间和资源。(站在巨人的肩膀上解决问题) 训练前的概念受到人类的启发。由于天生的能力,我们不必从零开始学习所有东西。相反,我们转移和重用我们过去学到的旧知识,以了解新知识并处理各种新任务。在人工智能中,训练前模仿人类处理新知识的方式。即:使用以前学习过的任务的模型参数...

Simple to seq2seq And attention

seq2seq简介 Seq2seq将输入序列转换为输出序列。它通过利用循环神经网络(递归神经网络)或更常用的LSTM、GRU 网络来避免梯度消失问题。当前项的内容总来源于前一步的输出。Seq2seq主要由一个编码器和一个解码器。 编码器将输入转换为一个隐藏状态向量,其中包含输入项的内容。 解码器进行相反的过程,将向量转换成输出序列,并使用前一步的输出作为下一步的输入。维基百科:https://zh.wikipedia.org/...

FastText与word2vec的区别

准备 了解fasttext需要先从其原理涉及的知识开始。 N-gram和cbow(参考:Word2vec And Doc2vec – 文本向量化 | Ripshun Blog)层次softmax 层次softmox(Hierarchical Softmax) 在前文章中我介绍了一些关于word embedding的算法,而在神将网络算法中word2vec比较流行,在提高速度方面主要介绍了负采样的方法,本章主要介绍Hierarchical Softmax以及其在FastText上的运用。 这是一...

Simple to GRU

在学习GRU之前应该先学习LSTM的原理,因为GRU就是Lstm的变体,而GRU以轻便简洁的优势应用于更多的场合。原论文 GRU结构 和LSTM不同,GRU主要由两个门组成:重置门,更新门。大概思路和LSTM相似,主要是将需要的信息获取,而舍弃不需要的信息。但GRU的结构更加简单,参数相比与LSTM要少很多。 r用来重置,z用来更新(同样使用sigmoid激活函数): 将重置分类r与h相乘...

Simple to LSTM

一句话,有时候单独拎出来难以理解,而放在整篇文章中,我们则容易通过联系上下文理解。什么叫联系上下文理解,就是把前文信息联系结合到当前语句上,这也是RNN的关键。基本概念:维基百科 RNN(Recurrent Neural Networks) Rnn本质是一个循环神经网络结构,将其展开,会得到一个序列结构,上一次的输出会作为下一次的输入(即前面的输入将会对后面的输入产生影响)。 这种链式的特征揭示了 R...

Simple to HMM and CRF

HMM(隐含马尔可夫模型) HMM参数 中文分词为例: 隐藏(状态)序列:词语的词性 States = {B,M,E,S}观察序列:每个词语(小明 ,去,学校,了)状态转移矩阵A,其中第i行j列表示状态i转移到状态j的概率(转移概率) 状态序列到观察序列的分布矩阵B,即每个单词为某一次性的概率(发射概率) 这个时候我们就完成了训练阶段的参数估计,得到了 三个概率矩阵: TransProbMat...

Word2vec And Doc2vec - 文本向量化

word2vec 与 doc2vec的区别: 两者从字面意思上就可以大致判断出区别来,word2vec主要针对与单词,而doc2vec主要针对于文本: 顾名思义,Word2Vec是在单个单词上训练的,而Doc2vec是在可变长度的文本上训练的,因此,每个模型可以完成的任务是不同的。使用Word2Vec,您可以根据上下文预测单词,反之则可使用Vera,而使用Doc2vec则可以测量完整文档之间的关系。 概述: 文本向量化是自然语言...