RIpshun

一个好习惯,让你获得快乐,在学习中你就不会觉得累,在生活中,面对困难你就不会逃避,会迎难而解。好的习惯让自己独自享受成功的同时,也会与同学们一起分享着充实和快乐,那就不回觉得学习是枯乏的。 学习中的困难莫过于一节一节的台阶,虽然台阶很陡,但只要一步一个脚印的踏,攀登一层一层的台阶,才能实现学习的最高理想。
RIpshun
FastText与word2vec的区别

准备 了解fasttext需要先从其原理涉及的知识开始。 N-gram和cbow(参考:Word2vec And Doc2vec – 文本向量化 | Ripshun Blog)层次softmax 层次softmox(Hierarchical Softmax) 在前文章中我介绍了一些关于word embedding的算法,而在神将网络算法中word2vec比较流行,在提高速度方面主要介绍了负采样的方法,本章主要介绍Hierarchical Softmax以及其在FastText上的运用。 这是一...

loss分类损失函数

损失函数(loss function)或代价函数(cost function)是将随机事件或其有关随机变量的取值映射为非负实数以表示该随机事件的“风险”或“损失”的函数。在应用中,损失函数通常作为学习准则与优化问题相联系,即通过最小化损失函数求解和评估模型损失函数_百度百科 (baidu.com) 二分类交叉熵损失(sigmoid_cross_entropy) 介绍: 一般被称作sigmoid 公式: 代码: keras :binary_c...

evaluating indicator for nlp

准确率,精确率与召回率 定义符号: 真正例(True Positive, TP):被模型预测为正的正样本;假正例(False Positive, FP):被模型预测为正的负样本;假负例(False Negative, FN):被模型预测为负的正样本;真负例(True Negative, TN):被模型预测为负的负样本; 准确率公式: $ Accuracy = \frac{TP+TN}{TP+TN+FP+FN} $ 准确率公式大致表现为正确值除以总值,缺点在于在...

gradient descent optimization algorithms

梯度下降(gradient descent)? 在讲解梯度下降优化算法时,首先需要了解什么是梯度下降。梯度下降是执行优化的最流行算法之一,也是迄今为止最优化神经网络的最常用方法。 同时,每个最新的深度学习库都包含各种算法的实现 ,但是,这些算法通常用作黑盒优化器,因为很难对它们的优缺点进行实用的解释。梯度下降是一种最小化目标函数的方法 Ĵ(θ),Ĵ(θ) 由模型的参数设置参数 θ通过...

Simple to GRU

在学习GRU之前应该先学习LSTM的原理,因为GRU就是Lstm的变体,而GRU以轻便简洁的优势应用于更多的场合。原论文 GRU结构 和LSTM不同,GRU主要由两个门组成:重置门,更新门。大概思路和LSTM相似,主要是将需要的信息获取,而舍弃不需要的信息。但GRU的结构更加简单,参数相比与LSTM要少很多。 r用来重置,z用来更新(同样使用sigmoid激活函数): 将重置分类r与h相乘...

Simple to LSTM

一句话,有时候单独拎出来难以理解,而放在整篇文章中,我们则容易通过联系上下文理解。什么叫联系上下文理解,就是把前文信息联系结合到当前语句上,这也是RNN的关键。基本概念:维基百科 RNN(Recurrent Neural Networks) Rnn本质是一个循环神经网络结构,将其展开,会得到一个序列结构,上一次的输出会作为下一次的输入(即前面的输入将会对后面的输入产生影响)。 这种链式的特征揭示了 R...

Viterbi(维特比)算法

为了找出S到E之间的最短路径,我们先从S开始从左到右一列一列地来看。 首先起点是S,从S到A列的路径有三种可能:S-A1、S-A2、S-A3,如下图: 我们不能武断地说S-A1、S-A2、S-A3中的哪一段必定是全局最短路径中的一部分,目前为止任何一段都有可能是全局最短路径的备选项。 我们继续往右看,到了B列。按B列的B1、B2、B3逐个分析。 先看B1: 如上图,经过B1的所有路径只有3条: S...

Simple to HMM and CRF

HMM(隐含马尔可夫模型) HMM参数 中文分词为例: 隐藏(状态)序列:词语的词性 States = {B,M,E,S}观察序列:每个词语(小明 ,去,学校,了)状态转移矩阵A,其中第i行j列表示状态i转移到状态j的概率(转移概率) 状态序列到观察序列的分布矩阵B,即每个单词为某一次性的概率(发射概率) 这个时候我们就完成了训练阶段的参数估计,得到了 三个概率矩阵: TransProbMat...

Word2vec And Doc2vec - 文本向量化

word2vec 与 doc2vec的区别: 两者从字面意思上就可以大致判断出区别来,word2vec主要针对与单词,而doc2vec主要针对于文本: 顾名思义,Word2Vec是在单个单词上训练的,而Doc2vec是在可变长度的文本上训练的,因此,每个模型可以完成的任务是不同的。使用Word2Vec,您可以根据上下文预测单词,反之则可使用Vera,而使用Doc2vec则可以测量完整文档之间的关系。 概述: 文本向量化是自然语言...

How to create a Blog

本博客采用wordpress框架创建,结构较为清晰,操作方便,创建较为快速,但也有不容易扩展的缺点。 购买一台主机 网上有很多云服务器的平台和主机,首先我们需要先购买一台轻量的主机,目前有许多价格比较优惠的平台,而大多数也有学生优惠价,而此博客搭建所用到的主机为老薛主机,可供大家参考 域名注册 域名的注册方法就不用多说了,晚上购买域名的平台有很多,选择一个自己喜欢的...