nlp-code

[知识图谱项目--实体识别模块]推特威胁情报实体识别

本项目基于推特威胁情报为数据集构建实体识别测试。测试目的:构建一个威胁情报自动化实体识别模型,实现知识图谱的第一步。实验数据:推特获取。实验模型:bert,bert-crf,bert-bilstm-crf实验环境:python-3.7 ,torch-1.7.1 , transformers 4.2.1 知识准备: 预备知识: bert,bilstm,crf模型知识的掌握威胁情报stix2相关实体的掌握自然语言处理Ner任务的掌握 相关论文: Cyberthrea...

Bert实战:中文命名实体识别

使用bert实现的一个NER10标签任务 github:nlp-code/bert命名实体识别.ipynb at main · cshmzin/nlp-code (github.com)bert介绍博客:Simple to Bert | Ripshun Blog数据集来源:CLUE官网(细粒度NER任务) 获取数据: # 获取数据 import json train_data = [] dev_data = [] test_data = [] for line in open('train.json','r',encoding='UTF-8'): train_dat...

实战-使用bert实现多分类

前面以及介绍过bert的理论知识,以及它相应的实现方法,那么让我们通过实战加深对bert的了解。 我们将通过bert实现一个文本多分类任务,具体是kaggle上的一个真假新闻的任务。具体如下: 文件地址:https://www.kaggle.com/c/fake-news-pair-classification-challenge/data 模型形式:BERT + Linear Classifier参考链接:LeeMeng - 進擊的 BERT:NLP 界的巨人之力與遷移學習参考博客:Simple to Ber...

Attention模型构建(pytorch)

介绍完seq2seq+attention(Simple to seq2seq And attention | Ripshun Blog),我们来构建一个用pytorch写的模型. 第一步:构建Encoder: 代码: class encode(nn.Module): def __init__(self): super(encode,self).__init__() self.embedd = nn.Embedding(dic_num,dim_num) self.gru = nn.GRU(dim_num,hid_dim_num,num_layers,bidirectional=True) ...