标签:self-attention

你正在查看标签『self-attention』下的文章

Attention is All you need论文解读

地址: 1706.03762v5.pdf (arxiv.org) abstrat 作者在abstract中先是简述了一种传统的翻译模型:encoder and decoder + Attention注意力机制(回顾:Simple to seq2seq And attention | Ripshun Blog),然后引出了他们新的简单网络模型:Transformer,在实验中Transfromer有了很高的表现: 28.4BLEU 在WMT2014 English to Germen41.8BLEU 在WMT2014 English to Freach 运行3.5天在8台gpu...