地址:
1706.03762v5.pdf (arxiv.org)
abstrat
作者在abstract中先是简述了一种传统的翻译模型:encoder and decoder + Attention注意力机制(回顾:Simple to seq2seq And attention | Ripshun Blog),然后引出了他们新的简单网络模型:Transformer,在实验中Transfromer有了很高的表现:
28.4BLEU 在WMT2014 English to Germen41.8BLEU 在WMT2014 English to Freach 运行3.5天在8台gpu...