[原文链接(arxiv)] [原文链接(官方)] [GITHUB] 注:影印版和正式版本稍有不同,但不影响主体内容 主要参考:[李沐] [Jay Alammar] [PPT下载] 摘要与结论 本文在摘要首先提出了Transformer和其它基于序列转录模型的不同点: 其它模型:通常依赖于复杂的循环或卷积,通常在encoder和decoder之间使用…
文献阅读:Transformer [Attention Is All You Need]
3 篇文章