分类: 机器学习

4 篇文章

文献阅读:Transformer [Attention Is All You Need]
[原文链接(arxiv)] [原文链接(官方)] [GITHUB] 注:影印版和正式版本稍有不同,但不影响主体内容 主要参考:[李沐] [Jay Alammar] [PPT下载] 摘要与结论 本文在摘要首先提出了Transformer和其它基于序列转录模型的不同点: 其它模型:通常依赖于复杂的循环或卷积,通常在encoder和decoder之间使用…
Pytorch学习记录(一)
注:个人向李沐课程笔记 所有代码建议自己运行体会 更新日志 2023年4月5日:撰写关于python的原地操作(in-place)与拷贝 2023年4月6日:撰写一些基础知识 关于python的原地操作(in-place)与拷贝 以下类型以tensor为例,不同数据类型情况可能并不相同 初始化 import torch t1 = torch.ten…