Sign in to use highlight and note-taking features for a better reading experience. Sign in now
原创 李宏毅 2026-04-09 19:25 江苏
李宏毅老师讲解 Positional Embedding
以下是台大 李宏毅老师 讲解"Positional Embedding:如何让 Transformer 知道输入 Token 的顺序"的视频,来自于他的机器学习2026春季课程: https://speech.ee.ntu.edu.tw/~hylee/ml/2026-spring.php
这一讲主要在讲:怎么让 Transformer 知道输入 token 的顺序。先从 self-attention 的基本特性讲起,指出如果没有额外设计,Transformer 对输入顺序本身并不敏感,因此必须显式加入位置信息。接着老师先介绍了Absolute Positional Embedding,也就是把位置向量直接加到 token embedding 上;然后进一步说明,很多语言现象更依赖 token 之间的相对位置,所以又引出了Relative Positional Embedding和ALiBi这类方法。随后重点讲了现在大模型里非常常见的RoPE,它不是简单相加,而是通过对 query 和 key 做旋转,把位置信息自然融入 attention 计算中,因此在 Llama、Qwen、Gemma 等模型中被广泛采用。除此之外,这一讲还讨论了一个更进一步的问题:模型是不是一定需要显式的位置编码,还是有可能在某些结构和训练方式下,部分依靠注意力机制本身学到顺序信息。整体来看,这一讲就是围绕Absolute、Relative、RoPE 以及“没有 Position 行不行”这几条主线,系统讲清楚不同位置编码方案分别解决了什么问题、各自有什么特点,以及它们为什么会影响模型对长文本和顺序关系的理解。 以下是该视频对应的部分课件,需要全部课件的同学请关注 AINLP 公众号,回复'lhy2026'获取:
需要全部课件的同学可以关注 AINLP 公众号,回复'lhy2026'获取: 进技术交流群请添加AINLP小助手微信(id: ainlp2) 请备注 具体方向+所用到的相关技术点
!Image 13: 图片 关于AINLP
AINLP 是一个有趣有AI的自然语言处理社区,专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享,主题包括LLM、预训练模型、自动生成、文本摘要、智能问答、聊天机器人、机器翻译、知识图谱、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!加技术交流群请添加AINLP小助手微信(id:ainlp2),备注工作/研究方向+加群目的。