李宏毅老师讲解 Positional Embedding：Transformer 位置编码系统指南

原创李宏毅 2026-04-09 19:25 江苏

李宏毅老师讲解 Positional Embedding

以下是台大李宏毅老师讲解"Positional Embedding：如何让 Transformer 知道输入 Token 的顺序"的视频，来自于他的机器学习2026春季课程： https://speech.ee.ntu.edu.tw/~hylee/ml/2026-spring.php

这一讲主要在讲：怎么让 Transformer 知道输入 token 的顺序。先从 self-attention 的基本特性讲起，指出如果没有额外设计，Transformer 对输入顺序本身并不敏感，因此必须显式加入位置信息。接着老师先介绍了Absolute Positional Embedding，也就是把位置向量直接加到 token embedding 上；然后进一步说明，很多语言现象更依赖 token 之间的相对位置，所以又引出了Relative Positional Embedding和ALiBi这类方法。随后重点讲了现在大模型里非常常见的RoPE，它不是简单相加，而是通过对 query 和 key 做旋转，把位置信息自然融入 attention 计算中，因此在 Llama、Qwen、Gemma 等模型中被广泛采用。除此之外，这一讲还讨论了一个更进一步的问题：模型是不是一定需要显式的位置编码，还是有可能在某些结构和训练方式下，部分依靠注意力机制本身学到顺序信息。整体来看，这一讲就是围绕Absolute、Relative、RoPE 以及“没有 Position 行不行”这几条主线，系统讲清楚不同位置编码方案分别解决了什么问题、各自有什么特点，以及它们为什么会影响模型对长文本和顺序关系的理解。 以下是该视频对应的部分课件，需要全部课件的同学请关注 AINLP 公众号，回复'lhy2026'获取：

需要全部课件的同学可以关注 AINLP 公众号，回复'lhy2026'获取： 进技术交流群请添加AINLP小助手微信（id: ainlp2) 请备注具体方向+所用到的相关技术点

!Image 13: 图片 关于AINLP

AINLP 是一个有趣有AI的自然语言处理社区，专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享，主题包括LLM、预训练模型、自动生成、文本摘要、智能问答、聊天机器人、机器翻译、知识图谱、推荐系统、计算广告、招聘信息、求职经验分享等，欢迎关注！加技术交流群请添加AINLP小助手微信(id：ainlp2)，备注工作/研究方向+加群目的。

!Image 14: 图片跳转微信打开

李宏毅老师讲解 Positional Embedding：Transformer 位置编码系统指南

🤖 問 AI