← 回總覽

李宏毅老师讲解 Positional Embedding:Transformer 位置编码系统指南

📅 2026-04-09 19:25 AINLP 人工智能 5 分鐘 5344 字 評分: 86
Transformer 位置编码 RoPE 李宏毅 深度学习
📌 一句话摘要 本文整理了台大李宏毅老师关于 Transformer 位置编码的课程精要,涵盖从绝对位置编码到 RoPE 等主流方案的演进逻辑与技术原理。 📝 详细摘要 文章核心总结了李宏毅老师 2026 春季课程中关于位置编码(Positional Embedding)的教学内容。由于 Self-Attention 机制本身具有置换不变性,无法感知 Token 顺序,因此必须引入位置信息。内容系统地梳理了位置编码的技术演进路径:从早期的绝对位置编码(Absolute),到关注 Token 间距离的相对位置编码(Relative)及 ALiBi,再到目前大语言模型(如 Llama、Qwen

Sign in to use highlight and note-taking features for a better reading experience. Sign in now

原创 李宏毅 2026-04-09 19:25 江苏

!Image 1

李宏毅老师讲解 Positional Embedding

!Image 2

以下是台大 李宏毅老师 讲解"Positional Embedding:如何让 Transformer 知道输入 Token 的顺序"的视频,来自于他的机器学习2026春季课程: https://speech.ee.ntu.edu.tw/~hylee/ml/2026-spring.php

这一讲主要在讲:怎么让 Transformer 知道输入 token 的顺序。先从 self-attention 的基本特性讲起,指出如果没有额外设计,Transformer 对输入顺序本身并不敏感,因此必须显式加入位置信息。接着老师先介绍了Absolute Positional Embedding,也就是把位置向量直接加到 token embedding 上;然后进一步说明,很多语言现象更依赖 token 之间的相对位置,所以又引出了Relative Positional EmbeddingALiBi这类方法。随后重点讲了现在大模型里非常常见的RoPE,它不是简单相加,而是通过对 query 和 key 做旋转,把位置信息自然融入 attention 计算中,因此在 Llama、Qwen、Gemma 等模型中被广泛采用。除此之外,这一讲还讨论了一个更进一步的问题:模型是不是一定需要显式的位置编码,还是有可能在某些结构和训练方式下,部分依靠注意力机制本身学到顺序信息。整体来看,这一讲就是围绕Absolute、Relative、RoPE 以及“没有 Position 行不行”这几条主线,系统讲清楚不同位置编码方案分别解决了什么问题、各自有什么特点,以及它们为什么会影响模型对长文本和顺序关系的理解。 以下是该视频对应的部分课件,需要全部课件的同学请关注 AINLP 公众号,回复'lhy2026'获取:

!Image 3

!Image 4

!Image 5

!Image 6

!Image 7

!Image 8

!Image 9

!Image 10

!Image 11

!Image 12

需要全部课件的同学可以关注 AINLP 公众号,回复'lhy2026'获取: 进技术交流群请添加AINLP小助手微信(id: ainlp2) 请备注 具体方向+所用到的相关技术点

!Image 13: 图片 关于AINLP

AINLP 是一个有趣有AI的自然语言处理社区,专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享,主题包括LLM、预训练模型、自动生成、文本摘要、智能问答、聊天机器人、机器翻译、知识图谱、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!加技术交流群请添加AINLP小助手微信(id:ainlp2),备注工作/研究方向+加群目的。

!Image 14: 图片 跳转微信打开

查看原文 → 發佈: 2026-04-09 19:25:00 收錄: 2026-04-09 22:00:37

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。