苹果团队提出 PICO 感知图像编解码器,在相同视觉质量下,文件体积仅为 AV1、JPEG AI 等主流标准的三分之一到二分之一,并可在手机上实时运行。
📝 详细摘要
本文介绍了苹果研究团队提出的 PICO(Perceptual Image Codec)感知图像编解码器。与 JPEG、AV1、VVC 等传统编解码器优化数学指标(如 PSNR)不同,PICO 直接针对人眼感知进行端到端优化。文章详细阐述了 PICO 解决的三项核心技术难题:通过一次性上下文模型解决熵编码速度瓶颈;引入 TextFidelityLoss 防止 GAN 在文字区域产生幻觉;使用 TilingArtifactLoss 消除图像分块处理时的色块边界。实验结果显示,在相同视觉质量下,PICO 的文件体积仅为 AV1、JPEG AI 等标准的 30%-43%,且优于 HiFiC 等现有学习型编解码器。在 iPhone 17 Pro Max 上,编码一张 12MP 照片仅需 230 毫秒,解码需 150 毫秒。文章还介绍了团队背景,其核心成员来自被苹果收购的初创公司 WaveOne。
💡 主要观点
- PICO 是首个系统性地针对人眼感知进行优化的实用化学习型图像编解码器。 不同于传统编解码器优化 PSNR 等数学指标,PICO 直接以人眼主观质量为优化目标,通过 GAN 和感知损失函数实现更好的视觉体验。
💬 文章金句
- PICO 是第一次有人系统地把这道难题正面拆解:从架构搜索、损失函数设计,到大规模人类主观评测,并最终装进了一款可以在手机上实时运行的编解码器。
- 优化感知质量和优化数学指标,本质上是两个方向,鱼与熊掌不可兼得。
- 在相同视觉质量下,PICO 的文件体积只有 AV1、AV2、VVC、ECM 和 JPEG AI 的三分之一到二分之一。
📊 文章信息
AI 初评:88
来源:机器之心
作者:机器之心
分类:人工智能
语言:中文
阅读时间:12 分钟
字数:2933
标签: PICO, 图像压缩, 感知编码, 苹果, AI 编解码器