← 回總覽

苹果用 AI 重新发明了图像压缩:同样画质,文件只要三分之一

📅 2026-05-30 10:30 机器之心 人工智能 2 分鐘 1414 字 評分: 88
PICO 图像压缩 感知编码 苹果 AI 编解码器
📌 一句话摘要 苹果团队提出 PICO 感知图像编解码器,在相同视觉质量下,文件体积仅为 AV1、JPEG AI 等主流标准的三分之一到二分之一,并可在手机上实时运行。 📝 详细摘要 本文介绍了苹果研究团队提出的 PICO(Perceptual Image Codec)感知图像编解码器。与 JPEG、AV1、VVC 等传统编解码器优化数学指标(如 PSNR)不同,PICO 直接针对人眼感知进行端到端优化。文章详细阐述了 PICO 解决的三项核心技术难题:通过一次性上下文模型解决熵编码速度瓶颈;引入 TextFidelityLoss 防止 GAN 在文字区域产生幻觉;使用 TilingArt

📌 一句话摘要

苹果团队提出 PICO 感知图像编解码器,在相同视觉质量下,文件体积仅为 AV1、JPEG AI 等主流标准的三分之一到二分之一,并可在手机上实时运行。

📝 详细摘要

本文介绍了苹果研究团队提出的 PICO(Perceptual Image Codec)感知图像编解码器。与 JPEG、AV1、VVC 等传统编解码器优化数学指标(如 PSNR)不同,PICO 直接针对人眼感知进行端到端优化。文章详细阐述了 PICO 解决的三项核心技术难题:通过一次性上下文模型解决熵编码速度瓶颈;引入 TextFidelityLoss 防止 GAN 在文字区域产生幻觉;使用 TilingArtifactLoss 消除图像分块处理时的色块边界。实验结果显示,在相同视觉质量下,PICO 的文件体积仅为 AV1、JPEG AI 等标准的 30%-43%,且优于 HiFiC 等现有学习型编解码器。在 iPhone 17 Pro Max 上,编码一张 12MP 照片仅需 230 毫秒,解码需 150 毫秒。文章还介绍了团队背景,其核心成员来自被苹果收购的初创公司 WaveOne。

💡 主要观点

- PICO 是首个系统性地针对人眼感知进行优化的实用化学习型图像编解码器。 不同于传统编解码器优化 PSNR 等数学指标,PICO 直接以人眼主观质量为优化目标,通过 GAN 和感知损失函数实现更好的视觉体验。

PICO 通过三项关键技术创新解决了学习型编解码器的实用化难题。 一次性上下文模型解决了熵编码速度瓶颈;TextFidelityLoss 防止 GAN 在文字区域产生幻觉;TilingArtifactLoss 消除了图像分块处理时的色块边界。
PICO 在相同视觉质量下,文件体积仅为现有主流标准的三分之一到二分之一。 大规模人类主观评测显示,PICO 在比特率上比 AV1、VVC、JPEG AI 等节省 57%-70%,同时能在 iPhone 上实现毫秒级编解码速度。

💬 文章金句

- PICO 是第一次有人系统地把这道难题正面拆解:从架构搜索、损失函数设计,到大规模人类主观评测,并最终装进了一款可以在手机上实时运行的编解码器。

  • 优化感知质量和优化数学指标,本质上是两个方向,鱼与熊掌不可兼得。
  • 在相同视觉质量下,PICO 的文件体积只有 AV1、AV2、VVC、ECM 和 JPEG AI 的三分之一到二分之一。

📊 文章信息

AI 初评:88

来源:机器之心

作者:机器之心

分类:人工智能

语言:中文

阅读时间:12 分钟

字数:2933

标签: PICO, 图像压缩, 感知编码, 苹果, AI 编解码器

阅读完整文章

查看原文 → 發佈: 2026-05-30 10:30:00 收錄: 2026-05-30 20:00:00

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。