北京青年报

苹果联手加州大学研究人员推出AI图片处理模型初显技术家底

财联社 2024-02-09 12:08

看着三星刚发布的AI手机“画个圈就能编辑图片”，iPhone用户只能无奈地咽下口水。但最新论文却显示，苹果公司在AI领域的储备，显然要比市场预期得丰厚不少。

苹果与加州大学研究人员在本周刊发的论文中，公开了一项基于多模态大模型，能根据自然语言指示进行图片编辑的开源“MGIE”AI模型。开发人员直言，这个AI能够进行“Photoshop式的修改”、全局优化和局部编辑。

来源：arXiv

这项研究的突破之处在于，虽然现在多模态大语言模型（MLLMs）在跨模态理解和视觉感知响应生成方面表现出了卓越的能力，但尚未被广泛应用于图像编辑任务。而从这篇论文给出的一系列演示来看，光是MGIE展现出来的AI图像编辑能力，就足以推出一系列有趣的AI应用。

这个AI能做什么？

使用多模态大语言模型编辑图像有两个好处：首先，模型能够将自然语言指令翻译成更容易让机器执行的命令。例如用户输入“让图片背景的天空更蓝一些”时，MGIE会将提示词转化为“将天空区域的饱和度提高20%”。其次，多模态大语言模型在视觉想象力、图片生成等模块本身也具有一定的优越性。

论文也给出了不少示例：

比如，“让图中食物变得更健康一些”，AI就会在纯肉披萨上，加一些小番茄和香草叶。

还有网友们需求极大的“P图”功能：将背景里的人去掉，这个AI也能抠得干干净净。

从多个同类AI的表现对比来看，MGIE在理解指令（例如在甜甜圈上覆盖草莓酱淋面）和执行P图命令（增亮、锐化图片）方面，也展现出了业界顶级的效果。

注：从左往右数，第一张为原图第四张为MGIE输出效果

目前MGIE的开源文件已经被论文第一作者、加州大学圣塔芭芭拉分校的Tsu-Jui Fu上传到Github上，同时在“抱抱脸”平台上开放了试用demo。论文显示，Tsu-Jui Fu曾在2023年夏天在苹果公司实习，MGIE的研究工作也是在那个时候完成的。

围绕苹果的AI争论

MGIE和这篇论文，也展现了苹果公司近些年来在AI领域确有相当水平的积累。

在被华尔街诟病“没跟上AI时代”，以及科技爆料人嘴里“苹果高层惊慌失措”后，前不久才从世界市值第一上市公司的位置上掉下来的苹果，势将在今年对外展示iOS如何使用AI。外界普遍预期，每年6月苹果披露最新软件成就的WWDC，今年将会成为发布AI产品的主阵地。

在今年2月1日的财报电话会上，库克也明确表示，公司在生成式人工智能方面正在开展大量工作，同时在今年晚些时候，苹果将讨论一些“让我们感到无比兴奋的事情”。

值得一提的是，苹果公司在机器学习等领域一直都有投入，但在产品宣发层面却不太喜欢使用AI这个词。在去年WWDC上，苹果发布能够自动修正拼写错误的键盘功能，底层技术正是与ChatGPT类似的transformer模型，但是苹果在发布会上完全没有提AI，仅使用了更为学术化的称呼——机器学习。

编辑/范辉