苹果联手加州大学研究人员推出AI图片处理模型 初显技术家底
财联社 2024-02-09 12:08

看着三星刚发布的AI手机“画个圈就能编辑图片”,iPhone用户只能无奈地咽下口水。但最新论文却显示,苹果公司在AI领域的储备,显然要比市场预期得丰厚不少。

苹果与加州大学研究人员在本周刊发的论文中,公开了一项基于多模态大模型,能根据自然语言指示进行图片编辑的开源“MGIE”AI模型。开发人员直言,这个AI能够进行“Photoshop式的修改”、全局优化和局部编辑。

来源:arXiv

这项研究的突破之处在于,虽然现在多模态大语言模型(MLLMs)在跨模态理解和视觉感知响应生成方面表现出了卓越的能力,但尚未被广泛应用于图像编辑任务。而从这篇论文给出的一系列演示来看,光是MGIE展现出来的AI图像编辑能力,就足以推出一系列有趣的AI应用。

这个AI能做什么?

使用多模态大语言模型编辑图像有两个好处:首先,模型能够将自然语言指令翻译成更容易让机器执行的命令。例如用户输入“让图片背景的天空更蓝一些”时,MGIE会将提示词转化为“将天空区域的饱和度提高20%”。其次,多模态大语言模型在视觉想象力、图片生成等模块本身也具有一定的优越性。

论文也给出了不少示例:

比如,“让图中食物变得更健康一些”,AI就会在纯肉披萨上,加一些小番茄和香草叶。

还有网友们需求极大的“P图”功能:将背景里的人去掉,这个AI也能抠得干干净净。

从多个同类AI的表现对比来看,MGIE在理解指令(例如在甜甜圈上覆盖草莓酱淋面)和执行P图命令(增亮、锐化图片)方面,也展现出了业界顶级的效果。

注:从左往右数,第一张为原图 第四张为MGIE输出效果

目前MGIE的开源文件已经被论文第一作者、加州大学圣塔芭芭拉分校的Tsu-Jui Fu上传到Github上,同时在“抱抱脸”平台上开放了试用demo。论文显示,Tsu-Jui Fu曾在2023年夏天在苹果公司实习,MGIE的研究工作也是在那个时候完成的。

围绕苹果的AI争论

MGIE和这篇论文,也展现了苹果公司近些年来在AI领域确有相当水平的积累。

在被华尔街诟病“没跟上AI时代”,以及科技爆料人嘴里“苹果高层惊慌失措”后,前不久才从世界市值第一上市公司的位置上掉下来的苹果,势将在今年对外展示iOS如何使用AI。外界普遍预期,每年6月苹果披露最新软件成就的WWDC,今年将会成为发布AI产品的主阵地。

在今年2月1日的财报电话会上,库克也明确表示,公司在生成式人工智能方面正在开展大量工作,同时在今年晚些时候,苹果将讨论一些“让我们感到无比兴奋的事情”。

值得一提的是,苹果公司在机器学习等领域一直都有投入,但在产品宣发层面却不太喜欢使用AI这个词。在去年WWDC上,苹果发布能够自动修正拼写错误的键盘功能,底层技术正是与ChatGPT类似的transformer模型,但是苹果在发布会上完全没有提AI,仅使用了更为学术化的称呼——机器学习。

编辑/范辉

最新评论