苹果GPT就在你口袋里?这或许会更快成为现实。
苹果人工智能(AI)研究人员近日在预印本网站arXiv上发表了一篇论文,其中提到了一种创新的“闪存利用”技术,可以在iPhone和其他内存有限的苹果设备上部署大型语言模型(LLM),这几乎是一项重大突破。
内存的约束
基于LLM的聊天机器人(如ChatGPT、Claude等)都非常依赖于数据和内存,其需要同时处理的数据量非常庞大,往往需要大量内存才能运行。
因此运行LLM对于DRAM(一般指内存)容量有限的iPhone等设备来说是一个挑战。
通常,运算数据标准的方法是将闪存中的数据加载到DRAM中,再在DRAM中进行数据推理。
性能水平高的DRAM可以让数据处理的速度提升数百万倍,然而,弊端在于容量上。在DRAM上运行严重限制了可以运行的最大模型大小。
为了解决这个问题,苹果公司的研究人员开发了一种新技术,使用容量较大的闪存(flash memory)来存储人工智能模型的数据,再在需要时在将数据调入DRAM内存中来处理。
在闪存上存储AI
在一篇题为《flash中的LLM:有限内存下的高效大型语言模型推理》的新研究论文中,作者指出,移动设备中的闪存比传统上用于运行LLM的内存更加丰富。
这种方法巧妙地绕过了容量限制。改论文提出了两项关键技术,最大限度地减少数据传输、并最大限度地提高闪存处理能力:
其一叫做“窗口化(windowing)”技术,相当于一种回收方法。AI模型不需要每次都加载新数据,而是重新使用一些已经处理过的数据。这减少了对不断获取内存的需求,使过程更快更平滑。
其二叫做“行-列捆绑(Row-Column Bundling)”技术。该技术是通过更有效地分组数据,即针对闪存的数据特征制定访问数据块的顺序,可以更快地从闪存中读取数据,加快人工智能理解和生成语言的能力。
根据这篇论文,这些方法的结合使人工智能模型的运行容量达到iPhone可用内存的两倍。这意味着该方法下,CPU中的推理速度较传统加载方式提高了4-5倍,GPU中的推理速度提高了惊人的20-25倍。
该论文作者写道,“这一突破对于在资源有限的环境中部署先进的LLM尤其重要,从而扩大了它们的适用性和可及性。”
苹果的AI战略
人工智能效率的突破为未来的iPhone打开了新的可能性,比如更先进的Siri功能、实时语言翻译、复杂的人工智能驱动的摄影和增强现实功能。
论文中的新技术还为iPhone在设备上运行复杂的人工智能助手和聊天机器人奠定了基础,据说苹果已经在开发这方面的技术。
苹果在生成式人工智能方面的工作最终可能会被整合到其语音助手Siri中。苹果在今年2月的人工智能峰会上,向员工介绍了其大型语言模型的工作。据媒体此前报道,苹果的目标是推出与人工智能深度集成的智能版Siri。
还有传言称苹果计划在尽可能多的苹果应用程序中添加人工智能。
除此之外据报道,苹果还正在开发自己的生成式人工智能模型“Ajax”,其在2000亿个参数上运行,为了与OpenAI的GPT-4模型相抗衡。
内部称为“Apple GPT”的Ajax旨在统一整个苹果的机器学习开发,这突显了苹果将人工智能更深入地融入苹果生态系统的更广泛战略。
根据最新的报告,Ajax被认为比早期的ChatGPT 3.5更强大。然而,2023年9月OpenAI推出的新模型GPT-4可能已经超越了Ajax的能力。
果链分析师Jeff Pu曾指出,苹果将在2024年底左右在iPhone和iPad上推出某种生成式人工智能功能,届时iOS 18将会包含这项功能。Pu还表示,苹果将在2023年建造几百台人工智能服务器,2024年还会有更多。
编辑/范辉