苹果公司在Hugging Face平台上推出了一款名为OpenELM的开源高效语言模型,该模型包含四种不同规模的版本,参数量从2.7亿到30亿不等。这款模型设计为超紧凑型,具有低成本运行优势,适合在移动设备上运行。在WWDC24开发者大会前夕,苹果公司全面开放了OpenELM模型的权重、推理代码、数据集和训练日志,并且开源了其神经网络库CoreNet。
苹果公司首席执行官蒂姆·库克在今年2月的财务报告会议上首次对外宣布了其生成式AI的计划,该计划旨在将人工智能技术整合入苹果的软件生态中。苹果在生成式AI领域的动作频繁,3月份时,其技术团队发表了一篇论文,介绍了支持多模态和MoE(混合专家)架构的大型模型MM1,该论文的作者中有超过一半是华人。现在,随着OpenELM大型语言模型的发布,苹果提供了包括文本生成、代码编写、翻译和摘要在内的多种功能。OpenELM利用了大量公共数据集进行预训练,尽管其参数规模较小,但依然展现出了卓越的性能。
在模型的训练过程中,苹果采用了CoreNet框架和Adam优化算法,进行了多达350,000次的迭代训练。公司在发表的论文中指出,与以往发布的版本不同,这次的OpenELM包含了一套完整的、用于在公开数据集上训练和评估语言模型的框架。此外,OpenELM还采用了多项技术优化措施,包括RMSNorm预归一化、旋转位置嵌入、分组查询注意力、SwiGLU FFN和Flash注意力等,这些技术的应用旨在提升模型的训练和推理效率。苹果还实施了动态分词和数据过滤技术,以简化实验流程。
苹果的这次开源行为在公司历史上较为罕见,其在GitHub上的代码已经获得了超过1100个星标。目前,大型模型领域主要分为开源和闭源两大阵营。苹果的这一举措可能是在模仿谷歌的策略,通过开源吸引用户群体,然后通过闭源产品实现商业化。这也表明了苹果公司进军AI大型模型领域的决心。商汤科技的联合创始人王晓刚认为,开源对于社区的发展极为关键,而大型模型的实际应用需要整个社区的共同努力。
与此同时,AI技术的发展仍在持续推进。OpenAI获得了全球首台DGX H200,英伟达收购了以色列的AI基础设施编排和管理服务商Run:ai,而Cognition公司完成了1.75亿美元的融资。市场趋势正在发生变化,端侧模型、AI应用和行业特定大型模型等正在成为新的发展方向。随着投资环境的日益成熟,人们开始更加深刻地认识到AI技术发展及其应用的复杂性和挑战。
本站文章通过互联网转载或者由本站编辑人员搜集整理发布,如有侵权,请联系本站删除。