苹果公司发布开源大模型：OpenELM - 天天学术AI写作系统专注学术论文写作的工具|毕业论文|期刊投稿|开题报告|任务书www.ttsai.com.cn

苹果公司在Hugging Face平台上推出了一款名为OpenELM的开源高效语言模型，该模型包含四种不同规模的版本，参数量从2.7亿到30亿不等。这款模型设计为超紧凑型，具有低成本运行优势，适合在移动设备上运行。在WWDC24开发者大会前夕，苹果公司全面开放了OpenELM模型的权重、推理代码、数据集和训练日志，并且开源了其神经网络库CoreNet。

苹果公司首席执行官蒂姆·库克在今年2月的财务报告会议上首次对外宣布了其生成式AI的计划，该计划旨在将人工智能技术整合入苹果的软件生态中。苹果在生成式AI领域的动作频繁，3月份时，其技术团队发表了一篇论文，介绍了支持多模态和MoE（混合专家）架构的大型模型MM1，该论文的作者中有超过一半是华人。现在，随着OpenELM大型语言模型的发布，苹果提供了包括文本生成、代码编写、翻译和摘要在内的多种功能。OpenELM利用了大量公共数据集进行预训练，尽管其参数规模较小，但依然展现出了卓越的性能。

在模型的训练过程中，苹果采用了CoreNet框架和Adam优化算法，进行了多达350,000次的迭代训练。公司在发表的论文中指出，与以往发布的版本不同，这次的OpenELM包含了一套完整的、用于在公开数据集上训练和评估语言模型的框架。此外，OpenELM还采用了多项技术优化措施，包括RMSNorm预归一化、旋转位置嵌入、分组查询注意力、SwiGLU FFN和Flash注意力等，这些技术的应用旨在提升模型的训练和推理效率。苹果还实施了动态分词和数据过滤技术，以简化实验流程。

苹果的这次开源行为在公司历史上较为罕见，其在GitHub上的代码已经获得了超过1100个星标。目前，大型模型领域主要分为开源和闭源两大阵营。苹果的这一举措可能是在模仿谷歌的策略，通过开源吸引用户群体，然后通过闭源产品实现商业化。这也表明了苹果公司进军AI大型模型领域的决心。商汤科技的联合创始人王晓刚认为，开源对于社区的发展极为关键，而大型模型的实际应用需要整个社区的共同努力。

与此同时，AI技术的发展仍在持续推进。OpenAI获得了全球首台DGX H200，英伟达收购了以色列的AI基础设施编排和管理服务商Run:ai，而Cognition公司完成了1.75亿美元的融资。市场趋势正在发生变化，端侧模型、AI应用和行业特定大型模型等正在成为新的发展方向。随着投资环境的日益成熟，人们开始更加深刻地认识到AI技术发展及其应用的复杂性和挑战。

本站文章通过互联网转载或者由本站编辑人员搜集整理发布，如有侵权，请联系本站删除。

本文链接：https://www.ttsai.com.cn/news/1608.html

Related Posts