近期,商汤科技因其最新大模型SenseNova 5.0的推出而受到市场的广泛关注,该事件导致其在港交所的股票交易暂时中断。SenseNova 5.0被看作是与OpenAI的GPT-4 Turbo相匹敌的产品,它展现了中国在追赶国际先进大模型技术方面的决心。商汤科技在短短的三个月内,从超越GPT-3.5的SenseNova 4.0迅速进步到全面对标GPT-4 Turbo的SenseNova 5.0,这标志着其在大模型技术领域的显著进步。
该公司的进步得益于对尺度定律的深入应用,这是大型语言模型中的一个核心原理。尺度定律表明,随着数据量、模型规模和计算能力的增加,模型的性能也将不断提升。商汤科技遵循这一原理,并通过科学实验推导出数学公式,用以预测下一代大模型的性能,避免了盲目的尝试。公司董事长兼CEO徐立提出了可预测性和保序性两个关键假设,引导公司在有限的研发资源中寻找最优的模型架构和数据策略。
SenseNova 5.0使用了超过10万亿个中英文标记的预训练数据,并通过精心设计的数据清洗流程,构建了高质量的基础数据集。此外,公司还创造性地合成了思维链数据,并在预训练过程中广泛采用了逻辑合成数据,以增强模型的推理、数学和编程能力。
尽管如此,商汤科技也面临着尺度定律所揭示的物理极限,包括数据短缺和硬件连接的局限性。徐立指出,这需要对硬件和算法进行创新设计,以及算法设计与算力资源的协同优化。
在产品端,商汤科技推出了拥有18亿参数的SenseChat-Lite,超越了所有开源的2亿参数级别的模型,并领先于其他7亿、13亿参数的模型。公司还发布了针对终端业务的软件开发工具包(SDK),覆盖了多种应用场景,并适配了多种芯片和终端设备。此外,商汤还推出了面向企业级应用的大模型一体机,支持千亿规模模型的加速和知识检索硬件加速,以实现本地化部署。
商汤科技还发布了小浣熊代码大模型一体机轻量版,旨在帮助企业开发人员更高效地进行代码的编写、理解和维护。公司还与华为昇腾合作,共同打造了面向金融、医疗、政务、代码等多个行业的大模型产业生态。
在技术交流日上,商汤科技还强调了与行业伙伴合作的重要性,这反映了公司在不同领域应用大模型的潜力,以及进一步深化行业合作的愿景。商汤科技的快速发展和应用落地能力的提升,预示着其需要更多的合作伙伴。
最后,徐立预告了即将推出的文生视频平台,这可能是商汤科技在视觉领域追赶国际先进水平的下一个里程碑。商汤科技的快速增长同样反映在其生成式AI业务的收入上,该业务收入已达到12亿元人民币,实现了200%的增长,占公司总收入的35%。
综上所述,商汤科技在大模型领域的快速发展和应用落地能力的提升,展现了其在AI 2.0时代的竞争力。公司必须在大模型商业化的浪潮到来之前快速行动,以便抓住先机,解决亏损问题,并恢复到其应有的市场地位。未来几年,生成式AI有望成为商汤科技最大的收入来源,这可能成为公司发展史上的一次重大变革。
本站文章通过互联网转载或者由本站编辑人员搜集整理发布,如有侵权,请联系本站删除。