本页
-
四大趋势并发的大模型,加速开启“智力即服务”新时代
行业新闻
四大趋势并发的大模型,加速开启“智力即服务”新时代
2024-09-11
解读AI大模型四大发展趋势:多模态、开源、轻量化和端侧
在探讨人工智能的未来之路时,通用人工智能(AGI)一直被视为技术的圣杯,而大模型的发展无疑是通往这一目标的重要里程碑。
自2024年以来,人工智能大模型的发展呈现出四大显著趋势:多模态、开源、轻量化和端侧模型,这不仅体现了技术的飞速进步,也预示着AI技术落地应用的广泛前景。
AI大模型,正在成为未来几年内推动社会进步和经济发展的关键力量。
四大发展方向,AI开启“智力即服务”
7月初,在腾讯最新发布的《2024大模型十大趋势——走进“机器外脑”时代》报告中提及LLM(大语言模型)带来推理能力跃迁,开启“智力即服务”。
众所周知,大型语言模型(LLM)为人工智能带来了前所未有的推理能力,极大地扩展了机器的认知边界,成为了人类的"智力外脑",能够提供深入的分析、创造性的解决方案和复杂的决策支持,开启了“智力即服务”(IQaaS)的新时代。这种服务模式让人类的推理能力得以在云端、边缘乃至端侧实现,未来,智力将变成像电力一样的公共服务。
同时,在多模态的加持下,情感智能正在AI领域的新前沿,基于流式语音识别、多模态AI和情感计算等领域的突破也让AI的智力服务更显多元化。
毫无疑问,AI势必要走向万物智能。多模态的进化、开源大模型以及将大模型推向边缘与端侧的轻量化研究,正是如今软件技术的主旋律。兼具情商(EQ)与智商(IQ)的大模型将在未来几年,进一步破圈到包括各年龄层的更广泛用户群体。
多模态:让智能体验多元化
多模态大模型作为2024年人工智能领域的重要趋势之一,正引领着AI技术的新一轮变革。
多模态大模型旨在能够同时处理和融合多种类型的数据源,如文本、图像、音频和视频等的模型。通过融合不同模态的信息,它实现了更全面、更深层次的理解和生成能力,并以此提供更为丰富和全面的智能体验。
其中,年初Sora的推出堪称这一领域的标志性事件。
图1:Sora
Sora是由OpenAI开发的一款强大的文生视频模型,它能够根据文本描述生成长达一分钟的高质量视频。这一突破性的技术不仅展示了多模态大模型在内容创作方面的潜力,也为视频制作和媒体行业带来了革命性的变革。
当然,作为一种趋势,多模态不仅在学术界引发了广泛关注,更在工业界得到了快速的应用和发展:
第一,引领AIGC应用再次爆发,进一步降低了专业创作的门槛。多模态模型逐渐从单一的文字和图像扩展到了视频和其他形式的数据,比如激光雷达点云和生物信息等。这标志着多模态模型不仅在理论研究上取得了突破,在实际应用场景中也开始发挥重要作用。例如,数字人技术的广泛应用就是多模态模型在视频领域的一个重要里程碑。
第二,提升工业新质生产力。随着AI技术的不断发展,多模态大模型开始与工业应用相结合,特别是在自动化和智能化生产线上,例如多模态模型可以帮助以人形机器人为首的工业机器人更好地理解复杂的工业环境,实现精准的感知与控制。这种融合不仅提升了生产效率,还促进了传统工业向智能化转型。
第三,赋予机器情感价值,推动自主智能体的发展。多模态大模型的进步还体现在自主智能体的开发上。这些智能体不仅能够完成复杂的任务规划和执行,还能实现自我学习和优化,进而实现更高层次的智能行为,比如AI陪伴市场。通过语音识别、多模态AI和情感计算等技术极大地提升了陪伴机器人等的互动体验,并通过AI深度分析用户的情感和行为提供了更具个性化的精准服务,从而实现消费者更为多元化的陪伴诉求。
开源先锋:轻量级AI模型的崛起
随着开源文化的兴起和技术的不断进步,轻量化AI模型正在以前所未有的速度改变着科技行业的格局。这些模型不仅性能卓越,而且成本低廉,极大地降低了AI技术的应用门槛,让更多的企业和个人得以享受AI带来的便利。
如果说ChatGPT 拉开了大模型竞赛的序幕,那么 Meta 开源 Llama 系列模型则掀起了开源领域的热潮。可以说,开源模型的发展势头强劲,其性能和能力快速接近甚至部分超越闭源产品的水平。
在这一年里,业界见证了多个开源预训练模型的出现,它们在自然语言处理、图像识别、语音合成等众多领域展现出惊人的实力。这些开源模型不仅为学术界的研究提供了丰富的资源,也为产业界的创新应用打开了新的可能,极大地降低了AI技术的门槛。
另一方面,大模型的“轻量化”进程取得了重大突破,模型的“性价比”得到了快速提升。在2024年,通过算法优化、模型剪枝、知识蒸馏等技术的深入研究和应用,轻量化模型在保持较高性能的同时,显著降低了计算资源的消耗。这一进步使得原本需要昂贵硬件支持的大模型能够运行在普通的计算设备上,从而让更多中小企业和开发者能够负担得起并轻松部署AI技术,推动了AI应用的普及和普惠。
2024年,多家厂商先后发布乃至开源轻量级模型。2月,谷歌发布比Gemini更小、更轻的版本Gemma,包括Gemma 2B(20 亿参数)与Gemma 7B(70 亿参数)两个版本,可以在台式机或者笔记本电脑上本地运行。随后谷歌又在5月份发布了Gemini 1.5flash,被称为谷歌最新研发、速度最快的人工智能模型,是Gemini系列最新最前沿的技术成就,该模型以其超高速的读写能力,为大数据时代提供了更强大的支持。
4月份,微软推出了开源轻量级AI模型Phi-3系列,宣称这是目前市面上性能最强、最具性价比的“小语言模型”。
该系列的最小版本Phi-3-mini虽然参数规模仅有38亿,但却展现了超越参数规模大一倍多的模型的性能,在多项基准测试中比Meta的Llama 3 8B更优异,而Phi-3-small和Phi-3-medium这两个版本甚至可以超越GPT-3.5 Turbo。
图2:phi-3-mini 与 phi-2 、Mistral-7b-v0.1、Mixtral-8x7B、Gemma 7B 、Llama-3-instruct8B 和 GPT-3.5在标准开源基准测试中的比较结果
更令人瞩目的是,Phi-3-mini对内存的占用极少,可在iPhone 14搭载的A16 Bionic芯片上实现每秒12个token的生成速度,这意味着这款模型不用联网,可以直接在手机上运行。不仅如此,据透露,Phi-3的成本或只有同等性能模型的十分之一。
这样的模型对于网络资源受限或需要离线推理的场景来说,无疑是一大好消息。据微软介绍,印度企业已经开始用Phi-3模型来帮助资源紧缺的农民解决生产生活问题。
随后,苹果就开源了其大语言模型OpenELM(Open-source Efficient Language Models,即“开源高效语言模型”),与微软开源的Phi-3-mini类似,也是一款专门针对手机等移动设备的模型。
图3:苹果开源其大语言模型OpenELM
OpenELM 系列模型包含2.7亿、4.5亿、11亿和30亿共4个不同参数版本,共包括4个预训练模型和4个指令调优模型,提供生成文本、代码、翻译、总结摘要等功能。基于较小的参数量,这些模型可在端侧设备上独立运行,而不必连接云端服务器。
苹果发布 OpenELM,意味着它正式加入开源大模型阵营,尤其是端侧大模型的赛道之中,正如谷歌、微软、三星等科技公司着力在 PC 和移动设备端推动生成式 AI 模型的开发一样。
与以往只提供模型权重和推理代码的做法不同,苹果发布了完整的训练、评估框架等,主要内容包括数据准备、模型训练、微调以及评估流程,同时提供了多个预训练检查点和训练日志。
7月,法国AI创企Mistral AI推出面向程序员和开发人员的代码生成模型Codestral Mamba 7B,以及专为数学相关推理和科学发现而设计的AI模型Mathstral 7B。
随后,更值得关注的动态便是OpenAI发布了新款轻量级大模型GPT-4o mini,再次引发行业对轻量级模型的讨论。OpenAI官网文章称,“我们预计GPT-4o mini将扩大人工智能的应用,让人工智能变得更实惠。”据悉,GPT-4o mini输入价格为15美分(0.15美元)/百万tokens(词元),输出价格为60美分(0.6美元)/百万tokens,比GPT-3.5 Turbo便宜60%。
目前来看,GPT-4o mini的主要作用可能是取代GPT-3.5 Turbo,并通过降低价格来吸引用户。
业内专家也表示,OpenAI的轻量级模型体现出在不断提升大模型参数的方向之外,行业在更小尺寸方向上追求高效高性能,这是另一条挖掘智能潜力极限、又可降低成本的路径。
端侧!端侧!
这是一个体验为王的时代,而不是一个参数为王的时代。对于智能终端,消费者不再一味追求最高、最新、最美、最好的单一参数,而是更加重视产品和服务带来的综合使用体验。
同时,业界深信AI是智能终端的技术底座之一。如何通过端云协同,构筑真正强大、统一的全场景智能,为消费者带来更加极致、颠覆的智慧体验成为当下技术发力和重振经济的关键。
正基于此,近年来,大模型正加速从云端向边缘和端侧演进,向各行各业全面落地,以期带来巨大的产业机遇,AI PC和AI手机都是其中的具象缩影。
特别是随着边缘计算技术的成熟和端侧AI芯片的性能提升,越来越多的智能设备具备了本地处理复杂任务的能力。端侧AI的兴起不仅减少了数据传输的延迟,提高了隐私安全性,也为用户带来了更加丰富和个性化的智能体验。在这一年里,我们看到了端侧模型的快速迭代,它们在实时性、功耗和成本控制方面都取得了显著进展。
目前,端侧AI已经可以支持数十亿级别参数模型。根据高通数据,截至2023年具备AI功能的手机、PC和其他品类的便携终端数量已经达到数十亿台。目前智能终端已经可以支持丰富的生成式AI功能,这些功能的模型参数在10亿到100亿(INT4级别,下同)之间。如Stable Diffusion等参数超过10亿的模型已经可以在手机上运行,且性能和精确度达到和云端处理类似的水平。
高通预计未来拥有100 亿及更多参数的生成式AI模型能够在终端上运行。
图4:数量可观的生成式 AI 模型可从云端分流到终端上运行
来源:高通白皮书《混合AI》
随着轻量级模型和端侧模型的兴起,大模型厂商、终端厂商以及终端芯片厂商等纷纷加入到这一领域的布局中。
以AI手机为例,站在2024年的手机市场上,在之前智能手机传统硬件创新趋缓的背景下,有AI带来的软硬件升级趋势有望成为下一轮智能手机创新的源动力,AI手机元年开启。AI手机也将成为智能手机进入存量市场后培育新动能的关键着力点。
根据Counterpoint数据,仅在 2024 年第一季度,全球具有生成式 AI 功能的智能手机型号就从 16 个增加到 30 多个,AI 手机销量占比从 1.3%提高到 6%。
而从2023年下半年开始,华为、小米、OPPO、vivo、苹果、三星等全球知名手机厂商,以及产业链上的高通、联发科等都在积极探索大模型的端侧应用。
2023年8月,小米正式推出参数规模64亿的预训练语言模型MiLM-6B,并在手机端跑通13亿参数的大模型;2023年11月,vivo发布1750亿规模的自研蓝心大模型,落地终端侧70亿参数大语言模型;OPPO推出参数规模为1800亿的AndesGPT,OPPO Find X7和一加Ace3V端侧大模型参数规模达到70亿;2024年6月,华为发布盘古大模型5.0,参数规模达到万亿级别。
此外,百度在2021年12月发布百亿参数的ERINE 3.0大模型,谷歌在2023年3月推出参数规模达5620亿的PaLM-E的大模型,并在同年10月发布搭载Google AI基础功能的Pixel 8系列手机。各企业云端大模型参数规模发展迅猛,端侧大模型参数普遍达到70亿。
图5:2023-2024年6月主要AI手机大模型云端参数量情况。源自赛迪顾问
未来AI手机将通过全方位的技术创新和生态系统重构改变移动用户体验。而在模型之外,AI芯片领域的商业布局同样呈现出激励的竞争态势。
面对大量的数据和复杂的算法,AI芯片能够调度合适的处理器进行异构计算,提升手机处理多任务的效率和速度,推动AI手机的不断进步和创新。主要芯片设计公司率先投入到生成式AI手机浪潮中,AI芯片领域企业面向AI手机方向展开激烈的竞争,苹果、三星和华为等智能终端厂商推出自研AI手机芯片,提升芯片AI性能;高通、联发科和英伟达等芯片企业公布了多款支持多模态大模型端侧部署的移动计算平台,发布高性能AI芯片,通过强化芯片的智能处理能力,提升手机的AI功能表现。
图6:2023年9月-2024年6月全球AI芯片领域重点企业布局情况。源自赛迪顾问
随着人工智能的迅速发展,AI手机正逐步迈向一个前所未有的智能新高度。自然语言处理(NLP)与多模态信息智能感知技术的深度融合,不仅标志着AI手机在智能交互领域的重大突破,也预示着未来手机应用生态的深刻变革。伴随着AI手机的应用场景不断拓展,自然语言处理与多模态信息智能感知都将成为AI手机领域的标配技术。