王小川:开源生态建设助力国产大模型创新发展-凯发ag旗舰厅网站
2023年中央经济工作会议强调,“要以科技创新推动产业创新,特别是以颠覆性技术和前沿技术催生新产业、新模式、新动能,发展新质生产力”。会议明确指出,“要大力推进新型工业化,发展数字经济,加快推动人工智能发展”。
大语言模型(以下简称“大模型”)是人工智能技术的颠覆式变革,正引发新一轮科技发展新浪潮,对经济社会发展、国家治理、国际格局等具有重大而深远的影响。
大模型强大的泛化能力让人们看到了通用人工智能的曙光,其所带来的技术范式重构不仅是人工智能领域的颠覆式革新,更有可能引领新一轮产业变革。
一方面,大模型的知识增强能力与特定场景适配后将极大提升相关行业的生产效率,实现生产力的智能化升级。例如,百川智能的长上下文窗口大模型“baichuan2-192k”一次性可输入35万汉字,能帮助基金经理总结和解释财务报表,分析公司的风险和机遇;也能帮助律师识别多个法律文件中的风险,审核合同和法律文件;还能帮助技术人员阅读数百页的开发文档,并回答技术问题。目前,法律、金融等领域的诸多企业与百川智能达成合作,将“baichuan2-192k”大模型应用到真实业务场景中。
另一方面,大模型还将通过人工智能原生应用创造全新价值。例如,chatgpt可通过对话回答用户提出的各种问题,帮助用户撰写各类文章、汇报材料;midjourney(图像生成工具)可帮助用户生成风格多样的图片和平面设计等等。可以预见,当大模型被广泛应用于营销、政务、金融、工业等领域,工作效率将大幅提升。
目前,与国际顶尖大模型相比,国内大模型在综合实力、核心能力等方面还存在差距,加之国际环境多变,中国大模型的发展面临诸多挑战。大模型企业是提升我国大模型核心竞争力的重要力量,应发挥好自身的主体的作用,以国际顶尖大模型为目标,从基础技术创新、生态建设、人才培养等多个维度积极助力国内大模型发展。
良好的开源生态不仅有利于大模型技术持续创新、拓展大模型应用路径,还能在多方携手共建的基础上更好地解决大模型的可解释性、安全性、稳定性等问题。因此,构建丰富多元、健康稳定的开源生态对国内大模型的发展至关重要。
在国际市场,美国开放人工智能研究中心(openai)和谷歌都选择闭源方式以保证自身优势,而美国互联网公司meta则率先走出开放道路,推出开源大模型llama和llama 2,吸引全球大量开发者和企业。在大模型llama 2部分性能已超越openai设计的大模型gpt-3.5的情况下,国内众多从业者纷纷选择基于llama 2训练自有大模型。但大模型llama 2并非多语言模型,训练数据中的中文仅占0.13%,即便使用高质量中文数据集微调,其中文表现也很难提高。而且大模型llama 2在商业协议中明确表示不允许英文以外的语言商用,极大限制了企业的使用场景。
在大模型开源后,国内也有少数企业开源大模型,但这些大模型的性能普遍不高,商用价值和学术价值都差强人意。百川智能发力开源领域,发布开源免费可商用大模型baichuan-7b,一经推出便引发大量开发者的关注和使用。随后,百川智能再次发布开源参数量更大的baichuan-13b,引领国内开源模型进入百亿参数时代。
开源生态建设是一个动态完善的过程,不可能一蹴而就。秉持开源开放的理念和长期主义精神,百川智能以国外最先进的开源模型为目标,持续升级大模型性能,于2023年9月再次推出baichuan2-7b、baichuan2-13b两款开源大模型,均为免费可商用。这两款大模型在大模型的语言理解能力测评mmlu、中文大模型测评cmmlu、美国执业医师资格考试试题medqa usmle等几大权威评估基准中,以绝对优势领先国外最先进开源模型llama 2,让中国大模型在开源领域达到全球领先水准。截至2023年,百川智能开源模型在国外开源社区huggingface的累计下载量已超600万次。
大模型训练包含海量高质量数据获取、大规模训练集群稳定训练、模型算法调优等多个环节,每个环节都需要大量人才、算力等资源的投入,而从0到1完整训练一个大模型的高昂成本阻碍学术界对大模型训练的深入研究。为了更深入地助力大模型科研,百川智能进一步开放,公布3000亿到2.6万亿tokens(令牌)模型训练全过程的check ponit(训练过程中某个特定时间点保存的模型快照)。这种方式可让用户更直观地了解大模型预训练中的量化策略和模型的价值观对齐等具体操作方法,帮助国内科研机构更好地进行大模型的前沿探索与创新。
此外,2023年9月,百川智能与中国计算机学会(ccf)、北京英博数科科技有限公司联合创立“ccf-百川-英博大模型基金”,支持国内外高校及科研院所的青年学者针对大模型展开学术研究,为其提供优质的产学研合作与学术交流平台。
设立至今,“ccf-百川-英博大模型基金”收到100余份申请,包括国内头部985高校以及新加坡等地的知名大学,并已资助来自清华大学、北京大学、上海交通大学、复旦大学、中国人民大学、新加坡国立大学、香港城市大学等高校的15个申请项目。
虽然在开源领域国内已处于领先状态,但在闭源大模型上与国际顶尖相比仍存较大差距。大模型的“全面赶超”既要发挥企业资源充足、方向灵活、注重应用等方面的优势,也要充分发挥科研机构在理论研究、架构创新、可控性探索等方面的特长。产研联动不仅能有效促进大模型技术的发展,还能加强理论研究与实际应用之间的联系,为人工智能领域的整体进步提供充足动力。
因此,在积极助力学术研究的同时,百川智能也很重视与研究机构的合作。2023年11月,百川智能与鹏城实验室共同发布128k长上下文窗口大模型“鹏城-百川·脑海33b”。“鹏城-百川·脑海33b”完全基于“鹏城云脑”国产算力平台训练,并且可升级至192k,是基于国产算力训练的最长上下文窗口大模型。不仅如此,百川智能和鹏城实验室还通过算子加速、流水线切分优化、混合并行策略搜索、自适应重计算等多种并行维度的技术创新,将昇腾的千卡训练性能提升一倍以上。“鹏城-百川·脑海33b”作为国产算力大模型创新与落地的一次成功实践,对国产算力大模型发展起到了积极的示范作用。
百川智能将锚定“打造中国最好的大模型底座”这一核心目标,持续探索大模型前沿创新,并通过开发产业端和用户端的多元化应用,将技术突破转化为产业价值、社会价值、用户价值,助力我国人工智能产业快速发展。
- 【上一篇】我国千兆城市数量突破200个
- 【下一篇】没有了