天天即时看!中信建投:大模型研究笔记

来源:中信建投证券研究 2023-05-31 20:24:25

研究产品中心 中信建投证券研究 2023-05-31 07:03 发表于北京

重要提示:通过本订阅号发布的观点和信息仅供中信建投证券股份有限公司(下称“中信建投”)客户中符合《证券期货投资者适当性管理办法》规定的机构类专业投资者参考。因本订阅号暂时无法设置访问限制,若您并非中信建投客户中的机构类专业投资者,为控制投资风险,请您请取消关注,请勿订阅、接收或使用本订阅号中的任何信息。对由此给您造成的不便表示诚挚歉意,感谢您的理解与配合!

5月30日,北京市人民政府印发《北京市加快建设具有全球影响力的人工智能创新策源地实施方案(2023-2025年)》。其中提出,构建高效协同的大模型技术产业生态。建设大模型算法及工具开源开放平台,构建完整大模型技术创新体系,积极争取成为国家人工智能开放生态技术创新中心。 中信建投证券海外团队推出大模型研究笔记系列研究:


(资料图)

百度(BIDU):大模型研究笔记(一)

百度(BIDU):大模型研究笔记(二)

01

百度(BIDU):大模型研究笔记(一)

大模型规模竞赛强度有望下降,精益优化可能成为主要方向,如数据清洗、初始化策略、大批量训练等。另一方面,模型压缩与内存管理、计算能力、下游部署等可能是大模型产品化落地的关键技术,有望打开未来to C市场的想象空间。

大模型研究笔记(一)

现有的市场研究主要聚焦下游应用,即大语言模型能够实现什么功能,满足什么市场需求,而将大语言模型本身视为黑匣子,缺乏对语言模型本身机制的研究。 本篇报告主要是对学界在LLM模型架构、预训练各环节、下游调优等领域的探索进行系统梳理,旨在增进市场对LLM技术原理的理解。需要指出的是,由于相关文献较多,本报告可能存在遗漏,并引致风险。

模型结构方面,现有的主流模型均基于Transformer架构。 行业发展的关键节点在于:

1)下游任务逐渐被统一;

2)研究总结出Scaling Law,从而催生规模竞赛;

3)Google团队提出CoT研究,大模型+CoT prompt效果显著提升。因此,此前行业主流范式是训练更大的模型,通过引入代码数据等方式激活模型的潜在能力。但一些最新研究表明规模效应带来的涌现可能是度量选择的结果,规模带来的性能提升可能没有此前的研究所表明的那么显著,因而引发一些对进一步推动规模扩展的谨慎观点。

预训练仍存在非常充分的优化空间。

1) 训练数据集 上,当前参数规模相比数据集过度扩张明显,训练数据集一定程度上制约了性能的提升。另一方面,数据集扩大可能带来重复数据的问题,而研究表明训练中的重复数据会显著影响模型的性能提升,因此对数据的清洗可能是业界实践中比较重要的环节;

2) 知识图谱 方面,一些团队如百度ERNIE将知识图谱引入LLM训练,实现性能提升,但研究表明,由于知识图谱数据库搭建的高成本,且也不适用于所有类别/场景的数据,规模化难度较高。此外,知识图谱的性能提升是以推理速度的下降为代价的;

3) 参数规模 方面,OpenAI提出的Scaling Law引发此前行业的规模竞赛,但斯坦福大学团队近期研究质疑了这一规律,并通过实验表明规模提升带来的效果突变是测试函数表达形式的结果,剔除影响后模型性能随规模变化更接近线性曲线。考虑到其他环节的优化空间,规模进一步大幅扩张可能不是厂商们的首要考虑目标;

4) 训练策略 方面,Google提出了Fixup、Skipint等初始化策略,其中后者在Transformer模型小Batch size训练下性能优于基准;稀疏训练和过参数方面的研究指出过参数有益于训练,但对推理部署成本有负面影响,UCB团队研究指出先训练大模型,再进行压缩、剪枝是给定计算资源约束下的最优选择。大批量学习方面,Google团队提出LAMB优化器,实现32K Batch size下无损训练(1K=1024)。

ChatGPT的火爆很大程度上是得益于“智能化”,或者说与人类交互的自然感 ,而这种用户体验主要是来自下游调试,例如Fine-tune、RLHF、Alignment等环节。GPT-4技术报告指出,调试环节并不会提升模型的性能,而是强化模型与人类的交互能力,符合人类的价值观等,甚至存在Alignment tax,即调优环节是在不同维度间调整模型的能力,优化一方面的能力会牺牲另一方面的能力。现有的研究表明,通过扩大Reward Model的规模能够优化RLHF环节模型的提升。Alignment方面,此前AI超越人类智能的相关研究不多,这方面仍需要进一步观察和跟踪。

总体而言,通过梳理现有研究,我们认为:

1)模型数据集、训练量的优化(包括对数据去重、数据集规模扩充)是重要方向;

2)初始化策略、加速优化器能够在小批量训练集中优化模型性能,大批量训练目前研究的上限是32K,这与训练速度存在权衡取舍;

3)模型压缩与内存管理、计算能力、下游部署等可能是大模型产品化落地的关键技术。近期陈天奇即相关团队MLC LLM项目热度较高,其将大模型部署至手机,这将大幅降低大模型产品的推广和部署门槛,打开to C产品的想象空间;

4)参数规模、知识图谱可能不是短期研究主要推进的方向。

风险提示: 新业务发展不及预期:AIGC及相关新技术领域仍处于快速发展阶段,技术距离成熟存在较大差距,当前发展预期可能存在过度乐观的情况,业务实际发展仍存在较大不确定性。宏观或行业环境变化:由于公司部分业务处于探索期或成长期,业务模式尚未成熟,同时宏观、行业环境可能发展变化,因此当前时点对未来的预判多数依赖上述环境变化不大或基本稳定的假设。若宏观、行业环境发生较大变化,公司业务受到的影响可能超出我们的预期范围。竞争加剧风险:公司部分业务如搜索广告等面临短视频、应用内搜索的分流,以及搜狗、360、bing等竞争者的威胁。

证券研究报告名称:《百度(BIDU):百度:大模型研究笔记(一)》

对外发布时间:2023年5月14日

报告发布机构:中信建投证券股份有限公司

本报告分析师:

孙晓磊 SAC 编号:S1440519080005

SFC 编号:BOS358

崔世峰 SAC 编号:S1440521100004

许悦 SAC 编号:S1440523030001

02

百度(BIDU):大模型研究笔记(二)

大模型规模竞赛强度有望下降,精益优化可能成为主要方向,如数据清洗、初始化策略、大批量训练等。 另一方面,模型压缩与内存管理、计算能力、下游部署等可能是大模型产品化落地的关键技术,有望打开未来to C市场的想象空间。我们认为中长期AI领域具备广阔前景,看好百度在AIGC领域的布局和先发优势。

模型结构方面,Context Window拓展下游应用场景。技术路线上,引入局部注意力机制能一定程度上延长context window,但难以实现量级的拓展。斯坦福大学和纽约州立大学团队于2022年5月提出的FlashAttention结合前述研究,并基于CUDA对底层内存读取做出优化,实现context window的大幅拓展。斯坦福大学和蒙特利尔大学的研究团队于2023年2月进一步提出Hyena架构,较此前FlashAttention进一步实现性能优化。

预训练环节存在广阔优化空间:

1)并行化环节,主要思路是结合模型并行与数据并行,并引入分片策略,核心差异在于分片应用环节不同,以及不同并行策略应用顺序的差异。从公开研究所披露的效果看,英伟达>谷歌>微软;

2)大规模计算集群方面,阿里巴巴在大规模计算集群的通信优化方面较为领先,同时在确定性网络、准确测量两条路径上均有重要工作,基本处于国内领先地位,与谷歌、思科等国际大厂仍存在一定差距;

3)内存置换与checkpoint优化方面,该领域偏向训练过程的工程技巧,法国国家信息与自动化研究所将offload与checkpoint结合,实现在训练环节降低训练损耗。此前,Google团队在Palm论文也提到对checkpoint做出的其他优化,提升模型训练的稳定性。

下游调试方面, 比较重要的研究来自微软和CMU研究团队于2021年6月提出LoRA,核心思想是通过秩分解矩阵来间接训练神经网络中的一些密集层,同时冻结预训练模型权重,降低存储占用,同时提升训练速度。LoRA降低了模型二次调优的门槛,并成为简单应用开发的重要技术。后续斯坦福大学研究团队基于LLaMA模型,收集ChatGPT回答并应用LoRA调优,实现低成本、高效率的小模型开发(参数规模在7~13B,远小于ChatGPT),并实现简单任务上的性能匹配。此外,Anthorpic与OpenAI引入基于AI反馈的强化学习(RLAIF),并实现无害性优化。

总体而言,基于《大模型研究笔记(一)》与本篇报告,我们认为:

1)模型数据集、训练量的优化(包括对数据去重、数据集规模扩充)是重要方向;

2)初始化策略、加速优化器能够在小批量训练集中优化模型性能,大批量训练目前研究的上限是32K,这与训练速度存在权衡取舍;

3)模型压缩与内存管理、计算能力、下游部署等可能是大模型产品化落地的关键技术。近期陈天奇及相关团队MLC LLM项目热度较高,其将大模型部署至手机,这将大幅降低大模型产品的推广和部署门槛,打开to C产品的想象空间;

4)部分模型能力如Context Window来自底层硬件约束,未来软硬一体可能是关键壁垒,对LLM厂商的全栈实力提出较高要求。

另一方面,对于全栈布局不足的厂商,开源大模型构建繁荣开发者生态也是一条可选路径,海外的开源社区迭代较快,能够推动LLaMA拉近与GPT-4的差距。

风险提示:新业务发展不及预期:AIGC及相关新技术领域仍处于快速发展阶段,技术距离成熟存在较大差距,当前发展预期可能存在过度乐观的情况,业务实际发展仍存在较大不确定性。宏观或行业环境变化:由于公司部分业务处于探索期或成长期,业务模式尚未成熟,同时宏观、行业环境可能发展变化,因此当前时点对未来的预判多数依赖上述环境变化不大或基本稳定的假设。若宏观、行业环境发生较大变化,公司业务受到的影响可能超出我们的预期范围。竞争加剧风险:公司部分业务如搜索广告等面临短视频、应用内搜索的分流,以及搜狗、360等竞争威胁。

证券研究报告名称: 《百度(BIDU):大模型研究笔记(二)》

对外发布时间: 2023年5月30日 报告发布机构: 中信建投证券股份有限公司

本报告分析师:

孙晓磊 SAC 编号:s1440519080005

SFC 编号:BOS358

崔世峰 SAC 编号:S1440521100004

许悦 SAC 编号:s1440523030001

免责声明

本订阅号(微信号:中信建投证券研究)为中信建投证券股份有限公司(下称“中信建投”)研究发展部依法设立、独立运营的唯一官方订阅号。

本订阅号所载内容仅面向符合《证券期货投资者适当性管理办法》规定的机构类专业投资者。中信建投不因任何订阅或接收本订阅号内容的行为而将订阅人视为中信建投的客户。

本订阅号不是中信建投研究报告的发布平台,所载内容均来自于中信建投已正式发布的研究报告或对报告进行的跟踪与解读,订阅者若使用所载资料,有可能会因缺乏对完整报告的了解而对其中关键假设、评级、目标价等内容产生误解。提请订阅者参阅中信建投已发布的完整证券研究报告,仔细阅读其所附各项声明、信息披露事项及风险提示,关注相关的分析、预测能够成立的关键假设条件,关注投资评级和证券目标价格的预测时间周期,并准确理解投资评级的含义。

中信建投对本订阅号所载资料的准确性、可靠性、时效性及完整性不作任何明示或暗示的保证。本订阅号中资料、意见等仅代表来源证券研究报告发布当日的判断,相关研究观点可依据中信建投后续发布的证券研究报告在不发布通知的情形下作出更改。中信建投的销售人员、交易人员以及其他专业人士可能会依据不同假设和标准、采用不同的分析方法而口头或书面发表与本订阅号中资料意见不一致的市场评论和/或观点。

本订阅号发布的内容并非投资决策服务,在任何情形下都不构成对接收本订阅号内容受众的任何投资建议。订阅者应当充分了解各类投资风险,根据自身情况自主做出投资决策并自行承担投资风险。订阅者根据本订阅号内容做出的任何决策与中信建投或相关作者无关。

本订阅号发布的内容仅为中信建投所有。未经中信建投事先书面许可,任何机构和/或个人不得以任何形式转发、翻版、复制、发布或引用本订阅号发布的全部或部分内容,亦不得从未经中信建投书面授权的任何机构、个人或其运营的媒体平台接收、翻版、复制或引用本订阅号发布的全部或部分内容。版权所有,违者必究。

关键词:

返回顶部