华东政法大学:通用大模型(ChatGPT)的进展、风险与应对_第1页
华东政法大学:通用大模型(ChatGPT)的进展、风险与应对_第2页
华东政法大学:通用大模型(ChatGPT)的进展、风险与应对_第3页
华东政法大学:通用大模型(ChatGPT)的进展、风险与应对_第4页
华东政法大学:通用大模型(ChatGPT)的进展、风险与应对_第5页
已阅读5页,还剩101页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

人工智能通用大模型(ChatGPT)的进展、风险与应对01通用大模型的近期进展0202各国通用大模型的能力比较003通用大模型的治理风险评估004通用大模型的风险应对策略通用大模型的近期进展大模型的发展历程预训练模型的发展历程大模型的内涵与特征运大模型的发展历程预训练模型的发展历程大模型的内涵与特征运行机制三大特征多模态预训练模型1 通用大模型的近期进展1大大模型的发展趋势“大模型”和“小模型”协进通用化与专用化并行平平台化与简易化并进11通用大模型的近期进展44544/5555545/5555545/55Transformer(主Transformer(主等架构微调以应用不同场景(专家)通过海量数据进行预训练(通才)1.1大1.1•大模型是指容量较大,用于深度学习任务的模型,通常具有海量的参数和复杂的架构。•大模型具有更好的通用性、精度和效率,可以通过预训练或其他方式在大型数据集上进行学习,再通过微调高效地处理计算机视觉、自然语言处理等复杂任务。解解决各种复杂任务预训练模型的运行机制6/5566546/556654扩展性复合性解决传统AI的问题增强AI的能力扩展性复合性解决传统AI的问题增强AI的能力撑智能终端、平台、部署难等问题。在海量通用数据上预训练以具备多种基础能力,摆脱传统人工智能能力碎片化、作坊式开发的局限。1.1大1.1涌现性涌现性强强化技术的融合合式涌现。7/5577547/557754多语言预训练模型多模态预训练模型具备多样化的基础语言能力,多语言预训练模型多模态预训练模型具备多样化的基础语言能力,开始分别处理多种自然语言任务,如机感分析等。以多语言训练模型为核视频的同步转化,实现处理多任务的目标。1.2大模型的发展历程1.2单语言预训练模型单语言预训练模型于早期的词嵌入(wordembedding)的工作。1通用大模型的近期进展8/551.2大模型的发展历程1.2•多模态预训练模型:人工智能如何理解世界?·语音文本视觉多模态预训练模型处理多任务理解式任务生成式任务应用领域进展深度多任务学习能够应用于医学影像分析中金融同一海量数据的多任务处理工业Multi-Task经典模型结构;全空间多任务模型ESMM教育多模态与多任务预训练模型的结合应用增强模型抗攻击性模型剪枝参数共享知识蒸馏减少信息泄露风险降增强模型抗攻击性模型剪枝参数共享知识蒸馏减少信息泄露风险降低运行碳排放量低秩分解小模型的好处模型压缩技术1.1.算力要求过高量化2.显存占用过大1.推理增速有限2.训练时长增加1.经济成本激增2.能源消耗剧增大模型的限度11通用大模型的近期进展9/55作为样本价值判断模型,小模型可以帮助大模型快速学习利用小模型作为Teacher,可以帮助大模型快速收敛大模型小模型借助知识蒸馏等技术作为样本价值判断模型,小模型可以帮助大模型快速学习利用小模型作为Teacher,可以帮助大模型快速收敛大模型小模型借助知识蒸馏等技术,大模型的能力可以传给小模型改进知识蒸馏等技术,大模型一次可以产出多个小模型如如何实现大模型和小模型的联动和互助展10/551.3多模态表征学习多任务处理多模态编码统一模型框架1.3多模态表征学习多任务处理多模态编码统一模型框架迁移学习单单模态1.1.从算法只能处理一种模态到可以处理多种模态2.从算法仅能基于一种模态学习并只能应用于该模态到可以学习并应用于多种模态11通用大模型的近期进展11/551.3应用需求业务场景应用 技术落地基础框架1.3应用需求业务场景应用 技术落地基础框架通通用预训练专用领域预训练反哺技反哺技术●统一架构:使用统一的模型架构,并采用相同的学习模式●统一模态:构建可以适用于多种模态的通用词表●统一任务:将所有任务统一成序列到序列任务展12/5513/55推理部署便捷微调能力低参数调优能力1.推理部署便捷微调能力低参数调优能力1.3模型开模型开发数据增强和清洗能力并行计算能力存储优化能力自适应分布式训练能力弹性容错训练能力场场景适配大大模型和小模型无缝联动能力自适应分布式推理能力自动化压缩能力加密部署能力全能、简易开发服务平台各国通用大模型 的能力比较为何中美之间会存在如此差距?原创能力引言:各国通用大为何中美之间会存在如此差距?原创能力引言:各国通用大模型的技术进展技术配套制度环境2各国通用大模型的能力比较/55发展差距中国对大模型相关领域的布局情况其他国家大模型技术的发展情况2 各国通用大模型的能力比较2美美国目前通用大模型的发展现状2引言:各国通用大模型的技术进展2•ChatGPT(GPT,GenerativePre-trainedTransformer,生成预训练转换器)的出现反映出了人工智能发展的新趋势,即AI正在从感知智能向认知智能快速发展。•美国作为人工智能发展领域的前沿国家,其拥有一系列具备充足技术和资金资源的公司和实验室,如谷歌、微、OpenAI等。•中国作为人工智能领域发展的重要参与者,中国正在加快其在通用大模型领域的投资与研究。例如,百度、腾讯、阿里、科大讯飞等大型科技公司正在加速开发该领域的技术。/55/55/552.1美国目前通用大模型的发展现状2.1•美国目前的科技巨头公司,如谷歌、微软、亚马逊、Meta等都在通用大模型上进行了进一步的布局与投资。•StabilityAI等AI初创公司同样表示将积极布局AIGC、ChatGPT等相关技术和产业。模型名称开发公司技术支持参数量耗费算力主要特点应用范围局限性ChatGPTOpenAIGenerativePre-trainedTransformer3.5千亿级3640PetaFLOPsperday支持连续对话、可质疑、主动承认错误、加入RLHF训练范式文本编辑、算术无法进行网页搜索、黑箱问题Claude (封测)Anthropicconstitution-alAI520亿最大化积极影响、避免提加入RLAIF训练范式较ChatGPT文本编辑更长且自然较ChatGPT代码推理更弱Bard (内测)谷歌LaMDA较ChatGPT算力需求更低可以根据最新事件进行对话、更负责任将加入ChromeOS为搜索引擎犯事实性错误/55/552.1美国目前通用大模型的发展现状2.1模型名称开发公司技术支持参数量耗费算力主要特点应用范围局限性BlenderBot3MetaOpenPre-trainedTransformer—改善其对未见任务的零样本和少样本泛化能力解问题全部访问权限受限制Megatron-Turing微软英伟达Transformer语言模型5300亿—高质量的自然语言训练语料库推理、词义消歧被ChatGPT反超•在人工智能大模型领域,美国各巨头科技公司均有相关的技术资源。•整体而言,目前ChatGPT的表现最为优异。即便是谷歌的Bard在实际表现上似乎也逊于ChatGPT。2.2中国对大模型相关领域的布局情况•继OpenAI发布ChatGPT大模型之后,中国的各科技公司纷纷加入了大模型开发和应用的队伍。例如、腾讯、阿里、百度、科大讯飞等科技巨头公司均有跟进大模型的研发与应用。•对目前国内大模型发展而言,我们与国外的差距重点不在模型,而在算力。模型名称开发公司技术支持参数量耗费算力主要特点应用范围局限性文心一言 (内测)百度基于百度知识增强大模型ERNIE3.02600亿较ChatGPT算力需求低生成式搜索、跨模态理解与交互文本生成、将加入百度搜索引擎生成文本较短通义M6TransformerderDecoderResNetBlocks能耗低国内首个AI统一底座、借鉴人脑的模块化设计图像描述、视觉定位、文生图、视觉蕴含用户使用量较少混元腾讯基于MoE模型的TransformerBlock万亿能耗较低理解、跨模态理解理解、文案生成用户使用量较少/5520/5520/552.2中国对大模型相关领域的布局情况模型名称开发公司技术支持参数量耗费算力主要特点应用范围局限性紫东太初中国科学院自动化研究所基于昇思MindSpore框架千亿全球首个视觉-文本-语音具备跨模态理解与跨模态生成能力跨模态检测、视觉问答、语义描述、视频理解与生成项目落地难盘古 (未上线)华为Encoder-Decoder架构千亿模型具备极佳泛化能力,效率高内容生成等模块化•在人工智能大模型领域,中国公司的科技实力与国外公司存在一定差距。•中国企业目前正在努力将之前的发展重点(单一模型对应单一任务的专用大模型)调整为通用大模型。例如,百度2023年3月即将推出“文心一言”通用大模型。华为、阿里和腾讯也表示将加快通用大模型的落地。21/5521/552.3其2.3模型名称开发公司技术支持参数量耗费算力主要特点应用范围局限性俄罗斯GenerativePre-trainedTransformer能耗较高采用Apache2.0授权,业免费使用生成和处理文本处于行业中下游Gopher英国DeepMindTransformer语言模型2800亿能耗较低超大型的语言模型阅读理解、事实核查、有害语言识别应用范围较窄HyperCLOVA韩国Naver暂无公开820亿提升韩语模型性能在韩语领域的文本生成多模态任务滞后Jumbo以色列A21LabsMRKL模块化推理、知识和语言系统能耗较高兼顾神经模型和符号推理能力转述、从文本中提取数字进行过滤2.4发展差距:为何中美之间会存在如此差距?•通用大模型的研发已经成为各国新一轮技术竞争的核心领域。•中国企业在原创能力、技术配套、制度环境三个方面,存在一系列亟待解决的问题。•这些问题制约了中国通用大模型的进一步发展,并导致中国与美国存在一定的技术差距。发发展环境技术实力原创能力22/552.42.4核心类型具体表现形成原因原创能力缺乏冒险精神在风险技术的投入上倾向于复制和追随缺少创新的社会文化学生缺乏独立思考和批判性思考试错空间小过快的竞争和成果产出节奏压缩企业的创新时间人才不足具有丰富经验的前沿人才不足23/552.42.4核心类型具体表现形成原因技术配套关键技术缺乏进一步突破在关键的人工智能算法上(算法透明度、鲁棒性等)存在痛点硬件基础设施不足外部制裁限制了中国高性能芯片的研发和生产数据质量不足中文语言的学习难度较大;外部数据的获取难度大内容生成的多样性不足算法模型与中文语境之间的匹配有待调试和完善24/552.42.4核心类型具体表现形成原因制度环境知识产权保护不足对既有权利人和AI生成物的知识产权保护不完善国际合作不足不确定的地缘政治格局限制了中国科学家的对外合作内容审查能力不足对AI生成内容的审核缺乏统一标准研发商业化程度不足市场的不确定弱化了外界的投资信心25/55通用大模型的治 理风险评估技术风险政治风险经济风险寡头垄断政治决策鲁棒性不足舆论引导颠覆性变革可解释性低技术风险政治风险经济风险寡头垄断政治决策鲁棒性不足舆论引导颠覆性变革可解释性低监管失能传统岗位替代算法偏见国际关系动荡世界分工重组3通用大模型的治理风险评估3社社会风险数字鸿沟侵犯个人隐私侵犯个人隐私诱发犯罪冲击教育体系27/55解决方法鲁棒性不足原因3.1解决方法鲁棒性不足原因3.1系统在面对黑天鹅系统在面对黑天鹅事件和对抗性威胁时表现出的能力缺失大大模型具有涌现性对抗样本干扰对抗样本干扰在具体应用场景中考虑更细粒度的安全问题 影响产生错误预测产生错误预测助长算法偏见引发社会风险 体现训练数据偏差训练数据偏差错误推理语言多样性缺失缺乏针对语义的上下文理解28/553.1可信度降低现有问题可控性较弱的原因3.1可信度降低现有问题可控性较弱的原因29/55人类难以理解模型的决策过程解释效果不理想缺乏统一的标准方法多结果少应用领域仍有限研究的局限安安全问题可可解释性的AI应用少3.1表现算法偏见l语料库缺乏代表性l机器学习习得人类偏见l数据来源不均30/553.1表现算法偏见l语料库缺乏代表性l机器学习习得人类偏见l数据来源不均30/55原因原因3.2数字鸿沟危害:u减少少数族裔或弱势群体的参与u加剧社会不公平3.2数字鸿沟危害:u减少少数族裔或弱势群体的参与u加剧社会不公平u降低模型可靠性模型的治理风险评估3社社会在信息层面所形成的不公平现象 (技术拥有者和技术缺乏者之间的差距)技术鸿沟表现:技技术主体之间技术主体与使用者之间各阶段数据技术行为主体出于自身利益虑,对其他行为主体产生戒备,数据交流共享难以畅通。大模型使用者,也即大模型技术的作用对象,是作为数据生产者的普通大众。他们面临的数字风险较高,而收益甚微。31/553.2模型设计推理能力三角互证与多重验证过程监测与跟踪产生的原因大模型方面数据方面3.2模型设计推理能力三角互证与多重验证过程监测与跟踪产生的原因大模型方面数据方面32/55数据来源数据来源恶意滥用“长尾效应”3.2诱发犯罪的类型信息欺诈网络诈骗仇恨言论3.2诱发犯罪的类型信息欺诈网络诈骗仇恨言论产生原因•语言模型辅助的内容生成技术以更加低廉的价格更加有效地生成虚假信息•大模型拥有创建高度逼真的合成文本或语音的能力•虚假信息识别难度提高侵侵犯知识产权33/553.2缺乏相关应对措施准备1.技术快速迭代与检测技术滞后之间的矛盾2.限时开卷考试等传统测试手段已基本无解3.2缺乏相关应对措施准备1.技术快速迭代与检测技术滞后之间的矛盾2.限时开卷考试等传统测试手段已基本无解社会因素:n现有教育体系缺乏应对准备n学生缺乏数字素养n就业压力和学业竞争加剧产产生原因技术因素:n高度逼真的合成文本能力n各类资料高度开源增加大模型应答准确性33.尚缺乏对大模型学术不端的准确界定标准44.监管责任主体缺失呃呃呃呃呃呃呃34/553.33.3作为当前AI领域的前大模型拥有广阔的应用空间。但当我们思考实际落地的诸方面时才发现:通用大模型远非真正的“通用”工具,是只有巨头才可以拥有的独享“权杖”。为何大模为何大模型落地难?巨头垄断趋势明显高昂的训练和能源成本高不成低不就存储数据模型的显卡至少价值200万元模型迭代需长期、大量人力投入所需数据量仅有巨头企业能满足得体的交互应对背后是聚沙成塔式的细节更新能耗=126个丹麦家庭的年能耗之和二氧化碳排放=行驶70万公里秒运算1千万亿次,需要运行3640天承担简单工作则入不敷出创造性岗位则难以胜任35/55优变革优变革3.3化变革••结合大模型的Bing搜索能实时抓取信息,对搜索涉及的事物进行自动关联,实现对制定旅行计划等开放性需求的回应。•搜索引擎将整合搜素、浏览、甚至决策的功能。影响颠覆颠覆•用户可以通过打字或语音交互直接输入自己的需求。•软硬件需要联合执行用户的础的物联网通用协议将可能达成。36/55经济风险:传统岗位替代内容生成型技术密集型数据预测型3.3为什么经济风险:传统岗位替代内容生成型技术密集型数据预测型3.3为什么37/55财务顾问数据分析师市场分析师会计师设计师码农程序员稿件采编广告制作律师助理••成熟的大模型计算能力更强,在文字处理和内容生成领域效率更高。•技术密集型工作的本质是一套操作流程,经过训练的专用模型可以轻松掌握。•目前在根据已有复杂数据做出判断和预测方面,大模型的能力不会比人类弱。3.33.3•美国在算力、算法、芯片等关键领域都有较大优势,有能力创造出先进生产力的“精英+AI”模式。•美国与中国、乃至全世界脱钩的成本大大降低,“小院高墙”足以自给自足。这将加剧技术保护主义思潮和逆全球化趋势。••其他国家,尤其是广大发展中国家在通用模型的研发领域与美国差距甚大。综合实力最强的中国在模型迭代方面也有较大上升空间。•基于自身先发优势,美国有能力构建一个新的、更固化的中心-外围结构。心化38/553.4政策决策忽视偏好问题•人工智能无法完全理解和回应政治决策对象的情感诉求。3.4政策决策忽视偏好问题•人工智能无法完全理解和回应政治决策对象的情感诉求。•大模型依据统计做出的政策建议或决策很可能回应性不足。政治决策风险政治决策机制重塑危险政治决策机制重塑危险•大模型将可能替代部分人力进行政策建议甚至政治决策。•政治决策者依赖大模型,导致政治治理能力下降及政策创新力匮乏。政政治决策信任度危机•大模型类人化程度极高,决策者和决策对象之间以此为媒介的沟通很难确认真实性。•政治决策者与诉求表达者之间出现双向信任危机。139/553.4意识形态武器化趋向•技术霸权国针对他国公众心理弱点,利3.4意识形态武器化趋向•技术霸权国针对他国公众心理弱点,利用大模型输出意识形态偏好。•针对目标国进行潜移默化的意识形态渗透和制度破坏,干涉他国内政。舆论引导风险潜移默化引导公众舆论潜移默化引导公众舆论•大模型的算法和数据的鲁棒性、透明度和可解释性弱。•真实性存疑的输出结果持续影响公舆论和观念。国家阐释权的趋国家阐释权的趋弱•大模型的高度拟人化和使用便利性将强化公件的解释权。•和国家的阐释权形成竞争,侵蚀国家权威性。140/55垄断•大模型必须的高投入导致科技巨头寡头化趋势。•巨头垄断将侵蚀国家治理能力。监监管化•大模型出现的虚假和错误难以识别和监管。•智能水军等造成巨大的监管压力。41/55联盟•大模型加剧广大弱势国家对少数优势国家的技术依赖。•大模型强化了西方价值观隐蔽的支配地位,大模型成为推动价值观联盟形成的工具。优优化•大模型的高昂投入和先发优势导致少数优势大国的垄断趋势。•围绕大模型的激烈竞争加剧优势国家的技术保护主义,弱势国家被迫选边站队,科技政治极化对抗风险激增。极化42/55加强市场应用增强竞争能力消除政治风险推动教育改革加强市场应用增强竞争能力消除政治风险推动教育改革4 通用大模型的风险应对策略4构构建法律之治防范失业风险44通用大模型的风险应对策略44/554.1积极责任原则•大模型服务提供者采取积极的、与技术水平相适应的风险控制措施。4.1积极责任原则•大模型服务提供者采取积极的、与技术水平相适应的风险控制措施。•在迭代中不断优化大模型系统的价值敏感设计。基本原则场景公正原则•在现实个案、具体风险源或法益损害场景中寻求公正与平衡的解决方案。•充分利用既有制度展开法律推理,避免形式主义和超越性的立法。风风险法治原则•坚持以法治原则应对大模型技术的潜在风险。•引导大模型技术的应用与发展尊重和依循人类社会的良善伦理与价值。创创新激励原则•充分考虑到保障社会创新活力的价值向度,切合技术发展实际和社会现实作出可执行的规制决定。•合理限度的责任豁免规则和试验主义的监管方式或许是可探索的方向。1通用大模型的应对策略45/554.1明确大模型服务提供者的积极责任•明确大模型服务提供者需承担积极采取与技4.1明确大模型服务提供者的积极责任•明确大模型服务提供者需承担积极采取与技术发展水平相适应的风险预防与控制措施的责任。•及时响应和处理监管要求和权利主体提出的正式侵权通知。制度建构在场景公正中作出法律推理•追究大模型恶意利用者的责任;•追究大模型服务商怠于履责的责任;•做好大模型相关的专项反垄断研判并细化取证流程。建建设大模型服务备案制度•经营者向公众提供大模型服务时,需向主管部门进行备案。•对于备案的经营者,政府可提供有限的责任豁免、监管沙箱、避风港规则等政策予以激励。探索大模型服务避风港规则•对于大模型系统中可能存在的对个体权益侵权(如知识产权、人格权、数据权),探索适用通知-移除规则;•设计大模型风险控制基金、保险等工具进行转移和补偿个体权益的损害。通用大模型的应对策略46/55政府提供相关配套措施的大力支持,包括硬件基础设施政府提供相关配套措施的大力支持,包括硬件基础设施投资预算和产业政策引导。头部企业发挥冒险精神,承担社会责任,以技术变革的魄力引领产业整体水平的提升。•应对科技竞争风险的关键在于整体性创新机制的构设。整体性创新机制包括企业创新、制度配套和联盟学习。政政府、企业和科研机构都应该建设学习交流机制,通过吸收先进地区的经验来降低试错成本、加快技术研发。通用大模型的应对策略47/55算法原始创新4.2增强竞争能力:培育持续性创新基础算法原始创新•应对科技竞争风险必须要在持续性创新基础之上推进。•中国在创新基础上的独特优势:不仅具备庞大的人口基数和海量数据,而且拥有强大的社会动员能力。高高质量数据库数数据是训练通用大模型所需的重要资源,中国需要在数据量和数据多样性上发挥独有优势。重点在于构建原创性的奠基式架构,而非在现有底层模型的基础上一味扩大模型规模。公公共算力基础由政府牵头设立的“算力池”能够为大模型开发提供公共算力。通用大模型的应对策略48/55面向•面向•产业求门槛。2.实现产业纵向与横向的精产品化升级与社区建设的全流程需求。4.3•通用大模型作为前沿技术,在提升产业流程效率、引领产业智能化等领域都具有创造性作用。•在实际应用环节,大模型依然面临重重阻碍。•为应对大模型应用落地难的问题,我们提出了面面向•1.发挥社会主义市场经济的加强协作机制。•2.积极推动中国企业以联盟或合作的方式开发开源大模型

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论