9月7日,腾讯混元大模型在“2023腾讯全球数字生态大会”上正式亮相,全链路自研、实用级、行业应用、产业发展和生态共建是混元大模型的几个特点。基于自身拥有的大批数字化产品、多种应用场景以及长期运营沉淀的海量数据,腾讯具备了推出大模型的基础条件。记者就如何更好实现通用大模型的产业价值,采访了全国政协委员、中国科学院计算技术研究所研究员张云泉。
全国政协委员、中国科学院计算技术研究所研究员 张云泉
张云泉认为,大模型并非只是满足消费者利用不同的Prompt(提示词)获得“一本正经说胡话”的娱乐消遣,最终应该对用户、企业或机构带来业务价值,推动产业升级发展。未来大模型的发展方向就是要“收放自如”,才能真正体现其巨大的产业价值。
“放”是目前通用大模型正在走的一条道路。无论哪个大模型都在不断突破训练数据的规模,迫使机器学习也从“深度”走向“宽度”,试图通过大数据、大算力实现“大力出奇迹”的效果。通过自学习过程不断验证模型设计的合理性,并持续进行调优适配,最后得出符合自身规律的训练成果。
但基于“社会大数据”的通用大模型训练成果几乎无法给具体企业或机构用户带来直接价值。除了大部分企业客户并不了解大模型的应用特征,以及如何为其所用之外,还有两个重大原因:一是行业差异使得通用大模型无法结合行业属性,更无法理解企业个性化需求。二是企业数据通常是其体现竞争价值的商业秘密,通用大模型无法获得或短期积累专业化、个性化的数据。即使有一部分类似数据,也无法达到训练要求的数据规模。
因此,行业特征明显的垂直大模型正如雨后春笋般涌现。一方面,“行业中数据”具备了训练中小模型的数据要求。无论是石油石化,还是生物医药,其产品研发或生产经营决策过程中,本来就需要基于大数据分析成果来支持业务决策。大模型的MaaS训练方式在继承传统数据分析模型的基础上,加上LLM大模型的训练方法,会产生更多火花。另一方面,企业决策本身也需要行业数据的支持,行业大模型对企业的指导意义更加直接。
“收”是大模型应用的逐步收敛过程,也是未来大模型需要持续发力的地方。即通用大模型或行业大模型的训练成果需要通过开放接口等方式为更多企业所用。企业借此可以建立基于自身个性化需求和“业财小数据”的“模型”训练,利用“智问智答”的方式,构建符合企业规范的Prompt体系,直接指导业务决策。“收放结合”让企业既可以保全内部数据的私密性,又能获得“社会大数据”、“行业中数据”的大模型训练成果。
“自如”则是大模型训练成果和企业应用完美融合的高级阶段。通用大模型、行业大模型和企业应用之间不仅实现应用方式、模型设计的持续调优,也是合规可控条件下实现数据的双向互动。链主企业甚至通过开放其掌握的先进模型和数据,让上下游生态获得可以获得更好发展,同时反哺链主企业开拓业务领域,实现共建共赢的良好生态发展目标。
由此可见,“收放自如”是未来大模型体现产业价值的发展方向。既是各类大模型不断寻找市场定位的实际状况,也是广大企业渴望获得大模型支持的巨大潜在需求。腾讯混元大模型的正式亮相,也在验证这样一条发展道路。
首先,腾讯拥有云计算、社交、广告、会议、文档等通用型应用产品,也有游戏、金融等行业化垂直应用。一方面,混元大模型可以方便地接入“全链路”应用,提升产品应用能力;另一方面,这些应用产品为大模型训练提供了大规模、高质量、多样化的语料库,让大模型学习到各类应用场景中丰富的语言知识和语境理解能力。腾讯混元与腾讯业务产品之间的双向互动能够满足其不断模式调优的需要。
其次,实现“实用级行业应用”是其生态共建的目标。腾讯在企业级应用方面具有非常强烈的意愿和“被集成”的谦卑心态,无论是企业微信、腾讯会议或金融服务,都保留开放的API,希望让更多企业接入,共创产业生态价值,这正是前文所述的 “收敛”模式。这一模式让通用大模型走向行业应用,走入企业内部应用集成。
第三,算力产业需要更多杀手级应用的共创共建。算力需求井喷正在遭遇结构化需求失衡。一方面GPU算力供应不确定性因素太多,成本高昂;另一方面,国产算力生态需要更多大应用、大软件的扶持,才能更快建立国产算力生态的良性循环,减缓对GPU显卡和服务器的供应依赖,降低运营成本。
张云泉强调,在国产大模型风起云涌的今天,既要关注大模型应用的“收放自如”,又要关注从芯片、显卡、服务器、培训、推理等整个产业链的平衡发展。既要满足市场对GPU、CPU算力的需求,又要扶持国产算力的稳健发展,需要业内从业者的共同努力。
免责声明:此文内容为本网站刊发或转载企业宣传资讯,仅代表作者个人观点,与本网无关。仅供读者参考,并请自行核实相关内容。