大语言模型发展研究及其在防洪“四预”平台智能交互的应用探讨
Development of large language models and their application in intelligent interaction on the “four pres” platform
郭磊,冯钧,直伟,周思源
(1.广东省水利水电科学研究院,510635,广州;2.河口水利技术国家地方联合工程实验室,510635,广州;3.广东省粤港澳大湾区水安全保障工程技术研究中心,510635,广州;4.河海大学,211100,南京)
摘要:大语言模型(LLMs)是近年来人工智能领域的重大突破,依托Transformer架构与自注意力机制,在超大规模参数下涌现出接近人类的自然语言理解能力,为人类认知、思考、判断和决策提供辅助。当前大语言模型在垂直细分领域的应用已成为热点,特别是基于MOE融合架构的DeepSeek开源发布,为行业大模型应用提供了更为便捷的技术路径,进一步推动了相关研究热潮。“四预”是基于数字孪生水利建设的新型水利智能业务应用,具有专业性强、业务链条长、系统架构复杂等特点,功能完备,但在易用性方面仍有优化空间。基于大语言模型的理解和推理能力分析,首次提出了大模型智能交互L0至L3级分类体系,以意图识别和智能调用为切入点,研究其支撑“四预”平台的交互应用场景和实现技术路径,提出了通过优化“预设内容”和叠加具体问题增强大模型输出确定性的方法,并在通用大模型上进行测试,探索大模型智能调用“四预”平台专业模型的路径,为提升防洪“四预”的交互友好性提供了可行方案,同时也为大语言模型在水利智能业务中的深度应用提供参考。
关键词:大语言模型;ChatGPT;DeepSeek;防洪“四预”;意图识别;模型驱动;垂直领域大模型;专业小模型
作者简介:郭磊,党委副书记,教授级高级工程师,主要研究方向为智慧水利、水文水资源、水力学及河流动力学等。
基金项目:广东省水利科技创新项目“广东省大中型水库汛期水位动态控制与洪水资源安全利用关键技术研究”。
DOI:10.3969/j.issn.1000-1123.2025.05.003
研究背景
1.总体思路
防洪“四预”基于数字孪生水利建设基础,融合前端感知、数据底板、模型平台、知识平台等功能模块,实现预报、预警、预演、预案,为防洪决策提供支撑。其在实际防洪调度中仍需完善,一是因平台系统交互复杂、业务流程链路长、专业性强、使用体验不友好,通常需信息技术和水利专业人员配合使用,影响了平台推广和扩展;二是专家经验和历史场景较难直接融入“四预”平台,如模型需由专业人员根据实际条件设定规则后才能调用,要求专业人员充分理解具体场景并熟练掌握模型特性;三是需要专家对模型计算结果进行判断,提出参数修改意见等;四是数据底板建设效用尚未全部发挥,如基础数据、业务数据、监测数据等工作成果较为扎实,但是构架于其上的应用功能智慧化不足。综上,需基于现有“四预”平台框架,优化交互方式,耦合专家经验和历史场景,充分挖掘数据和模型价值等,为防洪决策提供更好支撑。
大语言模型具备3个重要功能:语言理解和表达、知识存储和查询、推理。语言理解和表达使其具备意图识别能力,知识存储和查询使其具备行业领域专业技能,推理则使其具备判断、决策等高阶智能。对防洪“四预”平台而言,语言理解和表达可辅助交互操作,知识存储和查询可用于“四预”平台的业务链条存储、专家经验和历史场景存储、知识图谱构建等,推理则可用于“四预”平台体系辅助决策。
基于大语言模型以上基本能力特征,分析大语言模型应用技术路径,探索利用大语言模型辅助防洪“四预”平台的交互驱动,以意图识别和智能调用为切入点,分析大语言模型交互的优势和不足,为后续大语言模型在更深层次、更广范围实现对“四预”平台的辅助使用提供借鉴。
大语言模型发展及特点
1.大模型的发展
大语言模型属于大模型的一种。2022年11月30日ChatGPT的发布引发大模型研发热潮,经过近2年的技术进化和快速迭代,大模型种类、数量、能力等均呈现暴发式增长,其推理能力、参数优化、架构、多模态支持等方面都在不断进化,应用场景日渐丰富。当前,综合类大模型国外有OpenAI公司OpenAI o1、Gpt-4o,Anthropic公司的Claude,谷歌公司的Gemini,Meta公司的Llama等;国内有文心大模型、Qwen、GLM、云雀、Kimi、豆包、星火等。特别是2025年年初DeepSeek的R1版本发布,刺激了大模型技术和性能的快速提升,促使各行各业加速智能布局和迭代,推动大模型的广泛应用。截至2025年1月底,全国已有302个生成式人工智能服务通过国家网信办备案。另外,人工智能也写入政府工作报告,明确要“深化大数据、人工智能等研发应用,开展‘人工智能+’行动”。由此可见,无论是政界、学界、技术界还是社会公众都极大关注人工智能特别是大模型发展。探索大模型在行业领域的应用成为当前研究的重点和热点,并预期对各行业规则和业态产生革命性或颠覆性深刻影响。
2.分类及能力
就通用大模型而言,其泛化性(训练样本集之外的表现能力)、专业性(特定领域问题的准确性和效率)和经济性(投入产出比)之间存在“不可能三角”,另外灵活性和安全性方面也存在一定不足。为促进应用落地,在通用大模型基础上进行优化和改造,形成适应特定场景的垂直领域大模型和专业小模型是大模型应用的路径之一。通用大模型具有全面知识能力,重在知识“广度”;垂直领域大模型在领域内具有更多数据和知识训练,重在知识“深度”;专业小模型则更加聚焦行业领域单项能力或缩小模型规模,重在应用“灵活度”。一般而言,通用大模型作为底座和基础,垂直领域大模型在其上通过微调融入行业知识、逻辑和专家经验,具备行业“广而深”特点,而专业小模型则是在垂直领域大模型基础上,通过微调、量化和蒸馏等技术,将其转变成小模型,使其具备垂直领域大模型基本能力,但减少模型量以增加应用灵活程度。各类模型分类与关系如下表和下图所示。
大模型分类及特点
模型关系
就能力而言,通用大模型属于“全科医生”,覆盖全领域知识,遵循规模化法则(Scaling Law),其通用能力也不断增强。在翻译、棋类等某些领域,通用大模型甚至超过了当前人类的能力水平。垂直领域大模型属于“专科医生”,聚焦在某特定领域,具有较高的专业性和精度,其能力可能超过行业专家平均水平。专业小模型虽规模最小,像个“赤脚医生”,能力可能高于通用大模型而低于垂直领域大模型,但是其实用性、灵活性更高。当前通用大模型仍持续进化和迭代,能力不断增强,领域覆盖能力不断提升,未来实现通用人工智能(AGI)充满无限可能。各类模型能力范围如下图所示。
各类模型能力范围
3.不足及趋势
(1)不足和风险
一是大模型的不确定性增加了应用难度。实际场景通常要求高度确定性,而大模型作为巨量参数的数学概率模型,其输出存在不可控的随机性,相较于严谨的数学模型或机理模型,可能带来更高的不确定性和风险。
二是“不可解释性”给使用者带来疑惑。大模型因其“黑盒模型”的不可解释性存在“幻觉”、偏差、公平性、知识产权、意识形态等风险,影响在特定行业的应用。
三是“数据”问题。数据来源、质量及内容安全难以保障,行业模型还存在数据“霸权”“伦理”等问题。
(2)发展趋势
一是继续提升通用大模型能力是主要趋势。通用模型技术能力提升依然是角逐的主战场,随着通用模型能力增强,各类模型融合统一是未来趋势,DeepSeek-R1和Grok3的发布将加速模型融合。
二是轻量化依然是重要应用发力点。C端(消费端)应用是行业快速发展的主赛道,而轻量化是C端应用的前提。
三是跨模态是发展方向。更多高阶应用,如预测能力、决策能力等需要跨模态能力的支持。
四是研究中心逐步向高阶认知智能转变。大模型在“听、说、看”等感知领域已接近或超越了人类水平,在理解、思考和创造等认知领域取得显著进展,大模型研究重心逐步向认知智能转变,这成为新一代人工智能发展趋势。
大语言模型应用技术
1.应用类别
大模型落地应用技术路径较为清晰,但效果参差不齐,“门槛不高,天花板高”是其特征。通用大模型主要面向C端,泛化能力较强。垂直领域大模型主要面向B端(企业端)应用,如智能制造(优化生产流程、提高生产效率和产品质量)、金融(信用评分、风险管理、欺诈检测和算法交易)、教育(定制优化培训方案)、水利(水文、决策支持)、医疗(辅助诊断)、能源(优化电网管理)、交通(优化路线规划)、农业(预测作物产量、智能施肥)等。相比通用大模型,垂直领域大模型在数据质量、安全、隐私保护、成本控制等方面具有优势,是大模型落地应用的主要模式之一。专业小模型对终端要求低,可用于端侧设备,如移动设备、边缘设备等,其灵活性和经济性强,是专业领域面向C端应用的主要模式,在消费终端的产业界备受关注,如苹果公司参数量为3 B且可在手机端直接运行的纯端侧模型Apple On-Device、谷歌DeepMind的开源小模型Gemma 2 B、DeepSeek蒸馏的1.5 B或7 B小模型等,可以广泛应用于本地工作站、个人电脑、手机等边缘设备,用途更为广泛。
2.应用技术
大模型领域应用路径有4种,包括提示词工程(Prompt)、检索增强生成(RAG)、微调(Fine-tune)和预训练(Pretrain),如下图所示。
大模型领域化应用技术路径
提示词工程比较适合快速探索应用,如对话系统、文案创作、流程定制等;优化提示词可以显著提升生成内容的质量。提示词优化方式包括少样本提示、思维链等。特点是实操简便,不需要调整大模型,但对基座大模型能力依赖性较强,提示词的设计质量对结果影响很大。
检索增强生成技术是对提示词工程的强化,通过引入外部数据库,并依据用户输入(Query)检索得到相关信息(Context),将其和提示词一并输入大模型,其本质是给定样本的提示词方式,对外部数据库的向量化、排序及检索技术等较为敏感,技术难度不大,无需对大模型进行调整,还可以利用当前的外部知识,应用广泛。
微调技术是利用专业数据集对基座大模型进行布局的参数调整,使得通用大模型对专业领域更加适应,具有较高的专业泛化性。常用技术方法有监督微调、低秩调整等方式。需局部调整基座大模型,技术难度较大,对专业数据集的质量要求较高,目前在领域应用较为广泛。
预训练则是基于领域知识重新构建或全面调整基座大模型,技术难度大,资源要求高,投入大,周期长,专业性强,目前应用较少。
3.行业应用难点
不确定性是大模型的应用难点之一。为了增强大模型确定性,可以对不同应用方式或阶段输入更多“确定性”,如在训练基座大模型阶段提高训练数据集的确定性和质量,对检索增强生成方式提高外部数据和检索结果的确定性,对提示词工程录入更多确定性样本或设计高质量思维链等。需要指出的是,大模型架构和原理决定了其本质是“黑箱”模型,不可解释和“幻觉”不可避免,因此在行业应用特别是对结果的确定性要求比较高的行业,大模型定位是“助手”而非“决策者”。
领域知识提取和模型适配与优化是难点之一。领域知识高质量提取较为困难,领域知识图谱构建复杂,模型的适配和优化难度较大。
伦理与安全问题影响模型应用落地。大模型的学习训练数据中可能存在偏见,并产生歧视性输出;模型可能生成虚假、误导性信息;模型可能被恶意利用造成不良社会影响,最终影响领域应用信任性等。
大语言模型智能交互分析
1.智能交互分级
从大模型与系统平台的交互融合深度而言,可将智能交互分为4个层级,即L0、L1、L2和L3(见下表)。
智能交互分级
第一层级是模拟操作(L0级),大模型类似模拟人类操作系统,基于平台交互界面,快速定位平台内置功能,包括查询、模型调用、计算、结果展示、简报生成等,L0级交互通过监督学习来熟悉系统的功能,明确调用路径,人类参与程度高。
第二层级是智能分析生成(L1级),交互模式是基于垂直领域大模型,其具备读懂专业领域知识的能力,并经过监督学习熟悉了数字孪生平台的业务逻辑和框架体系,基于数字孪生水利平台的后台数据、模型和知识,进行综合交互,具有“生成”能力,不局限于平台前端已有功能的调用能力,具有理解提问者意图,并通过后台数据进行分析整理提供“专业答案”的能力,人类参与程度较高。
第三层级为类Agent的交互模式(L2级),在平台已有信息和功能基础上结合大模型已有的专业基础知识,对相关外部知识进行融合和调用并综合提出决策建议,人类的参与程度为一般。
第四层级是自主决策(L3级),属于类“智人”型自主交互模式,可根据平台数据和业务逻辑情况,结合调用外部已有的知识,自行开展决策,并对需要人类加入的部分进行主动式交互。
2.“四预”平台交互流程
按上述大语言模型智能交互分级,L0~L2级均需人类参与,L3级人类较少参与。对于人类参与的L0~L2级交互,人类作为决策事项发起方,首先要提出问题、需求和要求,大语言模型在理解问题、需求和要求的基础上,结合自身的语义识别能力、通用或水利专业知识、学习到的平台功能等,确定解决问题的业务流程;然后根据业务流程逐步执行模型平台功能,包括数据采集生成、模型调用驱动计算、结果展示、预案制定等。最后根据现状、历史场景和预案等,综合给出推荐的决策建议,如下图所示。
“四预”平台智能交互流程
“四预”平台意图识别和模型调用
意图识别是大语言模型辅助交互的核心,而模型是“四预”平台的核心。因此以意图识别和模型调用为例,说明大语言模型交互技术的实现。
1.意图识别技术
大语言模型本身具有一定的意图识别能力,就“四预”平台而言,需提高其防洪专业或者“四预”平台专业意图识别能力,实现任务分解或确定业务流程。技术实现方法通常包括上下文理解和多轮对话、规则或模式匹配、思维链、专业小模型等。主要体现在:
一是上下文理解和多轮对话,采用Prompt方式,将输入(Query)和平台功能集作为Prompt方式,并结合多轮交互对话,最终确定意图功能点,技术难度小,效率不高,效果与平台功能集质量相关。
二是规则和模式匹配,其要求“四预”平台或行业领域专家定义一系列规则来捕捉特定意图,优点是简单直接,易于理解和维护,但是难以覆盖所有情况,扩展性和泛化能力较弱。
三是思维链形式,提前设定“四预”平台业务链条过程作为大模型默认输入,让其“照葫芦画瓢”。
四是专业小模型方式,可以理解为“四预”平台的助手,通过基于通用大模型和平台功能及数据的微调,形成一个功能聚焦的交互小模型,实现难度相对较大,在“四预”平台内的泛在性较好。意图识别技术如下图所示。
意图识别技术
针对“四预”特定场景,例如“未来三天石角站最高水位多少?”,以上下文理解和多轮对话为例,说明其意图识别实现,过程如下图所示。
上下文理解和多轮对话示意
采用预设内容和Query作为Prompt方式,预设内容限定多轮对话内容、范围等。当Query输入:“未来三天石角站最高水位多少?”,是将预设内容和Query同时输入给大语言模型,大模型会根据内容进行第一轮回复。然后第二轮Query:“加入决策建议,并完成流程图绘制”,将“预设内容+Query1+第一轮回复+Query2”同时输入给大模型,则得到第二轮回复,以此类推经过多轮对话,生成Markdown格式的业务流程图。
需要指出,大语言模型生成的业务流程精准度与预设内容设计相关性较大。根据平台功能库和大语言模型结合方式及专家经验,形成质量较高的预设内容,然后通过优化对话轮次和回答精准度,可提高生成的业务流程精准度。因此,对于防洪“四预”平台,统筹开展业务流程数据集汇聚,对相关的业务流程、技术规范、标准、指引、指南等进行“量化”、“结构化”或者自然语言处理,形成通用和标准的规则、模式或知识库和数据集,可有效提升大模型智能交互的确定性,提高决策支持能力和效率。
2.模型调用
模型调用的基础是意图识别,当生成的业务流程中涉及模型使用的时候,由大模型智能调用专业模型进行计算。首先大模型根据调用模型类别,调用已有库中的中间数据交换格式文件,并根据现状录入或交互录入模型参数,生成可执行的中间数据交换文件进行驱动,通常的中间数据交换格式包括XML、JSON等,然后通过大模型,调用接口(API)驱动平台内置的水利专业模型进行计算,具体如下图所示。
模型调用示意
总结和建议
1.总结
“四预”平台在防洪决策中发挥了重要作用,针对“四预”平台普遍存在的交互复杂、专家经验融入难等问题,基于大语言模型在理解和表达、知识存储和查询、推理能力等应用分析,结合当前大模型技术落地应用主要技术路径,浅述了利用大语言模型优化“四预”平台交互的路径,并以意图识别和智能调用为例进行了说明。
2.建议
大模型是人工智能技术发展的重要里程碑,也是人工智能技术可与千行百业进行直接链接并注入智能的重要手段之一。尽管当前大模型还存在不确定性、“幻觉”、安全等方面的问题,领域应用成效还缺乏广泛性,但随着大模型能力不断提升和外围技术不断迭代,大模型领域应用将不可或缺。防洪“四预”平台是水利防洪调度的重要利器,探索大模型应用于防洪“四预”平台,增强平台在实战中的高效性和实时性,提升平台的生命活力和韧性,更好助力防洪调度,具有必要性和紧迫性。
为进一步提升大模型的水利应用支撑能力,建议如下:
①统筹水利垂直领域大模型的开发。水利知识边界是有限的,统筹开展水利业务数据集、专业知识集、标准规划集、水利模型集等数据集建设,基于结构化知识体系,训练以通用大模型为底座的水利垂直领域大模型,构建行业内的水利大模型用户生态体系,通过不断迭代升级,提升水利大模型的泛化能力和确定性,打造“能用好用管用”的水利垂直领域大模型,助力水利新质生产力发展。
②探索水利领域的专业小模型研发。基于水利垂直领域大模型或通用大模型,通过蒸馏、量化等形成更小参数量的水利领域专业小模型,推进水利行业端侧,如前端感知设备智能监测、图像和视频识别判断等应用。
③探索大模型与水利传统专业模型的融合。传统的机理模型或概念模型在精度上具有一定优势,而大模型在速度上更加突出,为适应数字孪生水利特别是“四预”的实时性要求,需探索大模型与水利专业模型的融合,在确保精度的同时提升决策的速度。
④探索大模型在水利科研中的应用。传统水利工程建设的科研课题往往通过数学模型、物理模型等手段进行优化论证,尝试借助大模型手段进行辅助研究,探索研究方法和路径,助力水利科研高效优质发展。
Abstract: Large language models (LLMs) have emerged as a significant breakthrough in artificial intelligence in recent years. Leveraging the Transformer architecture and self-attention mechanisms, these models exhibit near-human natural language understanding capabilities at an ultra-large scale, assisting human cognition, reasoning, judgment, and decision-making. Currently, the application of LLMs in specialized domains has become a focal point, especially with the open-source release of DeepSeek based on the Mixture of Experts (MOE) architecture, which offers a more accessible technical pathway for industry applications and further stimulates related research. The “four pres” (forecasting, early warning, pre-planning, and emergency response) in flood control represent a novel intelligent business application in water conservancy based on digital twin technology. This system is characterized by strong specialization, lengthy business chains, and complex system architecture. While functionally comprehensive, there remains room for improvement in usability. Based on an analysis of the understanding and reasoning capabilities of large language models, this study proposes, for the first time, a classification system for intelligent interaction with large models, ranging from L0 to L3 levels. Focusing on intent recognition and intelligent invocation, the research explores application scenarios and technical implementation paths that support the “four pres” platform. Methods to enhance the output certainty of large models are proposed by optimizing “preset content” and incorporating specific problem overlays, which are tested on general large models. The study also explores pathways for large models to intelligently invoke professional models within the “four pres” platform, providing feasible solutions to improve interactive friendliness. Additionally, this research offers valuable references for the deep application of large language models in intelligent water conservancy business.
Keywords:large language models (LLMs); ChatGPT; DeepSeek; “four pres” in flood control; intent recognition; model-driven; vertical domain large models; specialized small models
本文引用格式:
郭磊,冯钧,直伟,等.大语言模型发展研究及其在防洪“四预”平台智能交互的应用探讨[J].中国水利,2025(5):29-36.
封面供图林晓敏
责编李博远
校对董林玥
审核王慧
监制轩玮
声明:本文系转载自互联网,请读者仅作参考,并自行核实相关内容。若对该稿件内容有任何疑问或质疑,请立即与铁甲网联系,本网将迅速给您回应并做处理,再次感谢您的阅读与关注。
不想错过新鲜资讯?
微信"扫一扫"