中国农业大学工学院张小栓教授课题组近期在 Journal of Industrial Information Integration 期刊上发表研究,提出一个面向作物病虫害智能诊疗的多模态大模型,命名为 CropGPT。该模型旨在解决当前农业病虫害智能诊断中多模态信息融合不充分、诊断过程缺乏可解释性、以及跨作物泛化能力不足等三个主要问题。

技术架构:视觉编码器与大语言模型的融合
CropGPT 采用端到端架构,将视觉编码器与大语言模型整合于同一框架内。视觉编码器部分设计了一个名为 DynamicFocus 的多尺度特征提取模块。处理田间作物图像时,该模块同步获取三个层次的信息:整株作物的全局缩略图、图像的高分辨率局部切片,以及通过语义引导检测技术自动锁定的病斑区域特写。这一设计旨在模拟植保专家先观察整体长势、再仔细检查病灶部位的诊断逻辑,从而提升复杂田间背景下的细粒度识别精度。
语言模型部分引入了诊断推理链机制。模型在输出最终病害名称之前,会先生成一段逐步推理的文字说明,内容涵盖主要症状特征、与典型病害特征的比对过程,以及得出诊断结论的依据。该设计意在增强模型的可解释性,使用户不仅获得诊断结果,也能了解结论背后的逻辑路径。

数据集构建与知识增强机制
研究团队构建了一个名为 CropInstruct 的专用数据集。该数据集包含 53 种作物、79 种病虫害,共计超过 25,000 条图文配对样本。数据来源有两类:一是调用 GPT-4o 和 Qwen-VL-Max 等模型对病害图片自动生成症状描述,并经植物保护专家审核校正后形成的样本;二是来自北京植物诊所自 2012 年以来积累的真实电子病历记录,这些记录经过区级和市级三重审核,涵盖 47 种作物在不同生长阶段和病情严重程度下的诊断信息。
此外,研究团队从《中国农作物病虫害》等权威农业书籍及官方植保文件中整理了一个知识库,涵盖 488 种病虫害,记录每种病害的症状特征、发生规律及防治要点。当 CropGPT 遇到训练数据中未出现过的作物或病害时,系统会从该知识库中实时检索相关信息作为辅助参考,实现零样本诊断,无需重新训练模型。
测试结果:诊断准确率与泛化能力
在对比测试中,研究团队将 CropGPT 与 GPT-4o、Qwen-VL-Max 等通用多模态大模型进行了比较。结果显示:
在病虫害诊断任务中,CropGPT 的准确率达到 93.1%,比上述通用模型高出 35 至 70 个百分点。
在图像症状描述的文本质量评估(BLEU-4 指标)上,CropGPT 比通用模型提升至少 44%。
在诊断推理的文本质量评估(BLEU-4 指标)上,CropGPT 比通用模型提升至少 47%。
即使提前告知通用模型候选病害类别,CropGPT 的诊断准确率仍然高出近 20 个百分点。
针对跨作物的零样本诊断能力,研究团队选取了 10 种模型在训练阶段从未见过的作物进行测试。配备外部知识库的 CropGPT 平均诊断准确率为 79.5%,而未配备知识库的同等配置模型准确率较低;同时,该结果比同等条件下的 Qwen-VL-Max 模型高出 7.3 个百分点。
配套研究:处方推荐模型 AgriPR
同一课题组在 Journal of Industrial Information Integration 期刊上还发表了另一项研究成果,即名为 AgriPR 的农业处方推荐模型。相关成果以《基于作物电子病历多模态信息的农业处方优化推荐系统》(Multimodal-information-based optimized agricultural prescription recommendation system of crop electronic medical records)为题发表于《工业信息集成杂志》(Journal of Industrial Information Integration)。

该研究针对农业处方推荐中″同病不同治、异病可同药″的决策特征,利用任务自适应预训练BERT与ConvNeXt分别提取文本和图像特征,并设计双线性注意力与多层特征融合机制,进一步结合Transformer强化关键跨模态信息表征,实现了对13类常见处方的精准推荐。结果表明,该模型在真实植物诊所数据集上的分类准确率达到98.88%,显著优于现有方法,并在噪声图像、不完整模态输入及缺失部分病情信息等条件下仍表现出较强鲁棒性,为模型在真实农业场景中的应用奠定了基础。


