近日,国家数据局在2025中国国际大数据产业博览会高质量数据集主题交流活动上发布《高质量数据集典型案例》,先正达集团中国旗下中化农业MAP自主研发的″农业主粮作物时空耦合高质量数据集″从663家参选单位中脱颖而出,入选典型案例名录。
高质量数据集是指具有一定主题,能够准确、高效地用于训练和评估机器学习模型的数据集合,具有完整性、准确性、及时性、一致性、相关性等特征。高质量数据集能够帮助数据分析、机器学习和模型计算获得更可靠的结果。
农业种植类数据来自于农业生产过程记录的各种文本、图像等数据,是农业数据中最具价值的数据,但存在数据分散、标准不统一、单点离散、时间与位置信息错配、多模态数据割裂等问题,给高质量数据集的建设带来困难。
为此,中化农业MAP构建了统一的数据标准和采集体系,打破图文数据割裂采集的模式,实现贯穿地块、空间和时间的数据串联,将零散的″数据碎片″拼成一张完整的、有时序的″种植数据地图″。同时,基于自然语言处理(NLP)与大语言模型(LLM)的生成能力,中化农业MAP将分散的结构化数据,自动生成为农业场景的描述文本,并结合语义生成语料数据,为农业AI大模型提供准确性与适用性兼具的高质量数据集。
使用高质量农业种植数据集训练、微调后的农业AI大模型,能针对细分农业场景(如品种推荐、营养配比方案、农药配比方案等),提供细化且可执行的量化方案,从而推动AI大模型技术在农业场景中落地实施。
此次成功入选典型案例,得益于中化农业MAP在农业大数据领域的三大创新点:
多模态数据,时空耦合处理创新
中化农业MAP以文本、图像、视频等多模态数据与结构化数据处理为核心,以农场为载体,以作物生长过程为时间轴,实现数据在时间与空间维度的串联与信息互补,构建了从宏观到微观的多尺度、多维度融合数据。
此外,在结构化数据处理中,中化农业MAP根据农业应用场景,将原本零散的数据自动转化为贴合种植场景的描述文本。以此为基础,结合知识图谱技术构建领域知识库,批量生成用于大模型训练的农业高质量数据。
线上线下协同专家评审的数据标注机制创新
通过线上线下一体化的业务服务体系,中化农业MAP自主研发了集业务服务和数据采集于一体的线上平台。通过数据平台,实现数据实时自动化汇集,并完成数据自动标注和专家的人工审核。对于不确定的标注内容,平台会分派属地化农业专家进行研判和校准,从而提高数据的标注准确性。
在此机制下,数据标注准确率可达到98%以上,为农业大模型训练提供高质量数据集。此外,标注后的精准数据可对预标注模型进行微调,进而形成更准确、更高效的自动化标注能力。
用户参与的闭环数据采集模式创新
在图片采集场景中,用户拍照识别后上传的图片,会经过自动化标注处理进入专家审核平台,由专业人员对标注结果进行复核和确认,确保高质量图文数据可以更新到数据集中,以用于进一步训练、迭代产品功能,从而更好地服务于用户。此模式下,数据的采集者也是应用者和反馈者,形成了从数据采集到应用迭代的闭环模式。
此外,在数据采集方面,中化农业MAP依托线上线下的服务体系,将线下遍布全国的技术服务中心和农艺师团队,与业务软件、物联硬件相结合,保障了农业数据的持续、高效采集,使数据集真正成为了″活″数据。
来源: 先正达集团中国