中国华电发电智能巡检与安全管控
高质量数据集
推荐单位:中国华电集团有限公司
申报单位:南京南自信息技术有限公司
背景
在我国加速构建新型能源体系与人工智能垂域深度融合的背景下,本案例克服视觉、声纹在发电领域面临异常种类多、正样本缺乏、感知环境复杂等挑战,构建覆盖“风、光、水、火”全发电类型的智能巡检、安全管控视觉数据集,大型转动设备声纹等数据集。构建了数据集采集、标注、技术创新、更新迭代、场景应用的标准体系,推动行业发展。
方案和成效
一是标准与方法为先,构建行业数据集。制定视觉数据集相关企业标准,形成了一套自动采集、大模型辅助生成、半自动标注的数据集的构建方法。经5年积累,涉及20余个火电、燃机、水电,400余个风电、光伏,超150类场景400万张以上的标注数据,形成了覆盖风、光、水、火四种发电形式下“人、机、环”场景的数据集,支撑视觉、声纹模型、视觉大模型训练。
二是从工程实践来,到工程实践去。数据从工程现场采集,数据集标注采用“众包”形式,将对长协标注团队的发电领域知识培养作为质量保证的重要环节,挖掘工程实践高价值场景,“产、学、研、用”强化数据集技术合作。通过上述举措,数据集标注可用率提升至97%以上,减少了标注返工。标注人员的能力提升和数据集技术成果均反哺于项目实践,缩短了工程项目工期。
三是从工程需求出发技术创新。将大模型技术引入到数据集构建,利用大小模型同时推理,发现小模型的难例并加以生成;针对少样本、零样本的设备缺陷、异常难例数据,借助多模态大模型辅助生成。模型准确率、召回率等指标可提升5%~10%,算力节省20%~30%,实现性能与算力成本的优化平衡。
创新点
一是生成式大模型驱动的少样本场景数据合成。针对少样本、零样本场景,利用大模型生成,结合真实样本生成异常、缺陷数据,如设备破损、开裂、漏油等;大、小模型同时推理,利用大模型发现小模型难例数据,再生成困难样本,在有限推理资源的情况下,提升小模型性能。
二是基于视觉大模型的辅助语义标注。除了引入分割大模型辅助标注外,结合大模型擅长的场景,如检测人体部位,利用大模型推理得到已标注数据来训练小模型,从而提高标注效率。
三是基于多模态知识融合的数据增强。在图像数据基础上,将声纹结果、领域知识等跨模态信息融合,增强数据集,微调多模态模型学习业务场景中的语义关联,提升在复杂场景中的鲁棒性。
来源:国家数据集
版权所有:UAV FORUM 全国无人机电力巡检技术高峰论坛