首页 实时讯息

魏亮:高质量数据集建设是提高人工智能性能的关键

时间: 2025-08-26 13:44:00  0浏览

人民网深圳8月26日电 (记者栗翘楚)人工智能技术的突破性进展正深刻重塑全球产业格局,而高质量数据集作为人工智能模型训练与应用的基石,已成为国家科技发展的核心要素。高质量数据集不仅是技术创新的“燃料”,更是推动超级人工智能、具身智能、自动驾驶等未来产业落地的关键引擎。

中国信息通信研究院副院长魏亮在“2025人民数据大会”发表主旨演讲。人民网记者 翁奇羽摄

8月26日,中国信息通信研究院副院长魏亮在“2025人民数据大会”发表主旨演讲时表示,在大模型为代表的人工智能技术发展过程中,数据是大模型智慧的来源,任何一个高性能大模型,都离不开高质量的数据集。多模态数据、具身智能数据、推理思维链数据和长视频数据是下一步高质量数据集建设的重点。

随着人工智能加速迭代,大模型如雨后春笋般不断涌现,大模型需要的数据集增速远远高于高质量数据集生产和生成的速度,高质量、高价值密度的数据集将撑起一个企业差异化竞争,成为企业人工智能业务发展的护城河。

“谁有高质量数据,就可以训练出一个好用的垂类模型。当垂类大模型在生产中规模使用,会生成更多高质量数据再反馈到该模型中,从而实现‘数据飞轮’效应。”魏亮认为,高质量数据的供给有三个方面的措施,即数据技术、数据工程以及数据治理:

数据技术包含新一代标注技术与合成技术。当前,有高技术含量、高知识密度、高价值的应用,行业顶尖专家的高水平数据可能需要几十美元甚至上百美元,成为新一代标注技术的方向。合成技术从最初用来解决流通中隐私问题,如今也在应对训练集不足,包括用物理仿真、统计模型、机器学习等领域发挥更大作用。数据工程旨在提升模型数据集管理和效率,即能够规模化、高效生成好用的数据集,围绕管理体系、开发维护、质量控制、资源运行和合规可用五大要素搭建数据工程。数据治理即在控制数据过程中实现高质量和可靠,以及安全与合规,伦理要求都需要在数据治理中得到体现,从而使数据治理更好地服务数据集建设。

魏亮表示,高质量数据集的建设是提高人工智能性能的关键,也是推动“人工智能+”行动落地的保证。随着“人工智能+”行动的发布,标志着人工智能进入一个数据驱动的新阶段。要通过AI的数据技术、数据工程、数据治理,能够共同推动高质量数据要素的高效能的供给。

相关推荐