精益求“数”,为数字中国耕好“数据田”
近日,从国家数据局获悉:截至9月底,我国已建成高质量数据集总量超500PB(拍字节,计算机存储容量单位);7个数据标注基地引进和培育标注企业362家,标注从业人员达8.5万人,带动数据标注相关产值163亿元……一组组亮眼数据,标注着我国高质量数据集发展成果,彰显出数据处理能力、储存能力、人才队伍培育和产业化发展水平持续增强。
随着数字化时代的到来,数据已成为国家战略级资源,小到个人,大到国家,在数字时代留下的文本、声音、图像等海量数据,经过精心处理标注,成为高质量数据集,便拥有巨大的智慧和价值,是训练智能模型的“食粮”,是优化算法模型的“磨刀石”,更是驱动产业数字化转型的“发动机”。国家高度重视高质量数据集的建设工作,500PB高质量数据集的建成,标志着我国在数据资源化、资产化、资本化的进程中迈出了关键一步,为激活数字经济新动能、构筑国家竞争新优势筑牢了坚实根基。
“十五五”规划建议提出:“深入推进数字中国建设。健全数据要素基础制度,深化数据资源开发利用。”彰显出国家对数据要素价值释放的高度重视。从顶层设计来看,国家数据局联合26个部门出台政策文件,部署140项先行先试任务,制定5项技术文件,构建起“政策引导+标准规范+场景牵引”的立体化推进体系,让海量原始数据得以从“原油”转化为可高效利用的“汽油”。无论是人工智能大模型的训练优化,还是工业制造的智能化转型,亦或是政务服务的精细化升级,高质量数据集都成为核心支撑。正如数据标注产业的蓬勃发展所印证的,8.5万标注从业人员、362家相关企业形成的新业态,不仅解决了数据“精加工”的关键环节,更创造了新的就业增长点,让数据要素的价值在生产、流通、分配各环节充分释放。
500PB的突破,既是量的跃升,更是质的跨越,加快释放数据要素的乘数效应,全社会“用数”氛围更加浓厚。我国高质量数据集建设始终锚定“场景应用导向”,聚焦数据的准确性、规范性、可用性,避免了“数据孤岛”等问题。从政务数据的开放共享到行业数据的深度挖掘,从通识类数据集的基础支撑到行业专用数据集的精准适配,不同类型、不同层级的数据集体系,正为千行百业的数字化转型提供定制化支撑。在医疗领域,精准标注的影像数据集助力AI辅助诊断落地基层;在工业领域,高质量生产数据集推动智能制造提质增效;在民生领域,多维度的公共数据集让“城市大脑”更具智慧,数据的价值,最终落脚于赋能发展、惠及民生的实际成效,释放出千姿百态的乘数效应。
潮起数字时代,数据赋能未来。500PB的高质量数据集,是我国数字经济发展的“底气”,更是推进中国式现代化的“动力”。以数据筑基、以创新赋能,持续做强做优做大数字经济,必将为全面建设社会主义现代化国家注入源源不断的数字动能。(许云方)
最新评论