王江平:加强数据治理,促进“人工智能+制造”行动落实
十四届全国政协委员、人口资源环境委员会委员、工业和信息化部原副部长王江平做《加强数据治理,促进“人工智能+制造”行动落实》主题演讲。他指出人工智能快速融入制造业,数据治理至关重要,中央相关会议已部署相关行动。以DeepSeek模型为例,其优势显著,在制造业多领域可率先应用,或带来商业模式变革。但我国人工智能发展因芯片短板需依靠算法和数据,当前数据治理水平亟待提升,专业数据集建设迫在眉睫。制造业数据呈现来源广泛、实时化等新特征,虽有相关法律法规,但数据治理存在获取难等难点。他建议从强化数据标准、推动数据资产化、建立企业数据体系、建设数据可信空间、强化产业安全保障、培养数据复合型人才等方面加强数据治理,强调在AI进入实体经济关键期,强化数据治理刻不容缓 。
以下为发言实录:
各位企业家朋友:
大家好!非常高兴能出席今天的会议,今天跟大家分享的话题是《加强数据治理,促进“人工智能+制造”行动落实》,我想从一个方面分享这个话题。
一是,人工智能现在正快速的进入制造业,但数据治理是关键;二是,制造业数据的一些新特征以及治理过程中的难点;三是,制造业数据治理的一些建议。
大家知道人工智能是新一代科技革命和产业变革的重要力量,正以前所未有的速度渗透到经济社会各个方面。去年召开的中央经济工作会议在布置今年任务时,其中有九大任务“开展人工智能+”行动成为其中九大任务之一。
全国工业和信息化工作会议也部署了工信领域今年的12项工作任务,其中包含实施“人工智能+制造”行动,加强通用大模型在行业的应用(行业大模型),以及重点场景的应用或者场景模式的开发。
今天春节DeepSeek给我们过了一个DeepSeek的春节或者说是人工智能的一个春节,DeepSeek以它去年V3以及今年年初的R2这两个模型迅速引起了全球高度的关注。我们知道DeepSeek它是通过构架创新以及体系化、工业化、工程化的布局实现了模型不断的优化。
在我看来它主要有三个方面的优势:
1,算力效能大幅度提高;
2,模型的开源;
3,本地化部署。
算力效能高就意味着企业可以低成本使用大模型,大模型的使用门槛会大幅度降低;开源意味着企业可以建立适合企业自己场景的垂域模型,以及相关的模型APP;本地化的部署意味着企业对数据的隐私、泄露问题忧虑大幅度降低。
DeepSeek模型呈现出的“鲶鱼效应”我们认为在制造业会得到深入应用,分析下来主要在六个领域可以率先使用:
1、研发设计,过去研发设计我们都是在试错过程中做的,没办法进行仿真,大模型出来对工厂和企业可以进行仿真性的研发/设计;
2、生产控制,生产控制最大的问题是生产波动,模型可以使生产调优,使它的波动范围在一个很小的范围;
3、最重要的是建立统一的数据底座,我们企业过去从信息化一路走过来有了很多已有的IT资产,比如工厂的PLM、DCS、ERP等等这样那样异构化的IT资产,数据的统一是比较麻烦的事情,大模型的十月使数据能进行统一,形成数据底座;
4、提高全员的数字技能,过去无论是做数字化转型还是智能化改造,最大的门槛就是员工的数字技能跟不上时代的需要,IT的需要,由于大模型的交付方式它从过去口令式到现在自然语言,所以对员工的素质要求没有过去那么高,通过这种方式可以使员工的数字技能大幅度提高;
5、优化业务流程,企业的业务流程也是比较烦琐的,在过去信息化时代要填各种各样的表格难度也比较大,但大模型时代使流程变的更加简单;
6、优化供应链,过去供应链基本靠经验,但现在会智能化进行供应。
我认为大模型出来后过去我们的SaaS、PaaS下一步是MaaS,“Model as a Service”这种模式可能会全面替代过去一些商业模式,而且人工智能出来后我们芯片的问题也会发生一些根本性变化。
人工智能的三要素:算力、算法、数据,其中算力关键是芯片,中国面临芯片的短板也导致算力的短板,大家知道最近特朗普政府又在酝酿新一轮对中国算力芯片的管控,包括对一些设备的管控以及维修的管控,所以我们这个短板在近期很难补上来,主要靠算法和数据来解决这些短板问题。
虽然我国数据资源比较丰富,但是我们的治理水平急需提升,数据潜力不等于数据实力,我们海量数据源头即弃,“数据富矿”沉睡于服务器中的问题比较突出,据有关统计全国数据产存转化率只有2.9%,而且存储的数据只有62%左右的在使用,还有38.9%的数据基本是沉睡的没有使用。
美国的数据情况它的数据集做的很好,美国在09年就启动了“Data.gov”的平台,它汇聚了超过30万种数据集,涉及到工业、商业、气候、能源等等领域,在数据的体量和质量上领先全球。
Hugging Face发布的数据集中,英语的数据占比高达37.7%,中文只有3.2%,据统计收录于SCI的3000多万篇文章中,仅有极少数的中文发表,可供模型训练高质量的中文语料极度匮乏。
最近使用中国的模型还是国外的模型,专业人士是不敢用的,因为一旦专业后这些模型的幻觉问题就暴露出来了,即便是DeepSeek它R1的幻觉也比V3幅度提高,一般性应用下是可以的,但真正进入制造业,指导制造业的生产、科研、经营,这些模型还有待专业化的数据集来进行训化。
所以我想特别强调的是,在人工智能进入实体经济的当下,迫切要解决的问题是专业数据集的建设,要求企业、行业数据治理全面加强、前面提升。
从国家层面看,强化数据治理可以一定程度弥补我国算力短板,特别是在一些意识形态领域可以加强人工智能的能力和安全问题,提高人工智能的发展水平;从企业层面来看,强化数据治理可以更好的利用AI来赋能生产经营,实现智能化的转型。
今天是新经济发展大会来了很多新经济的企业,大部分企业都是服务于实体经济的企业,要让你的产品尽快进入实体经济、尽快进入制造业,我们要推动数据治理。
我预计未来有两个很大的变化:1,“Model as a Service”;2,从芯片的角度讲专用的芯片,针对具体模型、专用模型芯片可能迎来大的发展。
这是想跟大家报告的第一点,第二点是制造业数据新的特征和治理的难点。
人工智能时代制造业的数据主要有几个特征:
1、来源广泛,过去传统制造业的数据主要来源于一些设备、工艺参数,在现在这个时代智能设备和智能传感器大量使用,设备、传感器产生大量了数据,另外一些仿真和合成数据也会应运而生,特别产业上下游的数据更加广泛,比如我们有的设备卖到用户那,这时候还会产生数据,这个数据会回传到制造商,全产业链的数据形成数据的大爆发;
2、数据实时化,数据产生实时性很强,数据的处理高效/及时;
3、多模态融合,视频、音频、文本这种多模态数据在大量涌现,大家知道科大讯飞打造了一系列工业六感,“视听嗅味触思”六种能力,在一些化工企业这六种能力都需要,这六种能力同时产生六种模态的数据,这些数据共同形成智能化的控制;
4、存储的新要求,容量越来越大、分布式的存储需要也越来越广,安全性要求更高,大家知道企业的核心竞争力就是数据,企业对这些数据法规性的要求很高,所以我们服务实体经济的这些IT企业经常有个困惑,你去给人家服务这个数据他不让你拿走让你就地解决,特别人工智能时代这个要求会越来越高;
5、安全性要求高,有些数据一旦出现泄露可能会给企业生产经营带来很多问题,特别是一些化工企业,会出现停产、爆燃、重大泄露和安全事故。
在行业管理方面国家也出台了一系列关于数据管理的法律法规。
第一部分是一些法律法规比如《网络安全法》《数据安全法》《个人信息保护》《网络数据安全管理条例》。另外特别重要的是2022年12月份中共中央国务院出台了“二十条”这应该说奠定了数据要素市场基础制度体系的“四梁八柱”,工信部也在2022年印发实施《工业和化领域数据安全管理办法》是对国家数据安全制度进一步的细化。
特别2023年8月份财政部印发了《关于数据资源会计处理暂行规定》这为数据资源的会计处理提供了明确的指导原则,数据局、工信部也做了一些具体化的政策文件,这些制度为加强数据治理提供了一些遵循。
在标准建设方面可以说才刚刚起步,制定了《工业领域数据安全标准体系建设指南》按照这个建设指南在2024年要初步建立这样一个标准体系,2026年形成完备的标准体系,工作量还是非常大的,目前只发布了两项标准:《工业领域重要数据识别指南》《工业企业数据安全防护要求》,也做了些辅助性的工作,编制了《工业数据资源目录和图谱》。在执行层面从安全管理、分类分级、技术保障、重要数据、监测预警都有一些工作进展。
难点:数据获取难;数据确权难;加工成本高;数据安全风险突出;数据人才短缺。
最后一点数据治理的一些建议,有的是国家、行业层面的,有的是企业层面的:
首先,强化数据标准,推动专业化工业数据集的建设。
我们要按照“急用先行”研究制定相关标准,特别要推动专业化工业数据集的建设,如果人工智能只在手机上玩一玩不是它最终的目的,最终还是要解决生产经营中的问题,这些问题要工业数据集。
二是,以数据资产化为切入点推动数据价值的实现。
一般数据的价值实现是经过数据资源化,数据资产化和数据资本化三个阶段,其中数据资产化是关键环节,数据资产化的关键/核心是数据入表,这是数据入表的十个步骤(看图)大家可以参考。
三是,引导企业建立数据两个体系:
1,质量保障体系;2,安全管理体系,来推动AI进入制造业。
四是,建设数据可信空间,推动数据共享流通。
数据不流通关键的问题是不可信,大家担忧数据的泄露问题,所以要构建基于区块链技术的数据可信流通体系。数据可信空间我的理解就是把数据放在一个篮子里,数据的人只可用不可建,用完就离开这个篮,这个空间的建设非常重要。
五是,强化国家产业安全,建立数据三大安全保障机制。
1、 工业软件和工业模型的安全保障机制,特别是对国家民生有重大影响的行业,重要的企业,这个机制非常重要;
2、 工业数据的保障机制;
3、 工业网络安全的保障机制。
六是,加强数据复合型人才的培养。
从政府层面我们要建设数字战略科学家队伍,培育数字领军人才队伍和工程师队伍,提高产业工人的数字素养;在企业层面要提升企业管理者的数据洞察力和决策能力,提高员工的业务、数据、AI三维能力;在高校层面,要加强数字技术的通识教育,让数字技术专业走进产业。
总之在AI进入实体经济这样一个关键时期,我们要主动拥抱人工智能,迫切要解决的问题是强化数据治理,特别是专业数据集的建设。
谢谢大家!