今天,人类已经进入了
海量数据时代。
每一分钟,甚至每一秒钟,
在人类社会中的各个领域中
都会产生巨大量级的数据。
怎样让如此繁多的数据
发挥出自己的价值,
产生出经济效益和社会效益,
赋能人类的社会经济发展?
依托复旦大学计算机学科建立的上海市数据科学重点实验室就在解决这些难题。
2013年设立的上海市数据科学重点实验室是全国第一个大数据为核心主题的政府授权的重点实验室,其在数据科学理论、数据管理以及数据分析等领域取得一系列成果,在国际上率先构建了数据科学学科框架,凝聚了一大批从事大数据理论、技术和应用研究的科学家,在大数据试验场、大数据自治与开放、数据管理、数据分析等方面做出了突出的贡献。
日前,记者走进上海市数据科学重点实验室,前沿之风扑面而来。
起源:大数据时代催生大量应用需求
实验室肖仰华教授告诉记者,上海市数据科学重点实验室的科研起源可以追溯到上世纪七八十年代,当时的复旦大学计算机学科在施伯乐教授的带领下开启了数据库研究和教学工作。
当历史的车轮来到本世纪初,互联网和通讯领域开始出现越来越多的数据,复旦大学朱扬勇教授等一批数据科学家开始意识到“数据资源是重要的现代战略资源”,并全面思考这些深层次基础理论问题和前沿应用问题,先后撰写《数据学》《数据资产》《数据自治》等专业书籍,阐释了数据科学的基本内涵,定义了数据资产化体系,建立了数据自治开放体系,从理论、技术与应用层面开展系统性梳理。2010年,朱扬勇开始设想建立一个专门的实验室,系统地来回应这些问题,并于2013年牵头申报成立了“上海市数据科学重点实验室”。
服务:具有验证功能的“大数据试验场”
早期的大数据应用主要聚焦于互联网和电信大数据,比如针对网民们的上网行为,做一些解析和提取工作,进行挖掘和分析,做了一些相应的理论和应用研究。
近年来,越来越多的大数据行业应用对大数据试验场提出了需求。肖仰华介绍说,众所周知,传统自然科学的研究往往依赖一些重大的科学试验装置,比如在航空动力学方面,飞机的各种参数设定需要一个风洞模拟场,而实验室的大数据试验场也是一个类似的有仿真功能的“风洞”,为数据科学研究、为大数据技术开发而设计一个尽可能接近真实应用的大数据试验场环境,以降低研究人员的研究门槛。
“大数据试验场为大数据研究和应用提供基础性的开放数据,模拟大数据场景,提供实验环境。甚至可以通过生成更大规模的样本量,以尽可能地接近行业大数据分析的真实环境,为大数据的算法与应用提供试验环境。”肖仰华告诉记者。
延伸:知识图谱技术提供挖掘和分析服务
如何让大数据实现价值变现,提升价值水平?实验室提出了以知识图谱为基础的大数据理论研究和分析技术。
“大数据的特点就是碎片化,但如果能把碎片数据关联在一起,可能会创造价值,这就是知识图谱的技术价值,我们把碎片化的数据关联成为一张巨大的语义网络,让机器去理解数据和认识数据。” 肖仰华举例说,知识图谱技术可以帮助识别一些金融领域的风险,比如可以分析是否可贷款给某个公司某个人员,如果与其关联的企业和个人都有贷款不良记录,那就预示着此次贷款存在风险。金融安全、公共安全等场景目前已经广泛使用基于知识图谱的数据分析技术。
基于知识图谱的智能运维技术还为通讯领域和能源领域等大型企业的故障排查也提供了强有力的技术支撑。肖仰华解释说,我们会建立表达故障因果关系的知识图谱,首先是基于业务规则把设备的互联互通关系建立起来,之后从历史数据不断挖掘新的关联关系,最终打造成一张集报警、信号、设备、故障和原因于一体的运维知识图谱,并依托这一图谱展开智能化的诊断与分析,识别系统运行风险、诊断故障根源、给出排除方案,从而帮助企业做到提质增效。值得一提的是,该研发成果受到华为等企业的资助,并在真实应用场景取得了显著的应用效果,相关个人获得了企业的科研奖项。
目标:打通认知智能和数据智能的双向通道
近年来,实验室聚焦国计民生一系列重要问题,开展研究与应用,并取得了积极成效。
实验室的孙未未教授团队深度参与了上海港洋山四期自动化集装箱码头的建设,承担了核心的堆场计划和调度、岸桥重点作业路判断和搬运机器人(AGV)数量分配等核心模块的研发。
实验室池明旻副教授与国家天文台以及腾讯等单位合作,基于位于贵州的大科学装置“中国天眼”(FAST)的巡天数据,借助人工智能算法,自动搜索出27颗新脉冲星。
实验室韩伟力教授团队针对口令安全问题,发现了中文用户特有的安全漏洞等现象,并提出应对方法,极大提升密码口令的防护水平,大大提升了互联网领域的安全性。
实验室朱扬勇团队创新数据治理模式,提出数据自治开放技术,激发数据开放共享意愿,推动数据开放共享,提升数据利用潜能。
实验室未来的努力方向是打通认知智能和数据智能的双向通道。肖仰华告诉记者,未来将致力于打通数据价值变现的全链条,两条路径同时发展:
首先是建立类似ChatGPT这种大模型,这一过程就像是“炼丹炉炼丹”,将各种大数据就像是原料一样“喂给机器”,训练形成交互式、生成式的统一大模型。但是我们会注重与通用大模型形成差异化的发展道路,实验室会整合医疗、金融、工业等各大领域的数据,构建面向领域的大模型,赋能行业发展。
第二个路径是打造动态化可以快速更新的动态知识图谱,实现知识图谱的持续学习与动态演化,建立跨学科与跨领域的语义关联,进一步释放知识的价值。
大脑认知有个理论
叫做双系统认知,
人类大脑95%的认知
是一种下意识的快思考,
比如喝水吃饭等,
还有5%时间的慢思考。
ChatGPT这种大数据
“喂养”出来的大模型
能够实现类似于大脑的快思考,
知识图谱则可以
进行很多关联性推理,
可以实现人类的慢思考。
两者之间最后的打通,机器就会拥有千行百业的认知能力,它将为我们人类的各种决策提供更有力的辅助和支持。
上海市数据科学重点实验室
依托单位:复旦大学
实验室主任:肖仰华
建设年份:2013年9月批准筹建,2015年10月通过验收正式挂牌
总体定位:实验室总体定位是发展成为国际数据科学研究的重要研究场所、数据科学人才培养和专业建设基地、数字经济发展的重要咨询机构、上海大数据战略的技术研发和支持中心,引领数据科学研究展。
重点实验室是上海市科技创新体系的重要组成部分,是组织高水平科学技术研究、集聚培养优秀科技创新人才、开展高水平合作交流的创新策源基地。重点实验室的主要任务是面向国家与本市重点发展战略领域,开展基础研究、应用基础研究和前沿技术研究,获取创新成果和自主知识产权,打造创新策源和人才高地,构建具有本市特色的科技创新实验室体系。
来源:上海科技公众号