从小数据到大数据——材料科研数据采集管理平台探索与实践
范传伟,秦元斌,张丹利,韩卫忠*
西安交通大学 金属材料强度国家重点实验室
摘要:实验数据是科研团队的核心资源,拥有大量标注完整、存储规范的实验数据是科研人员进行材料大数据分析和应用人工智能算法的前提。然而,材料学科的许多实验过程复杂,机时紧张,费用昂贵,对科研人员来说,一次性获得大量有效实验数据需要付出高昂的时间成本和经济成本。另一方面,科研人员在日常工作中对实验数据的存储缺乏规范,实验原始数据分散在个人电脑中,且与数据相关的实验条件、样品信息、设备参数等没有与原始数据存储在一起,随着时间流逝和人员更替这些原本可以体现系统性工作的数据资源被逐渐耗散,有时在同一个科研团队里,由于存储信息不完整,同样的实验会被不同的人,在不同的时间,因为不同的目的而重复做多次,造成了时间和资源的浪费。一边是材料大数据资源的紧缺,一边是日常科研数据因管理机制不完善而不断流失,材料科研数据问题矛盾凸显。
本项工作的目的是通过建立新机制、设计新工具来解决上述材料数据管理存在的问题,将科研人员日常实验产生的数据最大程度地完整保存,经过日积月累,利用系统将碎片化的材料小数据汇集成完善可用的材料大数据,实现数据的增量与增值。
为达成以上目标,本工作着重解决了以下两项问题:
保证采集数据的完整性
标准化是数据完整性的前提,故在本工作中我们以设备为单位制定了数据存储标准。以纳米力学测量系统为例,一组完整的纳米力学实验数据应包含样品信息(材料类型、加工历史、尺寸),实验参数(加载方式、加载速率、压头形状),原始数据和处理结果,详细信息如图1所示。数据录入标准由设备管理员在新用户培训时进行宣贯,实验室后续根据用户录入信息完整度评分给予一定机时奖励。
保证数据采集过程的良好用户体验
本工作构建数据采集系统的宗旨是基于用户自主自愿,在数据采集的各个环节最大程度实现自动化以减轻用户操作负担,提升用户操作回报。基于上述理念自主开发的数据采集管理系统具备以下特点:①由设备产生的原始实验数据通过设备电脑直接保存至网络存储服务器,中间无人工上传过程;②用户实验时可通过专用手机APP即时录入标准样品信息和实验参数,APP尽量做到以点选为主,手工输入为辅,同时可调取手机相机和语音录入模块,以丰富录入形式,提高录入效率;③原始数据和对应的样品信息、实验参数在服务端通过特定命名规则实现自动匹配,并在Web端统一展示。整个采集过程不打断用户正常实验操作,实验完成后用户即可通过浏览器下载完整实验数据。
通过上述实验数据采集规范的实施和采集系统的应用,实验室初步实现了日常实验数据的标准化录入和存储,为未来材料大数据的分析应用提供了数据保障。
本工作为国家重点研发计划(项目号:2017YFB0702301)资助项目。
图1. 纳米力学实验数据存储标准
关键词:实验数据采集系统, 材料信息学, 用户体验
西安交通大学金属材料强度国家重点实验室工程师,主要从事材料科研数据采集管理软件及大型仪器设备管理系统的开发与应用,作为产品负责人主导开发了SAAS产品“易约”,该产品已在国内多所高校推广应用。