文/陈健 陈志(中国科学技术发展战略研究院)
一、人工智能正推动数据密集型科研范式的变革
“范式”是从事某一科学领域研究的科学家群体所共同遵从的世界观和行为方式,是科学研究系统中的一系列理论界定、研究工具和科学方法等的规范或准则。基于不同的科研范式,可以将不同的学科和科学共同体区分开来。图灵奖得主吉姆·格雷将科学研究范式分为4个阶段:(1)实验科学;(2)理论科学;(3)计算科学;(4)数据密集型科学。其中,实验科学在研究方法上以归纳为主,以观测和实验为依据,典型范例如牛顿的经典力学。理论科学在研究方法上以演绎为主,一般依靠数学模型进行理论建构,典型范例如物理学中的相对论、弦理论等。计算科学通过计算机对复杂现象进行仿真模拟与计算,典型范例如模拟核试验等。数据密集型科学作为科学研究的“第四范式”,是伴随着超级计算、大规模计算应用等技术的发展,在海量数据的驱动下产生的,是由传统的假设驱动向基于科学数据进行探索的科学方法的转变,典型范例如基于大数据的雾霾影响因素研究。
在数据密集型科学范式中,海量数据的计算方法等问题一直是瓶颈,而得益于深度学习等人工智能技术的发明和应用,机器可以在科研大数据中自己学习并生成算法,从而使科研范式更具“智能化”。新一代人工智能技术以大数据为基础,同时还体现出深度学习、跨界融合、人机协同、群智开放、自主操控等新特征。因此,人工智能时代的科研范式(以下简称“AI范式”)实际上是“第四范式”的进一步延伸,甚至在某些领域颠覆现有的范式。“AI范式”下的科学研究不仅仅是某项工具的改进,也不仅仅是机器对人的简单替代,而是围绕人工智能技术和科学问题所形成的数据聚合、工具集成与人机协同的科研体系的综合体现。
二、“AI范式”的特征及其对科技管理的挑战
1.自动化、全过程与探索式的科研路径颠覆原有科研评价、激励机制
深度学习等人工智能技术会导致利用大数据集和增强预测算法的研究方法替代常规的劳动密集型研究。尤其是随着自主智能方法的完善,未来的科学研究过程将成为一个从数据的采集、存储、计算到决策都无需人为干预的知识发现过程和高度自动化的“探索性实验”。只要数据源源不断产生,机器就会不断学习并自动纠错,新知识、新发现都可能“无意间”产生。尤其是随着深度学习模型的“黑箱”逐渐被打开,模型执行某项任务时的过程可以被识别出来,从而可以帮助研究者更好地理解这些数据背后的科学原理,这将大大扩展人类的认识领域。例如,加州大学圣地亚哥分校近期将一个深度学习算法的结构映射在已知细胞内分子系统的结构上,创建了一个“可视的”人工神经网络——虚拟酵母细胞 DCell。经过数百万种基因型的训练验证,DCell几乎能够准确模拟细胞生长,并对基因型-表型关联的分子机制进行计算机研究,从而预测遗传变化的生理影响,并揭示基因与生理特征关系背后的机制。
在“AI范式”下,数据和算法很可能比科学家的知识和经验更重要,但仅仅依靠数据和算法并不足以帮助我们深刻理解自然和社会现象的本质规律,甚至可能导致“理论的终结”。因此,对科研成果创新性的衡量,对“突然发现”的价值的判断,对深度学习的研究过程及数据与理论之间的“证据链”的追溯等问题,将使我国面向单一、特定目标的,以最终结果为导向的科技评价方式受到挑战。另外,对数据和算法的强调,可能导致科研人员深入研究相关学科理论和构建完整知识体系的动力减弱,也增加了评判不同科学家的研究水平和贡献的难度,需要我们重新对科研人才的教育、培训和激励等问题进行思考。
2.人工智能工具加速开放科学并引发科研组织治理风险
类似于Google大脑这样的可以解决各种问题(而不是一个特定问题)的机器学习工具,使得不同学科之间的研究对象有了同质性的基础,不同领域的科学家可以开启规模更大、参与更广的跨学科合作研究。同时,这将催生虚拟实验室等新型科研组织模式的广泛采用,并增强从事科学研究与科学发现的科学共同体的凝聚力与通约性,他们将以人工智能平台和数据科学家为中介,使科学实验从冥思苦想变为集思共议。例如,百度就于2017年7月正式开放“阿波罗”自动驾驶平台,汇聚了70多位国内外一流科学家和300多位经验丰富的工程师,共同促进自动驾驶基础研究与技术应用的发展。未来,领域先锋者、小众专家、民间智者等科学研究新兴知识主体也将逐渐出现,这加速了开放科学的形成,也加速了高校科研成果向企业的转移转化。
人工智能工具的运用使研发组织呈现出“平台化”和“分散化”的双重特征。一方面,人工智能平台将成为一种重要的科研基础设施,针对人工智能平台由谁提供和如何提供的问题,政府、企业与科研机构都可能具有“搭便车”的倾向。另一方面,我国集中式的科技管理方式将难以适应这种分散化的研发组织,分散化所带来的数据安全、成果归属,以及避免个别群体通过获得和控制关键大数据集和特定应用算法造成垄断等问题,都具有前所未有的治理难度。
3.人机协同实际形成的多元科研主体面临科学责任与伦理困境
与科学家相比,机器在承担多项复杂任务、持续时间、计算效率和精确度等方面具有显著的优势,它在某些领域能够辅助或代替人类,甚至可以超过人类本身的认知水平,实现认知的“去阶级化”。因此,机器变成重要的科学研究主体,甚至与人类决策形成混合增强的智能环。例如,擅长模式识别的计算机,可以通过对大量基因、代谢和临床信息进行筛选,来解开致使疾病肆虐的复杂生物网络,进而有助于识别可能在特定病人人群中起效的药物。另一方面,为了满足不同科学家的需求,人工智能技术还能够为科学家提供定制化的服务。例如,科研辅助系统可以通过内容探索,了解科学家的研究领域、兴趣爱好、主要观点等特征,为其推送个性化的信息;利用IBM开发的Watson开源人工智能平台,科学家甚至可以定制自己的人工智能软件或机器人,以满足自己的研究需求。
在人工智能辅助科研的过程中,随着机器自我学习能力的提高,可能开发出影响人类健康或生态安全的新型化合物、新型细菌,可能错误地将个人隐私数据或私有的科学数据公之于众,在社会科学研究中还可能做出具有暴力或歧视性的决策等。这些问题的核心在于,谁是“机器决策”的责任主体并为之承担后果?是“技术漏洞”还是“使用不当”抑或是“算法”通过自我学习擅自所为?这都是需要解决的科学伦理问题。
三、“AI范式”下我国科技管理模式的变革方向
“AI范式”为我国在重大科学领域实现颠覆性突破提供了“弯道超车”的机会,而这也依赖于我国对现有的科技管理模式进行变革,以支持“AI范式”的发展并规避风险。
1.前瞻部署相关重大科技项目,探索新管理模式与机制
建议科技创新2030—重大项目或者重点研发专项中设立“人工智能在科学研究中的应用”专项,在科研单位建立人工智能试点,邀请相关企业、科研机构和科学家等开展跨界合作,共同探索人工智能技术在科学研究中的应用问题。围绕项目的实施,培养科技项目管理人员的人工智能思维,运用人工智能技术优化科研资源分配、减少浪费重复、预测科研趋势、预防科研腐败、评价科研成果和辅助决策。建立多元的科研项目评价机制,完善对“AI范式”中探索式研究和意外发现的管理。
2.提供必要的物质基础设施和制度基础设施,解决当中的外部性和市场失灵问题
建议政府引导,与企业共同建设人工智能基础设施,包括尊重隐私开放资源学习环境、现实生活中的测试环境,以及用于开发和培训人工智能系统的高质量数据集,加快解决基础设施和物理层面的技术难题。从法律和交易层面厘清数据相关的权益与责任界定问题,规范数据授权和交换规则问题,加快科学数据的开放共享,研究针对“算法垄断”的法律法规。
3.研究制定人工智能科学伦理规范,从源头杜绝伦理陷阱
在技术层面,应加紧对道德嵌入技术的开发,从设计源头规范嵌入伦理准则。在标准规范方面,尽快研究并制定新的标准化体系,以评估、验证和监管人工智能系统的安全性、透明度、可理解性和道德责任等。
地址:中国 北京市海淀区玉渊潭南路8号 邮编(ZIP):100038
电话(Tel):86-10-58884543 咨询:webmaster@casted.org.cn 新闻与信息:xxxz@casted.org.cn
版权所有 中国科学技术发展战略研究院 备案号/经营许可证备号:京ICP备10036465号-11 技术支持:中研网