点击蓝字 关注我们
一
“理论”加速“实验”
如今,21世纪的许多科学问题,例如有关可持续的低碳能源的挑战,归根到底是与材料相关的问题。为了实现社会的可持续发展,迫切需要具有特定化学和物理性质的材料来进行高效的能量储存和转换。
作为材料科学的研究者,我们所使用的传统方法是实验,通过不断的试错实验来得到我们想要的材料性能。然而,大多数情况下的实验周期慢长、成本高,甚至迫不得已以危险化学品作为实验原料,难以满足现在如此快速的科学的发展需求。
1926年,薛定谔方程横空出世,这篇描述方程的论文迅速在量子学术界引起轰动。普朗克表示“他已阅读完毕整篇论文,就像被一个迷语困惑多时,渴慕知道答案的孩童,现在终于听到了解答”。爱因斯坦称赞,这著作的灵感如同泉水般源自一位真正的天才。爱因斯坦觉得,薛定谔在量子力学体系中做出了决定性贡献。由于薛定谔所创建的波动力学涉及到众所熟悉的波动概念与数学,而不是矩阵力学中既抽象又陌生的矩阵代数,量子学者都很乐意地开始学习与应用波动力学。
(就是“薛定谔的猫”的薛定谔)
至此,量子力学体系(Quantum mechanics)深入材料科学的发展,材料模型的建立离不开薛定谔方程。理论计算科学学家们想尽办法要求解材料中多电子体系的电子结构。说白了就是求解薛定谔方程。
这是最一般的薛定谔方程:
这个本是个简单体系波动方程,然而,面对多种元素原子组成的材料体系,想要求解一个薛定谔方程很难实现。聪明的理论计算科学家们发展了一种近似算法:DFT(密度泛函理论),通过迭代的方式求解这个令人恼火的偏微分方程。
那个年代正值计算机发展快速期,把这些繁琐而机械的过程放进计算机中岂不美哉,于是乎诞生了各种用于计算材料体系的软件包,由维也纳大学Hafner小组开发的进行电子结构计算和量子力学-分子动力学模拟软件包(VASP)、由美国Sandia国家实验室开发的LAMMPS(基于分子动力学)、还有用于量子化学计算的Gaussian。
二
AI与材料科学
1959年,一位叫Author Samuel的人创造了"机器学习(Machine Learning)"一词,编写了第一个版本的跳棋程序,这个程序在单场比赛中打败了冠军罗伯特·奈利(Robert Nealy)。然而,在这之前,一位大师的研究就已经深入了这个领域,他就是Alan Turing,在布莱奇利公园破解德军恩尼格码密码时,Turing经常与唐纳德·米基(他的同事和追随者)讨论机器如何从经验中学习和解决新问题的概念。后来,这被称为启发法问题求解和机器学习。
Turing很早就对用国际象棋游戏作为人工智能测试平台的问题求解方法有了深刻的认识。虽然他那个时代的计算机器还不足以开发出强大的国际象棋程序,但是他意识到了国际象棋所提出的挑战(具有10120 种可能的合法棋局),其1948年的论文《计算机器和智能》为此后所有的国际象棋程序奠定了基础,在20世纪90年代发展出了可以与世界冠军竞争的大师级机器。
21世纪,人工智能体系的优势逐渐展现出来。这么厉害的工具,材料科学家想运用在材料的理论计算中,逐渐形成了这个交叉体系(其实在此之前机器学习已经涉足多个领域,如生物信息学、计算机视觉处理、自然语言处理等等)。人工智能改变人们日常生活的同时,同样改变着材料科学的进程。
工欲善其事,必先利其器
2011年6月24日,美国总统奥巴马宣布启动一项价值超过5亿美元的"先进制造业伙伴关系"(Advanced Manufacturing Partnership,AMP)计划,呼吁美国政府、高校及企业之间应加强合作,以强化美国制造业领先地位,而"材料基因组计划"(Materials Genome Initiative,MGI)作为AMP计划中的重要组成部分,投资将超过1亿美元。
作为超级大国的美国,眼界和思想不愧是超前的,材料基因工程的开始,以上述的材料计算手段为方法,以传统实验为手短,建立数字化数据库:构建不同材料的基础数据库、数据的标准化以及它们的共享系统;拓展云计算技术在材料研发中的作用,包括远程数据存储与共享;通过数字化数据库建设,联系科学家与工程师共同高效开发新材料。多年积累的材料数据为机器学习提供了海量的数据!
驯化算法,屈服材料
“算法把这些变量的重要性呈现给我们,这跟实验的经验和直觉也是吻合的。”
有了大量数据作为原材料,我们就可以建立机器学习的模型,用这些数据训练模型,用训练好的模型来预测新材料的性能。这个流程是不是十分简单?然而事实上却不是。
数据的质量决定预测结果的上限,模型的质量决定预测结果的下限,在整个的拟合过程中,研究者们会遇到许多的问题,譬如:数据噪声(noise)过多,影响了模型的稳定性;或是模型参数太差,光是当调参侠就当了好几年等等。所以这个交叉学科的发展,需要精通计算机学、数学、材料科学的交叉人才,慧眼识珠。新的算法模型的提出,需要严格的数学公式推导,要求式子不断的迭代加迭代,最后收敛。光是证明收敛,头都秃了。
看似简单的模型
k近邻算法(k-Nearest neighbors):k近邻算法是由Cover和Hart于1968年提出的,它是懒惰学习(lazy learning)的著名代表。它的工作机制比较简单:
? 给定一个测试样本
? 计算它到训练样本的距离
? 取离测试样本最近的k个训练样本
? “投票法”选出在这k个样本中出现最多的类别,就是预测的结果
决策树(Decision Tree):它代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表某个可能的属性值,而每个叶节点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出,若欲有复数输出,可以建立独立的决策树以处理不同输出。决策树可以用于分析数据,同样也可以用来作预测。比如,让决策树通过学生们的情况来决定这个学生是不是好学生。
人工神经网络(ANN):人工神经网络(ANN)又称神经网络(neural network),是一种基于生物学中神经网络原理的数学模型。该模型通过对大脑结构和反应机制的理解和抽象,在网络拓扑的基础上模拟神经系统处理复杂数据的机制。如图所示,一个网络包含一个输入层、一个输出层和n个隐藏层(n≥1)。每个节点都包含一个特定的输出函数,称为激活函数。两个神经元之间的连接带有一个权重,在训练阶段进行修改,然后用测试数据集进行评估。人工神经网络方法具有很强的从大规模数据集中获取非线性复杂关系的能力。然而,人工神经网络仍然有一些局限性,它通常需要更多的训练数据,而且非常耗时。
哪些能预测呢?
材料的许多性质都可以通过材料基因数据库中的特征来预测,比如:
? 相对介电常数
? 能带结构
? 形成能
? 分子的电子性质
? 态密度及费米能级
图片来源于网络,如有侵权请联系。
参考文献:
[1]Barnett, R. N., et al. (1991). "Born-Oppenheimer Dynamics Using Density-Functional Theory - Equilibrium and Fragmentation of Small Sodium Clusters." Journal of Chemical Physics 94(1): 608-616.
[2]Chen, A., et al. (2020). "Machine learning: Accelerating materials development for energy storage and conversion." Infomat 2(3): 553-576.
[3]Tao, Q., et al. (2021). "Machine learning for perovskite materials design and discovery." npj Computational Materials 7(1).
[4]Wang, A. Y.-T., et al. (2020). "Machine Learning for Materials Scientists: An Introductory Guide toward Best Practices." Chemistry of Materials 32(12): 4954-4965.
[5]Zakutayev, A., et al. (2014). "Defect Tolerant Semiconductors for Solar Energy Conversion." J Phys Chem Lett 5(7): 1117-1125.
文章转载自微信公众号:成电研究生科学普及
内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/124338.html