中国基因网您的位置:首页 >行业资讯 >

机器学习辅助的高性能有机光伏材料分子设计

为了合成用于将太阳辐射转换成直流电的有机光伏(OPV)的高性能材料,材料科学家必须有意义地建立化学结构与其光伏特性之间的关系。在一项关于科学进步的新研究中,孙文博及其一个团队,包括来自能源与动力工程学院,自动化学院,计算机科学,电气工程以及绿色和智能技术学院的研究人员,建立了一个新的数据库,该数据库使用1,700多种捐助材料现有文献报告。他们使用监督学习 使用机器学习模型来建立结构-属性关系,并使用针对不同ML算法的各种输入来快速筛选OPV材料。

机器学习辅助的高性能有机光伏材料分子设计

使用超过1000位长度的分子指纹(以二进制位编码分子的结构)。获得了较高的ML预测精度。他们通过筛选10种新设计的供体材料以确保模型预测与实验结果之间的一致性,从而验证了该方法的可靠性。ML结果提供了一个强大的工具,可以预筛选新的OPV材料并加速材料工程中OPV的开发。

有机光伏(OPV)电池可以促进太阳能以直接且具有成本效益的方式转换为电能,而最近的快速增长使其超过了电能转换效率(PCE)的速度。主流OPV研究集中在建立新的OPV分子结构与其光伏特性之间的关系。传统工艺通常涉及光伏材料的设计和合成,以用于光伏电池的组装/优化。这种方法导致耗时的研究周期,需要精细控制化学合成和装置制造,实验步骤和纯化。现有的OPV开发过程缓慢且效率低下,到目前为止,合成和测试的 OPV供体分子 不足2000个。然而,从数十年研究工作中收集的数据是无价的,潜在价值仍有待充分探索以生成高性能OPV材料。

为了从数据中提取有用的信息,Sun等人。需要一个复杂的程序来扫描大型数据集并从要素之间提取关系。由于机器学习(ML)提供了使用训练数据集学习和识别模式和关系的计算工具,因此该团队使用了数据驱动的方法来启用ML并预测各种材料特性。机器学习算法不必了解材料属性背后的化学或物理原理即可完成任务。最近类似的方法已经成功地预测了材料发现,药物开发和生产过程中材料的活性/性质。材料设计。在ML应用之前,科学家已经生成了化学信息学来建立有用的工具箱。

材料科学家直到最近才探索 ML在OPV领域中的应用。在目前的工作中,Sun等。建立了一个数据库,其中包含从文献中收集的1719个经过实验测试的供体OPV材料。他们首先研究了分子的语言表达对理解机器学习性能的重要性。然后,他们测试了几种不同类型的表达式,包括图像,ASCII字符串,两种类型的描述符和七种类型的分子指纹。他们观察到模型预测与实验结果非常吻合。科学家们希望这种新方法能够极大地加快用于OPV研究应用的新型高效有机半导体材料的开发。

研究团队首先将原始数据转换为机器可读的表示形式。同一分子存在多种表达形式,包括以不同抽象水平呈现的极为不同的化学信息。Sun等使用一组ML模型。通过比较功率转换效率(PCE)的预测准确度,获得了69.41%的深度学习模型,从而探索了分子的多种表达。相对较差的性能是由于数据库较小。例如,以前,当同一小组使用最多50,000个分子时,深度学习模型的准确性超过了90%。要全面训练深度学习模型,研究人员必须实施一个包含数百万个样本的更大的数据库。

Sun等。目前每个类别中只有数百个分子,因此模型很难提取足够的信息来获得更高的准确性。尽管可以对预训练的模型进行微调以减少所需的数据量,但仍需要成千上万的样本来实现足够数量的特征。当使用图像表达分子时,这导致增加数据库大小的选择。

科学家在研究中使用了五种类型的监督ML算法,包括(1)反向传播(BP)神经网络(BPNN),(2)深度神经网络(DNN),(3)深度学习,(4)支持向量机(SVM)和(5)随机森林(RF)。这些是高级算法,其中BPNN,DNN和深度学习均基于人工中性网络(ANN)。该SMILES码Sun等人(简化的分子输入线输入系统)提供了分子的另一种原始表达。用作四个模型的输入。根据结果​​,RF模型的最高准确度约为67.84%。和以前一样,与深度学习不同,这四种经典方法无法提取隐藏特征。总体而言,SMILES作为图像的分子描述符在预测数据中的PCE(功率转换效率)等级方面表现不及图像。

然后,研究人员使用了分子描述符,该描述符可以使用数字数组而不是化学结构的直接表达来描述分子的特性。研究小组在研究中使用了两种类型的描述符PaDEL和RDKIt。在对所有ML模型进行广泛分析之后,大数据量意味着更多与PCE不相关的描述符会影响ANN性能。相比之下,当使用分子描述符作为ML方法的输入时,小的数据量意味着无法有效地训练ML模型的化学信息,关键在于找到与目标物体直接相关的合适描述符。

团队接下来使用分子指纹 ; 通常设计为将分子表示为数学对象,最初是为了识别异构体而创建的。在大规模数据库筛选期间,该概念表示为包含“ 1”和“ 0”的位数组,以描述分子中是否存在特定的子结构或模式。Sun等。使用七种类型的指纹作为输入来训练ML模型,并考虑了指纹长度对不同模型的预测性能的影响,以获得不同的指纹。例如,分子通道系统 (MACCS)指纹包含166位,并且是最短的输入,并且由于其信息有限而无法令人满意。

Sun等。展示了使用1024位杂交指纹和RF 获得的编程语言和ML算法的最佳组合,可达到81.76%的预测精度;其中杂交指纹代表分子的SP2杂交状态。当指纹长度从166位增加到1024位时,所有ML模型的性能都会提高,因为更长的指纹会包含更多的化学信息。

为了测试ML模型的可靠性,Sun等人。合成了10种新的OPV供体分子。然后使用三个具有代表性的指纹来表达新分子的化学结构,并比较RF模型和实验PCE值预测的结果。系统将10个分子中的8个分类。结果表明了合成材料在OPV应用中的潜力,另外还有两种新材料的实验优化。结构上的细微变化可能会导致PCE值产生较大差异。令人鼓舞的是,机器学习模型识别出这样的微小修改以利于良好的预测结果。

这样,Wenbo Sun及其同事使用了有关OPV供体材料的文献数据库和各种编程语言表达式(图像,ASCII字符串,描述符和分子指纹)来构建ML模型并预测相应的OPV PCE类。该团队演示了使用ML方法和实验分析设计OPV供体材料的方案。他们使用ML模型对大量供体材料进行了预筛选,以鉴定合成和进一步实验的主要候选对象。这项新工作可以加快新的供体材料设计,从而加快高PCE OPV的开发。ML与实验结合使用将促进材料发现。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。

推荐内容