来自耶拿大学、威斯特伐利亚应用科学大学和布拉格化学技术大学的研究人员开发了一个平台,该平台使用人工神经网络将化学结构式翻译成机器可读的形式。
通过这个平台,他们创建了一个工具,可以将科学出版物中的信息自动输入数据库。到目前为止,这些都是手工完成的,而且非常耗时。在最新一期的《自然通讯》杂志上,Christoph Steinbeck教授和Achim Zielesny教授领导的团队展示了他们的工具DECIMER的最新版本。Ai,研究人员可以在全球范围内使用。
结构式表明化合物是如何构成的,也就是说,它们由哪些原子组成,这些原子在空间上是如何排列的,以及它们是如何连接的。化学家可以从结构式中推断出哪些分子可以相互反应,哪些分子不能,如何合成复杂的化合物,或者哪些天然物质可以与细胞中的目标分子结合而具有治疗效果。
19世纪发展起来的分子结构式表法经受住了时间的考验,至今仍在每本化学教科书中使用。但是,让人类凭直觉理解化学世界的,只是软件的一组黑白像素。耶拿大学分析化学、化学信息学和化学计量学教授Steinbeck解释说:“为了使结构公式中的信息在数据库中可用,可以自动搜索,它们必须被翻译成机器可读的代码。”
这正是使用人工智能工具DECIMER可以做到的,DECIMER是由Steinbeck和他来自威斯特伐利亚应用科学大学的同事Zielesny领导的团队开发的。DECIMER代表“化学图像识别的深度学习”。它是一个开放源代码平台,可以免费提供给互联网上的每个人,并且可以在标准的web浏览器中使用。包含化学结构式的科学文章可以通过拖拽上传,人工智能工具将立即开始工作。
“首先,在整个文档中搜索图像,”斯坦贝克解释说。然后,该算法识别包含的图像信息,并根据它是化学结构式还是其他图像对其进行分类。最后,将识别出的结构式翻译成化学结构代码或显示在结构编辑器中,以供进一步处理。“这一步是项目的核心,也是真正的成就,”Steinbeck补充道。
这样,咖啡因分子的化学结构式就变成了机器可读的结构代码:CN1C=NC2=C1C(=O)N(C(=O)N2C)C。然后,这可以直接上传到数据库中,并与分子的进一步信息相关联。
为了开发DECIMER,研究人员使用了最近才建立起来的现代人工智能方法,例如,在目前备受讨论的大型语言模型(如ChatGPT)中也使用了这些方法。为了训练其人工智能工具,该团队从现有的机器可读数据库中生成结构公式,并将其用作训练数据——迄今为止约有4.5亿个结构公式。除了研究人员,公司也已经在使用人工智能工具,例如将专利说明书中的结构公式转移到数据库中。
几年前,Steinbeck和Zielesny提出了开发一种人工智能工具来解码化学图像的想法。这两位化学家对开发与千年历史的亚洲棋盘游戏围棋相关的人工智能方法很感兴趣。2016年,他们与世界各地的数百万人一起观看了当时最好的围棋选手韩国人李世石(Lee Sedol)与计算机软件AlphaGo之间的精彩比赛,AlphaGo以4:1获胜。
斯坦贝克回忆道:“这是一个晴天霹雳,让我们看到了人工智能的强大之处。在此之前,人们一直认为,在这个游戏中,算法可以与人类的创造力和直觉相媲美,这几乎是不可想象的。
“不久之后,当一个人工智能工具不像alphago那样,经过无数次人类游戏的艰苦训练,而仅仅通过系统一次又一次地与自己对弈,并在此过程中优化其打法,就发展出了近乎超人的棋力时,我们意识到,这些新方法也可以用足够的训练数据来解决其他非常复杂的问题。”我们希望将其用于我们的研究领域。”
使科学信息持续可用
本文来自作者[又蓝]投稿,不代表八木号立场,如若转载,请注明出处:https://jaxi.cnbmelink.com/wdcf/202412-5733.html
评论列表(4条)
我是八木号的签约作者“又蓝”!
希望本篇文章《在人与机器之间共享化学知识》能对你有所帮助!
本站[八木号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育
本文概览:来自耶拿大学、威斯特伐利亚应用科学大学和布拉格化学技术大学的研究人员开发了一个平台,该平台使用人工神经网络将化学结构式翻译成机器可读的形式。通过这个平台,他们创建了一个工具,可...