训练人工智能以发现与疾病相关的基因

人工神经网络揭示了大量基因表达数据中的模式，并发现了与疾病相关的基因。来自瑞典林雪平大学的开发人员希望该方法最终可以应用于精密医学和个性化治疗。

科学家根据不同蛋白质或基因如何相互作用来绘制生物系统图。他们使用人工智能(AI)，研究了是否有可能通过深度学习发现生物网络，其中通过实验数据训练称为神经网络的实体。

“我们第一次使用深度学习来发现与疾病相关的基因。这是分析大量生物信息或“大数据”的一种非常有效的方法，”林雪平大学物理，化学和生物学系(IFM)的Sanjiv Dwivedi说。

科学家使用了一个大型数据库，其中包含有关许多人中20,000个基因的表达模式的信息。这些信息是“未分类的”，因为研究人员没有提供人工神经网络数据，即哪些基因表达模式来自疾病患者，哪些来自健康人。然后训练AI模型以发现基因表达模式。

人工神经网络由几层组成，其中对信息进行数学处理。该系统包括传递信息处理结果的输入层和输出层。在这两层之间是几个隐藏层，在其中进行计算。当科学家训练人工神经网络时，他们想知道是否有可能确切了解其工作原理。

“当我们分析神经网络时，结果发现第一隐藏层在很大程度上代表了各种蛋白质之间的相互作用。相反，在模型的更深层，在第三层，我们发现了不同细胞类型的组。鉴于我们的网络是从未分类的基因表达数据开始的，这种与生物学相关的分组是自动产生的，这非常有趣。” IFM高级讲师兼研究负责人Mika Gustafsson说。

然后，科学家们研究了他们的基因表达模型是否可以用来确定哪些基因表达模式与疾病有关，哪些与健康有关。他们证实，该模型找到了可验证人体生物学机制的相关模式。由于该模型是使用未分类的数据训练的，因此人工神经网络可能已经找到了全新的模式。研究人员现在计划从生物学的角度研究这种先前未知的模式是否相关。

“我们认为，该领域取得进展的关键是了解神经网络。这可以教会我们有关生物学环境的新知识，例如许多因素相互作用的疾病。我们相信，我们的方法所提供的模型更易于推广，可用于许多不同类型的生物学信息。” Gustafsson说。