在这个“大数据”时代,人工智能(AI)已成为科学家的宝贵盟友。例如,机器学习算法正在帮助生物学家理解控制基因功能的令人眼花number乱的分子信号。但是,随着开发出新算法来分析更多数据,它们也变得更加复杂且难以解释。定量生物学家 Justin B. Kinney 和Ammar Tareen制定了设计高级机器学习算法的策略,使生物学家更容易理解。
该算法是一种人工神经网络(ANN)。受神经元在大脑中连接和分支的方式的启发,人工神经网络是高级机器学习的计算基础。尽管具有人工神经网络的名称,但它并不是专门用于研究大脑的。
像塔里恩(Tareen)和金尼(Kinney)这样的生物学家,都使用人工神经网络来分析来自称为DNA的“大规模平行报告基因分析”(MPRA)实验方法的数据。利用这些数据,定量生物学家可以制作出人工神经网络,以预测哪些分子在称为基因调控的过程中控制特定基因。
细胞并不总是需要所有蛋白质。相反,他们依靠复杂的分子机制根据需要打开或关闭产生蛋白质的基因。当这些规定失效时,通常会出现疾病。
Kinney说:“了解机制,例如基因调控的原理,这种机械知识通常是能够开发针对疾病的分子疗法与无法做到的区别。”
不幸的是,根据MPRA数据塑造标准ANN的方式与科学家在生命科学中提出问题的方式大不相同。这种错位意味着生物学家发现很难解释基因调控是如何发生的。
现在,Kinney和Tareen开发了一种新方法,可以弥合计算工具与生物学家的想法之间的鸿沟。他们创建了自定义的人工神经网络,以数学方式反映了生物学中有关基因和控制它们的分子的常见概念。通过这种方式,这对夫妇实际上迫使他们的机器学习算法以生物学家可以理解的方式处理数据。
Kinney解释说,这些努力强调了如何优化现代工业AI技术以用于生命科学。Kinney的实验室已经验证了这种用于制作自定义ANN的新策略,并将其用于研究各种各样的生物系统,包括涉及人类疾病的关键基因电路。