同济大学刘琦团队开发基于元学习的AI模型,用于抗原-TCR亲和力识别及肿瘤新生抗原免疫原性预测
- 2023-03-20 18:00:21 健康一线
- 健康
T细胞受体(T-cell receptor, TCR)是获得性免疫过程中的关键分子。TCR经过特定的基因重组和进化筛选,具备高度的多样性及特异性。MHC-多肽复合物与TCR亲和力的计算识别(pMHC-TCR binding recognition)是揭示肿瘤、自身免疫性疾病和病毒感染性疾病等疾病发生发展机制的重要手段,也是计算免疫学领域基本而又极具挑战的问题,其挑战性具体体现为: 1)TCR空间呈现高度多样性,现有TCR识别的计算模型难以泛化至该高度多样化的TCR空间; 2)已知肽段-TCR配对数据服从长尾分布 (Long-tail)(图1),训练数据样本分布严重不均衡,少量的肽段拥有大量已知TCR结合数据(头部肽段),但大部分肽段仅记录了少量已知的TCR结合信息(尾部肽段)。直接基于此数据构建传统的监督式学习模型会使得模型倾向于学习头部样本的TCR结合模式,但难以泛化至尾部样本(Few shot)的亲和力预测; 3)肿瘤新生抗原,外源性肽段等对于免疫系统来说是未见的新生抗原,对于该类抗原的TCR识别是免疫治疗和细胞治疗的关键。但该类抗原的TCR亲和力识别属于AI领域的零样本识别问题(Zero shot),现有的计算模型无法解决。
图1. 已知数据肽段-TCR结合数据服从长尾分布
近日,同济大学生命科学与技术学院生物信息学系、同济大学-上海自主智能无人系统科学中心刘琦教授课题组,联合之江实验室等团队在 Nature Machine Intelligence 期刊发表了题为:Pan-Peptide Meta Learning for T-Cell Receptor-Antigen Binding Recognition 的研究论文。
该研究开发了普适有效的抗原-TCR亲和力预测的AI模型——PanPep。面向上述pMHC-TCR亲和力识别中的挑战和瓶颈,创新性地提出了基于元学习(Meta Learning)和神经图灵机(Neural Turning Machine)的AI计算框架,通过模拟人类对于已知任务的存储记忆和新任务的类比学习机制,有效地解决上述数据的长尾分布识别问题:即面向尾部肽段(Few shot)和肿瘤新生抗原或外源性肽段(Zero shot)进行TCR亲和力识别。
实验证明PanPep在三种应用场景Majority learning、Few-shot learning以及Zero-shot learning场景中均取得了较高的抗原-TCR预测准确率。
PanPep算法框架包含了元学习模块和解耦蒸馏(Disentanglement distillation)模块。其中,针对已知数据的长尾效应,元学习模块采用了Model-Agnostic Meta Learning(MAML)计算框架。模型假设每一个肽段具有其特异性的TCR结合模式,因此每一个肽段下的TCR结合识别任务被当作MAML中的一个任务,且肽段表征的分布即为任务的分布。基于这些肽段任务(Peptide-specific task),元学习模块能够仅基于少量训练样本在不同任务中快速泛化。而对于诸多未见的肽段,例如新生抗原、外源性抗原等肽段,由于缺乏已知的TCR结合信息,无法通过对于元学习模块进行微调使其快速泛化到该任务上,故研究团队受启发于神经图灵机(NTM)通过外部记忆模块避免学习遗忘这一机制,创新性的开发了解耦蒸馏模块,借助以往学习任务所获得的经验,对于未见的新肽段的TCR结合识别任务进行泛化,从而实现零样本学习。
该工作中,研究团队首先将该算法与同类算法在三种测试场景(Majority,Few-shot和Zero-shot场景)中进行比较,PanPep在保持Majority场景的预测性能的同时,在Few-shot和Zero-shot场景中均获得了最优的预测性能。特别的,现有工具在Zero-shot场景下均无预测能力,表明现有计算工具无法对于免疫系统未见的新肽段进行TCR亲和力识别。
进而,研究团队进一步证明了PanPep可以有效地应用于:
1)T细胞克隆扩增的定量识别;
2)肿瘤新生抗原刺激下的T细胞识别;
3)新冠病毒的抗原-TCR识别。
实验表明PanPep在肿瘤新生抗原预测、突发病毒的免疫学机制研究,抗原抗体设计、TIL细胞疗法等诸多领域具有广泛的应用价值。
元学习和目前领域内流行的大模型 (如ChatGPT等) 均是通往通用人工智能(AGI,Artificial General Intelligence)的可能有效途径。该工作是应用和发展元学习理论解决生物组学数据长尾分布和小样本问题的有益尝试。
该工作获得了审稿人的高度评价,评审认为:"conceptually very sound and a major algorithm advance ", " motivate the development of meta learning in bioinformatics"。该工作被Nature Machine Intelligence Highlight,并将当期特邀密苏里大学计算机科学系前系主任,美国科学促进会(AAAS)会士和美国医学和生物工程研究院(AIMBE)会士Dong Xu教授撰写Highlight View: “Meta-learning for T cell-receptor binding specificity and beyond”。在该View中,Dong Xu教授绘制了一个全面系统的框架图,清晰的总结了PanPep计算模型的基本思路,并指出了生物数据中普遍存在的长尾分布特征和本工作在解决长尾分布和小样本学习上的重要价值。Dong Xu教授认为“PanPep provides a pioneering example of using meta-learning”,“delivered a great promise of using meta learning to address bioinformatics' long tail distribution problems”。
刘琦教授课题组长期致力于组学人工智能驱动的精准医学研究和转化实践。论文第一作者为刘琦教授课题组的高溢骋、高雨莉博士,通讯作者是刘琦教授。
本文地址://www.styjt.com/jiankang/2023-03-20/633036.html
友情提示:文章内容为作者个人观点,不代表本站立场且不构成任何建议,本站拥有对此声明的最终解释权。如果读者发现稿件侵权、失实、错误等问题,可联系我们处理
- 北京银保监局发布风险提示:警惕六类诈骗“陷阱”守住养老钱包2023-03-20 18:00:31
- 7月1日实施!电动自行车乘员头盔“强制性国家标准”来了2023-03-20 18:00:31
- 北京海淀:2848套共有产权房 今年11月交付使用2023-03-20 18:00:30
- 北京:今天白天多云转晴 最高气温18℃2023-03-20 18:00:30
- 中国海关总署:将持续完善跨境电商进出口退货措施2023-03-20 18:00:30
- 70岁以上老人核酸检测费用多少 新规定明天起不做核酸了吗
2022-11-07
- 梅婷现任70岁老公曾剑个人资料(曾剑个人资料)
2022-09-08
- 烟台今天已封闭的小区 烟台现在封闭小区名单有哪些
2022-10-12 09:07:30
- 张家界桑植新娘吴梅婚纱照事件完整版 看女主出轨聊天内容视频
2022-11-11 14:27:00
- 目前南岸区及江北封闭小区名单有哪些 看最新封控通告
2022-11-11 14:49:26
- 无人售货机功能(无人自动售货机操作方法介绍)
2022-07-27 08:41:09
- 2022南宁封控小区名单表 南宁最新封闭小区名单2022年8月什么情况
2022-08-26 09:52:30
文章排行榜
- 周排名
- 月排名
- 1应对儿童流感,除奥司他韦,还可选芩香清解口服液
- 2两会上的“控烟”之声:@3.5亿烟民,国产戒烟药或将成为拯救健康的第一步?
- 3艾尔建美学中国医美专家峰会聚焦“以求美者为中心” Going Beyond Beauty正式发布
- 4全国爱肝日,带你认识这几种累及肝脏的罕见病
- 5流感又凶变!陕西推荐成人和儿童使用连花清瘟治疗甲流
- 6眼底相机拍照+人工智能辅助诊断!上海探索青光眼社区慢病管理新模式
- 7治新冠抗甲流,连花清瘟异病同治获中西临床共证
- 8全球CRO普米尔医药与 InSilicoTrials Technologies 携手创建合成对照组优化罕见病疗法监管途径
- 9沈阳社保缴费基数上下限2023是多少?沈阳社保费用交多少钱?
- 10“中国医药企业研发指数”在京发布