Nucleic Acids Research | 临港实验室开发序列比对修复工具MisER:解决RNA三代测序中小外显子识别难题,帮助鉴定神经系统疾病相关微小外显子的可变剪接

发布日期:2023-10-17

    小外显子(small exon)在各种生物体的转录组中普遍存在,它们的可变剪接会导致转录本(transcript)结构发生变化并生成不同的异构体(isoform),产生序列不同的转录本,进而影响基因的结构与功能,涉及多种细胞功能和神经系统疾病。基于Oxford Nanopore Technologies(ONT)的长读长测序技术具有覆盖全长转录本的优势,大大改进了对转录本异构体的分析。然而由于该技术较低的测序准确性,在将测序序列(reads)比对到参考基因组时往往会产生一些比对错误,这对小外显子的识别造成了挑战。目前仍不清楚哪些小外显子会发生比对错误,以及这种错误对可变剪接定量的影响,有必要对ONT数据集中小外显子的序列比对结果进行系统性的评估。


    2023年10月16日,临港实验室魏武研究团队在Nucleic Acids Research 期刊上在线发表了题为“Identification and quantification of small exon-containing isoforms in long-read RNA sequencing data”的研究论文。研究团队开发了一种名为MisER(Misaligned Exon Realignment)的序列比对修正方法,旨在解决三代测序,即长读长(long read)转录组测序(RNA-seq)中小外显子的识别难题,特别是长度不超过30个核苷酸(nucleotide,nt)的微小外显子(microexon),这些微小外显子的可变剪接(alternative splicing,AS)在神经系统发育和疾病中扮演重要的作用。利用MisER,研究团队分析了14个神经组织和16个非神经组织的三代RNA测序数据,检测出了数百个可变剪接微小外显子。这些微小外显子在进化的过程中显著保守,并且富集在神经组织中,其“开关式调控”(switch-like regulation)可能影响神经细胞的功能。其中,发生在AP1S2与APBB1基因中微小外显子的可变剪接,被报道与自闭症(autism spectrum disorder,ASD)的发生高度相关。



    在这项工作中,研究团队使用了人工合成的RNA标准(spike-ins, sequins)以及大量人类细胞和组织样本的ONT测序数据,评估了测序序列(reads)中不同长度外显子在基因组比对过程中丢失的比例。结果表明,在无转录本参考注释(transcript annotation)的基因组比对过程中,小于50 nt的外显子开始出现明显的序列比对错误,而小于20 nt的外显子几乎全部丢失。


研究设计示意图


    为了解决小外显子的序列比对问题,研究团队开发了一种基于转录本注释的二次比对修正方法(Misaligned Exon Realignment,MisER)来识别并修正基因组比对过程中的小外显子比对错误。首先,MisER会识别reads中与注释外显子所重叠的内含子区域,并将这些区域标记为潜在错配区域(potential misaligned regions,PMRs)。然后,MisER尝试将这些PMRs内的reads序列与注释外显子的参考序列重新进行比对,并计算比对得分。如果新的比对结果比原有结果得分更高,则将会替换原有比对结果,从而修正比对错误的小外显子。研究团队进一步使用了sequins中的组成性外显子(constitutive exon)以及大量模拟序列对MisER进行了评估,并展现了MisER具有极高的灵敏度与特异性。


    有了准确鉴定小外显子的MisER方法,研究团队进一步将MisER应用于多种人类组织的三代ONT测序数据集,包含14个神经组织和16个非神经组织,研究了神经组织特异性的小外显子的可变剪接。对可变剪接事件的定量分析表明,经过MisER修复后的数据检测出了更多的可变剪接微小外显子,并且这些微小外显子在神经组织中富集。这些微小外显子的"开关式调控"对于调整转录本结构的变化具有关键作用,进一步影响神经细胞的功能。其中,发生在AP1S2APBB1基因中微小外显子可变剪接被报道与自闭症(ASD)的发生高度相关。通过比较多个物种基因组序列的保守性得分,研究团队进一步揭示了这些微小外显子在进化中显著保守,这也进一步强调了微小外显子研究的重要性以及MisER方法可在不同物种数据集中广泛应用的价值。


    综上,研究团队的工作首次系统地描述了小外显子错误比对的特征,并提供了一种二次比对修复方法,有助于识别和定量转录组测序数据集中的小外显子可变剪接事件。这一方法有助于增强研究者对基因功能和转录调控的理解,为神经科学的转录组研究提供了重要的分析工具。


    临港实验室魏武研究员为本文通讯作者,临港实验室助理研究员刘振博士、斯坦福大学医学院朱辰宸博士为本文共同第一作者。本项工作得到了合作作者斯坦福大学医学院遗传系Lars M. Steinmetz教授的悉心指导与重要支持。本研究得到国家重点研发计划、国家自然科学基金等项目的资助。


附件下载: