首页 / 一种在基因组转录后水平识别RNA结构变化的方法、设备、介质和程序产品

一种在基因组转录后水平识别RNA结构变化的方法、设备、介质和程序产品公开 发明

技术领域

[0001] 本发明涉及生物分析领域,更具体地,涉及一种在基因组转录后水平识别 RNA 结构变化的方法、设备、介质和程序产品。

相关背景技术

[0002] 转录后过程是调节基因表达的关键步骤,对生物体的正常功能和健康至关重要。转录后过程包括对mRNA的修饰和调控,如剪接、加帽和加尾、以及编辑等,上述过程确保mRNA的稳定性和正确性,并影响其翻译效率。例如,剪接过程可以去除mRNA中的内含子(非编码区域),将外显子(编码区域)连接起来,形成成熟的mRNA,这对于产生功能性的蛋白质至关重要。转录后调控还允许细胞快速响应环境变化,通过调整特定mRNA的表达水平来改变蛋白质的合成。在转录后过程中,3'UTR、5'UTR、外显子、内含子和多种RNA可以形成复杂的空间构象,充当调节RNA稳定性、表达、翻译和衰变的“支架”。转录后过程的异常可能导致mRNA不稳定或错误的剪接,进而影响RNA的结构和功能。
[0003] 基因组调控元件是基因转录、表达和翻译过程中的关键调控因子。基因组调控元件的分子失调可能导致人类疾病,然而,这些元件的功能仍然知之甚少。先前的研究表明,基因组调控元件覆盖绝大多数遗传变异,特别是单核苷酸多态性(SNP),易导致异常调控并很可能调节疾病易感性,上述有功能的SNP也被定义为“候选功能性SNPs(cfSNPs)”。一方面,cfSNPs可以显著破坏顺式作用元件和反式作用因子之间的分子结合,这会影响转录活性并可能导致复杂疾病。另一方面,cfSNPs可以改变RNA二级结构,影响分子功能,从而进一步参与多种人类疾病。因此在基因转录后层面剖析SNP、靶基因调控元件和原始表型之间的系统调控至关重要。

具体实施方式

[0030] 为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
[0031] 在本发明的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
[0032] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获取的所有其他实施例,都属于本发明保护的范围。
[0033] 图1是本发明实施例提供的一种在基因组转录后水平识别 RNA 结构变化的方法流程示意图,具体地,所述方法包括如下步骤:101:获取待测SNPs;
[0034] SNP的全称是单核苷酸多态性(Single Nucleotide Polymorphism),指的是在基因组DNA序列中,单个核苷酸(碱基对)的变异。这种变异可能是替换(例如,A变为G)、插入或缺失。SNP是基因组中最常见的一种遗传变异形式,它们在人群中的分布具有多态性,即不同个体在相同位置上可能具有不同的核苷酸。在一些实施例中,待测SNP来自受试者,本文中使用的术语”受试者”或“待测者”或“待测样本”是指任何动物(例如,哺乳动物),包括但不限于人、非人灵长类动物、啮齿类动物等,其将成为特定治疗的接受者。通常,术语“受试者”和“患者”在涉及人受试者时在本文中可互换地使用。优选地,所述受试者是人。
[0035] 102:基于所述待测SNPs调取Ref和Alt序列对;
[0036] 在一些实施例中,基于每个SNP调取该SNP对应的Ref和Alt序列对。具体地,调取Ref和Alt序列上下游各Mbp得到数个序列对,M为大于1的自然数;M的范围为10‑35,优选为20。具体地,Ref为野生型,Alt为突变型。所述数个指的是大于1的自然数。
[0037] 103:基于所述Ref和Alt序列对提取得到RNA二级结构特征;所述二级结构特征包括B、E、H、I、M、S亚基,以及每个亚基的数量、长度和位置;在一些实施例中,在103和104之间,所述方法还包括标准化所述每个亚基的数量、长度和位置,标准化的方法为:
[0038]
[0039] 其中, 代表任何数值6 × 2向量, 为标准化后的数值,范围为0‑1;B、E、H、I、M、S分别表示凸环、外环、发夹环、内环、多分支环、茎;
和 分别代表由SNP诱导的 ref 和 alt RNA 二级结构。
RNA二级结构具体为RNA二级结构中每类亚基的数量、长度及位置。
[0040] 104:采用欧式距离计算B、E、H、I、M、S亚基,以及每个亚基的数量、长度和位置量化Ref序列和Alt序列的结构差异得到差异值;基于差异值识别SNP对RNA结构变化的影响。
[0041] 在一些实施例中,所述104中量化的方法包括:
[0042]
[0043] M 代表了每个RNA亚基特征,N 指B、E、H、I、M、S亚基, 和 分别表示每个RNA亚基特征的标准化值; 表示量化后得到的差异值;B、E、H、I、M、S分别表示凸环、外环、发夹环、内环、多分支环、茎。
[0044] 在一些实施例中,如果所述差异值超过第三阈值,输出SNP对RNA结构变化具有影响的结果。所述第三阈值通过评估RNA亚基发生显著变化的下四分位数。在一些实施例中,第三阈值通过训练集样本训练得到,其可以是具体阈值,也可以是区间范围,具体形式在本实施例中并不做具体限定。
[0045] 在一些实施例中,所述方法还包括105,基于差异值识别SNP对RNA结构变化的影响,进而对SNPs进行排序。
[0046] 在一些实施例中,所述方法还包括:识别所述Ref和Alt序列对中转录后基因调控元件的RNA结构可变区域;从所述RNA结构可变区域中提取得到RNA二级结构特征;所述RNA结构可变区域包括全局RNA结构可变区域和/或局部RNA结构可变区域。
[0047] 在一些实施例中,将所述全局RNA结构可变区域中的SNPs分类为近端变构效应和远端变构效应;如果所述SNPs位于全局RNA结构可变区域且影响该区域的折叠,输出属于近端变构效应;如果所述SNPs不位于全局RNA结构可变区域且影响该区域的折叠,输出属于远端变构效应。具体地,近端变构效应指的是影响周围小段区域,做分子实验时只考虑SNP当前的基因或其他;远端变构效应指的是影响的不是当前基因,可能在其他基因,做分子实验时首先考虑其他基因。
[0048] 在一些实施例中,所述转录后层面基因调控元件包括:3’UTR(3’非翻译区),5’UTR(5’非翻译区),外显子,内含子,长链非编码RNA(LncRNA)。研究基因组调控元件有助于深入理解基因如何被调控,以及这些调控如何影响生物体的生理和病理过程。
[0049] 在一些实施例中,根据所述评价结果或预测结果包括但不局限于纸质版或电子版报告形式,该结果只是智能机器基于受试的相关数据进行分析得到,仅作为参考依据,并不作为最终诊断结果。
[0050] 图3是本发明实施例提供的一种计算机设备的示意图,如图3所示,所述设备2000可以包括:一个或多个处理器2010,和一个或多个存储器2020;其中,所述存储器中存储有计算机可读代码,所述计算机可读代码当由所述一个或多个处理器运行时,可以执行如上所述的方法。
[0051] 本实施例中的处理器可以是一种集成电路芯片,具有信号的处理能力。上述处理器可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本公开实施例中的公开的各方法、操作及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,可以是X86架构或ARM架构的。
[0052] 一般而言,本公开的各种示例实施例可以在硬件或专用电路、软件、固件、逻辑,或其任何组合中实施。某些方面可以在硬件中实施,而其他方面可以在可以由控制器、微处理器或其他计算设备执行的固件或软件中实施。当本公开实施例的各方面被图示或描述为框图、流程图或使用某些其他图形表示时,将理解此处描述的方框、装置、系统、技术或方法可以作为非限制性的示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备,或其某些组合中实施。
[0053] 例如,根据本公开的实施例的方法或装置也可以借助于图4所示的计算设备3000的架构来实现。如图4所示,计算设备3000可以包括总线3010、一个或多个CPU3020、只读存储器(ROM)3030、随机存取存储器(RAM)3040、连接到网络的通信端口3050、输入/输出组件3060、硬盘3070等。计算设备3000中的存储设备,例如ROM3030或硬盘3070可以存储本公开提供的方法的处理和/或通信使用的各种数据或文件以及CPU所执行的程序指令。计算设备
3000还可以包括用户界面3080。当然,图4所示的架构只是示例性的,在实现不同的设备时,根据实际需要,可以省略图4示出的计算设备中的一个或多个组件。
[0054] 本发明实施例还一种计算机可读存储介质,如图5所示,为本发明实施例提供的存储介质4000的示意图,所述计算机存储介质4020上存储有计算机可读指令4010。当所述计算机可读指令4010由处理器运行时,可以执行参照以上附图描述的根据本公开的实施例的方法。本公开实施例中的计算机可读存储介质可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(SDRAM)、双倍数据速率同步动态随机存取存储器(DDRSDRAM)、增强型同步动态随机存取存储器(ESDRAM)、同步连接动态随机存取存储器(SLDRAM)和直接内存总线随机存取存储器(DR RAM)。应注意,本文描述的方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。应注意,本文描述的方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
[0055] 本公开实施例还提供了一种计算机程序产品或系统,包括计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
[0056] 在一些实施例中,本实施例还公开一种在基因组转录后水平识别 RNA 结构变化的系统,如图2所示,所述系统包括:
[0057] 第一获取模块201,用于或者配置为获取待测SNPs;
[0058] 序列对调取模块202,用于或者配置为基于所述待测SNPs调取Ref和Alt序列对;
[0059] 提取RNA二级结构特征模块203,用于或者配置为基于所述Ref和Alt序列对提取得到RNA二级结构特征;所述二级结构特征包括B、E、H、I、M、S亚基,以及每个亚基的数量、长度和位置;
[0060] RNA结构变化识别模块204,用于或者配置为采用欧式距离计算B、E、H、I、M、S亚基,以及每个亚基的数量、长度和位置量化Ref序列和Alt序列的结构差异得到差异值;基于差异值识别SNP对RNA结构变化的影响。
[0061] 在一些实施例中,所述系统还包括位于提取RNA二级结构特征模块和RNA结构变化识别模块之间的标准化模块,用于或者配置为标准化所述每个亚基的数量、长度和位置,标准化的方法为:
[0062]
[0063] 其中, 代表任何数值6 × 2向量, 为标准化后的数值,范围为0‑1;B、E、H、I、M、S分别表示凸环、外环、发夹环、内环、多分支环、茎;
和 分别代表由SNP诱导的Ref和Alt RNA 二级结构。RNA
二级结构具体为RNA二级结构中每类亚基的数量、长度及位置。
[0064] 具体实施例:
[0065] 1材料和方法:
[0066] 1.1收集数据:
[0067] 近视相关的SNPs收集自dbGap、GWAS目录和已发表的文献。基于千人基因组计划(GRCh38)中近视相关SNP的人群分布,我们对样本和基因型进行了质量控制(QC)。根据以下选择标准过滤SNP:东亚、NCBI中的两个等位基因、次要等位基因频率(MAF)>5%、Hardy‑Weinberg平衡P<0.01、召回率>75%和基因分型率>75%。得到343个SNP用于以下分析。8种基因组调控元件的起始和终止位置,包括开放染色质区域(OCR)、CTCF结合位点(CTCFBS)、增强子、启动子、启动子侧翼区域(PFR)、外显子、内含子、非编码RNA(ncRNA)转录本,源自ENSEMBL(v102),并根据NCBI的Refseq提取它们的序列。使用ENSEMBL的BioMart工具获得3'UTR和5'UTR的序列。
[0068] 1.2近视相关SNP在10个基因组调控元件上的精细定位:
[0069] 使用经典的读取对齐工具Bowtie2来执行精准定位。基因组调控元件的一级序列被视为长参考。这些SNP上游和下游的30bp侧翼区域被视为短比对序列。然后,使用“‑‑n‑ceil C,3 ‑‑np 0 ‑‑end‑to‑end ‑a ‑‑score‑min C,0”设置严格的参数,以避免种子序列不匹配。精细定位后,我们根据SNP的等位基因构建了配对参考(Ref)和替代(Alt)序列。所述对齐软件包括Bowtie1、Bowtie2、BLAST,优选Bowtie2。
[0070] 1.3评估转录水平的分子结合变化:
[0071] 我们提取了SNP诱导的配对Ref和Alt序列上下游20bp,并从HumanTFDB数据库中获取了这些序列的Enhancer、OpenchromatinRegion(OCR)、Promoter和Promoterflankingzone(PFR)的结合基序,而CTCF来自CTCFBSDB数据库。对于蛋白质结合,我们分别获得了调节蛋白(TF和CTCF)的数量、蛋白质符号以及结合基序的起始和结束位置。首先,我们使用倍数变化(FC)来获取近视相关SNP介导的蛋白质结合位点数量的变化:
[0072]
[0073] 和 分别代表Ref和Alt序列结合的蛋白质数量。我们将FC>1定义为蛋白质结合损失,相反,FC<1定义为蛋白质结合增益。然后,我们应用Fisher精确检验来确定蛋白质结合基序的变化,如下所示:
[0074]
[0075] a是仅与Ref序列重叠的结合基序的数量,b表示不与Ref序列重叠的结合基序的数量,c表示仅与Alt序列重叠的结合基序的数量,d表示不与Alt重叠的结合基序的数量序列。这里,当FC不等于1且PT<0.05时,表明与近视相关的SNP显着影响蛋白质结合,将这些SNP识别为cfSNPs。此外,我们将得分最高的蛋白质定义为“领导”蛋白质。
[0076] 1.4识别转录后的全局RNA结构可变区:
[0077] 在转录后水平,我们利用RNAsnp识别了五种调控元件的结构可变区,包括3’UTR、5’UTR、外显子、内含子和LncRNA转录本。根据RNAsnp设定的阈值,PPT<0.2表明SNP可能对局部RNA结构产生显着影响。在这里,我们将这些区域定义为“全局RNA结构可变区域”。如果SNP位于RNA结构可变区并影响该区域的折叠,则这些SNP被定义为“近端变构效应”。否则,如果SNP不位于RNA结构可变区,并且影响周围的折叠,则这些SNP被定义为“远端变构效应”。
[0078] 1.5使用RNA亚基定量RNA结构可变区的变化:
[0079] 我们评估了SNP诱导的重要全局RNA结构可变区域内RNA亚基的变化。首先,我们预测了尽可能与真实折叠状态一致的RNA二级结构。基于1000种可能的结构进行聚类分析,获得多个聚类的代表性结构。通过比较每个簇中代表性RNA结构的最小自由能(MFE),我们选择自由能最低的结构作为最可能的结构。然后,使用RNAsmc提取每个RNA的六个RNA亚基,即每个RNA的凸环(B)、外环(E)、发夹环(H)、内环(I)、多分支环(M)和茎(S)。接下来,我们开发了一个计算流程,并使用欧几里得距离(基于RNA亚基)量化了全局RNA结构可变区的结构异质性( )。我们得到了全局RNA结构可变区中RNA亚基的特征,即配对Ref和Alt结构中每个亚基的数量、长度和位置。对于这三个维度,我们构建了对应的两个6×1向量:
[0080]
[0081]
[0082] 其中,i代表RNA亚基的特征。B、E、H、I、M和S分别指6个RNA亚基,即凸环、外环、发卡环、内环、多分支环和茎。R和A分别代表由SNP介导的Ref和Alt RNA二级结构。然后,为了标准化RNA亚基的三个特征的大小,将每种类型的亚基标准化如下:
[0083]
[0084] 代表任意数值6×2向量, 范围从0到1。最后,我们采用欧氏距离( )来量化ref和alt结构之间的差异:
[0085]
[0086] M代表了每个子单元的特征。N指六个子单元。 和 分别表示每个特征的标准化值。在这项研究中, 的下四分位数被设定为显着性阈值。如果
超过下四分位数,我们认为RNA亚基表现出显着变化。VARNA用于可视化RNA二级结构。
[0087] 1.6基于HM队列和计算管道评估SNP的相同注释:
[0088] CAMS研究中总共10,348名高度近视参与者(最差的眼睛SE<‑6.00D)使用TwistHumanCoreExomeKit在BerryGenomics的IlluminaNovaSeq6000测序仪上进行了测序。我们从CAMS研究中获得了近视相关SNP的基因型和表型。接下来,我们使用联合注释依赖性缺失(CADD)根据高度近视队列中的基因型和表型对SNP的有害性进行评分。在这里,SNP具有CADD评分≥10被定义为有害的SNP,可能导致基因功能丧失。联合注释依赖的缺失评分(Combined Annotation Dependent Depletionscore,CADD score):用来评估和量化单核苷酸变异(SNV),得分越高表明有害变异越多,即致病性可能性越高。
[0089] 2结果:
[0090] 2.1近视相关SNP广泛分布于转录和转录后水平:
[0091] 我们从公共资源中获取了与近视相关的SNP,经过质量控制后,将343个SNP用于后续分析(参见方法)。为了揭示转录和转录后水平上SNP的完整图谱,使用精准定位并鉴定由263个SNP、10种基因组调控元件和近视形成的636个关系对(图6A)。此外,这些SNP分别与五种表型相关,即屈光不正(RE)、普通近视(CM)、高度近视(HM)、病理性近视(PM)和视力障碍(VD)。在转录过程中,84个SNP位于增强子、开放染色质区域(OCR)、CTCF结合位点(CTCFBS)、启动子和启动子侧翼区域(PFR),形成90个关系对。总共244个SNP被定位在5个基因组调控元件上,即5'UTR、外显子、内含子、3'UTR和LncRNA,在转录后水平上构成546个关系对。接下来,我们发现14.15%(90/636)和85.85%(546/636)的对分别在转录和转录后过程中富集(图
6B)。
[0092] 为了进一步评估SNP在所有基因组调控元件中的平均分布,我们分析了这些元件的转录长度以及每个基因组调控元件中SNP的密度。结果表明,最长转录本LncRNA的中位长度是最短转录本CTCFBS中位长度的95.53倍(图6C)。然后,我们还进一步评估了每1000bp内每个调控元件上SNP的富集情况。与人类基因组中平均每1000bp包含1个SNP相比,我们观察到与近视相关的SNP分别高度分布在OCR、CTCFBS、5'UTR和外显子中(图6D)。通过对近视的剖析,发现81.76%(520/636)的关系对与CM相关。此外,对HM、PM、RE和VD了解甚少,分别约为12.11%(77/636)、5.19%(33/636)、0.63%(4/636)和0.31%(2/636)。这些数据表明,近视相关SNP的分布在转录和转录后水平以及基因组调控元件之间存在差异。这些差异可能与近视严重程度和潜在的分子调节有关。
[0093] 2.2对转录过程中SNP诱导的分子结合异质性进行评分:
[0094] 为了研究转录水平上SNP介导的分子结合异质性,我们开发了一个计算流程,使用倍数检验(FC)来评估结合蛋白数量的变化,并应用Fisher精确检验来评估结合蛋白分子的变化。这里,使用阈值PT<0.05,FC不等于1,发现38.46% (5/13)、80% (4/5)、57.89% (11/19)和44.73% (17/38)的SNP可能会分别破坏增强子、开放染色质区域、启动子和PFR的转录因子结合(图7)。对于CTCF蛋白,我们发现大约13.33%(2/15)的SNP可以破坏CTCFBS的相互作用。总共,43.33% (39/90)的关系对能够破坏结合亲和力,并在转录过程中将46.43% (39/84) SNP识别为“cfSNPs”。总而言之,开放染色质区域显著富含与近视相关的SNP和cfSNPs,表现出高密度分布和分子结合破坏。
[0095] 为了确定与近视相关或潜在相关的cfSNPs相关调节蛋白的可能影响,我们在已发表的研究中探索了每个关系对的“领导”蛋白的分子功能。有趣的是,大多数“领导”蛋白能够影响眼部组织或结构。例如,约7.69% (3/39)的cfSNPs引起REST结合基序的变化,从而影响发育中视网膜中RGC视网膜神经节细胞(RGC)的命运。约7.69%(3/39)的cfSNPs引起IRF1结合的变化,已知IRF1在视网膜小胶质细胞中表达,并在小胶质细胞激活和视网膜炎症中发挥关键作用。此外,15.28%(6/39)的cfSNPs改变了SPI1的结合基序位点,据报道SPI1可以调节视网膜中的小胶质细胞。总之,我们发现视网膜炎症中存在丰富的前导蛋白,已证实其与近视的发生和发展有关。此外,它可以帮助我们揭示潜在的蛋白质调节因子并了解SNP如何参与近视的分子调节。最终,我们在转录水平上评估了显着变化的一对一对中近视类型的分布。其中超过75% (3/4)与PM有关,而约44.44% (4/9)和41.56% (32/77)与HM和CM有关(图7A‑D)。结果还表明,SNP对近视的影响随着近视的严重程度而增加。
[0096] 2.3识别转录后过程中SNP介导的全局RNA结构可变区:
[0097] 为了识别转录后过程中SNP诱导的RNA二级结构异质性,我们最初采用RNAsnp来检测潜在的全局RNA结构可变区,PPT<0.2。这里,由于5'UTR中只有一对一的对,因此选择该外显子作为参考来比较RNA结构可变区平均长度差异的显著性。如图7A所示,5'UTR、3'UTR和Exon的RNA结构可变区比内含子和LncRNA相对较长。值得注意的是,与近视相关的SNP不仅在5'UTR和外显子上高度富集,而且还导致这些调节区域的巨大结构损伤。尽管近视相关的SNP在3'UTR区域并未显着富集,但它们仍然造成了重大的结构影响。这可能是由于3’UTR区域呈现出高度结构化的特征,一旦被破坏,对RNA二级结构的影响很大。
[0098] 此外,我们还评估了SNP是否位于RNA结构可变区域。定义显示在方法中。据统计,大约97.54%(238/244)的SNP表现出近端变构效应,映射到91.96%(502/546)的关系对和所有五个调控元件,而只有12.70%(31/244)的SNP表现出近端变构效应。SNP显示远端变构效应,映射到8.06%(44/546)的关系对和三个调控元件,即外显子、内含子和LncRNA(图7B)。这一发现与之前的一项研究一致,即SNP主要影响局部区域,而不是产生全局影响。
[0099] 为了进一步探索哪些基因组调控元件被SNP显著破坏,我们分析了这些元件内重要RNA结构可变区域的比例。如图7C所示,在3'UTR中的9个关系对中,其中33.33% (3/9)由37.50% (3/8)的SNP诱导,呈现显著的RNA结构可变区,而5'UTR中的1组关系对并没有表现出显著的RNA结构可变区。外显子中的35个关系对中,由20.69% (6/29)的SNP介导的22.86% (8/35)的关系对表现出显著变化,。此外,在内含子中的308个关系对中,其中14.61% (45/
308)包含显著的RNA结构可变区,这些区域受到16.52% (38/230) 的SNP影响。在LncRNA的
193个关系对中,其中12.95% (25/193)显示出显著的RNA结构可变区,这是由14.56% (23/
158)的SNP诱导的。总体而言,我们发现14.84% (81/546)的关系对含有由20.08% (49/244)的SNP诱导的显著RNA结构可变区,这些SNP被识别为cfSNPs。
[0100] 为了表征RNA二级结构在近视中的作用,我们分析了重要的RNA结构可变区域的分布。RE、CM和HM三种近视表现出SNP介导的显著变化。在这些表型中,1.23% (1/81)的关系对与RE相关,16.05% (13/81)与HM相关,82.72% (67/81)与CM相关。如图7D和E所示,与CM相比,HM表现出更高比例的重要区域,例如3’UTR、外显子和内含子更容易受到HM中cfSNPs的影响。
[0101] 2.4基于RNA亚基量化重要RNA结构可变区的局部稳定性:
[0102] 为了进一步评估重要RNA结构可变区域中cfSNPs引起的RNA稳定性和可及性的变化,我们揭示了基于RNA亚基的单链或双链状态的变化。首先,我们设计了一个计算流程,使用Sfold识别81个重要RNA结构可变区域的最可能的结构。在这里,我们从RNASTRAND中获得了实验测定的RNA二级结构,并使用这些结构作为参考来评估预测结构的准确性。例如,Sfold和RNASTRAND在预测stRNA的RNA二级结构方面表现出高度的一致性,实现了10的RNAsmc评分。然后,我们得到RNA结构可变区的基本RNA亚基,分别是茎(S)、内环(I)、凸环(B)、多支环(M)、发夹环(H)和外环(E)。RNA折叠的单链和双链状态与RNA稳定性或RNA结合的可及性密切相关。通过分析显著RNA结构可变区域中35个cfSNPs诱导的81个关系对的配对Ref和Alt结构的RNA亚基,我们发现这些关系对中的53.09% (43/81)显示出配对状态变化。其中,24.69%(20/81)从单链变为双链,28.40%(23/81)从双链变为单链,46.91%(38/81)保持不变。在亚基改变的情况下,双链状态(S代表双链状态)和其他单链亚基(B、E、H、I和M是单链状态)发生显著变化。
[0103] 最后,为了识别cfSNPs在转录后水平引起的显着RNA结构可变区的局部变化,我们基于RNA亚基进行了全面的比较,包括Ref和Alt结构之间的每个亚基的数量、长度和碱基组成。利用欧氏距离量化结构差异。评估RNA亚基显著变化阈值定义为观测结构变化数值的下四分位数( =1.65)。在这里,由14.34% (35/244)的SNP诱导的8.79% (48/546)的重要RNA结构可变区可能会经历RNA亚基的变化,从而影响RNA的二级结构。这些结果表明,近视相关的SNP通过影响RNA稳定性,在近视相关疾病的发生中发挥重要作用。
[0104] 该研究首次建立了近视相关SNP介导的基因组调控元件分子失调的全面图谱。对263个SNP、10个基因组调控元件和5个基因组调控元件进行了636个关系对。我们在全基因组调控元件上共鉴定出82个近视cfSNPs,其中在转录层面检测到39对关系对的39个cfSNPs,在转录过程中检测到81个关系对的49个cfSNPs。转录层面。使用FC和PT对SNP介导的结合蛋白的获得或丢失进行定量。转录后层面,我们使用RNAsnp从全局角度进一步研究了重要的RNA结构可变区域。此外,我们设计了一种新方法从局部角度量化RNA亚基的变化,这可以反映RNA的可及性和稳定性。此外,我们从先前建立的高度近视队列中获得了基因型和表型信息,并基于CADD评估了SNP的有害性。总之,这项研究揭示了潜在的分子调控,增强了SNP的可解释性,并为近视的遗传机制提供了新的见解。
[0105] 在转录后过程中,我们发现与近视相关的SNP也可能破坏基因组调控元件的二级结构并导致分子失调。之前的研究中报道了一个经典的与近视相关的风险分子FGF10,其第二结构被rs339501破坏(PPT=0.11, =1.99)。然后,我们还得到了局部区域最可能的结构,C等位基因位于内环中,而U等位基因则位于茎上。结果表明rs339501可以改变FGF10的单链或双链并对RNA稳定性产生影响。相似地,位于3’UTR上的rs905224可能会破坏ZNF891的结构稳定性。然后,从IntAct数据库下载ZNF891的两种结合蛋白GAPDH和PSME3。通过检测rs905224诱导的分子相互作用,我们发现ZNF891的RNA二级结构的变化可能会影响这两种蛋白质在3D空间构象中的结合,并具有不同的对接分数。同样,之前的大量研究表明,SNP介导的RNA二级结构的变化可能有助于疾病的发展。例如,FTL基因5’UTR中的两个SNPU22G和A56U被证实会改变mRNA结构整体,并与高铁蛋白血症白内障综合征相关。另一项研究表明,3’UTR中rs27770的等位基因表现出不同的最小自由能(MFE)结构,可显著影响mRNA稳定性并增加癌症风险。这些观察结果支持基因组调控元件的RNA二级结构是近视的关键因素。我们开发了计算管道来识别转录和转录后过程中的cfSNPs。这对于了解近视发展的潜在调控机制具有重要意义。
[0106] 需要说明的是,附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0107] 一般而言,本公开的各种示例实施例可以在硬件或专用电路、软件、固件、逻辑,或其任何组合中实施。某些方面可以在硬件中实施,而其他方面可以在可以由控制器、微处理器或其他计算设备执行的固件或软件中实施。当本公开实施例的各方面被图示或描述为框图、流程图或使用某些其他图形表示时,将理解此处描述的方框、装置、系统、技术或方法可以作为非限制性的示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备,或其某些组合中实施。
[0108] 所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0109] 在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0110] 所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0111] 另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0112] 在上面详细描述的本公开的示例实施例仅仅是说明性的,而不是限制性的。本领域技术人员应该理解,在不脱离本公开的原理和精神的情况下,可对这些实施例或其特征进行各种修改和组合,这样的修改应落入本公开的范围内。

当前第1页 第1页 第2页 第3页
相关技术
变化方法相关技术
基因组转录相关技术
陆小艳发明人的其他相关专利技术