生物活性乳 发明领域 [0001] 本发明提供选择、鉴定或培育哺乳动物、特别是牛的方法,以改善乳组成或产乳性状。具体而言,该方法涉及确定或培育与寡糖生物合成相关的SNP。本发明还包括使用这些方法产生的哺乳动物以及乳产品。 [0002] 发明背景 [0003] 牛乳生产的遗传基础对乳制品行业具有重要意义。调节乳体积和含量的能力具有改变养殖方式并生产针对满足各种要求的产品的潜力。具体地,需要一种对牛进行遗传评估以选择表达所需性状(如增加的乳产生和改善的乳组成)的那些的方法。 [0004] 乳是包含蛋白质、脂质、乳糖和寡糖以及维生素和矿物质的复杂液体。乳中的生化组分决定其营养价值、物理特性(如乳脂肪小球的大小)和产品特性(如凝乳稳定、凝乳时间)。这些功能性特性可从乳的生化性质预测。 [0005] 寡糖(OS)是一类含有3-15个单体单元的碳水化合物。最常见的单体为葡萄糖、果糖、半乳糖和唾液酸。它们可从乳清浓缩。 [0006] oS在促进人类健康中的作用是众所周知的。作为益生元,OS刺激结肠中有益双歧杆菌的生长。OS还可通过抑制病原体粘附到肠粘膜表面来预防感染。此外,唾液酸(乳OS的组分)对于新生儿的大脑发育和认知功能至关重要。实际上,OS是人乳的主要组分之一。 [0007] 牛乳是主要饮品,也是婴儿配方物中最常见的成分。在过去的十年中,牛乳OS的组成和含量一直是众多研究的主题。迄今为止,已在牛乳中鉴定出40多种OS,但与人乳OS相比,它们的总浓度要低得多(见表1)。因此,从植物中提取的低聚果糖(FOS)和酶促合成的低聚半乳糖(GOS)经常用于婴儿配方物中,以模仿人乳OS的功能。 [0008] [0009] [0010] 表1:乳寡糖 [0011] 牛乳OS在结构上更接近人乳OS,因此相比于FOS和GOS,如果可大幅提高牛乳OS的浓度,则牛乳OS是人乳OS的更好替代品。另外,由于许多国家大多数人口都食用牛乳,因此增加其OS含量也可增加世界范围内许多人对这种膳食纤维的摄取。预期乳OS为婴儿提供的许多健康益处同样适用于所有年龄段的人。 [0012] 研究了牛乳OS浓度与奶牛品种、动物饮食、泌乳期和季节的关系。泽西乳(Jersey milk)含有更高水平的唾液酸化的和复杂的中性岩藻糖基化OS,而荷斯坦乳(Holstein milk)含有更高水平的较不复杂的OS。然而,OS含量的总体品种间差异相当适度。关于OS含量与动物饮食的关系的信息很少并且文献中找到的数据非常有限,这表明与乳脂肪和蛋白质含量不同,乳OS水平不受动物饮食的影响。因此,通过饮食控制增加牛乳OS不可能是可行的选择。至于乳OS的季节性差异,最近在澳大利亚维多利亚州进行的一项系统性调查揭示了在整个挤奶季节大多数OS的显著增加,其中在秋季获得最高的浓度。与乳OS含量有关的最广泛研究的因素可能为泌乳期。在不同国家进行的大量研究表明,初乳中的OS含量高得多,并且随着泌乳的进行而逐渐下降。 [0013] 在许多研究中,观察到初乳和乳OS含量在奶牛之间存在显著差异。由于在这些实验中所有奶牛的饮食和泌乳期等外部因素都相同,因此提出遗传变异是造成个体奶牛的OS产生的差异的可能原因,但仍缺乏该性状遗传方面的信息。 [0014] 本发明的一个目的是克服或至少减轻与现有技术相关的一个或多个困难或不足。 发明内容 [0015] 在一个方面,本发明提供了一种选择能够产生具有改善的组成的乳的哺乳动物的方法,所述方法包括确定所述哺乳动物在一个或多个与寡糖生物合成相关的SNP的基因型状态的步骤。 [0016] 哺乳动物可为任何合适的类型,优选用于商业乳生产的哺乳动物,如绵羊、山羊或牛。在一个优选的实施方案中,哺乳动物为牛。 [0017] 如本文所使用的,“改善的乳组成”意指改变乳组成以改变一种或多种组分的量,优选增加一种或多种组分的量。然而,在某些情况下,还可需要减少乳中一种或多种组分的含量。在一个优选的实施方案中,所述组分为寡糖,在该情况下,乳具有“改善的寡糖组成”。 以此方式,乳可被“人源化”,使其组成更接近人乳。这对于生产婴儿配方物可为需要的。或者,可调整乳的组成以生产食品补充剂,例如补充粉,例如用于病人或老年人。 [0018] 在一个特别优选的实施方案中,寡糖选自三糖、3’-唾液酰乳糖(3’-SL)、6’-唾液酰乳糖(6’-SL)、6’-唾液酰-N-乙酰基乳糖胺(6’-SLN)、二唾液酰乳糖(DSL)、N-乙酰基半乳糖胺基乳糖(GNL)、3’-唾液酰半乳糖基乳糖(OS-A)、乳糖-N-戊糖(OS-B)、乳糖-N-四糖(OS-C)、二-N-乙酰基己醣胺基三糖(OS-D)、3’-羟乙酰神经胺基乳糖(OS-E)和3’-唾液酰-N-乙酰基葡萄糖胺基乳糖(OS-F)。在一个特别优选的实施方案中,寡糖选自GNL、OS-C、3’SL、OS-A和OS-B。 [0019] “一个或多个与寡糖生物合成相关的SNP”意指哺乳动物基因组中与寡糖生物合成基因相关的单核苷酸的差异。优选地,SNP位于所述寡糖生物合成基因的编码区、非编码区或调控区。优选地,所述基因编码寡糖生物合成所需的酶,所述寡糖选自三糖、3’-SL、6’-SL、6’-SLN、DSL、GNL、OS-A、OS-B、OS-C、OS-D、OS-E和OS-F。在一个特别优选的实施方案中,所述基因编码寡糖生物合成所需的酶,所述寡糖选自GNL、OS-C、3’SL、OS-A和OS-B。 [0020] 在一个特别优选的实施方案中,一个或多个SNP选自表6-8中所列的SNP。 [0021] 哺乳动物的基因型状态可通过任何合适的方法来确定。所述方法可包括对哺乳动物的基因组或基因组的一部分(例如显示出与所需OS性状密切关联的染色体)进行序列分析。在一个优选的实施方案中,当哺乳动物为牛时,染色体可为11号染色体。以此方式,可根据个体的基因型确定个体的乳表型状态。 [0022] 在一个特别优选的实施方案中,该方法可包括使样品经历全基因组关联分析(GWAS)的步骤。这可包括针对一组SNP(a panel of SNP)对哺乳动物进行基因分型,以产生低密度基因型。然后可对选定的哺乳动物进行基因分型,或将其基因型推导(impute)到更大的SNP阵列或整个基因组序列,优选使用较高密度进行基因分型的参考种群或具有完整的基因组序列数据的参考种群。 [0023] 在一个优选的实施方案中,该步骤可并入这类哺乳动物的常规遗传评估中。 [0024] 确定哺乳动物的基因型状态可替代地或可另外地包括对基因表达水平的评估。 [0025] 在一个优选的实施方案中,候选基因的RNA转录本水平可例如通过RNAseq分析来确定。尽管申请人不希望受到理论的限制,但目的SNP可与转录本水平高度相关。 [0026] RNA转录本水平可在含有核酸的哺乳动物的任何合适样品中确定,例如血液样品。 [0027] 在另一个方面,本发明提供一种鉴定具有指示改变的产乳性状的基因型的哺乳动物的方法,所述方法包括: [0028] 提供来自所述哺乳动物的核酸样品;和 [0029] 确定在所述核酸样品中存在与寡糖生物合成相关的一个或多个SNP; [0030] 其中所述SNP的存在与所述改变的产乳性状有关。 [0031] 哺乳动物可为任何合适的类型,优选用于商业乳生产的哺乳动物,如绵羊、山羊或牛。在一个更优选的实施方案中,哺乳动物为牛。 [0032] 在一个优选的实施方案中,改变的产乳性状可为乳的寡糖组成。因此,可改变乳组成以改变一种或多种组分的量,优选增加一种或多种组分的量。但是,在某些情况下,还可需要减少乳中一种或多种组分的量。 [0033] 在一个优选的实施方案中,所述组分为寡糖。以此方式,可鉴定出产生与人乳组成更接近的乳的牛。这对于生产婴儿配方物可为需要的。或者,可调整乳的组成以生产食品补充剂,例如补充粉,例如用于病人或老年人。 [0034] 核酸样品可为任何合适的类型。在一个优选的实施方案中,核酸样品可为血液样品。 [0035] “一个或多个与寡糖生物合成相关的SNP”意指哺乳动物基因组中与寡糖生物合成基因相关的单核苷酸的差异。优选地,SNP位于所述寡糖生物合成基因的编码区、非编码区或调控区。优选地,所述基因编码寡糖生物合成所需的酶,所述寡糖选自三糖、3’-SL、6’-SL、6’-SLN、DSL、GNL、OS-A、OS-B、OS-C、OS-D、OS-E和OS-F。在一个特别优选的实施方案中,所述基因编码寡糖生物合成所需的酶,所述寡糖选自GNL、OS-C、3’SL、OS-A和OS-B。 [0036] 在一个特别优选的实施方案中,一个或多个SNP选自表6-8中所列的SNP。 [0037] 核酸样品中SNP的存在可通过任何合适的方法来确定。所述方法可包括对哺乳动物的基因组或基因组的一部分(例如显示出与所需OS性状密切关联的染色体)进行序列分析。在一个优选的实施方案中,当哺乳动物为牛时,染色体可为11号染色体。 [0038] 在一个特别优选的实施方案中,该方法可包括使样品经历GWAS的步骤。这可包括针对一组SNP对哺乳动物进行基因分型,以产生低密度基因型。然后可针对较大的参考种群和/或SNP阵列对选定的哺乳动物进行基因分型。在一个优选的实施方案中,该步骤可并入这类哺乳动物的常规遗传评估中。 [0039] 确定SNP的存在可替代地或可另外地包括对基因表达水平的评估。 [0040] 在一个优选的实施方案中,候选基因的RNA转录本水平可例如通过RNAseq分析来确定。尽管申请人不希望受到理论的限制,但目的SNP可与转录本水平高度相关。 [0041] RNA转录本水平可在来自哺乳动物的任何合适的核酸样品中确定,例如血液样品。 [0042] 在本发明的另一个方面,提供一种选择性培育用于改变的乳组成的哺乳动物的方法,所述方法包括使用标记物辅助选择来培育所述哺乳动物以携带一个或多个与寡糖生物合成相关的SNP。 [0043] 哺乳动物可为任何合适的类型,优选用于商业乳生产的哺乳动物,如绵羊、山羊或牛。在一个更优选的实施方案中,哺乳动物为牛。 [0044] “一个或多个与寡糖生物合成相关的SNP”意指哺乳动物基因组中与寡糖生物合成基因相关的单核苷酸的差异。优选地,SNP位于所述寡糖生物合成基因的编码区、非编码区或调控区。优选地,所述基因编码寡糖生物合成所需的酶,所述寡糖选自三糖、3’-SL、6’-SL、6’-SLN、DSL、GNL、OS-A、OS-B、OS-C、OS-D、OS-E和OS-F。在一个特别优选的实施方案中,所述基因编码寡糖生物合成所需的酶,所述寡糖选自GNL、OS-C、3’SL、OS-A和OS-B。 [0045] 在一个特别优选的实施方案中,一个或多个SNP选自表6-8中所列的SNP。 [0046] SNP的存在可通过分析来自哺乳动物的核酸样品来确定。SNP的存在可通过任何合适的方法来确定。所述方法可包括对哺乳动物的基因组或基因组的一部分(例如显示出与所需OS性状密切关联的染色体)进行序列分析。在一个优选的实施方案中,当哺乳动物为牛时,染色体可为11号染色体。 [0047] 在一个优选的实施方案中,哺乳动物可被培育为携带一个或多个SNP的两份拷贝。 [0048] 在本发明的另一个方面,提供一种通过如上所述的方法选择、鉴定或培育的哺乳动物。 [0049] 所述哺乳动物可为任何合适的类型,优选用于商业乳生产的哺乳动物,如绵羊、山羊或牛。在一个更优选的实施方案中,哺乳动物为牛。 [0050] 在本发明的另一个方面,提供来自通过上述方法选择、鉴定或培育的哺乳动物的乳产品。在一个优选的实施方案中,乳产品可为组成上与人乳更接近的牛乳产品。在另一个优选的实施方案中,乳产品可为婴儿配方物。在另一个优选的实施方案中,乳产品可为食品补充剂,例如补充粉,例如用于病人或老年人。 [0051] 现在将参考所附的实施例和附图更全面地描述本发明。然而,应理解,以下描述仅是说明性的,而不应以任何方式作为对上述发明的概述的限制。 附图说明 [0052] 图1.在三年(Y1、Y2和Y3)内使用632,003SNP板对360只动物进行PCA分析。 [0053] 图2.通过绘制测量的-log[p值](曲线P)和预期的-log[p值](线D;零假设)而计算的性状3’-SL、GNL、OS-A、OS-B和OS-C的GWAS结果的分位数-分位数(QQ)图 [0054] 图3.性状3’-SL、GNL、OS-A、OS-B和OS-C的-log10p值的曼哈顿图。(箭头指示的)星号表示强QTL信号(p值<0.00001)。 [0055] 图4.序列变体的GWAS结果,其示出了GNL(a)、OS-C(b)、3’-SL(c)、OS-A(d)和OS-B(e、f和g)的候选基因区域。GNL和OS-C在浅灰色突出显示区域周围共享主QTL效应,所述区域还与影响ABO基因表达的最显著的eQTL变体重叠。在每个图中,具有顶部-log10p值的变体用菱形表示(带有bp位置标签)。该顶部变体与所有其他变体之间的LD(r2)强度用颜色编码。 [0056] 图5.乳寡糖的LC-MS分析。 [0057] 图6.乳寡糖积累模式的奶牛间差异。 [0058] 图7.乳寡糖积累模式的季节性差异。 [0059] 图8.乳寡糖的结构。 [0060] 图9.乳寡糖的相对丰度。 [0061] 图10.奶牛特异性寡糖积累的证据。 具体实施方式 [0062] 实施例1:与牛乳寡糖含量有关的基因组区域 [0063] 材料和方法 [0064] 奶牛、畜群管理和乳样品收集 [0065] 所有实验奶牛均维持喂养在澳大利亚维多利亚州中心的经济发展、就业、运输和资源部的Ellinbank畜群研究部门(the research Department of Economic Development,Jobs,Transport and Resources’Ellinbank herd at the Centre in Victoria,Australia),并且实验根据澳大利亚为科学目的关怀和使用动物的行为守则(the Australian Code of Practice for the Care and Use of Animals for Scientific Purposes)(匿名2013)进行。奶牛饮食在整个挤奶季节不同,但奶牛的大部分营养摄入来自啃食牧草,并根据需要补充买来的饲料。 [0066] 该研究共使用了360头在冬末/初春产犊的经产的荷斯坦奶牛。实验进行了三年(2013年、2014年和2015年),每年有120头奶牛参与。每年分三批(每批40只动物)在10月中旬至11月下旬期间收集乳样品。因此,该研究共收集了9批样品(2013年为B1-B3、2014年为B4-B6且2015年为B7-B9)。在每个采样时机,将下午和早晨挤奶所得的总乳量收集到测试桶中,每头奶牛的样品合并,并取一个子样本用于分析。乳样品在冰上运输到实验室,并在分析前保存在-80℃。 [0067] 表型 [0068] 使用超滤方法从稀释的原乳中分离OS级分,并将滤液直接用于LC-MS分析。详细的样品制备方法如先前所记载的(Liu等人,2014)。该研究调查了成熟乳中存在的总共12种主要的OS;它们的结构和精确质量总结于表2中。 [0069] [0070] 将与LTQ-Orbitrap MS(Thermo Scientific)联接的Agilent 1290UPLC系统用于OS定量。OS的色谱分离使用保持在30℃的HILIC Kinetex色谱柱(150×4.6mm,2.6μm,Phenomenex)完成。流动相由5mM甲酸铵水溶液(A)和含0.1%甲酸的乙腈(B)组成。流速为 0.8mL/min,前3分钟以5%A开始洗脱,然后3至17min增加到30%A。每次分析的总运行时间为26min。用于OS分析的MS仪器设定如先前所记载的(Liu等人,2014)。在负离子模式下检测到的所有OS为其去质子的离子。由于缺乏用于大多数OS的标准,因此对所有主要的OS进行了相对定量。(通过内标标准化后的)峰面积用作所有样品中每种OS的相对丰度的量度。 [0071] 基因分型 [0072] 最初使用具有8309个全基因组SNP的低密度自定义内部板对360头奶牛进行基因分型,其中约5300个是Illumina BovineSNP50 BeadChip(~50,000SNP阵列:http://www.illumina.com/products/by-type/microarray-kits.html)上的SNP所共有的。然后,由DataGene Ltd(澳大利亚墨尔本)将这些奶牛的低密度基因型作为澳大利亚的常规遗传评估的一部分推导到使用超过50,000只动物的参考种群的标准Illumina BovineSNP50BeadChip。推导的Bovine SNP50基因型包含39,756个通过质量控制的SNP。然后将这些BovineSNP50 BeadChip基因型推导到高密度BovineHD BeadChip(800,000个SNP阵列)上。用于该推导的参考种群共有2155只动物,所述动物具有通过了随后的一系列质量控制筛选(Erbe等人,2012)的Bovine HD BeadChip上632,003个SNP的真正基因型。 [0073] 在最初的全基因组关联分析之后,将相同的荷斯坦奶牛推导至显示出与某些OS性状高度关联的染色体上的全基因组序列变体。我们使用了来自1000个公牛基因组项目(1000Bull Genomes Project)的Run 5(Daetwyler等人,2014)的645头已测序奶牛的参考集用于序列推导。这些包括主要是荷斯坦品种(450头)和几个包括泽西牛、斯堪的纳维亚红牛(Scandinavian Red)和根西牛(Guernsey)的小品种。只有在参考公牛中存在次要等位基因的4个或更多个拷贝时,才推导序列变体。 [0074] 每个推导步骤使用的软件为使用缺省参数的Fimpute(Sargolzaei等人,2014)。为检查三年内动物之间的基因组相似性,主要组分分析(PCA)在360只动物上用HD 632, 003SNP进行,如图1所示。为提高进一步关联研究的质量,除去图1中的异常值,剩下332只动物。为进行关联分析,仅当所研究的奶牛中的次要等位基因频率高于0.05时,才包括HD SNP和序列变体。 [0075] 全基因组关联分析(GWAS) [0076] GWAS模型假设n个个体的表型记录y为固定效应(β)、各SNP效应(gi)和环境误差(e)的线性模型: [0077] y=Xβ+u+e (1) [0078] 其中,β为包括从1至9的不同批号的固定效应;X为将表型与其固定效应相关联的设计矩阵;u~N(0,Vσ2u),V=G62g+Iσ2e,动物关系矩阵 m为SNP的数量。Zi为编号为0、 1和2的各SNP i的基因型数据(表示基因型aa、Aa和AA)。在我们的分析中,通过软件GCTA(Yang等人,2011)进行GWAS,用于关联研究。 [0079] 另外,为评估GWAS的精确度,基于GWAS p值计算了两个统计标准:错误发现率 2 (FDR)和分位数-分位数(Q-Q)图。Q-Q图为确定每个SNP的测定的GWAS p值与理论χ分布的预期值(零假设)的偏离程度的图示。 [0080] FDR在零假设测试中评估I型错误的比率。对于GWAS分析,通过应用以下方程式(Bolormaa等人,2011)使用估算的p值来计算FDR,所述估算的p值为了研究在给定阈值(例如,在本研究中,四个阈值定义为p<0.000001、p<0.00001、p<0.0001和p<0.001)下可能是错误(不正确的驳回)的显著的SNP(驳回的零假设)的比例: [0081] [0082] 其中T为来自GWAS的阈值p,s为显著的SNP的数量,其中p值小于T,并且N为数据中SNP的总数。 [0083] 基因表达QTL(eQTL)研究 [0084] 作为一项较大研究的一部分,我们进行了RNAseq分析来量化候选基因的RNA转录本水平,以确定特定变体是否与转录本水平是高度相关的。血液从用于测量OS的动物中的 110只动物的子集中取样,这获得了经济发展、就业、运输和资源部动物伦理委员会(ethics approval from the Department of Economic Development,Jobs,Transport and Resources Animal Ethics Committee)(2013-14)的伦理批准。血液在例行早晨挤奶后通过尾静脉进行静脉穿刺收集,并根据RiboPureTM血液试剂盒(Ambion by Life Technologies)规程中的血液分级和白细胞稳定方法进行处理。然后将样品储存在-20℃。 根据制造商的说明,使用RiboPure血液试剂盒(Ambion)从白细胞中提取RNA。 [0085] 根据制造商的说明,使用SureSelect Strand Specific RNA Library Prep Kit(Agilent)制备RNAseq函数库(RNAseq library)。将每个函数库独特地条形码化,随机分配给四个库之一,并以150个循环配对末端运行在HiSeqTM3000(Illumina)上测序。用bcltofastq调用了150个碱基对的末端读段,并以fastq格式输出。使用FastQC评估序列质量。使用Quality Trim(https://bitbucket.org/arobinson/qualitytrim)修剪和筛选质量较差的碱基和序列读段。从读段的一端开始修剪质量得分低于20的衔接子序列和碱基。 舍弃平均质量得分小于20,或大于3N的读段,或超过三个连续碱基的质量得分小于15的读段,或最终长度小于50个碱基的读段。仅保留成对读段用于比对(alignment)。 [0086] 使用允许两个错配的TopHat2(Kim等人,2013)将每个样品的成对RNA读段与Ensembl UMD3.1牛基因组组装进行比对。使用定制的计算机脚本来评估测序性能、函数库质量和比对质量。保留了血液函数库的比对文件(.bam)用于生成基因计数矩阵,所述血液函数库>1250万读段对(在质量控制筛选后)还具有>80%的定位率(mapping rate)。基因计数使用python软件包HTSeq(Anders等人,2014)评估,并通过样本计数矩阵组合形成一个基因。然后使用R软件包DESeq(Anders&Huber 2010)将该计数矩阵进行归一化以将函数库大小考虑在内。每个白细胞函数库产生平均6000万个读段,并且平均89%的读段通过了质量控制,其中平均92%的读段定位到参考基因组。经过质量控制后,eQTL研究中包括了107头奶牛的RNAseq数据。仅包括了在超过25头奶牛中表达的基因用于进一步分析,以避免由于非常低的读段计数而造成的虚假关联。 [0087] 然后进行GWAS,其中候选基因的RNA转录本的归一化计数为“表型”(方程式1中的y)。如在方程式1中,测试每个序列变体以与基因表达水平(“eQTL”)关联,仅测试与被测基因在同一染色体上的变体。 [0088] 结果 [0089] 不同OS种类之间的表型相关性 [0090] 使用原始数据集进行成对相关性分析,所述原始数据集含有360头奶牛的12种主要OS的相对丰度。在这些OS中,发现了许多相对丰度的强相关性(r>0.6)(表3,粗体)。 [0091] 表3:主要OS种类之间的丰度成对相关性(n=360) [0092] [0093] OS性状的遗传基础 [0094] 我们首先研究了OS性状的可遗传性,以确定观察到的由于遗传因素而不是环境变异或其他生物学因素引起的性状变异的比例。可遗传性是基因差异与总表型差异的比值(表4)。大多数OS性状显示出50%至84%的可遗传性,这表明它们具有高度遗传性,也就是说,奶牛间差异很大程度上是由于遗传因素造成的。 [0095] 表4. 12种牛乳OS的可遗传性、基因和表型差异 [0096] [0097] 关联研究检测QTL的效力 [0098] 错误发现率。通过GWAS产生的两个结果包括p值和估算的SNP效应。为了评估GWAS的性能,我们首先基于估算的p值计算了所有性状的FDR率(表5)。测试了四个p值阈值(p< 0.000001、p<0.00001、p<0.0001和p<0.001)。对于性状三糖、6′-SL、6′-SLN、DSL、OS-D、OS-E和OS-F而言,错误率相对较高。例如,在阈值p<0.00001时,错误发现率达到几乎 100%,这意指这些性状的GWAS结果缺乏效力。与之相比,3′-SL、GNL、OS-A、OS-B和OS-C这五个性状的FDR率相对较低。具体地,在阈值p<0.000001下,GNL和OS-C的FDR仅为0.2~ 0.3%,这有力地证明了这些性状的GWAS具有足够的检测真实QTL的效力。因此,我们仅报告这五个具有低FDR的性状的QTL研究细节。 [0099] 表5.在四个GWAS阈值p<0.000001、p<0.00001、p<0.0001和p<0.001下,13个性状的显著的SNP数目和错误发现率(FDR)。 [0100] [0101] [0102] QQ图。使用分位数-分位数(QQ)图进一步研究上述GWAS结果的五个最主要性状(3′-SL、GNL、OS-A、OS-B和OS-C)的质量。图2说明,在没有真实关联的零假设下,对于五个性状中的每一个,最高测量的-log p值均高于预期值。具体地,对于性状GNL和OS-C,测量的-log p值与对角线有相当大的偏离,这意味着许多中等至高度显著的p值明显比零假设下预期的值更显著。 [0103] 从HD SNP GWAS的QTL发现 [0104] 使用HD SNP基因型的GWAS结果表明,存在具有最低FDR的五个OS性状的几个主要QTL区域(图3)。存在一些明显的QTL峰,其可能接近因果突变区域。值得注意的是,11号染色体上的一个区域具有同时影响GNL和OS-C的强QTL信号(图3)。 [0105] 候选基因和具有序列变体的因果突变发现。 [0106] 对于图3中具有最低FDR的QTL区域,我们使用了相关染色体上的推导序列变体进行了进一步的GWAS。理论上,因果突变应存在于该序列数据中,但很难精确找出GWAS中的因果突变,因为相邻等位基因之间通常存在强的关联性(连锁不平衡——LD)。因此,我们研究了该区域中最显著的SNP与其余SNP之间的LD,以帮助鉴定可能的候选基因和推导的因果突变。LD统计量(r2)为更精确地限定因果突变的最可能区域提供了基础。LD r2使用PLINK软件通过成对基因型等位基因计数之间的平方相关性估算(Purcell等人,2007)。 [0107] 图4a和4b中的结果表明,GNL和OS-C在11号染色体上共享相同的主QTL效应。这两个性状的最显著的SNP(104,229,609bp)仅在编码参与寡糖生物合成的酶的ABO基因下游 1908bp。对于GNL和OS-C,该顶部序列变体的-log p值分别为44和38,而在使用HD SNP基因型的GWAS中,最显著的SNP的-log p值较低,为37(GNL)和31(OS-C)。所述顶部序列变体分别占GNL和OS-C遗传变异的78%和84%(表6),这表明该变体或另一个强LD变体是这两个性状的大部分遗传变异的原因。对与ABO基因RNA转录表达相关的序列变体的“eQTL”分析揭示了 14个序列变体的紧密簇(介于104,227,111和104,229,385bp之间)具有该基因的最高-log p值(7.45)(图4和表5)。这非常接近图4中的顶部SNP,这更进一步证明了因果变体可为控制ABO基因表达的该基因间区域中的调控变体。 [0108] 表6.ABO基因表达的RNAseq eQTL分析,测试11号染色体上的所有序列变体。与ABO RNA转录本丰度相关的最显著的SNP的位置用-log p值列出。 [0109] [0110] [0111] 1号染色体上3′-SL的最显著的序列变体(图4c)位于基因ST3GAL6和CPOX的上游,并靠近小核仁RNA(SNORA68),这表明该基因间区域的因果变体可能参与调控基因表达。此外,由ST3GAL6基因产生的酶(β-半乳糖苷α-2,3-唾液酸转移酶)是用于3′-SL生成的关键酶,并且最显著的SNP与该基因区域周围的其他SNP具有强LD(图4c)。最显著关联的变体解释了33%的遗传变异,表明对3’-SL丰度有重大影响。对于ST3GAL6或CPOX基因,均未检测到强eQTL效应。 [0112] OS-A和OS-B的最显著的序列变体(图4d、4e、4f和4g)各自解释了10%至12%的遗传变异(表7)。对于OS-B性状,在10号、16号和26号染色体上有三个主要QTL峰,它们共同解释了30%的遗传变异。10号染色体上最显著的序列变体为ANKRD31基因中的内含子SNP,但也非常接近GCNT4基因(葡萄糖胺基(N-乙酰基)转移酶4),所述GCNT4基因也参与了乳寡糖生物合成。对于OS-A,很难精确找出具体的候选基因:在最显著的变体周围的染色体区域中有六个基因,并且包括具有非常高LD(r2>0.8)的那些基因。再次,这些基因没有发现eQTL效应。 [0113] 表7.最显著的GWAS序列变体(列出的具有同等显著的p值的多个变体)的基因组信息。 [0114] [0115] a已知以粗体示出的基因参与OS代谢途径。b对于由于变体之间完美的LD而导致多于一个的变体具有相等p值的情况(即r2=1),列出了多个SNP。ABO:转移酶A,α1-3-N-乙酰基半乳糖胺基转移酶;转移酶B,α1-3-半乳糖基转移酶。ANKRD61:锚蛋白重复结构域61。 ANKRD31:锚蛋白重复结构域31。AIMP2:与氨酰基tRNA合成酶复合物相互作用的多功能蛋白 2。ATRNL1:attractin like 1。CCZ1:液泡蛋白运输和生物发生相关的同系物。CPOX:卟啉原氧化酶。EIF2AK1:真核翻译起始因子2-α激酶1。GCNT4:葡萄糖胺基(N-乙酰基)转移酶4。 GFRA1:GDNF族受体α1。KAZN:kazrin,周质相互作用蛋白。PMS2:减数分裂后的分离增加2。 RSPH10B:径向辐头10同系物B。ST3GAL6:ST3,β-半乳糖苷α-2,3-唾液酸转移酶6。 [0116] 鉴于几个性状存在非常大的QTL效应,这表明可实施标记物辅助选择(MAS)的简单策略。对主QTL效应的大小进行估计,并且用于确定遗传改良的潜力——如果有选择地培育动物以携带有利QTL等位基因的两份拷贝(表8)。发现332头实验奶牛中QTL等位基因频率与(从大量的工业动物样本中获得的)一般性澳大利亚荷斯坦种群的QTL等位基因频率非常相似。自然地,有利等位基因越不常见,这些性状中遗传改良的可能性就越高,并且除OS-A外,次要等位基因显示出有利的效应。 [0117] [0118] 讨论 [0119] 尽管已在牛乳中鉴定出40多种OS,但其中大多数以痕量水平存在。首先仅考察了最丰富的12种可以可靠地定量而无需富集的种类。这些种类由分子量范围为500-1200道尔顿的3-6个单体组成。另外,其中一半含有唾液酸单元,因此为阴离子型的。在某些种类的丰度之间观察到强相关性,这表明它们可能在生物合成途径中共享共同的步骤。 [0120] 几乎所有的OS均由乳糖通过特定转移酶介导而在不同位置连续添加各种单体单元来合成。相同单体编号的OS种类之间丰度的巨大差异表明,参与OS合成的各种转移酶的活性存在显著差异。另外,由于成熟乳中OS的水平较低,因此从乳糖到OS的转化在乳腺中似乎效率很低。尽管可使用适当的转移酶在体外产生一些简单的OS,但也有可能通过畜群管理和/或奶牛的遗传选择来提高乳中固有OS的水平。 [0121] 我们已经研究了牛乳中OS积累的遗传结构。该研究利用序列变体很好地定位了五个OS种类的六个主要候选基因区域和推导因果突变。这些OS包括一个高丰度种类(3’-SL)、 2个中等丰度种类(GNL和OS-A)和2个低丰度种类(OS-B和OS-C)。值得注意的是,可能会通过增加作图群体的大小和/或完善表型数据来检测更多的微效QTL。因此,该研究中发现的QTL列表绝不是排他性的,而是强调了一些主基因效应。 [0122] 序列GWAS很好地定位了GNL和OS-C的主QTL效应,其还与影响ABO基因表达的强eQTL区域重叠。OS-C和GNL的最显著的SNP不在eQTL区域的顶部SNP中(表5),而在顶部eQTL SNP的224至2498bp之间。RNAseq分析在105头奶牛的子集中进行,因此与用于OS测量的332头奶牛中的SNP和因果突变之间的LD相比,其SNP和因果突变之间的LD可改变。尽管申请人不希望受到理论的限制,但我们的结果表明,因果突变可能是控制ABO基因表达的调控基因间区域的变异。 [0123] ABO基因编码α1-3-N-乙酰基半乳糖胺基转移酶和α1-3-半乳糖基转移酶,其中α1- 3-N-乙酰基半乳糖胺基转移酶为用于从乳糖合成GNL的关键酶。与GNL相比,OS-C含有一个额外的Gal单元,这种结构相似性意味着GNL可能是OS-C的前体。这可解释针对这两个种类检测到的QTL的共定位。在104,229,609bp处的最显著的序列SNP先前被报道为影响奶牛总乳蛋白产量的推导的因果突变。增加GNL和OS-C丰度的等位基因也增加了乳蛋白产量(理想质量)。此外,与17个其他牛组织相比,ABO基因在泌乳的牛乳腺组织和血液中表达最高。 [0124] 3’-SL的最显著的SNP被精确定位靠近强候选基因(ST3GAL6),该候选基因(ST3GAL6)编码α2-3-唾液酸转移酶:从乳糖产生3’-SL的关键酶。值得注意的是,没有鉴定出对于6’-SL——3’-SL的异构体——的QTL,但这可能是由于缺乏效力,因为6’SL的丰度低于3’SL。在OS-A和OS-B的情况下,除了GCNT4之外,尚不清楚包含最显著的SNP的候选基因的功能与OS合成直接相关。GCNT4编码葡萄糖胺基(N-乙酰基)转移酶4,并且为参与乳OS生物合成的关键酶之一。对于其余的7种主要OS,本研究中未鉴定出大的QTL。 [0125] 在五个OS种类(GNL、OS-C、3’-SL、OS-A和OS-B)中检测到了具有中效到强效的QTL,占遗传变异的30%至84%。这表明基于所述变体的简单标记物辅助选择(MAS)策略可使乳中的OS丰度提高超过一倍(表7)。我们还使用单个模型中的所有HD全基因组标记物开发了基因组预测。由于存在主QTL效应,MAS方法在该阶段可能同样精确。 [0126] 总之,这是使用序列变体对牛乳OS丰度的遗传结构的首次研究。在五个染色体上总共鉴定出六个基因组区域,影响了12种主要OS中的五种。在检测到的主要OS种类中,发现GNL和OS-C的积累在很大程度上受单个QTL控制;因此,可预期通过标记物辅助选择的这些OS的含量大幅度增加。检测到QTL分别占3′-SL和OS-B的33%和21%的变异,这表明遗传选择还应有效提高牛乳中这两种的浓度。 [0127] 实施例2:高价值乳组分和遗传改良目标 [0128] 表8示出寡糖的结构。 [0129] [0130] 表8:寡糖结构 [0131] 乳中总共鉴定出13种主要的寡糖并进行定量(参见图5和表9)。 [0132] [0133] Hex:葡萄糖或半乳糖;HexNAc:N-乙酰基葡萄糖胺或N-乙酰半乳糖胺; [0134] NeuAc:N-乙酰基神经氨酸;NeuGc:N-羟乙酰基神经氨酸 [0135] N:中性;A:酸性 [0136] 表9:13种乳寡糖 [0137] 确定了乳寡糖的积累模式,其示出了奶牛间差异(图6)和季节性差异(图7)。 [0138] 各种乳寡糖的结构示于图8,并且其相对丰度示于图9。 [0139] 奶牛特异性寡糖积累的证据示于图10。 [0140] 最后,应理解,在不脱离如本文概述的本发明的精神的情况下,可进行各种改变、修改和/或添加。 [0141] 参考文献 [0142] Anders et al.(2014)HTSeq-a Python framework to work with high-throughput sequencing data.Bioinformatics 31,166-9. [0143] Anders&Huber(2010)Differential expression analysis for sequence count data.Genome Biology 11,R106. [0144] Bolormaa et al.(2011)Genome-wide association studies for feedlot and growth traits in cattle1.Journal of Animal Science 89,1684-97. [0145] Daetwyler et al.(2014)Whole-genome sequencing of 234bulls facilitates mapping of monogenic and complex traits in cattle.Nat Genet 46,858-65.[0146] Erbe et al.(2012)Improving accuracy of genomic predictions within and between dairy cattle breeds with imputed high-density single nucleotide polymorphism panels.Journal of Dairy Science 95,4114-29. [0147] Lee et al.(2016)Rapid screening of bovine milk oligosaccharides in a whey permeate product and domestic animal milks by accurate mass databasa and tandem mass spectral library.J.Agric.Fcod Chem.64,6364-6374. [0148] Liu et al.(2014)Simple Liquid Chromatography-Mass Spectrometry Method for Quantification of Major Free Oligosaccharides in Bovine Milk.Journal of Agricultural and Food Chemistry 62,11568-74. [0149] Sargolzaei et al.(2014)A new approach for efficient genotype imputation using information from relatives.BMC Genomics 15,1-12.