首页 / 一种用于塔什库尔干羊快速鉴定的SNP位点组合

一种用于塔什库尔干羊快速鉴定的SNP位点组合实质审查 发明

技术领域

[0001] 本发明属于生物检测技术领域,公开了一种用于塔什库尔干羊快速鉴定的SNP位点组合。

相关背景技术

[0002] 在畜牧业领域,随着消费者对高品质、特色化畜产品需求的增加,动物品种的准确鉴定成为了提升畜产品质量、保护地方种质资源及促进畜牧业可持续发展的重要环节。塔什库尔干羊,作为新疆塔什库尔干塔吉克自治县独有的地方优良品种,以其独特的生长环境适应性、肉质鲜美及优良的遗传特性而闻名,深受市场青睐。然而,传统上依赖于形态特征、生产性能及血缘谱系的鉴定方法,不仅耗时费力,且易受主观因素及环境因素干扰,难以实现快速、准确的品种鉴定。
[0003] 近年来,随着分子生物学技术的飞速发展,特别是单核苷酸多态性(SNP)标记的发现与应用,为动物品种鉴定提供了一种高效、精确的新途径。SNP作为基因组中最常见的遗传变异形式,具有数量多、分布广、遗传稳定性高等特点,通过特定SNP位点的组合分析,可以实现对动物品种的快速、准确识别。针对塔什库尔干羊这一珍稀品种,开发一套基于SNP位点的快速鉴定体系,不仅能够为塔什库尔干羊的种质资源保护、遗传育种研究及市场推广提供有力支撑,还能有效避免品种混杂,保障养殖户的合法权益,推动塔什库尔干羊产业的健康发展。
[0004] 因此,本发明旨在通过深入研究塔什库尔干羊基因组中的SNP变异,筛选并组合出一组具有高度特异性和准确性的SNP位点,以此构建一种用于塔什库尔干羊快速鉴定的方法,旨在解决现有鉴定技术中存在的不足,满足畜牧业发展对高效、精准品种鉴定的迫切需求。

具体实施方式

[0021] 下面,结合实施例对本发明的技术方案进行说明,但是,本发明并不限于下述的实施例。各实施例中所述实验方法和检测方法,如无特殊说明,均为常规方法;所述试剂和材料,如无特殊说明,均可在市场上购买得到,下述实施例中的%,如无特殊说明,均为质量百分含量。
[0022] 实施例1
[0023] 本实施例提供了鉴定塔什库尔干羊的SNP位点筛选过程。
[0024] (1)样本数据获取:收集新疆地方15个绵羊品种(罗布羊、多浪羊、哈萨克羊、吐鲁番黑羊、阿勒泰羊、塔什库尔干羊、巴什拜羊、巴尔楚克羊、柯尔克孜羊、叶城羊、巴音布鲁克羊、策勒黑羊、和田羊、卡拉库尔羊、中国美丽奴)的血液样本,送至新疆康普森生物技术有限公司进行基因组重测序,得到每个样本下机的fastq.gz数据;
[0025] (2)数据格式转化:每个品种绵羊下机的fastq.gz数据经过fastqc软件进行质量控制(默认参数,接头为r1‑adapter:AGATCGGAAGAGCACACGTCTGAACTCCAGTCA,r2‑adapter:AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGT),之后用BWA软件将测序数据比对到绵羊参考基因组ARS‑Ul Ramb v2.0版上,采用SAMtools软件进行排序以及去除重复,随后通过GATK软件的变异调用得到vcf.gz格式文件;
[0026] (3)过滤:利用GATK、BCFtools和PLINK软件对等位基因频率大于0.1(‑‑maf 0.1)、位点缺失率小于0.1(‑‑geno 0.1)且哈代‑温伯格平衡检验P值大于0.001过滤(‑‑hwe 0.001),利用PLINK软件去除连锁位点,设置条件:窗口大小为50个SNP,步长为10个SNP,LD阈值为0.2;
[0027] (4)初筛:利用PLINK软件计算塔什库尔干羊与其他品种群体之间的群体间遗传分化指数(Fst),根据Fst值降序排列取塔什库尔干羊绵羊Fst最高的前10000的SNP位点作为品种受选择位点;
[0028] (5)复筛:利用Python中的随机森林模型和支持向量机器学习的方法筛选最佳位点,将塔什库尔干羊的10000个SNP位点数据集按8:2的比例分为训练集和测试集,并进行分层抽样以保证每个位点在训练集和测试集中的分布比例一致;利用随机森林模型的特征重要性来选择最重要的SNP特征,参数控制选择的特征数量,循环选择40~60个特征,设置决策树的数量设置为1000;随机数种子等于0;SVC(支持向量分类器)的参数设置:C=[0.01,0.1,1,5,10,100];交叉验证的折数设置为5;
[0029] (6)位点保留:输出随机森林(RF)模型和支持向量(SVG)机器学习得到最佳模型下的候选SNP位点,将上述候选SNP位点去除重复位点,去除在基因组上无法唯一比对的SNP位点、去除侧翼序列中包含重复序列的SNP位点,之后再对SNP位点的间距进行评估,使得任意相邻的两个SNP位点间距大于60bp,以实现探针的合成,最终得到用于塔什库尔干羊品种鉴定的50个SNP位点(表1),上述SNP位点在绵羊参考基因组ARS‑Ul Ramb v2.0版上的分布情况如图1所示。
[0030] 表1:SNP位点及对应突变
[0031]
[0032] 实施例2
[0033] 本实施例提供了利用上述50个SNP位点对绵羊进行基因分型的流程。
[0034] (1)绵羊基因组DNA的提取:从绵羊颈静脉采血,使用酚氯仿法或血液基因组提取试剂盒(天根生物科技有限公司,北京)进行DNA的提取;
[0035] (2)DNA样品质量检测:用质量分数为1~1.5%的琼脂糖凝胶电泳检测,用凝胶成像系统(GelDocXRSystem,美国Bio‑Rad公司)判断电泳结果,保证基因组完整性;用微量紫外分光光度计(Q5000,美国Quawell公司)或类似的核酸蛋白测定仪测量基因组DNA的浓度,将DNA浓度调整到工作浓度10~50ng/μL;
[0036] (3)液相芯片检测:按照液相芯片检测标准流程操作;
[0037] (4)数据分析:获得的原始数据采用fastqc软件进行质控,之后用BWA软件将测序数据比对到绵羊参考基因组ARS‑Ul Ramb v2.0版上,采用GATK软件的标准流程检测SNP,进行基因分型,50个SNP位点的基因型与基因分型的对应关系标记方法为:基因分型为0,对应基因型是参考碱基+参考碱基;基因分型为1,对应基因型是参考碱基+突变碱基;基因分型为2,对应基因型是突变碱基+突变碱基;基因分型为NA,表示测序数据缺失。例如NO.1位于第1染色体的第9619985位,参考碱基为A,突变碱基为T。NO.1的标记方法为:基因分型为0,对应基因型是AA;基因分型为1,对应基因型是AT;基因分型为2,对应基因型是TT。塔什库尔干羊的基因分型结果如表2所示。
[0038] 表2:SNP位点的基因型与基因分型的对应关系
[0039]
[0040]
[0041]
[0042]
[0043]
[0044]
[0045]
[0046] 根据表2中基因分型结果通过Python软件对品种进行分类,测试包括如下步骤:
[0047] 一、导入必要的库:
[0048] 1)使用numpy和pandas进行数据处理。
[0049] 2)使用joblib进行模型和其他对象的保存和加载。
[0050] 3)使用sklearn中的各种模块进行数据分割、模型评估、缺失值填充、特征选择、交叉验证、模型训练和评估。
[0051] 二、读取和预处理数据:
[0052] 1)读取原始数据文件(如CSV或TSV格式)。
[0053] 2)将数据中的缺失值(如’NA’)替换为NaN,以便后续处理。
[0054] 3)提取特征值和标签(即目标变量)。
[0055] 三、缺失值填补:
[0056] 1)使用KNN等算法对缺失值进行填补。
[0057] 2)保存填补器(如KNNImputer)以便后续使用。
[0058] 四、数据集划分:
[0059] 1)使用train_test_split将数据分为训练集和测试集。
[0060] 2)确保训练集和测试集中的类别分布与原数据相同。
[0061] 五、特征选择:
[0062] 1)使用模型(如RandomForestClassifier)进行特征选择。
[0063] 2)保留选择后的重要特征。
[0064] 3)保存特征选择器以便后续使用。
[0065] 六、模型训练和超参数优化:
[0066] 1)使用GridSearchCV等方法进行超参数搜索和模型优化。
[0067] 2)训练模型,并选择最佳模型和参数。
[0068] 3)保存最佳模型以便后续使用。
[0069] 七、模型评估:
[0070] 1)计算测试集的评分,如准确率、混淆矩阵、分类报告等。
[0071] 2)保存模型评估的结果,以便后续分析。
[0072] 八、新数据处理和预测:
[0073] 1)读取新数据,并确保与原始数据对齐。
[0074] 2)使用保存的填补器对新数据进行缺失值填补。
[0075] 3)使用保存的特征选择器选择新数据中的重要特征。
[0076] 4)使用保存的模型对新数据进行预测。
[0077] 5)保存和输出预测结果。
[0078] 九、结果保存和输出:
[0079] 将预测结果保存为CSV文件,方便后续分析和应用。
[0080] 预测结果如表3所示,表3中0表示鉴定为塔什库尔干羊,1表示鉴定为不属于塔什库尔干羊。
[0081] 表3:塔什库尔干羊的预测结果
[0082]
[0083] 由表2和表3可知,本发明提供的50个SNP位点在鉴定时,共试验了1486只绵羊,包括15个品种,其中塔什库尔干羊52只,有50头塔什库尔干羊被鉴定为塔什库尔干羊,2头塔什库尔干羊未被鉴定为塔什库尔干羊,未见其余品种的绵羊被鉴定为塔什库尔干羊。综上本发明用于塔什库尔干羊快速鉴定的SNP位点组合鉴定塔什库尔干羊的准确率为96.15%,具有较优的特异性。
[0084] 如上所述,较好的描述了本发明的基本原理、主要特征和优点。上述实施例和说明书仅是对本发明的优选实施方式进行描述,本发明不受上述实施例的限制,在不脱离本发明精神和范围的前提下,本领域普通技术人员对本发明的技术方案做出的各种改变和改进,均应落入本发明确定的保护范围内。

当前第1页 第1页 第2页 第3页
相关技术
塔什相关技术
干羊相关技术
吴伟伟发明人的其他相关专利技术