技术领域
[0001] 本发明涉及运用深度学习预测药物制剂的方法,尤其涉及药物制剂体外参数、体内动力学及稳定性的预测。
相关背景技术
[0002] 药物制剂研究是药学研究中重要的组成部分,同时也是药物从化合物到产品经过的重要环节,它不仅结合了药物和辅料的物理化学性质、药理学活性,还涉及到药物剂型的选择、药物处方设计、制剂工艺的选择以及制剂质量评估,并为药物制剂的产业化生产提供指导,因此药物制剂的研究具有很强的专业性和综合性。由于不同的药物分子结构、理化性质,给药方式,给药途径,释药方式和速度,在体内转运方式以及血药浓度随时间的变化趋势不同,因此药物处方设计与药物制剂的体外释放行为,长期稳定性研究,体内动力学行为及临床疗效等密切相关。随着药学研究的不断发展,对药物制剂处方的要求也越来越高。药物新剂型的出现,制剂技术的创新,药用辅料的发展以及检测方法的完善都为药物制剂的研究提出了新的要求和挑战。目前药物处方设计大多数依旧采用传统方法,即试错方法进行处方筛选、优化及评估,该过程费时且成本较高,极大程度上依赖于实验人员的专业知识和经验,具有很大的不确定性,实验失败率相应增高,研发周期也相应增长,在一定程度上增加了研发成本。因此随着现代药物制剂的发展,为了克服传统试错方法的种种弊端,需要建立更加高效的方法进行处方预测,为药物的制剂研究提供指导。
[0003] 特征学习(Representation learning)作为通用机器学习方法被广泛应用于科学、商业和政府等多种领域。与传统机器学习方法不同,特征学习不需要领域知识来设计特征提取器,它可以自动将低层特征转化为高层次抽象的特征,即端到端的学习。特征学习更加善于发现细节特征,这使得特征学习可获得比传统浅层网络更高的预测准确度。深度学习(Deep learning)作为特征学习的一种,可以将数据进行多层的抽象,相比于传统机器学习算法,深度学习包含更多的参数,用非监督式或半监督式的特征学习和分层特征提取高效算法来代替手工获取特征。在药学研究领域,传统的机器学习算法已经在新药分子开发,药物分子合成,药物构象关系等方面有了一定的应用,但是大多数都集中在药学研究的上游部分,目前还没有应用于下游药物处方设计领域。基于药物制剂研究中的数据特点以及机器学习与药学研究相结合的经验,本发明将深度学习的方法应用于药物制剂预测,为药剂学的研究提供新的思路。
具体实施方式
[0022] 本发明所建立的药物制剂预测方法可应用于各种制剂类型,以下将以口腔速崩片(OFDT)、口腔速溶膜(OFDF)、亲水凝胶骨架缓释片(SRMT)和固体分散体(SD)作为案例,建立口腔速崩片和口腔速溶膜的崩解时间预测模型,亲水凝胶骨架缓释片累积溶出度的预测模型和固体分散体稳定性预测模型作具体阐释。
[0023] 首先通过文献挖掘及实验数据积累建立口腔速崩片、口腔速溶膜与崩解时间数据库,亲水凝胶骨架缓释片与累积溶出度数据库以及固体分散体与稳定性数据库。
[0024] 四种剂型处方数据量都仅有上百条,同时各处方之间的差异明显,不仅处方组成有差异,各评价参数之间也完全不同。因此,根据这四种剂型数据特点,采用人工筛选结合改进后的最大不相似法(MD-FIS)法将全部样本划分为三个部分:训练集(80%)、验证集(10%)和测试集(10%)。具体实施过程如下:经过人工筛选从数据库中挑选10%作为最终测试集,采用MD-FIS法选取训练集和验证集用于模型训练和调整。如图2所示,MD-FIS法包含了小数据组过滤器、代表性初始集合选择算法和改进的代价函数。使用MD-FIS算法选取数据集的步骤为:步骤1:药物制剂预测数据库中的数据经过小数据组过滤器过滤掉小组别数据。步骤2:MD-FIS随机产生10000组初始数据集,计算每个初始集与相应剩余集的距离,选择出距离最小的初始集合。步骤3:将初始集合和剩余数据集输入到最大不相似算法来生成最终的验证集合和训练集合。与原始代价函数不同的是,新代价函数不仅考虑到与初始集合之间的距离(originalDistance)而且考虑到备选数据在相应组内的距离(subMeanDistance)。因此新的代价函数为:
[0025] cost=originalDistance-α*subMeanDistance
[0026] 其中,α代表subMeanDistance的影响程度,最大不相似算法选择最大代价的数据。当数据来自大数据组的边缘数据,subMeanDistance的值将会很大,整体的代价将会变小。
因此新的代价函数可以防止选择大数据组的边缘数据。最大不相似算法的实现已包含在R语言的caret库中。
[0027] 根据四种剂型数据特点,训练集样本经过深度前馈神经网络训练相应的预测模型。对于口腔速崩片崩解时间预测模型,每层包含200个隐藏节点的10层前馈神经网络经过1500次训练建立模型;对于口腔速溶膜崩解时间预测模型,每层包含70个隐藏节点的10层前馈神经网络经过700次训练建立模型;对于亲水凝胶骨架缓释片累积溶出度预测模型,每层包含30个隐藏节点的9层前馈神经网络经过1100次训练建立模型;对于固体分散体稳定性预测模型,每层包含50个隐藏节点的9层前馈神经网络在1400次训练建立模型。网络中除了最后一层选择sigmoid作为激活函数,其余层都选择tanh作为激活函数。学习速率为
0.01,统一使用0.8动量的随机梯度下降方法来训练网络。由验证集样本进行验证并优化调整,最后输入测试集样本得到模型预测准确率。
[0028] 亲水凝胶骨架缓释片累积溶出度的预测中,采用相似度因子f2来评估释放曲线的预测能力。如果预测结果f2大于等于50,则是一次成功的预测。因此累积释放曲线的预测准确度为成功预测的次数占总预测数量的百分比:
[0029]
[0030] 对于口腔速崩片和口腔速溶膜的崩解时间预测来说,预测误差不超过10s即为一个好的模型。在正规化之后,崩解时间的预测范围为0到1(即0秒到100秒)。一次成功的预测即为绝对误差小于等于0.1,崩解时间预测的准确度为成功预测所占全部预测的比例:
[0031]
[0032] 其中,f′为预测值,f为标记值(真实值)。
[0033] 对于固体分散体稳定性预测,属于多标签分类问题。F1得分通常用于单标签分类。此模型将预测三个月和六个月的稳定性,该预测的准确度为三个月与六个月同时正确预测所占的比率:
[0034]
[0035] 其中,f′3为三个月是否稳定的概率,f′6是六个月是否稳定的概率。
[0036]
[0037] 表1.药物制剂预测方法在四种制剂上的预测准确率
[0038] 表1为四种模型在训练集、验证集和测试集上的预测准确率,通过结果可以看出,四种预测模型都达到了较高的预测准确率。因此,深度前馈神经网络在使用MD-FIS选择算法后可以在口腔速崩片、口腔速溶膜、亲水凝胶骨架缓释片和固体分散体的预测上达到要求。
[0039] 通过以上实例可以看出,采用深度学习方法能够针对药剂学数据样本量小、数据差异大等特点实现高准确率的预测,为处方研究提供可靠的指导,大大提高了处方研究的效率。
[0040] 本发明并不仅局限于上述方法及图中所示的流程及算法,这里省略对已知部分方法的详细描述。在具体实施方式中,仅以部分具体步骤作为示例。但本发明的方法过程并不仅限于上述步骤。同时,本发明中所描述的算法可以通过修改达到同样结果,但其并不能脱离本发明的范围。因此,落入权利要求的含义及等同范围内的改变均包括在本发明的范围之中。