JMP数据分析论坛

标题: DOE在生物制药工艺开发中的应用解析 [打印本页]

作者: admin    时间: 2019-9-5 10:46
标题: DOE在生物制药工艺开发中的应用解析
从事生物制药工艺开发的朋友对DOE相信都不陌生。DOE在工艺开发过程中,包括细胞培养、多肽生产过程中的酶切、下游过程中的层析工艺、工艺的沉淀结晶以及在整个制剂工艺中应用都非常广泛。虽然我们都很了解DOE的重要性,但其实在运用DOE进行工艺开发时,常常有一些容易被忽视的因素或是意想不到的地方,让我们对实验结果的判断总是拿捏不定。今天我们就一起看看那些在DOE在工艺开发过程中容易被忽视的关键因素及注意事项,帮助你更加轻松自如地构建你的实验设计。

[attach]4353[/attach]


DOE在工艺开发过程中,通常有三个主要的应用。


那么,在DOE在工艺开发过程中有哪些容易被忽视的关键因素及注意事项呢?这里介绍5大常见的误区及解决方法,让你对自己的实验设计有更好的认知和把控。
一. 输入(X)的选择范围

通常来讲,X范围我们希望它设置的宽泛一些。如下图所示,当实验系统误差是一个固定值时,范围设定的窄得到的模型波动自然就会很大。如果范围设定的宽泛些,模型的稳定性就会更好一点。所以大家通常在选择范围时会倾向于选择宽一些。

但在这里需要提醒大家的是,尤其是做生物学实验时,X的范围宽度需要选到一个合适的点。如果设置太宽的话,可能会产生一些问题。
[attach]4355[/attach]

比如左边的图范围是比较合适的。假如选了低值、高值中心点,通过这三个数据点就可以做出模型来试图了解一下真实世界是怎样的。可以看出得到的模型和实际的情况拟合会比较好。
[attach]4356[/attach]

选得过宽的话,可能就会出现第二种情况,也就是选了低值、高值、中心点。但在真实世界中,它的峰值出现的是一个比较窄的范围时,也就是图中黑色的线。假如是真实情况的话,拟合出来红色的线就会失真了。什么意思呢?可能是说,这个因子可能不太能影响到Y,因为低值、中值和中心点差异不大,但实际上你也可能丢掉了非常重要的参数。
那应该怎么寻找比较合适的范围呢?建议大家可以运用自己的生物学知识,比如,首先对自己要开展的实验有初步的了解和认识,这样才不至于一上来就选择了一个特别不合适的范围。

二. 模型的评估

很多人在使用DOE时,常常会把数据直接放入软件,拟合出来一个模型就直接开始使用了。实际上,这个模型能不能用、模型到底有没有效呢?如果在此没有多思考一下的话,可能就会得到一个失之毫厘谬之千里的结论。因此,首先要评估下模型的情况,然后再去调整模型、再拟合,这是一个循环递进的过程。
[attach]4357[/attach]


如何评估模型呢?可以从这些方面考虑。比如:


JMP中提供了非常丰富的模型评估工具,可以帮助大家更好地去评估和判断模型,之后再进一步开展数据分析工作。



三. 响应(Y)的选择

说到Y的选择,你可能会想,需要研究什么就把它定义为Y就好了,看起来很简单。但在某些情况下,需要再仔细考量一下到底如何选择Y。
假如我们想做层析工艺的开发,希望目标蛋白和杂质分离的好一点,希望挑选分离效果好的层析方式。分离效果好,这里就有不同的Y可以去选择。比如:


[attach]4354[/attach]
以上这些维度都可以帮助我们评估层析效果好不好、不同的层析之间哪个更优。当面对不同的分离目标时,采用哪一种目标作为Y就不太一样。


但无论采用哪个目标作为Y,都不要放弃对原始数据的挖掘,结合实际情况判断哪个Y是真正合适的,这样做出来的数据的有效性才会更好一些。
我们来看个小案例。这两个表格记录了开展工艺开发时尝试的不同条件,有PA1~PA3,PA4~6,如果我们只看结果的话会发现差异不大,说明工艺很稳定。
事实上真是这样吗?再来看原始数据。

[attach]4359[/attach]

从峰形上来看,PA1-PA3的结果差异都不大,PA3稍微高点。PA4-PA6的峰形,6的峰形完全和4,5不一样。中间到底发生了什么?这就需要你去挖掘自己的实验了。在很多公司里研发是一个团队,检测是另外一个团队,有时候,当实验不是工艺开发人员自己做的时候,可能就会忽略了原始数据只看结论。如果不查看原始数据就会错失很多问题。无论原始数据是“惊喜”也好还是“惊吓”也罢,都要越早知道越好。

四. 回归和模型复杂度

在做拟合的时候我们往往都希望R2越高越好。一定是越高越好吗?其实不一定。

我们来看一个有名的案例(Anscombe's quartet),总共有4个图,都具有相同的R2。在这里我们截取了2个。
[attach]4360[/attach]


因此,R2并不是越高越好。其次,一定要关注离群点,再判断是否要剔除。

那么,模型是越复杂越好吗?
[attach]4361[/attach]

同样的数据,如果真实的情况就是线性的,第一种方式拟合的R2是0.96。如果过度追求R2,可以把做到X6,把每一个点强行拟合到最好,也就是R2趋近于1.  那么哪一种预测性更好?明显是前者。因为前者更体现了真实情况下的波动。所以不要为了追求R2强行拟合的更好,表观上看起来更好,但实际上预测性更差。


五. 显著性和等效性
我们在做模型的时候通常希望找到1个或2个显著的因子能够影响Y。

[attach]4362[/attach]
举个例子,这里有1个中心点,3个重复以及条件。分析显著性会发现所有因子及它们的排列组合都不太显著。X和Y之间的关系不太强。这是否意味着数据白做了呢?其实不一定。



如果三次实验偏差和预期的偏差比较接近,这样的波动是可接受的吗?在这样的波动下是否还能找到有规律、有意义的数据?如果还能找到,那就接着开展实验;如果不能,说明系统波动本身比较大。此时就要考虑这个实验就不太适用有如此大波动的体系通过DOE来找规律。也就是说,这个波动是否还适合通过DOE来找规律。

如果仍然是适合的,数据结果还是一样,说明研究的几个X不会显著地影响Y。这可能有两种情况:



因此,我们在开展DOE时不一定说R2一定要多高、一定要找到显著性这个实验才是好的实验。当你排除了前面那些问题之后,尽管没找到显著的X,那这个实验也是很好的实验。当然,当你对体系还不是很了解的时候,你可能还需要去做一些极值点的确认再来判断数据的有效性。

最后,我们再来看看等效性评价。在做等效性的评价时,通常我们都希望得到等效的结论。
[attach]4363[/attach]

在上面这个例子中,将回收率小试3次实验结果和2000L生产的结果用TOST方法去对比,发现符合判定标准,因此判定为等效的。有时候我们也会发现结果并不等效,但并不是所有的不等效都是没有意义的数据。
比如单体生产的2000L生产出来的三个结果与缩小模型的三个结果,如果按照统计学判定,发现结果是不等效的。

再来看原始数据,看看到底发生了什么。实际上,如果从工艺开发人员的角度来看,这6个数据的差异和检测方法的差异是很接近的,表明它们实际上是没有显著性差异的。但如果只是把数据输入到软件里,软件并不了解背后的工艺,不了解分析方法波动的误差,所以计算出来会出现不等效。

因此,当我们发现结果不等效时,不要轻易下结论,更多的要结合自己的专业知识背景去解读这些结果才会得到更客观的结论和判断。

DOE在工艺开发中的应用非常广泛,也是一款强大无比的工具,但在应用时也有以上这些常常被忽视的地方需要引起大家注意。此外,在工艺优化的过程中,除了常规的DOE应用外,还有一些工艺开发团队在不断尝试新的应用和方法,比如上海复宏汉霖生物技术股份有限公司下游产程开发总监巩威博士在2019国际医药分析峰会(iPAS)的演讲中,就通过实战案例分享了她的团队如何通过响应曲面设计(RSM)将一个拥有5因子的29次实验降低到3因子的17次实验,从而优化并提高阳离子层析的收率。

[attach]4364[/attach]

如果想聆听巩威博士的现场演讲视频及下载演讲PPT,欢迎点击这里免费下载学习。


作者: cccybwhu    时间: 2019-9-5 12:05
图片都看不到
作者: cccybwhu    时间: 2019-9-5 12:07
微信版本有图片
作者: admin    时间: 2019-9-5 13:23
cccybwhu 发表于 2019-9-5 12:05
图片都看不到

谢谢提醒,图片已经重新上传~
作者: admin    时间: 2019-9-5 13:24
cccybwhu 发表于 2019-9-5 12:07
微信版本有图片

谢谢提醒,图片已经重新上传~
作者: Mujahida    时间: 2019-9-5 14:31
That's great!
作者: nanfeng36    时间: 2019-9-8 14:51
非常感谢分享...
作者: Mujahida    时间: 2019-9-9 15:53
本帖最后由 Mujahida 于 2019-9-9 15:54 编辑

上文中所提到的JMP等效性检验,好象不是均值是否相等的检验方法:
请问:
1. 文中分析所用到的数据文件?
2. 在JMP中的操作详细步骤是什么?在JMP中的分析实现步骤?





欢迎光临 JMP数据分析论坛 (http://www.jmpforum.net/) X3