设为首页收藏本站

JMP数据分析论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 1815|回复: 7
打印 上一主题 下一主题

DOE在生物制药工艺开发中的应用解析

  [复制链接]
跳转到指定楼层
楼主
发表于 2019-9-5 10:46:58 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
从事生物制药工艺开发的朋友对DOE相信都不陌生。DOE在工艺开发过程中,包括细胞培养、多肽生产过程中的酶切、下游过程中的层析工艺、工艺的沉淀结晶以及在整个制剂工艺中应用都非常广泛。虽然我们都很了解DOE的重要性,但其实在运用DOE进行工艺开发时,常常有一些容易被忽视的因素或是意想不到的地方,让我们对实验结果的判断总是拿捏不定。今天我们就一起看看那些在DOE在工艺开发过程中容易被忽视的关键因素及注意事项,帮助你更加轻松自如地构建你的实验设计。



DOE在工艺开发过程中,通常有三个主要的应用。

  • 首先,筛选阶段(浪里淘沙)。我们需要了解的是哪些因子可以显著性地影响Y输出,需要快速地找到这些最重要的因子。
  • 第二步是优化,包括优化工艺应用,也包括PC实验、工艺表征研究等,通过DOE可以对工艺开发的优化起到很大的帮助。
  • 最后一个是稳健性研究,也就是如何稳定、高效地生产出有质量的产品。工艺能力是否好,工艺是否稳健,通过DOE可以让我们对工艺有一个更好的认识。

那么,在DOE在工艺开发过程中有哪些容易被忽视的关键因素及注意事项呢?这里介绍5大常见的误区及解决方法,让你对自己的实验设计有更好的认知和把控。
一. 输入(X)的选择范围

通常来讲,X范围我们希望它设置的宽泛一些。如下图所示,当实验系统误差是一个固定值时,范围设定的窄得到的模型波动自然就会很大。如果范围设定的宽泛些,模型的稳定性就会更好一点。所以大家通常在选择范围时会倾向于选择宽一些。

但在这里需要提醒大家的是,尤其是做生物学实验时,X的范围宽度需要选到一个合适的点。如果设置太宽的话,可能会产生一些问题。


比如左边的图范围是比较合适的。假如选了低值、高值中心点,通过这三个数据点就可以做出模型来试图了解一下真实世界是怎样的。可以看出得到的模型和实际的情况拟合会比较好。


选得过宽的话,可能就会出现第二种情况,也就是选了低值、高值、中心点。但在真实世界中,它的峰值出现的是一个比较窄的范围时,也就是图中黑色的线。假如是真实情况的话,拟合出来红色的线就会失真了。什么意思呢?可能是说,这个因子可能不太能影响到Y,因为低值、中值和中心点差异不大,但实际上你也可能丢掉了非常重要的参数。
那应该怎么寻找比较合适的范围呢?建议大家可以运用自己的生物学知识,比如,首先对自己要开展的实验有初步的了解和认识,这样才不至于一上来就选择了一个特别不合适的范围。

二. 模型的评估

很多人在使用DOE时,常常会把数据直接放入软件,拟合出来一个模型就直接开始使用了。实际上,这个模型能不能用、模型到底有没有效呢?如果在此没有多思考一下的话,可能就会得到一个失之毫厘谬之千里的结论。因此,首先要评估下模型的情况,然后再去调整模型、再拟合,这是一个循环递进的过程。



如何评估模型呢?可以从这些方面考虑。比如:

  • 原始数据重复性怎样?有没有离群点?这个模型是不是一个很值得考验的模型?假如有离群点,这个离群点是纯粹的离群点,还是是有意义的理性点?有时可能就是因为范围选择的不一样,有些离群点是可重复的,它真的可能意味着一些意义。如果看到离群点就简单粗暴地把它删除的话,你就会错失发现一些未知的、新的信息的机会。
  • 另外,有没有丢掉一些关键的参数?如果这个参数没有没有找到的话,可能做出来的数据即时调整了很多X但对Y的影响都不大。这可能就是因为有一些对Y影响大的参数没有被发现。
  • 此外,所选择的这些X,不同参数之间有没有相互作用、它们本身是否有曲线等等都是在模型评估中必须考量的因素。

JMP中提供了非常丰富的模型评估工具,可以帮助大家更好地去评估和判断模型,之后再进一步开展数据分析工作。



三. 响应(Y)的选择

说到Y的选择,你可能会想,需要研究什么就把它定义为Y就好了,看起来很简单。但在某些情况下,需要再仔细考量一下到底如何选择Y。
假如我们想做层析工艺的开发,希望目标蛋白和杂质分离的好一点,希望挑选分离效果好的层析方式。分离效果好,这里就有不同的Y可以去选择。比如:

  • 主峰的峰面积百分比。如果杂质分得好,主峰的峰面积百分比应该低,越低越好。这是一种维度。
  • 层析界面上会提供不同峰之间的分辨率(Resolution)。Resolution越大说明分辨率好。这也是一个维度。
  • 还有一种是波谷的高度。也即是两个峰之间的波谷高度是多少。高度越低,表示它分离得越好。


  • 对于左侧的第一种情况来讲,其实选用哪个为Y都可以,因为它们都可以较好地反映出层析分离效果的优势和劣势。
  • 但对于第二种情况,我们就会发现,使用哪个标准作为Y,分离效果是比较大的。这个案例里采用C去分离其实是更合适的。在开展HPLC分析方法开发时,很多公司会用到DOE的方法,大家也会讨论到底选用哪个目标作为Y更好。

但无论采用哪个目标作为Y,都不要放弃对原始数据的挖掘,结合实际情况判断哪个Y是真正合适的,这样做出来的数据的有效性才会更好一些。
我们来看个小案例。这两个表格记录了开展工艺开发时尝试的不同条件,有PA1~PA3,PA4~6,如果我们只看结果的话会发现差异不大,说明工艺很稳定。
事实上真是这样吗?再来看原始数据。



从峰形上来看,PA1-PA3的结果差异都不大,PA3稍微高点。PA4-PA6的峰形,6的峰形完全和4,5不一样。中间到底发生了什么?这就需要你去挖掘自己的实验了。在很多公司里研发是一个团队,检测是另外一个团队,有时候,当实验不是工艺开发人员自己做的时候,可能就会忽略了原始数据只看结论。如果不查看原始数据就会错失很多问题。无论原始数据是“惊喜”也好还是“惊吓”也罢,都要越早知道越好。

四. 回归和模型复杂度

在做拟合的时候我们往往都希望R2越高越好。一定是越高越好吗?其实不一定。

我们来看一个有名的案例(Anscombe's quartet),总共有4个图,都具有相同的R2。在这里我们截取了2个。


  • 如果真实情况是线性的话,第一个图采用最小二乘法做出来的R2是比较符合事实的,是线性的。
  • 但如果让软件对第二个图去用最小二乘法拟合,这个图的R2要更优。如果不去查看原始数据,不去做模型评估只看R2,就会使用下面这个图去作预测,预测出来的结果偏差就会很大。

因此,R2并不是越高越好。其次,一定要关注离群点,再判断是否要剔除。

那么,模型是越复杂越好吗?


同样的数据,如果真实的情况就是线性的,第一种方式拟合的R2是0.96。如果过度追求R2,可以把做到X6,把每一个点强行拟合到最好,也就是R2趋近于1.  那么哪一种预测性更好?明显是前者。因为前者更体现了真实情况下的波动。所以不要为了追求R2强行拟合的更好,表观上看起来更好,但实际上预测性更差。


五. 显著性和等效性
我们在做模型的时候通常希望找到1个或2个显著的因子能够影响Y。


举个例子,这里有1个中心点,3个重复以及条件。分析显著性会发现所有因子及它们的排列组合都不太显著。X和Y之间的关系不太强。这是否意味着数据白做了呢?其实不一定。

  • 首先,一定要先判断下三个重复性。首先要看实验中重复的波动和预期的波动像不像。
  • 如果这次波动远远高于预期波动,说明这次实验做的不好,需要重新做实验。


如果三次实验偏差和预期的偏差比较接近,这样的波动是可接受的吗?在这样的波动下是否还能找到有规律、有意义的数据?如果还能找到,那就接着开展实验;如果不能,说明系统波动本身比较大。此时就要考虑这个实验就不太适用有如此大波动的体系通过DOE来找规律。也就是说,这个波动是否还适合通过DOE来找规律。

如果仍然是适合的,数据结果还是一样,说明研究的几个X不会显著地影响Y。这可能有两种情况:

  • 一是仍然有很显著的X,但是没有找到,目前找到的都是不重要的;
  • 第二种情况是工艺中可能最影响Y的几个因子都找出来了,它们都没有那么地影响Y,恭喜你,说明这个工艺非常稳健。


因此,我们在开展DOE时不一定说R2一定要多高、一定要找到显著性这个实验才是好的实验。当你排除了前面那些问题之后,尽管没找到显著的X,那这个实验也是很好的实验。当然,当你对体系还不是很了解的时候,你可能还需要去做一些极值点的确认再来判断数据的有效性。

最后,我们再来看看等效性评价。在做等效性的评价时,通常我们都希望得到等效的结论。


在上面这个例子中,将回收率小试3次实验结果和2000L生产的结果用TOST方法去对比,发现符合判定标准,因此判定为等效的。有时候我们也会发现结果并不等效,但并不是所有的不等效都是没有意义的数据。
比如单体生产的2000L生产出来的三个结果与缩小模型的三个结果,如果按照统计学判定,发现结果是不等效的。

再来看原始数据,看看到底发生了什么。实际上,如果从工艺开发人员的角度来看,这6个数据的差异和检测方法的差异是很接近的,表明它们实际上是没有显著性差异的。但如果只是把数据输入到软件里,软件并不了解背后的工艺,不了解分析方法波动的误差,所以计算出来会出现不等效。

因此,当我们发现结果不等效时,不要轻易下结论,更多的要结合自己的专业知识背景去解读这些结果才会得到更客观的结论和判断。

DOE在工艺开发中的应用非常广泛,也是一款强大无比的工具,但在应用时也有以上这些常常被忽视的地方需要引起大家注意。此外,在工艺优化的过程中,除了常规的DOE应用外,还有一些工艺开发团队在不断尝试新的应用和方法,比如上海复宏汉霖生物技术股份有限公司下游产程开发总监巩威博士在2019国际医药分析峰会(iPAS)的演讲中,就通过实战案例分享了她的团队如何通过响应曲面设计(RSM)将一个拥有5因子的29次实验降低到3因子的17次实验,从而优化并提高阳离子层析的收率。




本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
分享到:  !connect_viewthread_share_to_qq!!connect_viewthread_share_to_qq! QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏1 转播转播 分享分享 分享淘帖 支持支持 反对反对
回复

使用道具 举报

沙发
发表于 2019-9-5 12:05:37 | 只看该作者
图片都看不到
回复 支持 反对

使用道具 举报

板凳
发表于 2019-9-5 12:07:44 | 只看该作者
微信版本有图片
回复 支持 反对

使用道具 举报

地板
 楼主| 发表于 2019-9-5 13:23:49 | 只看该作者

谢谢提醒,图片已经重新上传~
回复 支持 反对

使用道具 举报

5#
 楼主| 发表于 2019-9-5 13:24:04 | 只看该作者
cccybwhu 发表于 2019-9-5 12:07
微信版本有图片

谢谢提醒,图片已经重新上传~
回复 支持 反对

使用道具 举报

6#
发表于 2019-9-5 14:31:33 | 只看该作者
That's great!
回复 支持 反对

使用道具 举报

7#
发表于 2019-9-8 14:51:43 | 只看该作者
非常感谢分享...
回复 支持 反对

使用道具 举报

8#
发表于 2019-9-9 15:53:56 | 只看该作者
本帖最后由 Mujahida 于 2019-9-9 15:54 编辑

上文中所提到的JMP等效性检验,好象不是均值是否相等的检验方法:
请问:
1. 文中分析所用到的数据文件?
2. 在JMP中的操作详细步骤是什么?在JMP中的分析实现步骤?

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|JMP数据分析论坛 ( 沪ICP备13022603号-2 )  

GMT+8, 2024-4-25 10:02 , Processed in 0.243919 second(s), 16 queries .

Powered by Discuz! X3

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表