JMP数据分析论坛

标题: Dr. Frank Yang 问答专帖 [打印本页]

作者: admin 时间: 2013-9-17 12:56
标题: Dr. Frank Yang 问答专帖
[attach]852[/attach]
Dr. Frank Yang:

With more than 30 paper published and 20 patents granted in both USA and China in the areas of industrial statistics, semiconductor equipment and processing, and metrology, as Distinguished MTS in SMIC, Dr. Frank Yang is responsible for providing statistical problem solving solutions for engineering projects, statistical consultation, writing and providing training of statistical courses to SMIC corporate wide. Ph. D Yang had once worked for Applied Materials and Intel (USA) in the areas of IC process development.

方向： DOE，可靠性。

论坛用户名：思源致远

作者: shenweis 时间: 2013-9-27 10:32
杨老师您好！
我在本论坛发了一个含定性因素的均匀试验设计的案例，内容出自方开泰、刘民千、周永道编的《试验设计与建模》第194页，因为介绍如何具体建模的资料很少，请杨老师用JMP软件给出一个最科学的方法，我会在原贴提供我的各种不同分析方法，也请杨老师指出不同方法存在的问题，十分感谢您！
原贴地址（已附原书内容和数据）：
http://www.jmpforum.net/forum.ph ... ;tid=438&extra=

作者: 思源致远 时间: 2013-9-27 15:30

shenweis 发表于 2013-9-27 10:32
杨老师您好！
我在本论坛发了一个含定性因素的均匀试验设计的案例，内容出自方开泰、刘民千、周永道编的《 ...

你在碰到singularity 时，这时需要用stepwise regression, 比如All Possible Model的变量筛选法。你先用这个方法做做看。

作者: admin 时间: 2013-9-27 16:05

思源致远发表于 2013-9-27 15:30
你在碰到singularity 时，这时需要用stepwise regression, 比如All Possible Model的变量筛选法。你先用 ...

谢谢杨老师百忙之中抽时间回答问题啊，

。

作者: shenweis 时间: 2013-9-27 16:10
本帖最后由 shenweis 于 2013-9-27 16:11 编辑

思源致远发表于 2013-9-27 15:30
你在碰到singularity 时，这时需要用stepwise regression, 比如All Possible Model的变量筛选法。你先用 ...

请杨老师看下这样的分析哪里出了问题或应如何操作？

作者: shenweis 时间: 2013-9-27 16:14
以上结果中，种子类型可以确定是A3,因为A1用-1表示了，A2用0表示了，A3用1表示，但B的土类型各型都不一样，-1代表不同的土类型，正确的应是怎样处理呢？

作者: shenweis 时间: 2013-9-27 16:29
本帖最后由 shenweis 于 2013-9-27 16:32 编辑

第二种分析方法：

作者: shenweis 时间: 2013-9-27 16:46
第二种分析方法，其它模型也可能类似第一种分析方法出现的问题，即土类型B1,B2,B3,B4不知道用-1,0或是1来表示了，都是-1,但-1又代表了不同的B值，对这种情况不知道如何正确分析。

作者: 思源致远 时间: 2013-9-28 17:37
请注意几件事： 1. 有两种建立数据表的方法。一是用B1,B2,B3,B4及A1,A2,A3作为B的四个水平，及A的三个水平。二是用方教授的拟变量法，B1=1，B2=B3=B4=0 if B=B1. 表中只含B1,B2,及B3。它们为连续变量。JMP推荐的是第一种。
2. 做All Possible Model 做变量筛选时，选择 "Heredity Restriction".
我得到的最优方程与方教授书中的有点差别。从各项指标来看，我的应该更好些。

请见我的ppt 附件。于是最优结果稍稍也有些不同。有了建模，下面如何优化你是可以自己完成的。

作者: 思源致远 时间: 2013-9-28 17:52
我还注意到你的建模有其他问题。请参见方教授书中的提示：

作者: shenweis 时间: 2013-9-28 21:43
十分感谢杨老师指教，但还有点问题想请教：方教授书中“一般可以假设定量因素与定性因素之间不存在混合效应”，这里的混合效应和交互作用是一回事吗？
在建模时，定性因子的交互作用还要不要考虑，因为我分析后发现，杨老师给出的方法是只考虑了定量因子之间的交互作用，如果同时考虑定性因子的交互作用，我们选定的模型的最终结果是一样的，但考虑定性因子交互作用时如图的CP值没有数据，如果不考虑时CP值为17.456612，不知这样理解是否正确。
附图：考虑定性因子交互作用时CP值图

作者: 思源致远 时间: 2013-10-15 23:16
抱歉这么晚才看到你新的帖子。
方教授书中“一般可以假设定量因素与定性因素之间不存在混合效应”，这里的混合效应和交互作用是一回事。和假定定性因子之间的交互作用可以忽略一样，都是指一般而言。你可以加进这些可能的项进行分析，就像你做过的探索一样。

作者: 思源致远 时间: 2013-10-18 13:53
补充一点：我看到你的模型里有定性变量的平方项，所以我把方教授书中的一段贴上来，特意提醒你。

作者: Mujahida 时间: 2013-10-19 12:19
杨老师，你好！
我用JMP 10，Modeling>screening, 对上述因子数据，x,t,A,B进行筛选,得到的结果为什么是这样？与你们的不同!浸泡时间t,也不是显著因子！为什么？
接下来，当我Make model时，A因子出现弯曲。请高手指点
另外，Modeling>Screening,它本身只对2水平因子进行筛选，这里是多水平且各因子的水平都不一样，这样用合适吗？JMP 11是否有新的改进？
[attach]1288[/attach]
[attach]1289[/attach]

作者: Mujahida 时间: 2013-10-19 13:59
另外，我还有一个问题，在JMP中，均匀设计称为Space filling design,是吗？如果是这样，JMP DOE>space filling design 不能添加Category 因子，它只能用Continuous 因子。
[attach]1290[/attach]
那么，JMP怎么能实现方开泰这样的实验？

作者: shenweis 时间: 2013-10-19 14:24
本帖最后由 shenweis 于 2013-10-23 00:56 编辑

不知道能不能用JMP实现均匀设计的全部功能，比如有定性因子，均匀混料，有上下限的均匀混料。

作者: Mujahida 时间: 2013-10-19 17:38
对于JMP，都假设定量因子和连续因子都是在两个水平下研究，而时间和肥量在这个例子中，都是多水平的，JMP DOE也无法在这种情况下进行DOE设计，我这样理解靠普吗？JMP 11在这方面有改进吗？

作者: shenweis 时间: 2013-10-19 19:29

思源致远发表于 2013-10-18 13:53
补充一点：我看到你的模型里有定性变量的平方项，所以我把方教授书中的一段贴上来，特意提醒你。

谢谢杨老师，该书第193页有这样一句话：故不需要考虑伪变量的平方项和交叉项
可不可以理解为不需要考虑定性因子的平方项和交叉项？再次感谢！

作者: shenweis 时间: 2013-10-21 14:59
本帖最后由 shenweis 于 2013-10-21 15:04 编辑

杨老师您好！请教您解答一下我的附图中的R方和调整R方为“点”的问题，象这种情况说明什么问题呢？谢谢！

作者: 思源致远 时间: 2013-10-25 18:46
If you have categorical terms with more than two levels, then the Screening platform is not
appropriate for the design.
I will answer you the rest of questions later when I got time.

作者: 思源致远 时间: 2013-10-26 16:56

shenweis 发表于 2013-10-19 14:24
不知道能不能用JMP实现均匀设计的全部功能，比如有定性因子，均匀混料，有上下限的均匀混料。

JMP Space Filling Design 中的均匀设计与方开泰教授的均匀设计的原理相同（Montgomery 最新版DOE书中有提到这一点）。但是JMP Space Filling Design 中的均匀设计是为计算机试验设计的（水平数不能自由选取），不像中国数学学会均匀设计分会的均匀设计5.0版软件一样可以同时适用于物理实验。你说的均匀设计可为定性变量制作RSM设计及其混料设计，JMP中的Custom Design (i.e. Optimal Design) 也能够同样做到。在方教授的这本书中有提到，最优(回归）设计（Optimal Design)的精度更高。你有什么用JMP 不知道如何设计你所需要的试验设计，可以告诉我。我想JMP应该可以满足你的要求的。

作者: 思源致远 时间: 2013-10-26 16:59
1）我用的分析方法不是Screening Platform, 而是All Possible Models (见前面的帖子）

2） JMP Space Filling Design 中的均匀设计与方开泰教授的均匀设计的原理相同（Montgomery 最新版DOE书中有提到这一点）。但是JMP Space Filling Design 中的均匀设计是为计算机试验设计的（水平数不能自由选取），不像中国数学学会均匀设计分会的均匀设计5.0版软件一样可以同时适用于物理实验。你说的均匀设计可为定性变量制作RSM设计及其混料设计，JMP中的Custom Design (i.e. Optimal Design) 也能够同样做到。在方教授的这本书中有提到，最优(回归）设计（Optimal Design)的精度更高。你有什么用JMP 不知道如何设计你所需要的试验设计，可以告诉我。我想JMP应该可以满足你的要求的。

作者: brainchip 时间: 2013-10-28 16:43
杨老师您好！
我在本论坛实验设计板块发了两个DOE GUIDE Ver9.0学习过程中的问题贴，还麻烦您有时间帮忙解答，帖子链接如下：
1. http://www.jmpforum.net/forum.ph ... &extra=page%3D1

2. http://www.jmpforum.net/forum.ph ... &extra=page%3D1

谢谢您！

作者: admin 时间: 2013-10-29 12:31

brainchip 发表于 2013-10-28 16:43
杨老师您好！
我在本论坛实验设计板块发了两个DOE GUIDE Ver9.0学习过程中的问题贴，还麻烦您有时间帮忙解 ...

提问最好在这个专帖中帖出，方便大家集中阅览。谢谢！

作者: brainchip 时间: 2013-10-29 15:48
本帖最后由 brainchip 于 2013-10-29 15:51 编辑

[attach]1327[/attach]

官方DOE Guide Ver9.0，第126页原文如下：
This example shows a power analysis for the Catalyst variable, using default value for α (0.05), the root mean square error and parameter estimate for Catalyst, for a sample size of 12. The resulting power is 0.802, which means that in similar experiments, you can expect an 89% chance of detecting a significant effect for Catalyst.
其中检验功效如果是0.802的话，是不是发现显著性差异的几率为80%啊？怎么书中说是89%呢？请杨老师帮忙解答，先谢过了！

作者: brainchip 时间: 2013-10-29 15:56
[attach]1328[/attach]

JMP官方的DOE guide 第9版124页Using the Fit Model Platform提到了一个例题，在对应用Plackett-Burman设计得出的结果分析过程中，结果显示Catalyst*Stir Rate的交互作用是显著的，而Stir Rate主效应并不显著，因此该例题在后续的建模过程中删掉了这个交互作用；而一般的是不是如果交互作用显著，应该把交互作用包含的主效应在构建模型过程中一并选入才是呢？
在JMP Version9 DOE Guide中描述道：（124页）
The Make Model button beneath the Half Normal Plot creates a Fit Model dialog that includes all the highlighted effects. However, note that the Catalyst*Stir Rate interaction is highlighted, but the Stir Rate main effect is not. Therefore, that interaction shouldn’t be in the model.

麻烦杨老师百忙中帮忙解答，谢谢您了！

作者: brainchip 时间: 2013-10-29 15:56

admin 发表于 2013-10-29 12:31
提问最好在这个专帖中帖出，方便大家集中阅览。谢谢！

两个原帖我已经附在这里了，谢谢您！

作者: 思源致远 时间: 2013-10-29 18:09
标题: RE: Dr. Frank Yang 问答专帖

admin 发表于 2013-10-29 12:31
提问最好在这个专帖中帖出，方便大家集中阅览。谢谢！

我在家试过在专贴回复，但是不行。现在办公室电脑上试试看。

作者: 思源致远 时间: 2013-10-29 22:12
标题: RE: Dr. Frank Yang 问答专帖

brainchip 发表于 2013-10-29 15:48
官方DOE Guide Ver9.0，第126页原文如下：
This example shows a power analysis for the Catal ...

可能是typo. 我没有Jmp9 的手册。麻烦你检查Jmp10的同一处，看看是否已更改。要是没有，请告诉我第几页。我仔细看看这部分。

作者: 思源致远 时间: 2013-10-29 22:41

brainchip 发表于 2013-10-29 15:56
JMP官方的DOE guide 第9版124页Using the Fit Model Platform提到了一个例题，在对应用Plackett-Burman ...

This JMP example used strong Heredity restriction, which is stronger than the weak heredity that you are familiar with.
On the other hand, if you keep Catalyst*StirRate in model and you do the regression, you will find out its p value is ~0.1. You can take it off based this p value. This will end up with the same final model as JMP manual.

作者: brainchip 时间: 2013-10-29 22:50

思源致远发表于 2013-10-29 22:12
可能是typo. 我没有Jmp9 的手册。麻烦你检查Jmp10的同一处，看看是否已更改。要是没有，请告诉我第几页。 ...

杨老师您好，我看了第十版的同一处，其中改动了delta的值后，原文变成了"The resulting power is
0.8926, which means that in similar experiments, you can expect an 80% chance of detecting a significant
effect for Catalyst."
这一处在官方DOE guide Ver 10.的第142页，chapter 5: A power analysis部分；同一处位于官方DOE guide Ver 9.0的第126页，chapter 4: A power analysis.
谢谢您！

作者: 思源致远 时间: 2013-10-30 22:24
Strong Heredity: An interaction is only likely to be significant if both parents are significent.
The p value of Catalyst*StirRate is ~0.1, close to 0.05 on the boarder to take off or keep it in the model.
If you want to keep it, you then better add StirRate back in the model although it is not statistically significant. When I teach in my class, I suggest to keep them in the model for p value close to 0.1.

作者: brainchip 时间: 2013-10-31 10:12

思源致远发表于 2013-10-30 22:24
Strong Heredity: An interaction is only likely to be significant if both parents are significent.
T ...

谢谢杨老师的解答！

作者: brainchip 时间: 2013-10-31 10:16
杨老师您好，我还有一个问题，当时看您回复在实验设计版块，我就跟了帖，现在转到您的这个版块来，如下：

思源致远发表于 2013-10-29 22:48
我找到了废弃没有再用的Jmp9 手册，我的手册上是80% 而不是像你说的89%。不知道你的手册怎么会和我的不一样 ...

我用的是ＪＭＰ９软件Help菜单下books点出的ＤＯＥ　Ｇｕｉｄｅ，其中在１２６页提到的获得的resulting power 是0.802，而检测catalyst效应为显著的几率为89%，如果印刷有误，是不是说明这个resulting power的值应该和chance for detecting a significance effect的值相等？
谢谢杨老师！

作者: 思源致远 时间: 2013-10-31 22:56
本帖最后由思源致远于 2013-11-8 11:54 编辑

I noticed that the resulting power 0.802 is for the model when the interaction Catalyst*StirRate  is taken out of the model.  If you do not take out Catalyst*StirRate considwering its small p value, you then need to add its parent Stir Rate back into model for the sake of strong heredity requirement.  In the later case, you will get 0.8926.
You can try this with JMP's data.  If you still have question, please let me know.

I need to say a little bit more about Heredity principle.  Some statisticians do not agree such Heredity principles.  However, it is still popularly used by a lot of people.

作者: 思源致远 时间: 2013-10-31 23:00

brainchip 发表于 2013-10-31 10:16
杨老师您好，我还有一个问题，当时看您回复在实验设计版块，我就跟了帖，现在转到您的这个版块来，如下：
...

Yes, you are right. "这个resulting power的值应该和chance for detecting a significance effect的值相等".

作者: brainchip 时间: 2013-11-1 11:04

思源致远发表于 2013-10-31 23:00
Yes, you are right. "这个resulting power的值应该和chance for detecting a significance effect的值 ...

谢谢杨老师！

作者: 思源致远 时间: 2013-11-3 18:41

brainchip 发表于 2013-11-1 11:04
谢谢杨老师！

不用客气。希望对你的工作有所帮助。

作者: brainchip 时间: 2013-11-5 21:34
本帖最后由 brainchip 于 2013-11-6 21:44 编辑

杨老师您好，我在学习中又有了一个问题要向您请教。如下图所示，我在做因子筛选的时候，模型的有效性检验是p>0.05，而各因子中有的检验出现显著性，因为p值比较接近0.05，是否我可以选择显著的因子拟合模型，应用预测刻画器进一步观测响应的变化呢？谢谢您！杨老师您好，我在学习中又有了一个问题要向您请教。如下图所示，我在做因子筛选的时候，模型的有效性检验是p>0.05，而各因子中有的检验出现显著性，因为p值比较接近0.05，是否我可以选择显著的因子拟合模型，应用预测刻画器进一步观测响应的变化呢？谢谢您！

[attach]1336[/attach]
[attach]1349[/attach]

作者: brainchip 时间: 2013-11-5 22:18
另外再问您一个问题，在JMP的analyze菜单下，fit model和modeling子菜单中的screening命令有什么区别么？谢谢您！

作者: 思源致远 时间: 2013-11-6 20:54

brainchip 发表于 2013-11-5 21:34
杨老师您好，我在学习中又有了一个问题要向您请教。如下图所示，我在做因子筛选的时候，模型的有效性检验是 ...

请将Jmp数据表附上，写明数据的性质，比如说是试验设计的数据，什么样的设计，或者是非试验设计数据，如随机收集的数据。针对性的回答可以避免可能的差错。

作者: 思源致远 时间: 2013-11-6 20:56

brainchip 发表于 2013-11-5 22:18
另外再问您一个问题，在JMP的analyze菜单下，fit model和modeling子菜单中的screening命令有什么区别么？谢 ...

After creating and viewing the data table, you can analyze the data in the Screening or Fit Model platforms.
• If your factors are all two-level and orthogonal, then all of the statistics in the Screening platform should work well.
• For highly supersaturated main effect designs, the Screening platform is effective in selecting factors, but is not as effective at estimating the error or the significance. The Monte Carlo simulation to produce p-values uses assumptions that are not valid for this case.
• If you have categorical terms with more than two levels, then the Screening platform is not appropriate for the design. JMP treats the level numbers as a continuous regressor. The variation across the factor is scattered across main and polynomial effects for that term.
• If your data are not orthogonal, then the constructed estimates are different from standard regression estimates. JMP can pick out big effects, but it does not effectively test each effect. This is because later effects are artificially orthogonalized, making earlier effects look more significant.
• The Screening platform is not appropriate for mixture designs.

作者: 思源致远 时间: 2013-11-6 21:04
Comparing Screening is different from Fit Model in the following aspects:
Estimates labeled Contrast. Effects whose individual p-value is less than 0.1 are highlighted.
• A t-ratio is calculated using Lenth’s PSE (pseudo-standard error). The PSE is shown below the Half Normal Plot.
• Both individual and simultaneous p-values are shown. Those that are less than 0.05 are shown with an asterisk.
• A Half Normal plot enables you to quickly examine the effects. Effects initially highlighted in the effects list are also labeled in this plot.
• Buttons at the bottom of the report also operate on the highlighted variables. The Make Model button opens the Fit Model window using the current highlighted factors. The Run Model button runs the model immediately.
There is an example to illustrate these in JMP DOE User Guide manual.

作者: brainchip 时间: 2013-11-6 21:54

思源致远发表于 2013-11-6 20:54
请将Jmp数据表附上，写明数据的性质，比如说是试验设计的数据，什么样的设计，或者是非试验设计数据，如 ...

杨老师，我将数据表附在39楼的原帖上了，这个数据表用的是plackett-burman设计，N=12，是试验设计的数据。我对数据的分析用的是fit model，考虑到是plackett-burman，因此仅选取了主效应进行分析，应用的是最小二乘法，谢谢您！

作者: brainchip 时间: 2013-11-6 21:55

思源致远发表于 2013-11-6 21:04
Comparing Screening is different from Fit Model in the following aspects:
Estimates labeled Contra ...

Got it. I remembered that I have read this part before but just forgot it. Thanks.

作者: 思源致远 时间: 2013-11-8 11:53

brainchip 发表于 2013-11-6 21:54
杨老师，我将数据表附在39楼的原帖上了，这个数据表用的是plackett-burman设计，N=12，是试验设计的数据 ...

你的数据只有3个自变量，好像不对。请检查一下再发一次。

作者: brainchip 时间: 2013-11-8 12:20

思源致远发表于 2013-11-8 11:53
你的数据只有3个自变量，好像不对。请检查一下再发一次。

杨老师，我上次确实发错了，现在附上数据再发给您，谢谢您！[attach]1350[/attach]

作者: 思源致远 时间: 2013-11-8 22:34
本帖最后由思源致远于 2013-11-8 22:39 编辑

你的数据是Plackett-Burman non-regular 设计，过去的分析仅考虑main effects, 现代的分析方法是考虑main effects+all 2-factor interactions 的stepwise regression method. If you use the default stepwise regression, you will get

作者: 思源致远 时间: 2013-11-8 22:38
根据p value, 你可以将B和A*B从模型中剔除，得到如下结果：

作者: brainchip 时间: 2013-11-8 22:52

思源致远发表于 2013-11-8 22:38
根据p value, 你可以将B和A*B从模型中剔除，得到如下结果：

谢谢杨老师的详细解答！祝您周末愉快！

作者: 思源致远 时间: 2013-11-11 08:36

brainchip 发表于 2013-11-8 22:52
谢谢杨老师的详细解答！祝您周末愉快！

谢谢！

希望对你的工作有所帮助！

作者: brainchip 时间: 2013-12-21 16:26
杨老师：
您好！近期在应用JMP学习的时候又遇到了一个问题，想向您请教！先谢谢您了！
近期我遇到了一个响应面设计的问题，数据截屏如下，具体见附件：
[attach]1391[/attach]

[attach]1392[/attach][attach]1392[/attach]

作者: brainchip 时间: 2013-12-21 16:37
分析的时候发现Response A和Response B两个响应的数据不是正态分布，因此做了BOX-COX变换，数据见后面两列的Response A X和Response B X，变换以后正态分布检验通过了。
鉴于研究的目的是要找出两种响应的最佳合意性，因此应用JMP的fit model，然后选择standard least squares和effect screening以box-cox变换后的响应值作为响应，进行了分析，分析结果截屏如下：
[attach]1393[/attach]
[attach]1394[/attach][attach]1394[/attach]

作者: brainchip 时间: 2013-12-21 16:46
然后根据结果选择了factor A、factor B、factor A*factor B以及factor A*factorA建模进行了分析，结果如下：
[attach]1395[/attach]
[attach]1396[/attach]

作者: brainchip 时间: 2013-12-21 16:50
之后选择合意性设计response A为最小化，response B为最大化，最大化意愿的结果如下：
[attach]1397[/attach]

作者: brainchip 时间: 2013-12-21 17:00
我的问题如下：

1. 如我提到这个问题，如果响应不是正态分布，是否可以如我在这里处理的，应用box-cox变换成正态分布的数据然后应用最小二乘法进行分析？是否还有其他的方法？或者不用处理可以直接分析的方法？
2.在建模的时侯，我首先选择了effect screening，其中Response A的R2 为0.971176，R2adj为0.947156，而在建模之后这两个数值有所改变，但不是很大，分别变为0.962419以及0.940944；但是对于response B，R2从0.907222变成了0.850214，而且R2Adj从0.829906变成了0.764622，看起来并没有改善？是否选定的建模因子组合不合适？该如何做呢？
3.在做合意性的时候，我参考了box-cox转换后的数据和原有数据的关系（主要是看了回归），因此确定了A为最小化，B为最大化，这样做是否合理？
4.在得到response A和response B的合意性数据后，该怎样转换成box-cox变换前的数据，即如何给出预测值的合理可信区间？

谢谢您了！

作者: 思源致远 时间: 2014-1-2 14:20
抱歉，我有一段时间没有上这个网站了。我晚上回家后再做答复。

作者: brainchip 时间: 2014-1-2 17:38
先谢谢杨老师了，另外我还有几个问题：
1. 如果我的响应值用正态分布检验是非正态的，那么应用generalized linear model对数据进行拟合，是否可以在分布选项选择正态？下面的link function在选择上要遵循哪些原则呢？
2. 在应用generalized linear model拟合时，发现有时候总是很难在goodness of fit statistics选项中让p大于0.05；比对了jmp10中的自带的爆米花实验结果，发现该案例也是出现了goodness of fit statistics中的pearson和deviance检验的p值都<0.001，是否在应用generalized linear model拟合时，可以不去注意这个goodness of fit statistics检验呢？
谢谢您，祝杨老师新年快乐！

作者: 思源致远 时间: 2014-1-3 11:00

brainchip 发表于 2014-1-2 17:38
先谢谢杨老师了，另外我还有几个问题：
1. 如果我的响应值用正态分布检验是非正态的，那么应用generalized ...

昨晚我拉肚子，睡得早些，没能及时回复。抱歉。
首先，Standard least sqaure 对响应数据正态分布的要求是指同一实验条件下重复实验的数据分布，而不是指所有不同实验条件下的实验数据服从正态分布。在响应变量取值不重复时正态性无法验证，但可以通过一些合适的残差图来评价。标准最小二乘法有一个特点，即在偏离正态性要求不很远时不会严重影响分析、推断的合理性。你的数据我看了一下，用原始的Response A and Response B 建模后的残差符合正态分布，不需要做transformation, 也不需要用Generalized lienar models 进行分析。
关于用Generalized lienar models 进行分析的问题，等你有适合的数据再讨论会更清楚。
希望以上回答能解决你的问题。

作者: brainchip 时间: 2014-1-3 15:37
杨老师，谢谢您的回复，我在分析下面的数据时应用了generalized linear model，对比standard least square，好像线性模型能得出同理论相符的更多的显著参数；麻烦您看看我分析的是否正确？数据如下：
[attach]1410[/attach]

[attach]1412[/attach]

作者: brainchip 时间: 2014-1-3 15:49
本帖最后由 brainchip 于 2014-1-3 15:58 编辑

理论上，acid和electri对capacity都有影响，上面的数据是应用响应曲面的方法进行设计得出的，因此我在下面的分析中先应用了最小二乘法，模型的分析结果如下：

[attach]1413[/attach]

模型的p值为0.0428，但是却显著的失拟合，p值为0.0016，并且从下面的参数分析来看仅有acid和electri的交互作用是显著的，

[attach]1414[/attach]

以前您告诉过我JMP应用的是strong heredity restriction，那么由于这两个因子单独的作用都不显著，这两个因子的交互作用就不应该在模型中存留，这样一来，整个的模型就没有显著的参数项了，因此我接下来试着用generalized linear model做了分析，对比了两种分析方法；

作者: brainchip 时间: 2014-1-3 15:53
下面是应用generalized linear model 对模型分析的结果：

[attach]1415[/attach]
从这个结果来看，同理论的基本相符，各个参数都是显著的，但是有失拟合现象，Pearson和Deviance的p值都小于0.0001，不知道问题出在了那里，该如何对这个数据作分析呢？

作者: brainchip 时间: 2014-1-3 15:55
本帖最后由 brainchip 于 2014-1-3 15:59 编辑

此外对比应用generalized linea model 的残差图，如下，好像也比应用最小二乘法分析的残差好一点，不知我对残差的这个结论对么？谢谢您！

[attach]1416[/attach]

作者: 思源致远 时间: 2014-1-3 18:29

brainchip 发表于 2014-1-3 15:37
杨老师，谢谢您的回复，我在分析下面的数据时应用了generalized linear model，对比standard least square ...

你的Capaciy 是什么样的物理量？请解释一下。

作者: brainchip 时间: 2014-1-3 22:01
杨老师，您好，这个capacity 是蛋白质在纯化中用到的物理量，表示的是蛋白质对吸附配基的亲和力，谢谢您！

作者: 思源致远 时间: 2014-1-4 16:46
本帖最后由思源致远于 2014-1-4 19:24 编辑

它应该是连续变量吧？那又为什么是整数？该相响应变量的分布特性你知道吗？我们必须了解这些才能选好合适的分析方法。另外你为什么考虑用log的link function？过去做个类似的DOE及其数据分析吗？

作者: brainchip 时间: 2014-1-4 21:33
杨老师，您好，响应变量确实是连续变量，整数是因为我做了四舍五入，这个变量的分布特性应该是正态分布的。
对比文献中的例子，一般的对该变量的分析应用的是最小二乘法，文献中对我这组数据中所选的两个因子都认为是显著的，理论上也是这样的。
在我的分析中，选用log的link function是因为我在分析这一组数据的时候，发现应用最小二乘法得出的结论不太合乎理论，而应用广义线性模型时，我觉得对响应做下对数变换后，应该不太会影响响应的分布情况，而且用模型来解释变换后的响应发现同理论也完全相符。
但是我对这么分析不是很有把握，也不知道在面临类似的情况时应该注意哪些情况，还麻烦杨老师多多指教，谢谢您！

作者: 思源致远 时间: 2014-1-4 23:54
我对你的数据也用JMP的standard least square 分析了一下,发现残差有些喇叭形。在改用GLM, Log as link function，假定正态分布后，模型比较健康（AICc也更小，残差也更随机）。结果的模型与你一致。不过，如果能够replicate一次整个试验后将数据合起来再分析一次，能得到验证就更好，因为这是一个重要的模型区别，即响应变量需要做log 转换是一个重要区别。
另外确定是正态分布也是很重要的一步，不知道你是否做过单一条件重复试验验证过这点。总之，重要的决定需要谨慎小心为好。如有新的问题，我们再继续讨论。

作者: brainchip 时间: 2014-1-5 12:29
谢谢杨老师，我们目前还没有做过验证，不过如果结果可用，那么验证一定会做的。再次感谢您的解答，祝您周末愉快！

作者: 思源致远 时间: 2014-1-6 16:11
根据我的经验，有时标准最小二乘法建模不好是因为有少数实验条件有问题，重复性非常差。在调整实验区域后的建模就非常成功了，预告也非常准确。你如果目前没有时间去验证这一点，急着需要用GLM模型预告找到一个优化的结果的话，你可以先去这样做。如果预告误差较大，就要考虑我刚才提到的情况。
祝你实验顺利！

作者: brainchip 时间: 2014-1-6 23:09
杨老师，谢谢您的建议，这次的数据之所以有这些问题，有可能像您提到的那样，可能是试验区域选取的不是很合适。不过如果GLM模型适合我们目前的数据的话，我们会依照预测结果选定一个区间去做一些验证试验，看看具体的误差是不是很大然后再做决定。
再次感谢您的帮助，谢谢您！

作者: 思源致远 时间: 2014-1-7 23:10
本帖最后由思源致远于 2014-1-8 16:42 编辑

对了，我注意到该GLM & Log 建模的p-value of Goodness-of-Fit太小，但已经无法增添更高阶的items。我也试过不同的 link functions 也没有找到更好的模型。我有些担心数据的integrety. Anyway, 你先去用预告的最优结果验证一下。如果相差甚远，则需要先检查重复性，必要的话改变实验区域范围，或者replicate或者augment 试验，有更多的数据来建模并作仔细的诊断。

作者: brainchip 时间: 2014-1-8 18:47
杨老师，您好！
非常感谢您认真负责的指导。这两天我们根据预测的contour plots，结合我们以往的经验，选取了acid 的范围是4.9-5.1, electri的范围是6-8；从模型上看，这个区域的capacity大概在100以上。我们选取两个比较差的点做了验证分别是acid 4.9, electri 6以及acid 5.1, electri 8；结果5.1，8的响应值同预测的比较接近，高于了100，但是4.9,6的点则在95左右，从contour plot上看，这个点距离100的等高线也比较近，同时和您预测的一致，这个模型的拟合不是很好，因此估计在不同的区域存在着偏差。
不过我们的实验对这个结果也可以接受，所以调整了一下，把今后的响应预期设置在90以上应该是在选定的因子区域可以实现的。
实际上，原始表格中数据的结果我们重复了两次，响应值都差不多，因此很有可能是我们在最初的设计中选定的区域不是很合适导致的，今后如果有机会应该重新验证下选定合适的区域再做这个实验。
再次感谢您的指导，谢谢您！

作者: 思源致远 时间: 2014-1-9 09:26
不用客气！我很欣赏你的钻研精神。我们公司的工程师很少有像你这样对DOE及其数据分析研究得这么深的。大多数人都说有兴趣，但是工程方面的工作太忙，没有时间钻研。但是我相信你的工程技术方面也一定很忙，大部分是自己利用业余时间读书钻研的，我猜得对不对！
欢迎你的新问题，包括我自己有时也不熟悉的问题。只要是有实用价值的问题，难度再高，我也乐意花时间去把它弄懂。
另外：你的replicate 了两次的数据分析的结果是否有些改进？你也可以寄给我看看。

作者: brainchip 时间: 2014-1-9 22:15
杨老师，谢谢您的夸奖。
如您所料，我确实是正在自学DOE，希望能在实际工作中发挥更大的作用，谢谢您一直的耐心指导与帮助。附件是我两次重复的数据，第二次有个点不是很好，可能是操作有问题，不过像我昨天回复您的，我们后来依据等高线图选两个点做了验证，觉得那两个点界定的区域还是可用的，因此就不再继续花时间在这个问题上了。
再次感谢您！
以后有问题希望还能得到您的指导，谢谢您！
[attach]1419[/attach]

作者: admin 时间: 2014-4-21 10:47
杨老师：
这里有些论坛的问题，还请您帮忙解答下,谢谢！
1. http://www.jmpforum.net/forum.ph ... tid=1672&extra=
2. http://www.jmpforum.net/forum.ph ... tid=1669&extra=
3. http://www.jmpforum.net/forum.ph ... tid=1668&extra=

作者: Mujahida 时间: 2014-4-26 20:48
Hi! Frank Yang,

1. 自相关(Autocorrelation),可以帮助检验数据间的是否非随机性的问题，那么，Autocorrelation的值多大时，数据是非随机的呢？用什么标准去判断？
多谢！

作者: 思源致远 时间: 2014-4-30 10:26
autocollation 的各阶系数一般是越小，数据就越随机，通常0.2 以下就认为数据的随机性不错。但是自相关系数的p值也是重要的判别根据。倘若是0.6 但是p值》0.05，我们不能就认为数据的非随机性强。应该加大数据样本再做分析。
抱歉回复晚了些！

作者: 望岳 时间: 2014-6-9 13:55
求教：关于DOE在电动汽车电池系统中的应用，【原帖在本论坛网址：http://www.jmpforum.net/forum.ph ... &page=1#pid4245】

目前网上有这样一篇文章《Tesla的新纪元：数据分析+创新研发》，里边讲到：
“TESLA经过反复对比和研究，最终采用了来自JMP的高级DOE平台及数据分析套件。通过JMP提供的高级实验设计、数据分析套件及数据挖掘方法，Tesla成功解决了电池温度与快速充电问题，并且成功实现对每个单个电池的温度与工作环境监控，成功解决了电动车界几大难题：1、高效能充电；2、高效能放电；3、电池工作安全且可靠；4、电池容量的突破”。
因为我以前做的DOE大部分是参数优化、多因子分析等，模型比较简单，所以对TESLA所做的电池系统DOE模型没有思路，只是大概感觉他们采用的可能是针对连接方式、排布结构的多因子、多响应的定制设计，但是我以前做的都是关于配方、工艺条件等DOE，对于做结构方面的DOE，思维就比较受限制。
大家有这方面经验吗？希望能够提供一些这方面的相关案例或是分析思路。

Tesla文章的网址http://www.vsharing.com/k/BI/2014-3/695665_3.html
参考：“第二件事情就是电压控制和温度控制。电池越小，可以测量的分辨率就越高，控制就越容易精确。当然这个时候有人自然会问：7000个电池太多太复杂了吧?怎么控制呢?但是在网络控制领域，一个简单程序就能通过router控制上万台甚至几百万台服务器，而Marc更是这个领域的技术专家并且成功的卖过一个公司。因此，在底特律传统车商不熟悉的领域，Tesla的团队抓住了电池问题的关键，利用自己的聪明才智解决了这个问题。我第一次见到Marc的时候就急不可耐的问：大哥，您那些串并联的数字，69并联99串联11并联是怎么得来的啊?Marc大叔摸了摸自己在海滩上游泳时被太阳晒得通红的光头，淡淡的道：DOE (design of experiment)。我一口鲜血差点就喷了出来。搞工程的人对这个概念应该都很熟悉，就是穷举所有的可能数字排列组合，然后选取其中一部分组合进行仿真和实测，比较输出的结果。6831个电池，无穷无尽的DOE，他们做了一年的时间。”

作者: 思源致远 时间: 2014-6-14 15:39
本帖最后由思源致远于 2014-6-14 15:46 编辑

不好意思，我才看到你的问题。迟复为歉！
你的问题是不是想从Tesla 的文章了解结构方面的DOE经验？关于后面一段（桔黄色的一段）好像是你的评论，不是一个明确的问题。如果你有问题，请再把你的问题从另一个角度提出来，我们再讨论？
关于这篇文章提到的DOE，唯一有关的一段是：
“研发流程中，不论汽车、制药、化工还是半导体行业，实验是绕不过去的坎。实验成本与周期，构成了整个研发过程中的绝大多数成本、时间损耗。人类在如何让实验计划合理化的过程中，研发出了一系列的方法和技术，其中最神奇的数据分析方法就是DOE(实验设计)。这套统计手段可以帮助研发专业人员大幅度降低实验次数，使得实验的安排既满足最合理试验次数与研发参数需要，又能够匹配实验成本及时间要求。在世界众多实验设计与数据分析方法中，CUSTOMER DESIGN（定制实验设计）又是其中只有极少数分析方法厂家可以提供的高端工具。Tesla经过反复对比和研究，最终采用了来自JMP的高级DOE平台及数据分析套件。” 我的评论是： DOE是一个以优化为目的的试验设计和分析的方法，不单纯只是数据分析方法。
关于你提的的结构问题，我想这和该工程专业有关。 DOE领域里没有这样的一个与结构有关的统计学分支。我们和不熟悉工程领域的工程师合作时，或者该工程师把工程问题表达为一个DOE问题，我们便可以提出针对性的问题进行合适的试验设计，试验后再对数据进行分析以及针对目标的优化，或者找到进一步改进的方向。如果工程师一定不懂DOE，我们便需要向该工程师深入了原理细节，自己把工程问题归纳为统计问题，然后进行合适的试验设计，等等。
因为我不懂你领域的工程问题，所以我建议你把结构问题深入了解一下，将问题转换为一个试验设计的问题，我们再往下讨论。
你看怎么样？

作者: Mujahida 时间: 2014-8-31 12:04
本帖最后由 Mujahida 于 2014-8-31 12:05 编辑

杨老师，你好！

不知你是否方便有时间，看看这道“多元重复测量”怎样分析？我查阅了其它JMP方面的参考书，也没有类似的案例。
http://www.jmpforum.net/forum.ph ... ead&tid=1912&extra=
是否要将tg 与wgt这两全指标分开两次分析？

作者: 思源致远 时间: 2014-9-24 11:22

Mujahida 发表于 2014-8-31 12:04
杨老师，你好！

不知你是否方便有时间，看看这道“多元重复测量”怎样分析？我查阅了其它JMP方面的参考 ...

不好意思，我好久没有过来看看有没有人提问。
请问你提到的五次重复的测量，是指等时间间隔测量的五个不同先后时间的数据吧？你问的问题是不是这两个指标随着时间是不是有统计上显著地变化？
虽然这些尚未明确，但是我可以回答， tg 与 wgt 这两个指标应该分开分析，就算是它们之间可能有相关性。

作者: Mujahida 时间: 2014-9-24 20:21

思源致远发表于 2014-9-24 11:22
不好意思，我好久没有过来看看有没有人提问。
请问你提到的五次重复的测量，是指等时间间隔测量的五个不 ...

杨老师，多谢了！
“tg 与 wgt 这两个指标应该分开分析”，也就应该明白怎么分析了。

作者: Mujahida 时间: 2014-9-24 21:31
本帖最后由 Mujahida 于 2014-9-24 21:53 编辑

关于重复测量的数据分析问题

1. 杨重发老师在<<JMP统计分析教程>>一书中,

203页有一个例子,拟合模型对话框中,有”诱导方法”, 204页中,在“重复测量规格”对话框中的”时间”下

勾选了”进行一元检验”, 在输出的报表中,显示出了”球形检验”,且在”时间”的显著性下,采用了”一元末调整”的P值.

[attach]2449[/attach][attach]2450[/attach][attach]2451[/attach]

2. <<JMP for basicUnivariate and Multivariate statistics a step-by-step>>, Author: AnnLehan一书中

Page 302, 这里有一个例子，只有时间差异的比较(within subject)，没有组间的比较，在“拟合模型”对话框中，No model effect,也就是说，没有betweensubject effect; Page 304,显示出“球形检验(Examingsphericity test result)”

下面这个例子与上面杨重发老师所讲的例子类似

Page 337, 的另一个例子中，在“拟合型”对话框中，在拟合模型对话框中,有 “group”效应, 也就是说，有between subject effect,则在Page 341, “specificication of repeated measurement” 对话框中，没有勾选“Univariate test also”, 所以，Page 342的输出报表中，没有显示出任何的“球形检验”结果，且在判定” between subject” & “within-subject”的显著性时，是用

F test 的P值，而不是“一元末调整”或“一元调整”或G， H的P值。

为什么“不要球形检验”？

[attach]2446[/attach]

[attach]2447[/attach]

[attach]2448[/attach]

两书中的讲法好象自相矛盾！哪一个对？或者是我对英文版的理解有误？请多赐教，不胜感激！

作者: 思源致远 时间: 2014-9-29 10:27
我看完这几个例子之后，觉得没有自相矛盾。杨重法的203页的例子，以及Ann Lehman 302页的例子，都是samll sample size的例子。Ann Lehman在讨论302页的例子时就指出了此时运用sphericity test 有倾向 falsely rejct the null hypothesis of significant departure from the homogeneity of variance assumption, 但是当你只勾选Test Each Column Separately Also时报告的multivariate statistics is good enough to complete the test. 希望以上能回答你的疑惑。

欢迎光临 JMP数据分析论坛 (http://www.jmpforum.net/)