设为首页收藏本站

JMP数据分析论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 1307|回复: 0
打印 上一主题 下一主题

数据挖掘总结概念篇(转)

[复制链接]
跳转到指定楼层
楼主
发表于 2014-8-8 17:23:35 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
什么是[color=rgb(68, 68, 68) !important]数据挖掘
记得第一次接触这个概念是在3年前,那个时候个人理解数据挖掘就是一组算法工具。后来,查阅资料,有很多解释,最多的就是:数据挖掘就是从海量数据中寻找潜在的、未知的、有用的模式和知识的过程。随着逐渐深入地去学习理解和数据挖掘相关的知识,发现把数据挖掘看做KDD(数据库中的知识发现)之中的一个过程。到今天,有了新的理解,数据挖掘是一种解决方案。这也是目前的认识。随着时间的推移,数据挖掘将发挥更为重要的作用。BI (商业智能)= DW(数据仓库)+ DM(数据挖掘) + OLAP(在线联机分析处理) + IV(information visualization信息可视化)。
Association关联----发现同时发生的事件或有关事件的过程。例如,用相关技术来检测哪些产品经常被同时购买。与序列检测不同,序列检测用于检测产品被购买的顺序。
Balanced data平衡数据----有时你会有两种或更多种数据要用来分析,每种数据应该有一个等值的数字使模型程序简化。
Churn  流失 ----- 流失描述顾客减少的过程,对许多公司,尤其是通讯业、财政服务业而言,这是一种主要的恶化来源。
Classification分类----通过检测物体的特征而将其归类的过程。 在分类时,群体被定义为一个外部标准(不同于聚类) 。
Clustering聚类----基于相似性而将记录分组的过程。例如,保险公司可能利用[color=rgb(68, 68, 68) !important]聚类分析,根据收入、年龄、购买的政策类型或先前的犯罪记录对顾客分组。聚类划分子集以使有相似内容的记录在同一组别内,而组与组之间尽可能不同(不同于分类)。
CRISP-DM   ----CRISP-DM提供了数据挖掘项目的结构, 及潜在问题和解决方案的指导。CRISP-DM分为六个阶段:商务理解,数据理解,数据准备,模型,评估和新产品发布。
Cross-selling——交叉销售向现有顾客提供或销售额外产品或服务的实践。
Data mining数据挖掘----分析数据以发现隐藏模式和关系----有助于你管理和改进你的商业-的过程。
Decision trees决策树----树状的图表显示清晰地显示数据分割、模式和等级。
Deployment成果发布----数据挖掘结果的分发和应用。
Field 区域----一个单一数据或信息的区域,也称为变量和属性。例如,一个数据区域可能包含顾客的名。下一个数据区域可能包含顾客的姓。
Gains tables利润表----利润表通过显示用模型所得结果和不用模型所得结果的差别,以显示模型效益。
Kohonen networkKohonen 网络----一种用于聚类分析的神经网络。
Lift charts通过显示用模型所得结果和不用模型所得结果的比率使用户检测模型效益。Lift线距离基线越远,模型越有效。
Machine-learningtechniques 机器学习技术----一套可使计算机学习某种任务,如作决定,评估,分类或预测(无手工程序)----的方法。
Model 模型----一套典型的法则、行为或特征,根据它们分析数据以找到相似性。描述性的模型被用于分析过去的事件。预测性模型用于提示未来将要发生的事件。在预测性模型帮助下,数据挖掘者可发掘另外的想法以决定哪些行为会产生未来预想的结果。
Neural network神经网络----一个利用复杂的、模仿脑细胞抽像功能的数学计划,用于预测或对个体进行分类的模型。通过用大量的观察个体来对神经网络进行训练,一次用一个,允许它不断地更新自己,直到它学会这项任务。
Noise 噪声----模型与它的预测之间的差别。有时,数据包含错误----如缺失或不正确数字或有一些外来列的混入----时,会被考虑为噪声。
OLAP 在线分析处理----在线分析处理使用户能分析当前的和历史的数据层。虽然在线分析处理可利用你的数据,告诉你正在发生的事件和已经发生的事件,但它不能告诉你未来将要发生的事件。
Pivot tables枢轴表----交互表可使用户通过早期重新设置数据的行、列、层来得到信息的不同显示。
Predictive modeling预测模型----建立模型以预测未来活动、行为或特征的过程。例如,一个预测模型可基于以前的流失者的特征和行为,来显示未来哪些顾客最可能流失.
Query 查询----基于某些特征或性质的信息的发向数据库的查询。
Record 记录----记录是指贮存在一起的一套相关数据。也称为行(电子表中)或个体(统计学中)。
Regression回归----有许多类型的回归,包括ordinal 回归,非线性逻辑思特回归,二项式逻辑思特回归,非线性回归(NLR)和非限制性非线性回归(CNLR)。
Reporting报告----以一定为接收者易于理解的格式开发或发布数据分析结果的过程。
Return on investment(ROI)投资回报率---- ROI 是被返回的或从各种在技术、下层构造等投资中获得的价值。

分享到:  !connect_viewthread_share_to_qq!!connect_viewthread_share_to_qq! QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 支持支持 反对反对
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|JMP数据分析论坛 ( 沪ICP备13022603号-2 )  

GMT+8, 2024-5-17 03:58 , Processed in 0.331393 second(s), 17 queries .

Powered by Discuz! X3

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表