设为首页收藏本站

JMP数据分析论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 1777|回复: 5
打印 上一主题 下一主题

如何修炼成大数据高手?推荐你看这些书 (转)

  [复制链接]
跳转到指定楼层
楼主
发表于 2014-6-10 13:20:35 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
这篇文章实际是给你指一条过程异常艰辛,但前途异常光明的路。没有毅力的人,看看就好了,千万别认真。(说实在的,就算要看明白这篇文章,也都不是件容易的事。)
言归正传。要想成为大数据高手,首先要从理念上彻底转变,彻底理解大数据思维,并渗透到血液和骨髓中,否则是不可能成为高手的。换句话说,你的世界观要彻底转变!
而要实现这个转变,必须经过初级、中级和高级三个阶段的学习。
那三个阶段要怎么学习呢?下面我就会告诉你每个阶段所要用的教材,把这些书读透,你就会实现上面的转变了。
初级阶段:《大数据时代》作者:[英]维克托·迈尔-舍恩伯格,[英]肯尼思·库克耶
翻译:盛杨燕,周涛
浙江人民出版社

读完这本书,要求你形成大数据的概念,即知道这么几点:
1、绝不是有很多数据就叫大数据;
2、大数据是一种数据分析方式,与传统数据分析方式有着本质上的不同;
3、大数据的特点是“关注相关性,不关注因果”,这是大数据最核心的东西,一定要真正理解,并牢牢记住,不然你就很容易被别人忽悠;
4、大数据采用的是统计的方法;
5、大数据主要是结合人工智能进行机器的自动数据挖掘;
6、大数据主要是用来作预测的。而不是象一般的数据分析,只是分析出历史情况和现状,未来还是要靠人去预测,大数据则是直接告诉你未来的结果。
中级阶段:《失控》作者:凯文·凯利(KEVIN KELLY),很多人都亲切地叫他KK
翻译:东西文库
新星出版社

为什么是这本书呢?学完初级阶段要记住的几件事还没忘吧?对,用统计的方法,而不是因果的方法,预测未来。
在对预测机制进行剖析的时候,法默最喜欢用这个例子来进行说明:「来,接着!」他说着就朝你扔过来一个棒球。你抓住了球。「你知道你是怎么接住这个球的吗?」,他问道。「通过预测。」
法默坚信你的脑子里有一个关于棒球是如何飞行的模型。你可以采用牛顿的经典力学算式f=ma 来预测一个高飞物体的运动轨迹,但是你的大脑本身却并没有存储这样的基本物理学算式。更确切地说,它直接依照经验数据建立起一个模型。一个棒球手,成千次观察球棒击飞棒球的情景,成千次举起戴着棒球手套的手,成千次利用戴手套的手调整他的预测。不知怎么的,他的大脑就逐渐编制出一个棒球落点的模型——一个几乎跟f=ma 不相上下的模型,只不过适用范围没有那么广而已。这个模型完全建立在过去接球过程中产生的一系列手/眼数据的基础上。在逻辑学领域中,这样的过程统称为归纳,它与导出f=ma 的推演过程截然不同。
……
一个棒球外野手基于经验形成的空中飞行物的「理论」,很像托勒密行星模型的后期阶段。如果我们解析外野手的「理论」的话,就会发现它是不连贯的,即兴的,复杂的,而且是近似的。但是,它也是可以发展的。这是一个紊乱的理论,但它不仅有效,而且还能提高。如果非要等到每个人都能弄明白f=ma 这个算式(况且,弄明白半个f=ma 还不如什么都不懂)再行动的话,就根本没有人能接住任何东西。就算你现在了解了这个算式,也没什么用。「你可以用f=ma 来求解飞行中的棒球问题,但你不能在外场实时解决问题。」法默说。
……
几乎可以明确地说,「活系统」——狮群、股票市场、进化中的种群、智能——都是不可预测的。它们所具有的那种混乱的、递归式的因果关系,各个部分之间互为因果的关系,使得系统中的任何一个部分都难以用常规的线性外推法推断未来。不过,整个系统却能够充当分布式装置,对未来做近似的推测。
……
而世界上绝大多数的复杂系统——包括所有的市场——都是非线性的。
……
在现实中,影响股票的二维图形轨迹的因素不是几个,而是数千个。

用f=ma(公式)来预测,或者说线性预测,就是通过因果推理来进行预测,即根据球的质量、加速度等等因素,找出这个球为什么会从那个地方飞到这个地方的原因;
而“归纳”即是“统计”的意思,或者说是较粗略的统计,归纳是不问原因的,接住这个球就完了,管它是什么原因。
你想成为大数据高手,你想用统计的方法来对某些东西进行预测?好了,现在你来告诉我,还有什么理由不去好好读这本书?
高级阶段:《复杂性》作者:[美]尼古拉斯·雷舍尔(NICHOLAS RESCHER)
翻译:吴彤

学完中级阶段,你接触到了一件事,“复杂性”,知道了事情复杂到一定程度,就不可能用寻找因果的方法去进行预测。
那么到底什么是复杂性,它的本质和原理是什么?想成为大数据高手,你不能对此一无所知,因为你将一辈子与复杂甚至是极其复杂的事情打交道。
对了,推荐这本书还有个原因。大家都知道大数据是研究数据的相关性,即找出数据之间的关系。当我经历了15年统计学人工智能数据相关性的探索和研究,感觉已经研究得差不多了,但又觉得要解决所有的问题还有不小的距离,这时就感到很迷茫,不知下一步的研究该往何方去,有种路越走越窄的感觉,又有一种达到顶峰的幻觉,直到看到这本书中的一句话:
“可以考虑它们的关系,再考虑这些关系中的关系,如此下去。”
当看到这句话,用醍醐灌顶已不足以形容我当时的感受,简直就是五雷轰顶。就好象原来我以为世界只有自家的一亩三分地,这句话如一道划破夜空的明亮闪电,让我突然看到了无限广袤的宇宙,为我指明了方向,并开辟出一条金光大道。(原谅我用了这么多的有点乱的形容,每当想起这句话,我就抑制不住激动的心情)现在想起来,自己那达到顶峰的幻觉是多么幼稚可笑啊,可笑还不在于我没有达到顶峰,而在于这世上本没有顶峰(挺具有佛性的一句话,不由得让我想起六祖的话:菩提本无树,明镜亦非台,本来无一物,何处惹尘埃)。
大家千万不要小看这句话中的“如此下去”几个字,他指明了一个无穷叠代,即 “关系的关系的……关系”,而智能将在这里涌现,解决复杂性问题预测的关键很可能就在这里,这句话打开了一个非常广阔的前景,将象宇宙一样没有穷尽。
看完这句话后,待心情稍稍平复,我立即把它写成一个函数:
x=f(f(a,b),f(c,d))
然后告诉自己:这就是你后半生要去全力研究的东西!
现在我们接着往下讲,还记得我一开始说过要转变世界观吗?读完这三本书,你已经做好了世界观转变的准备,现在就要来最后一击,完成这个转变!
也就是说,高级阶段你还要读一本书(尼妹,还要不要人活?我帮你说了)。你已经了解了复杂性的原理,但这个世界到底有多复杂,你可能还没有感性的认识。你一定觉得自己经历过很多非常复杂的事,比如你炒过股票、管理过几百上千人、研究过社会学问题等等,但是和这个世界真正最复杂的事比起来,这些都不过是小儿科。
也许你已经猜到了是什么方面的书,对,量子理论。鉴于这个理论实在太难、太复杂,爱因斯坦致死也没把它搞明白,科学家们现在也都还没把它搞明白,我辈就不用费神想去把它真正搞懂了,但由于我们是在探求事物的复杂性,或者也可以说研究事物的本质,那么不可不对此有所了解,因此我给大家的书是这方面的最初级的科普读物。(实在不忍心再吓你们了。
高级阶段(2):量子物理史话作者:曹天元(没错,中国人)
辽宁教育出版社

佛说:心动,宇宙就出现,森罗万象现前,同时我也出现;
量子物理学家说:意识使一切从量子叠加态中脱离,使宇宙历史瞬间成现实,其中含有那意识生物自身。
你肯定还是觉得无法理解这些话,没关系,你只需明白一件事就行了,佛祖在两千多年前就预言了量子物理学家现在要说的话。
好了,等看完这本书,你的世界观不改变,你来找我请你吃饭。
另外,还有一本书作为参考书可以读一读(别骂我,参考书,不一定非要读),侯世达(Douglas, R. Hofstardter)的《哥德尔、艾舍尔、巴赫》(比砖头还厚,《失控》只是和砖头一样厚)。
此书的介绍:本书是在英语世界中有极高评价的科普著作。曾获得普利策文学奖。它通过对哥德尔的数理逻辑,艾舍尔的版画和巴赫的音乐三者的综合阐述,引人入胜地介绍了数理逻辑学、可计算理论、人工智能学、语言学、遗传学、音乐、绘画的理论等方面,构思精巧、含义深刻、视野广阔、富于哲学韵味。
数理逻辑学、可计算理论、人工智能学、语言学,这些对你后面要学的东西是有帮助的。
推荐这本书的另外一个原因是,《复杂性》这本书引用了它的内容。
除了《大数据时代》,推荐以上这些书还有一个共同的原因,那就是这些书的作者可以说都是预测的高手(佛祖的功力你刚才已经领教了),让人实在佩服得五体投地。
《失控》写于20年前,据说是史上唯一一本历经20年越来越好卖的书,原因就是人们发现20年前书中说的事,这些年来正在一件件地被实现,人们都在奇怪,KK他是怎么知道的。
《复杂性》也写于近20年前。
《哥德尔、艾舍尔、巴赫》写于30年前。
《量子物理史话》虽然是2008年写的,但是量子理论诞生一百多年了。
《华严经》诞生于两千多年前。
然而它们竟然对今天的大数据有如此的指导意义,我还能说什么?
《复杂性》的作者尼古拉斯·雷舍尔还有一本书,别急,这本书你一定会很想看,因为书名干脆就叫《预测未来》。可惜,这本书没有中文版,英语好的同学可以去国外找来看看,如果你能帮我也弄一本,俺将不胜感激!
现在你已转变了世界观,具备了成为一个大数据高手的思想,可以开始学习具体方法了,即学习人工智能。
你一定在想,是不是又要读一大堆书?理论上说:是的,需要学习人工智能基础、自然语言处理、机器学习、统计学人工智能等等。不过,看你们被虐了这么久,我也动了恻隐之心,将给你们指一条捷径,就学习一本书(高兴吧?)。
统计自然语言处理基础作者:[美]Christopher D. Manning [德]hinrich Schutze
翻译:苑春法 李庆中 王昀 李伟 曹德芳等
电子工业出版社

你可能有一个疑问,为什么是“语言”,这有两个原因:
第一,在计算机专业,数据并不仅仅是指数字,文字、图片、声音、视频等都叫数据;
第二,语言比数字难很多,如果你能处理语言,那处理纯数字就容易很多。
你可能还有一个疑问,统计自然语言处理与一般的自然语言处理有什么本质不同之处?
给你讲一个有趣的事,我的一个侄儿,4岁左右,一次去机场第一次看见自动人行道,就是类似商场那种自动扶梯,只不过是放平的,人站在上面就自动往前走,他脱口就说出“平电梯”。很形象,是不是?他之所以能造出这个词,就是因为人有智能。
这里就引出一个小问题,他为什么会把“平”字放在“电梯”的前面?如果用人工智能的一般自然语言处理来解决这个问题,就会从词性、语法、句法等方面着手,中学的时候你一定学过什么偏正结构、主谓结构、动宾结构等等吧?对,经过这一翻分析和处理,找出原因并推导出结果,可能就会知道“平”字应该放在前面;
然而统计自然语言处理的路数不同,经过统计,“平”字大多数时候都是放在前面,比如平均、平等、平台、平的、平时、平坦、平常、平衡、平移、平板电脑……,好吧,那就把“平”字放在前面吧。
但是,这又引出一个问题,我们仔细想想,那个4岁的小孩是怎么处理的,难道他懂什么语法、句法、编正结构吗?肯定不是,所以他一定是用的归纳统计的方法,无数次听到大人说到类似词时都是把平放在前面,所以他就放在前面了,他才不知道是什么原因呢,和接那个棒球是一个道理,他的大脑里并没有那个物理公式。
因此,统计自然语言处理是更接近自然的自然语言处理方式(绕口令?),也就是说更接近我们人的处理方式,甚至可以说就是人或自然的处理方式,只是人的大脑处理方式更复杂而已,但本质是一样的。




分享到:  !connect_viewthread_share_to_qq!!connect_viewthread_share_to_qq! QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏1 转播转播 分享分享 分享淘帖 支持支持 反对反对
回复

使用道具 举报

沙发
发表于 2014-6-12 09:19:15 | 只看该作者
,这个没有一定的毅力可以啃不下来的呀。
回复 支持 反对

使用道具 举报

板凳
 楼主| 发表于 2014-6-16 09:59:15 | 只看该作者
yellowefox 发表于 2014-6-12 09:19
,这个没有一定的毅力可以啃不下来的呀。

持之以恒,不断进步!
回复 支持 反对

使用道具 举报

地板
发表于 2014-6-16 14:48:40 | 只看该作者
看起来好难。。。
回复 支持 反对

使用道具 举报

5#
发表于 2014-8-2 06:07:17 | 只看该作者
楼主好厉害
回复 支持 反对

使用道具 举报

6#
发表于 2014-8-18 18:39:34 | 只看该作者
看起来有些深奥,需要比较高的统计学背景
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|JMP数据分析论坛 ( 沪ICP备13022603号-2 )  

GMT+8, 2024-5-5 00:07 , Processed in 0.411581 second(s), 16 queries .

Powered by Discuz! X3

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表