如何修炼成大数据高手？推荐你看这些书（转）

纷飞 · 发表于 2014-6-10 13:20:35

这篇文章实际是给你指一条过程异常艰辛，但前途异常光明的路。没有毅力的人，看看就好了，千万别认真。（说实在的，就算要看明白这篇文章，也都不是件容易的事。）
言归正传。要想成为大数据高手，首先要从理念上彻底转变，彻底理解大数据思维，并渗透到血液和骨髓中，否则是不可能成为高手的。换句话说，你的世界观要彻底转变！
而要实现这个转变，必须经过初级、中级和高级三个阶段的学习。
那三个阶段要怎么学习呢？下面我就会告诉你每个阶段所要用的教材，把这些书读透，你就会实现上面的转变了。
初级阶段：《大数据时代》作者：[英]维克托·迈尔-舍恩伯格，[英]肯尼思·库克耶
翻译：盛杨燕，周涛
浙江人民出版社

读完这本书，要求你形成大数据的概念，即知道这么几点：
1、绝不是有很多数据就叫大数据；
2、大数据是一种数据分析方式，与传统数据分析方式有着本质上的不同；
3、大数据的特点是“关注相关性，不关注因果”，这是大数据最核心的东西，一定要真正理解，并牢牢记住，不然你就很容易被别人忽悠；
4、大数据采用的是统计的方法；
5、大数据主要是结合人工智能进行机器的自动数据挖掘；
6、大数据主要是用来作预测的。而不是象一般的数据分析，只是分析出历史情况和现状，未来还是要靠人去预测，大数据则是直接告诉你未来的结果。
中级阶段：《失控》作者：凯文·凯利（KEVIN KELLY），很多人都亲切地叫他KK
翻译：东西文库
新星出版社

为什么是这本书呢？学完初级阶段要记住的几件事还没忘吧？对，用统计的方法，而不是因果的方法，预测未来。
在对预测机制进行剖析的时候，法默最喜欢用这个例子来进行说明：「来，接着！」他说着就朝你扔过来一个棒球。你抓住了球。「你知道你是怎么接住这个球的吗？」，他问道。「通过预测。」
法默坚信你的脑子里有一个关于棒球是如何飞行的模型。你可以采用牛顿的经典力学算式f=ma 来预测一个高飞物体的运动轨迹，但是你的大脑本身却并没有存储这样的基本物理学算式。更确切地说，它直接依照经验数据建立起一个模型。一个棒球手，成千次观察球棒击飞棒球的情景，成千次举起戴着棒球手套的手，成千次利用戴手套的手调整他的预测。不知怎么的，他的大脑就逐渐编制出一个棒球落点的模型——一个几乎跟f=ma 不相上下的模型，只不过适用范围没有那么广而已。这个模型完全建立在过去接球过程中产生的一系列手/眼数据的基础上。在逻辑学领域中，这样的过程统称为归纳，它与导出f=ma 的推演过程截然不同。
……
一个棒球外野手基于经验形成的空中飞行物的「理论」，很像托勒密行星模型的后期阶段。如果我们解析外野手的「理论」的话，就会发现它是不连贯的，即兴的，复杂的，而且是近似的。但是，它也是可以发展的。这是一个紊乱的理论，但它不仅有效，而且还能提高。如果非要等到每个人都能弄明白f=ma 这个算式（况且，弄明白半个f=ma 还不如什么都不懂）再行动的话，就根本没有人能接住任何东西。就算你现在了解了这个算式，也没什么用。「你可以用f=ma 来求解飞行中的棒球问题，但你不能在外场实时解决问题。」法默说。
……
几乎可以明确地说，「活系统」——狮群、股票市场、进化中的种群、智能——都是不可预测的。它们所具有的那种混乱的、递归式的因果关系，各个部分之间互为因果的关系，使得系统中的任何一个部分都难以用常规的线性外推法推断未来。不过，整个系统却能够充当分布式装置，对未来做近似的推测。
……
而世界上绝大多数的复杂系统——包括所有的市场——都是非线性的。
……
在现实中，影响股票的二维图形轨迹的因素不是几个，而是数千个。

用f=ma（公式）来预测，或者说线性预测，就是通过因果推理来进行预测，即根据球的质量、加速度等等因素，找出这个球为什么会从那个地方飞到这个地方的原因；
而“归纳”即是“统计”的意思，或者说是较粗略的统计，归纳是不问原因的，接住这个球就完了，管它是什么原因。
你想成为大数据高手，你想用统计的方法来对某些东西进行预测？好了，现在你来告诉我，还有什么理由不去好好读这本书？
高级阶段：《复杂性》作者：[美]尼古拉斯·雷舍尔（NICHOLAS RESCHER）
翻译：吴彤

学完中级阶段，你接触到了一件事，“复杂性”，知道了事情复杂到一定程度，就不可能用寻找因果的方法去进行预测。
那么到底什么是复杂性，它的本质和原理是什么？想成为大数据高手，你不能对此一无所知，因为你将一辈子与复杂甚至是极其复杂的事情打交道。
对了，推荐这本书还有个原因。大家都知道大数据是研究数据的相关性，即找出数据之间的关系。当我经历了15年统计学人工智能数据相关性的探索和研究，感觉已经研究得差不多了，但又觉得要解决所有的问题还有不小的距离，这时就感到很迷茫，不知下一步的研究该往何方去，有种路越走越窄的感觉，又有一种达到顶峰的幻觉，直到看到这本书中的一句话：
“可以考虑它们的关系，再考虑这些关系中的关系，如此下去。”
当看到这句话，用醍醐灌顶已不足以形容我当时的感受，简直就是五雷轰顶。就好象原来我以为世界只有自家的一亩三分地，这句话如一道划破夜空的明亮闪电，让我突然看到了无限广袤的宇宙，为我指明了方向，并开辟出一条金光大道。（原谅我用了这么多的有点乱的形容，每当想起这句话，我就抑制不住激动的心情）现在想起来，自己那达到顶峰的幻觉是多么幼稚可笑啊，可笑还不在于我没有达到顶峰，而在于这世上本没有顶峰（挺具有佛性的一句话，不由得让我想起六祖的话：菩提本无树，明镜亦非台，本来无一物，何处惹尘埃）。
大家千万不要小看这句话中的“如此下去”几个字，他指明了一个无穷叠代，即 “关系的关系的……关系”，而智能将在这里涌现，解决复杂性问题预测的关键很可能就在这里，这句话打开了一个非常广阔的前景，将象宇宙一样没有穷尽。
看完这句话后，待心情稍稍平复，我立即把它写成一个函数：
x=f(f(a,b),f(c,d))
然后告诉自己：这就是你后半生要去全力研究的东西！
现在我们接着往下讲，还记得我一开始说过要转变世界观吗？读完这三本书，你已经做好了世界观转变的准备，现在就要来最后一击，完成这个转变！
也就是说，高级阶段你还要读一本书（尼妹，还要不要人活？我帮你说了）。你已经了解了复杂性的原理，但这个世界到底有多复杂，你可能还没有感性的认识。你一定觉得自己经历过很多非常复杂的事，比如你炒过股票、管理过几百上千人、研究过社会学问题等等，但是和这个世界真正最复杂的事比起来，这些都不过是小儿科。
也许你已经猜到了是什么方面的书，对，量子理论。鉴于这个理论实在太难、太复杂，爱因斯坦致死也没把它搞明白，科学家们现在也都还没把它搞明白，我辈就不用费神想去把它真正搞懂了，但由于我们是在探求事物的复杂性，或者也可以说研究事物的本质，那么不可不对此有所了解，因此我给大家的书是这方面的最初级的科普读物。（实在不忍心再吓你们了。
高级阶段（2）：量子物理史话作者：曹天元（没错，中国人）
辽宁教育出版社

》

佛说：心动，宇宙就出现，森罗万象现前，同时我也出现；
量子物理学家说：意识使一切从量子叠加态中脱离，使宇宙历史瞬间成现实，其中含有那意识生物自身。
你肯定还是觉得无法理解这些话，没关系，你只需明白一件事就行了，佛祖在两千多年前就预言了量子物理学家现在要说的话。
好了，等看完这本书，你的世界观不改变，你来找我请你吃饭。
另外，还有一本书作为参考书可以读一读（别骂我，参考书，不一定非要读），侯世达（Douglas， R. Hofstardter）的《哥德尔、艾舍尔、巴赫》（比砖头还厚，《失控》只是和砖头一样厚）。
此书的介绍：本书是在英语世界中有极高评价的科普著作。曾获得普利策文学奖。它通过对哥德尔的数理逻辑，艾舍尔的版画和巴赫的音乐三者的综合阐述，引人入胜地介绍了数理逻辑学、可计算理论、人工智能学、语言学、遗传学、音乐、绘画的理论等方面，构思精巧、含义深刻、视野广阔、富于哲学韵味。
数理逻辑学、可计算理论、人工智能学、语言学，这些对你后面要学的东西是有帮助的。
推荐这本书的另外一个原因是，《复杂性》这本书引用了它的内容。
除了《大数据时代》，推荐以上这些书还有一个共同的原因，那就是这些书的作者可以说都是预测的高手（佛祖的功力你刚才已经领教了），让人实在佩服得五体投地。
《失控》写于20年前，据说是史上唯一一本历经20年越来越好卖的书，原因就是人们发现20年前书中说的事，这些年来正在一件件地被实现，人们都在奇怪，KK他是怎么知道的。
《复杂性》也写于近20年前。
《哥德尔、艾舍尔、巴赫》写于30年前。
《量子物理史话》虽然是2008年写的，但是量子理论诞生一百多年了。
《华严经》诞生于两千多年前。
然而它们竟然对今天的大数据有如此的指导意义，我还能说什么？
《复杂性》的作者尼古拉斯·雷舍尔还有一本书，别急，这本书你一定会很想看，因为书名干脆就叫《预测未来》。可惜，这本书没有中文版，英语好的同学可以去国外找来看看，如果你能帮我也弄一本，俺将不胜感激！
现在你已转变了世界观，具备了成为一个大数据高手的思想，可以开始学习具体方法了，即学习人工智能。
你一定在想，是不是又要读一大堆书？理论上说：是的，需要学习人工智能基础、自然语言处理、机器学习、统计学人工智能等等。不过，看你们被虐了这么久，我也动了恻隐之心，将给你们指一条捷径，就学习一本书（高兴吧？）。
统计自然语言处理基础作者：[美]Christopher D. Manning [德]hinrich Schutze
翻译：苑春法李庆中王昀李伟曹德芳等
电子工业出版社

你可能有一个疑问，为什么是“语言”，这有两个原因：
第一，在计算机专业，数据并不仅仅是指数字，文字、图片、声音、视频等都叫数据；
第二，语言比数字难很多，如果你能处理语言，那处理纯数字就容易很多。
你可能还有一个疑问，统计自然语言处理与一般的自然语言处理有什么本质不同之处？
给你讲一个有趣的事，我的一个侄儿，4岁左右，一次去机场第一次看见自动人行道，就是类似商场那种自动扶梯，只不过是放平的，人站在上面就自动往前走，他脱口就说出“平电梯”。很形象，是不是？他之所以能造出这个词，就是因为人有智能。
这里就引出一个小问题，他为什么会把“平”字放在“电梯”的前面？如果用人工智能的一般自然语言处理来解决这个问题，就会从词性、语法、句法等方面着手，中学的时候你一定学过什么偏正结构、主谓结构、动宾结构等等吧？对，经过这一翻分析和处理，找出原因并推导出结果，可能就会知道“平”字应该放在前面；
然而统计自然语言处理的路数不同，经过统计，“平”字大多数时候都是放在前面，比如平均、平等、平台、平的、平时、平坦、平常、平衡、平移、平板电脑……，好吧，那就把“平”字放在前面吧。
但是，这又引出一个问题，我们仔细想想，那个4岁的小孩是怎么处理的，难道他懂什么语法、句法、编正结构吗？肯定不是，所以他一定是用的归纳统计的方法，无数次听到大人说到类似词时都是把平放在前面，所以他就放在前面了，他才不知道是什么原因呢，和接那个棒球是一个道理，他的大脑里并没有那个物理公式。
因此，统计自然语言处理是更接近自然的自然语言处理方式（绕口令？），也就是说更接近我们人的处理方式，甚至可以说就是人或自然的处理方式，只是人的大脑处理方式更复杂而已，但本质是一样的。

yellowefox · 发表于 2014-6-12 09:19:15

，这个没有一定的毅力可以啃不下来的呀。

纷飞 · 发表于 2014-6-16 09:59:15

yellowefox 发表于 2014-6-12 09:19
，这个没有一定的毅力可以啃不下来的呀。

持之以恒，不断进步！

tester · 发表于 2014-6-16 14:48:40

看起来好难。。。

Jerry96 · 发表于 2014-8-2 06:07:17

楼主好厉害

Jerry96 · 发表于 2014-8-18 18:39:34

看起来有些深奥，需要比较高的统计学背景

		自动登录	找回密码
密码			立即注册

如何修炼成大数据高手？推荐你看这些书 （转）

如何修炼成大数据高手？推荐你看这些书（转）