一本姗姗来迟但未过时的好书 两个月前(2015年5月),清华大学出版社出版了由华东师大周傲英教授及其团队翻译的《海量数据分析前沿》. ( Frontiers in Massive Data analysis),此书由美国国家学术院研究委员会组编,2013年年底出版。中译本出晚了一点,但值得一读。
“大数据“已由热词升级为熟词 “Big Data” 在2012年成为美国社会中仅次于 "fiscal cliff(财政悬崖)"的第二热词; 在中国的升温来得晚一些,2014年在中国的网络热词中,名列第三,前两名是 “改革”和”并购”(可见,政治、经济之后才是技术)。
到2015年,大数据一词不只是由温而热,而是由热而“熟”,成了人们熟练使用,用来分析其他热词的工具词。例如,人们见到了如下的文章 《“大数据分析两会热词:’四个全面’,’互联网+”》,《大数据说春运》,《大数据和….> 。
近两年,在数据处理圈子内外,过去做数据的,和过去不做数据的,都言必称大数据,以至于有人担心,已经够热了,再加热就煮烂(滥)了。
在鱼龙混杂的时候,人们要问,这一领域的大牛们是怎样说大数据的?
信息时代选书看作者 我和我的同学这一代,经历过信息饥渴的年代,那时候八亿人看八个样板戏,年轻人渴书,朋友交流最好方式就是借书,说书,甚至抄书(参见博文《看蜀韵、闻书香、遥想当年手抄本-- 书博会有感(图&文) 。
如今,海量信息时代,人们发愁的不再是找不到书,而是如何从书山文海中挑选适读材料。正如选影视时看导演、编剧和演员,选书的方法之一,是选作者群,选出版社。
《海量数据分析前沿》一书的作者群和编审群有多牛? 留一点悬念,也给一点线索:七十多位国际顶级专家参加了对此书撰写和编审工作,他们来自 UC 伯克利,卡内基梅隆,耶鲁大学,密西根大学斯坦福大学,MIT,谷歌,美国喷气推进实验室,国防分析研究所,….
读者在书中,会看到三页篇幅列出的名单,是对此书撰写、编审做出贡献的三个委员会(海量数据分析委员会、应用和理论统计委员会,数学科学应用委员会)的人员名单。有人说,学术新兵要进入一个领域,就要知道这个领域的牛人,这算是阅读的附加收获吧。
大数据和海量数据的关系:前些年,海量数据一词是数据处理领域常说常听的词汇,如今人们,都说大数据了,虽然深者见深,浅者见浅,都更时髦了,大数据和海量数据两个概念到底有什么关系?
此书译者序中有一句话,“按这本书的观点,大数据的本质是海量数据分析“。
笔者想把把这句话进一步展开,“大数据”是比海量数据更广义的概念,大数据中包括两部分,(1)对象部分-海量数据是被处理的对象;(2)工具部分--分析处理海量数据的工具,方法,算法和过程。
用面向对象编程作比喻 为不落俗套地把大数据与海量数据的关系理清,同时介绍此书的主要章节的内容,杜撰了一个面向对象编程中的对象例子。
面向对象编程是计算机专业大一学生的必修课,近两年,在成都中学生科技竞赛上,笔者见到,一些中学生,也能熟练运用JAVA,C++,写出很有创意的移动应用,有iPhone的,也有安卓的。这些创明的中学生不但能写程序,还能谈思想,经得起诘难,通得过答辩,说明面向对象编程技术和关联已经比较普及,不算高深科技了。
面向对象编程中的对象有两个基本要素:
(1) 成员属性(以智能汽车为例, 品牌,动力类型,功率,缸容,缸容,时速,…..是成员属性)
(2) 成员方法(以智能汽车为例, 启动,制动,转弯,后退,换挡,...,是成员方法或成员函数,它们有行为的内涵或动作的外延,能改变对象状态,编程中,通过函数或过程调用实现)。
当然还有一些特性,如封装,继承和重载。
下面是杜撰的一个抽象对象BigData: 其中,按编程惯例,在双反斜杠符号//后面的是注释。
BigData //大数据
{ //成员属性部分:
海量数据源 ; //见该书第2章 海量数据来源
海量数据特征; //见该书第3章 大、多、快、疏等4个V的数据
大数据表示; //见该书第5章
……
//第二部分,成员函数,处理大数据的方法,算法,函数,过程
建模 (频率学,贝叶斯,无监督学习,可视化,众包) //见该书第7章
采样;/见该书/第8章
七个计算巨人(统计,N-提问题,图论计算,
线性代数,优化,积分,对齐等) //见该书第10章
…….
}
相信读完该书,大多数读者会觉得中译本看起来还是要快一些,成本(包括时间和经费)都低一些。
还是有一点遗憾 由于各种原因,中译本在两个月前才出版,比期待时间晚了一年多,不能说不是遗憾。
计算机科学的知识,日新月异。一年,在计算机界能发生什么事?很可能,芯片性能增加50%以上,数据量增加50%以上,一年前的计算冠军(算法或硬件),可能已经落出前三。
幸好,这是一本说原则,说思想,说框架的书,高屋建瓴,反而不容易过时。
读完之后,如果觉得从牛人们那里学到了一招两招,祝贺你开卷有益 ;
如果你发现你的见解已经超过、或部分超过了这本书,恭喜你,你的水平至多比牛人们晚一年,或者,已经站在了大数据研究前沿。
总之,正如译者序中所说,这本书,来迟到了 ,还没有过时,值得一读。