《数据学》书评

当前位置:首页 > 网络编程 > 数据库 > 数据学

出版社:复旦大学出版社
出版日期:2009-12
ISBN:9787309069563
作者:朱扬勇
页数:131页

时间假设与时间悖论

这本书是一本很薄的小册子,适合对于数据感兴趣但是刚入门的学习者,比如我。老实说,这本书并没有太多的惊喜,因为很多东西之前已经了解过,但是作者却是从另外一个角度帮助我们理清了一些问题,或者提出了一些新的看法。首先关于数据勘探的。我对作者提出的数据勘探的理解是先检验总体中的样本,用样本的规律、模式来推及总体。这与我们一般的模式是统一的,只是在实践上经常会迷失在数据中,喜欢“大”数据而非小数据。但是,我对于先从样本出发,能够找到总体的规律存疑。因为,这其中涉及到样本选取、总体本身的分布问题。我个人最感兴趣的还是在书的最后,作者提出的时间的假设。数据自然界是否有时间?“对于数据自然界,如果没有时间,则没有过去和未来,但问题是,现在仍然只能记住过去而不能记住未来;如果有时间,则不能回到过去,但数据操作的回溯表示可以回到过去,同时,数据本身不会随时间衰老”。另外一个假设是“时态数据能够处理事务时间,说明数据的每个状态都会保存,即使做一次数据库操作的回溯,也会作为一个新的数据库状态保存下来。这样,所有的数据库操作都会使数据库的数据增加,即数据库将一直在增大而不会缩小。这样,就会有一个时间的方向。如果如此,数据自然界与自然界的不同则在于,自然界只有当前一个状态,而数据自然界保存了自然界的所有状态”。对于第二个假设,我认为作者忽略了两个因素。第一,对于数据的每一次回溯都会产生事务时间固然没错,事务时间也会被记录到时态数据库中,但是这种回溯本身也改变了时态数据库的状态,而不是保持这样的状态。第二,时态数据库是对自然界实体的反映,自然界的实体状态在不断改变,即自然界中的状态是当前状态,我们是否可以用数据自然界中的状态来推及当前状态?因为实体的当前的状态只能存在于自然界中,写入到数据自然界的必定是过去状态,因为已经发生了。比如对于一个人的上网记录,我当前是在写豆瓣上书评这几个字,但是我的状态被豆瓣服务器写入数据库中的那一刹那,事情已经完成,这个Gap该如何弥补?当前状态是否能够由之前状态推导?

新瓶。

本书我花了1个小时速读了一遍。感觉还是比较系统比较新颖的。本书试图按照学科的规模构建数据相关的整个体系。比如本体,比如面向对象的方法。但是,遗憾的是,论据和论证过程还有待加强。目前关于数据的研究已经摆到了非常重要的位置,比如第四范式等作品都很不错,期待下一版将当前研究和论述进行整合,顶天立地,以飨读者。

提出一个新学科

本书的英文名为《Dataology and Data Science》,应该是国内首先提出“数据学”概念的一本书。不过书中内容并无太多新颖之处:数据勘探、ETL、数据仓库、数据挖掘和数据实验都不是新的概念,本书的介绍也没有什么新颖之处。这本书只是告诉我们:有一门新的学科Data Science正在兴起,将来也会有一种新的职业,叫Data scientist.


 数据学下载


 

外国儿童文学,篆刻,百科,生物科学,科普,初中通用,育儿亲子,美容护肤PDF图书下载,。 零度图书网 

零度图书网 @ 2024