《Spark机器学习》章节试读

出版日期:2015-9-1
ISBN:9787115399832
作者:彭特里思 (Nick Pentreath)
页数:224页

《Spark机器学习》的笔记-第106页 - Spark构建分类模型

预测网页停留时间比赛,stumbleupon 竞赛解决方案.

《Spark机器学习》的笔记-第43页 - 第3章 Spark上数据的获取、处理与准备

中英文两版的书都出现了这问题
正确代码:
rating_data_raw = sc.textFile("%s/ml-100k/u.data" % PATH)
print rating_data_raw.first()
num_ratings = rating_data_raw.count()
print "Ratings: %d" % num_ratings
错误代码:
rating_data = sc.textFile("%s/ml-100k/u.data" % PATH)
print rating_data.first()
num_ratings = rating_data.count()
print "Ratings: %d" % num_ratings

《Spark机器学习》的笔记-第51页 - 第3章 Spark上数据的获取、处理与准备

有问题代码:def assign_tod(hr):
times_of_day = {
'morning' : range(7, 12),
'lunch' : range(12, 14),
'afternoon' : range(14, 18),
'evening' : range(18, 23),
'night' : range(23, 7)
}
for k, v in times_of_day.iteritems():
if hr in v:
return k
(1)首先要明确的是,这本书用的是python2,所以上面的times_of_day.iteritems()是无效的,python3的要用times_of_day.items()
(2)接着,上面的'night' : range(23, 7)实际上是无效的,如果hr==0,则不会有任何的返回值,所以可以适当修改为
def assign_tod(hr):
times_of_day = {
'morning' : range(7, 12),
'lunch' : range(12, 14),
'afternoon' : range(14, 18),
'evening' : range(18, 23)
}
for k, v in times_of_day.iteritems():
if hr in v:
return k
return 'night'
这样可以保证,任何的数值都可以返回有效值

《Spark机器学习》的笔记-第40页 - 第3章 Spark上数据的获取、处理与准备

x_axis = x_axis1[np.argsort(y_axis1)]
y_axis = y_axis1[np.argsort(y_axis1)]
英文版原书没出问题,但中文翻译版的出错了。上面是正确的,英文原版我也确认过了,下面是错误的。
x_axis = x_axis1[np.argsort(x_axis1)]
y_axis = y_axis1[np.argsort(y_axis1)]


 Spark机器学习下载 更多精彩书评


 

外国儿童文学,篆刻,百科,生物科学,科普,初中通用,育儿亲子,美容护肤PDF图书下载,。 零度图书网 

零度图书网 @ 2024