网络机器人Java编程指南

当前位置:首页 > 计算机网络 > 程序设计 > 网络机器人Java编程指南

出版社:电子工业出版社
出版日期:2002-7
ISBN:9787505377400
作者:美 Heaton J.
页数:420页

书籍目录

第1章

Java套接字编程技术

套接字家族

网络编程

Java I/O编程技术

代理的问题

Java中的套接字编程

客户端套接字

作者简介

这是一本研究如何实现具有Web访问能力的网络机器人的书。该书从Internet编程的基本原理出发，深入浅出、循序渐进地阐述了网络机器人程序Spider、Bot、Aggregator的实现技术，并分析了每种程序的优点及适用场合。本书提供了大量的有效源代码，并对这些代码进行了详细的分析。通过本书的介绍，你可以很方便地利用这些技术，设计并实现网络蜘蛛或网络信息搜索器等机器人程序。

适合于具有

图书封面

网络机器人Java编程指南下载精选章节试读更多精彩书评

发布书评

精彩书评 (总计1条)

这学期去图书馆借书，无意间看到一本书《网络机器人Java编程指南》。看了下感觉如获至宝。市面上讲爬虫的书可以说是没有，基本上只有在搜索引擎类的书里有提到，而且只是讲个思想，没有可以用的代码。而《网络机器人Java编程指南》是彻头彻尾讲解web爬虫的书籍，2002年出版的，目前已绝版。此书可说是非常珍贵这是china-pub的链接http://www.china-pub.com/6565 进了作者Jeff Heaton的博客http://www.jeffheaton.com/，下到了源代码，作者一直在更新，所以源代码可以在JDK6.0上正常运行。速度很快。相比如其他几款开源爬虫，本书的bot程序无疑更加简单，灵活，快速。heritrix太复杂，设计的比较乱。当时自己配置了很久。nutch自己的定制性不够好，url以二进制形式保存，管理起来很不方便。书中的bot通过实现IWorkloadStorable接口的类来管理url链接，书中也给出了两个实例SpiderSQLWorkload和SpiderInternalWorkload，一个在数据库中管理url，另一个在内存中管理url。很佩服作者，那时还没有HTML Parsers，所以作者自己写了个实现。如果现在自己用的话，可以做个小小的修改，用更好的开源html解析工具。。另外书中也提到了基于表单、https、Cookies的爬虫，大开眼界。以前自己也写过很多爬虫，但在设计中总是缺少扩展性。书中的bot程序也可以放在Hadoop运行，变成更加强大的分布式爬虫。比如：基于ProActive的分布式并行Web Spider的设计与实现http://blog.csdn.net/Java2King/archive/2010/07/02/5709951.aspx看这本书的时候也发现自己学的网络知识终于派上了用场，多线程也显得很重要，需要有更多的考虑，而不是一味的run。本书更像是通过编写网络爬虫来提高自己的编程技术和相关知识，不管是不是搜索方面的开发者，都值得一读。我的原帖在这里，还有爬虫的类图 http://blog.csdn.net/Java2King/archive/2010/07/07/5718476.aspx

精彩短评 (总计6条)

对我的论文帮助很大，一个起点！
图书馆发现的，如获至宝
寒假看看~
不错的一本书。从基础开始讲。深入浅出。
本来挺不错的介绍bot、spider等网络技术的书，可是代码与Java Swing严重耦合看不了，只能了解个大概了～～～
　　这学期去图书馆借书，无意间看到一本书《网络机器人Java编程指南》。看了下感觉如获至宝。
　　市面上讲爬虫的书可以说是没有，基本上只有在搜索引擎类的书里有提到，而且只是讲个思想，没有可以用的代码。
　　而《网络机器人Java编程指南》是彻头彻尾讲解web爬虫的书籍，2002年出版的，目前已绝版。此书可说是非常珍贵
　　这是china-pub的链接http://www.china-pub.com/6565
　　
　　进了作者Jeff Heaton的博客http://www.jeffheaton.com/，下到了源代码，作者一直在更新，所以源代码可以在JDK6.0上正常运行。速度很快。
　　相比如其他几款开源爬虫，本书的bot程序无疑更加简单，灵活，快速。
　　heritrix太复杂，设计的比较乱。当时自己配置了很久。
　　nutch自己的定制性不够好，url以二进制形式保存，管理起来很不方便。
　　
　　书中的bot通过实现IWorkloadStorable接口的类来管理url链接，书中也给出了两个实例SpiderSQLWorkload和SpiderInternalWorkload，一个在数据库中管理url，另一个在内存中管理url。
　　
　　很佩服作者，那时还没有HTML Parsers，所以作者自己写了个实现。如果现在自己用的话，可以做个小小的修改，用更好的开源html解析工具。。
　　另外书中也提到了基于表单、https、Cookies的爬虫，大开眼界。以前自己也写过很多爬虫，但在设计中总是缺少扩展性。
　　书中的bot程序也可以放在Hadoop运行，变成更加强大的分布式爬虫。比如：基于ProActive的分布式并行Web Spider的设计与实现
　　http://blog.csdn.net/Java2King/archive/2010/07/02/5709951.aspx
　　
　　看这本书的时候也发现自己学的网络知识终于派上了用场，多线程也显得很重要，需要有更多的考虑，而不是一味的run。
　　本书更像是通过编写网络爬虫来提高自己的编程技术和相关知识，不管是不是搜索方面的开发者，都值得一读。
　　
　　我的原帖在这里，还有爬虫的类图
　　http://blog.csdn.net/Java2King/archive/2010/07/07/5718476.aspx

网络机器人Java编程指南

发布书评

精彩书评 (总计1条)

精彩短评 (总计6条)

类似图书

相关图书推荐