网络机器人Java编程指南

当前位置:首页 > 计算机网络 > 程序设计 > 网络机器人Java编程指南

出版社:电子工业出版社
出版日期:2002-7
ISBN:9787505377400
作者:美 Heaton J.
页数:420页

书籍目录

第1章
Java套接字编程技术
套接字家族
网络编程
Java I/O编程技术
代理的问题
Java中的套接字编程
客户端套接字

作者简介

这是一本研究如何实现具有Web访问能力的网络机器人的书。该书从Internet编程的基本原理出发,深入浅出、循序渐进地阐述了网络机器人程序Spider、Bot、Aggregator的实现技术,并分析了每种程序的优点及适用场合。本书提供了大量的有效源代码,并对这些代码进行了详细的分析。通过本书的介绍,你可以很方便地利用这些技术,设计并实现网络蜘蛛或网络信息搜索器等机器人程序。
适合于具有

图书封面


 网络机器人Java编程指南下载 精选章节试读 更多精彩书评



发布书评

 
 


精彩书评 (总计1条)

  •     这学期去图书馆借书,无意间看到一本书《网络机器人Java编程指南》。看了下感觉如获至宝。市面上讲爬虫的书可以说是没有,基本上只有在搜索引擎类的书里有提到,而且只是讲个思想,没有可以用的代码。而《网络机器人Java编程指南》是彻头彻尾讲解web爬虫的书籍,2002年出版的,目前已绝版。此书可说是非常珍贵这是china-pub的链接http://www.china-pub.com/6565 进了作者Jeff Heaton的博客http://www.jeffheaton.com/,下到了源代码,作者一直在更新,所以源代码可以在JDK6.0上正常运行。速度很快。相比如其他几款开源爬虫,本书的bot程序无疑更加简单,灵活,快速。heritrix太复杂,设计的比较乱。当时自己配置了很久。nutch自己的定制性不够好,url以二进制形式保存,管理起来很不方便。书中的bot通过实现IWorkloadStorable接口的类来管理url链接,书中也给出了两个实例SpiderSQLWorkload和SpiderInternalWorkload,一个在数据库中管理url,另一个在内存中管理url。很佩服作者,那时还没有HTML Parsers,所以作者自己写了个实现。如果现在自己用的话,可以做个小小的修改,用更好的开源html解析工具。。另外书中也提到了基于表单、https、Cookies的爬虫,大开眼界。以前自己也写过很多爬虫,但在设计中总是缺少扩展性。书中的bot程序也可以放在Hadoop运行,变成更加强大的分布式爬虫。比如:基于ProActive的分布式并行Web Spider的设计与实现http://blog.csdn.net/Java2King/archive/2010/07/02/5709951.aspx看这本书的时候也发现自己学的网络知识终于派上了用场,多线程也显得很重要,需要有更多的考虑,而不是一味的run。本书更像是通过编写网络爬虫来提高自己的编程技术和相关知识,不管是不是搜索方面的开发者,都值得一读。我的原帖在这里,还有爬虫的类图 http://blog.csdn.net/Java2King/archive/2010/07/07/5718476.aspx

精彩短评 (总计6条)

  •     对我的论文帮助很大,一个起点!
  •     图书馆发现的,如获至宝
  •     寒假看看~
  •     不错的一本书。从基础开始讲。深入浅出。
  •     本来挺不错的介绍bot、spider等网络技术的书,可是代码与Java Swing严重耦合看不了,只能了解个大概了~~~
  •       这学期去图书馆借书,无意间看到一本书《网络机器人Java编程指南》。看了下感觉如获至宝。
      市面上讲爬虫的书可以说是没有,基本上只有在搜索引擎类的书里有提到,而且只是讲个思想,没有可以用的代码。
      而《网络机器人Java编程指南》是彻头彻尾讲解web爬虫的书籍,2002年出版的,目前已绝版。此书可说是非常珍贵
      这是china-pub的链接http://www.china-pub.com/6565
      
      进了作者Jeff Heaton的博客http://www.jeffheaton.com/,下到了源代码,作者一直在更新,所以源代码可以在JDK6.0上正常运行。速度很快。
      相比如其他几款开源爬虫,本书的bot程序无疑更加简单,灵活,快速。
      heritrix太复杂,设计的比较乱。当时自己配置了很久。
      nutch自己的定制性不够好,url以二进制形式保存,管理起来很不方便。
      
      书中的bot通过实现IWorkloadStorable接口的类来管理url链接,书中也给出了两个实例SpiderSQLWorkload和SpiderInternalWorkload,一个在数据库中管理url,另一个在内存中管理url。
      
      很佩服作者,那时还没有HTML Parsers,所以作者自己写了个实现。如果现在自己用的话,可以做个小小的修改,用更好的开源html解析工具。。
      另外书中也提到了基于表单、https、Cookies的爬虫,大开眼界。以前自己也写过很多爬虫,但在设计中总是缺少扩展性。
      书中的bot程序也可以放在Hadoop运行,变成更加强大的分布式爬虫。比如:基于ProActive的分布式并行Web Spider的设计与实现
      http://blog.csdn.net/Java2King/archive/2010/07/02/5709951.aspx
      
      看这本书的时候也发现自己学的网络知识终于派上了用场,多线程也显得很重要,需要有更多的考虑,而不是一味的run。
      本书更像是通过编写网络爬虫来提高自己的编程技术和相关知识,不管是不是搜索方面的开发者,都值得一读。
      
      我的原帖在这里,还有爬虫的类图
      http://blog.csdn.net/Java2King/archive/2010/07/07/5718476.aspx
 

外国儿童文学,篆刻,百科,生物科学,科普,初中通用,育儿亲子,美容护肤PDF图书下载,。 零度图书网 

零度图书网 @ 2024