实用文章网

内容简介

《开发自己的搜寻引擎:Lucene2.0+Heritrix》共分为14章，内容包括搜寻引擎与信息检索基础，Lucene入门实例，Lucene索引的建立，使用Lucene构建搜寻，Lucene的排序，Lucene的分析器，对Word、Excel和PDF格式文档的解析，Compass搜寻引擎框架，Lucene分散式和GoogleSearchAPI，爬虫Heritrix，综合实例之準备篇，综合实例之HTMLParser篇，综合实例之DWR篇，综合实例之Web编。

《开发自己的搜寻引擎:Lucene2.0+Heritrix》是一本介绍如何使用Lucene2.0和Heritrix来构建搜寻引擎的书。通过对相关API和原始码的分析，力求使读者在掌握套用的基础上能够深入其核心，自行扩展和开发相应组件，开发出更有创意的搜寻引擎产品。

作者简介

邱哲，北京理工大学硕士，现为某公司技术经理，主要从事欧美软体外包开发。在J2EE方面有4年的开发经验，在搜寻引擎与“爬虫”方面有3年的开发经验，着有《征服Ajax+Lucene构建搜寻引擎》一书。

编辑推荐

《开发自己的搜寻引擎:Lucene2.0+Heritrix》参加人邮社买书送礼活动,数量有限赶快抢购!详情请点击

第一本讲解如何使用Lucene和Heritrix来构建搜寻引擎的书

一步一步带领您亲手构建企业级搜寻引擎网站

国内资深搜寻引擎开发专家车东推荐

配有一个完整的搜寻引擎案例。这个案例有很强的实用价值，只需稍加修改，就能套用于实际项目，市场价值在30000元以上！

Google技术经理车东推荐

国内第一本详细介绍搜寻引擎开发过程的图书

採用最新的Lucene2.0

网际网路搜寻的使用水平可以反映全民的信息处理能力，几年前有研究发现美国用户比欧洲用户的网际网路使用水平领先半年左右，主要是根据谁搜寻时平均使用的关键字的个数多。中文用户的搜寻使用水平相对于西文用户目前仍然处于比较初级的阶段，而中文网站搜寻功能的缺失也是一个重要的因素。

网站拥有了较多内容后，最先会考虑基于目录的内容分类，以解决信息快速定位的问题，随着内容量的进一步增加，很多内容在发表之后就很快被湮没，成为“信息孤岛”，而不断加深的目录结构也会让用户逐渐失去耐心，这时，关键字检索的优势就体现出来了：

关键字检索可以让处于“信息孤岛”状态的内容以一种更直接的方法提供给用户；

实用文章网

开发自己的搜寻引擎：Lucene2.0+Heritrix

开发自己的搜寻引擎：Lucene2.0+Heritrix

基本介绍

内容简介

作者简介

编辑推荐

目录

热门文章

随机文章

关于本站

联系我

特别鸣谢