Apache Nutch 基于Java的开源搜索引擎

Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。
尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降. 并且这很有可能进一步演变成为一个公司垄断了几乎所有的web搜索为其谋取商业利益.这显然 不利于广大Internet用户.
Nutch为我们提供了这样一个不同的选择. 相对于那些商用的搜索引擎, Nutch作为开放源代码 搜索引擎将会更加透明, 从而更值得大家信赖. 现在所有主要的搜索引擎都采用私有的排序算法, 而不会解释为什么一个网页会排在一个特定的位置. 除此之外, 有的搜索引擎依照网站所付的 费用, 而不是根据它们本身的价值进行排序. 与它们不同, Nucth没有什么需要隐瞒, 也没有 动机去扭曲搜索的结果. Nutch将尽自己最大的努力为用户提供最好的搜索结果.

Apache Nutch 1.14 发布,Web 爬虫
Apache Nutch 1.14 发布了。Nutch是一个成熟的、可用于生产的 Web 爬虫。 Nutch 1.x 可以依靠 Apache Hadoop™ 数据结构进行细粒度配置,这对于批处理非常有用。更新内容:Bug 修复[NUTCH-2071] - A parser failure on a single document may fail crawling job[NUTCH-2235] - Classpath discrepancy with protocol-seleniu

发布于 2017-12-27 00:26:39 | 125 次阅读

Apache Nutch 1.1.3 发布,Web 爬虫
Apache Nutch 项目管理委员宣布 Apache Nutch 1.13 发布,建议所有当前的用户和 1.X 系列的开发人员升级到此版本。Nutch是一个成熟的、可用于生产的 Web 爬虫。 Nutch 1.x 可以依靠 Apache Hadoop™ 数据结构进行细粒度配置,这对于批处理非常有用。更新内容:Sub-task[NUTCH-2246] - Refactor /seed endpoint for backward

发布于 2017-04-03 00:17:14 | 125 次阅读

Apache Nutch 2.3.1 发布,搜索引擎
Apache Nutch 2.3.1 发布,此版本主要解决了 40 个 issues,详情请看这里:http://s.apache.org/nutch_2.3.1下载: http://nutch.apache.org/downloads.html 此版本推荐的 Gora 后端:   - Apache Avro 1.7.6    - Apache Hadoop 1.2.1 and&nb

发布于 2016-01-23 01:00:54 | 165 次阅读

Apache Nutch 1.11/ 2.3 发布,搜索引擎
Apache 1.11/ 2.3 发布,更新如下: CHANGES-2.3.txtCHANGES-1.11.txt 更多内容请看:http://nutch.apache.org/downloads.html Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。  

发布于 2015-12-10 00:58:00 | 119 次阅读

Apache Nutch 1.10 发布,搜索引擎
Apache Nutch 1.10 发布,此版本现已提供下载:http://syncope.apache.org/downloads.html。 更新内容:Bug 修复[SYNCOPE-654] - Some generic and uninformative error messages[SYNCOPE-655] - Files under /etc/apache-syncope ignored[SYNCOPE-656] - Debian configuration files overwritte

发布于 2015-05-09 00:57:50 | 291 次阅读

Apache Nutch v2.3 发布,Java实现的网络爬虫
Apache Nutch v2.3已经发布了,建议所有使用2.X系列的用户和开发人员升级到这个版本。这个版本提供了一个基于Apache Wicket的Web管理界面,解决了143个问题,提供了Maven依赖,升级到Gora v0.5,支持的底层存储为: Apache Hadoop 1.0.1 &am

发布于 2015-01-31 12:22:56 | 202 次阅读

Apache Nutch 1.9 发布,开源的搜索引擎
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch 致力于让每个人能很容易, 同时花费很少就可以配置世界一流的Web搜索引擎. 为了完成这一宏伟的目标, Nutch

发布于 2014-08-19 02:49:46 | 204 次阅读


Copyright © 2007-2017 PHPERZ.COM All Rights Reserved   冀ICP备14009818号  版权声明  广告服务