发布于 2016-03-23 03:52:41 | 189 次阅读 | 评论: 0 | 来源: 网友投递

这里有新鲜出炉的精品教程,程序狗速度看过来!

Pholcus Go 爬虫软件

Pholcus(幽灵蛛)是一款纯Go语言编写的高并发、分布式、重量级爬虫软件,支持单机、服务端、客户端三种运行模式,拥有Web、GUI、命令行三种操作界面;规则简单灵活、批量任务并发、输出方式丰富(mysql/mongodb/csv/excel等)、有大量Demo共享;同时她还支持横纵向两种抓取模式,支持模拟登录和任务暂停、取消等一系列高级功能。


Pholcus 0.8.5 发布,此版本优化多项功能(如新增cmd版服务端、客户端,细化历史记录粒度等)、修复多个bug,并减少诸多依赖包,为发布1.0稳定版做准备。

Pholcus(幽灵蛛)是一款纯Go语言编写的高并发、分布式、重量级爬虫软件,支持单机、服务端、客户端三种运行模式,拥有Web、GUI、命令行三种操作界面;规则简单灵活、批量任务并发、输出方式丰富(mysql/mongodb/csv/excel等)、有大量Demo共享;同时她还支持横纵向两种抓取模式,支持模拟登录和任务暂停、取消等一系列高级功能。

pholcus web 版
更新详情如下所示:

一、命令行相关功能升级

1. cmd界面版增加对服务端与客户端模式的支持;

2. 新增丰富的命令行参数,且优先级高于配置文件。

二、配置文件更新

1. 增加更多可配置项;

2. 重新规范代码,配置参数为优先级最低的默认信息。

三、Spider结构体调整

1. Keyword改为Keyin,相应操作界面中“自定义输入”改为“自定义配置”(多任务时应分别多包裹一层“<>”);

2. MaxPage字段改为Limit,相应操作界面中“最大页数”改为“采集上限”(默认限制url请求数);

3. 添加subName,用于区分多任务并发的情况;

4. 允许在规则的Root()中进行阻塞;

5. 优化动态规则加载的错误处理。

四、调度器与历史记录模块升级

1. 增强历史记录功能,历史记录与Spider实例一一对应,且与输出操作保持同步更新;

2. 修复调度器在32位系统下panic的bug。

五、输出模块优化

1. 修改mysql输出模块,支持多行批量插入,修改默认连接池容量为2048,提升输出速率与稳定性;

2. mgo的insert方法更新,内部增加分批插入控制,默认为5000条,提升写入数据库的稳定性;

3. 修复连接池捕获panic的bug。

六、其他

1. 解决某些规则的代码片段在手动终止任务后依旧默默运行的问题,减少资源消耗;

2. 解决大量任务长时间运行后手动终止操作耗时太长的问题,加快终止操作响应速度;

3. 调整运行时目录文件;

4. 将大部分依赖包合并到项目中;

5. 修复一些bug。



历史版本 :
Pholcus 1.2 发布,高并发、分布式爬虫软件
Pholcus(幽灵蛛)爬虫软件 v1.0 稳定版正式发布
高并发、分布式爬虫 Pholcus 0.8.5 发布
Pholcus 爬虫 v0.8.2,性能提升 20% 以上
Pholcus 爬虫 v0.8.0,支持 HTML 风格动态规则
Pholcus 0.7.5 发布,Go 爬虫软件
Pholcus 0.7.4 发布,Go 爬虫软件
Pholcus 0.7.3 发布,Go 爬虫软件
Pholcus 0.6.1 发布,Go 爬虫软件
Pholcus 0.6.0 发布,Go 爬虫软件
Pholcus 0.5.2 发布,Go 爬虫软件
Pholcus 0.5.1 发布,Go 爬虫软件
最新网友评论  共有(0)条评论 发布评论 返回顶部

Copyright © 2007-2017 PHPERZ.COM All Rights Reserved   冀ICP备14009818号  版权声明  广告服务