发布于 2016-09-25 23:59:06 | 209 次阅读 | 评论: 0 | 来源: 网友投递

这里有新鲜出炉的精品教程,程序狗速度看过来!

Pholcus Go 爬虫软件

Pholcus(幽灵蛛)是一款纯Go语言编写的高并发、分布式、重量级爬虫软件,支持单机、服务端、客户端三种运行模式,拥有Web、GUI、命令行三种操作界面;规则简单灵活、批量任务并发、输出方式丰富(mysql/mongodb/csv/excel等)、有大量Demo共享;同时她还支持横纵向两种抓取模式,支持模拟登录和任务暂停、取消等一系列高级功能。


    Pholcus爬虫软件发布1.2版本,CPU使用率与内存占用均有大幅降低,运行更加稳定流畅。同时新增kafka输出方式,加快任务终止速度(秒级延时)。

Pholcus v1.2 具体更新细节如下:

一、输出功能升级

  1. 添加kafka数据库输出

  2. 基本重新了mysql输出模块,提升输出稳定性与输出效率

  3. 增加输出文件目录的配置项

  4. 大量优化结果收集模块,提升I/O性能与状态控制性

  5. 移除文件输出目录的日期后缀

  6. 调整文件名哈希临界长度为>8

  7. 移除数据输出通道容量的配置项DATA_CHAN_CAP,由分批输出用户设置项直接决定


二、下载功能升级

  1. 增强自动转码功能

  2. 当响应头未指定编码类型时,从请求头读取

  3. 都未指定编码类型或编码类型为utf8时,不做转码,节约内存

  4. 增加支持自动解压缩deflate和zlib编码的响应流

  5. 升级surfer下载器,修复POST提交时下载内核中Content-Type被覆盖的bug,修复Request.GetHeader()==nil时panic的bug

  6. 修复输出图片等文件时,下载补全的bug

  7. Context.text字段类型由string改为[]byte

  8. 将HTTP状态码大于等于400的请求自动标记为下载失败


三、采集规则模块升级

  1. 更新*Request.GetTemp(key string, defaultValue interface{}) interface{},defaultValue不再作为结果接收容器,当键值对不存在时,返回值为参数defaultValue。

  2. Spider.Register()方法改为接受Spider类型(之前为*Spider),推荐使用 "func init(){Spider{}.Register()}" 的方式进行声明

  3. 优化任务停止条件,Spider.Root退出之前,任务不可终止

  4. 修复动态规则解析bug

  5. 同名采集规则的名称自动添加加"(2)"形式的序号后缀

  6. 优化crawler采集引擎的随机停顿逻辑

  7. 添加 Context.Log() 日志打印接口


四、其他优化

  1. 修复某些情况下在非win系统中log日志引发的panic

  2. 修复web版启动时偶然性打不开页面的bug

  3. web版实时日志在超过2000条时自定清除前1000条

  4. 优化scheduler调度器

  5. 调整分布式模块字面量命名

  6. 修复CUP占用高的问题,采集过程的最低使用率从 20% 降低到 1%

  7. 加快任务的主动终止,基本已将延时控制在秒级

  8. 通过数据输出速率来抑制采集下载速率,从而降低不必要的内存占用

下载地址:



历史版本 :
Pholcus 1.2 发布,高并发、分布式爬虫软件
Pholcus(幽灵蛛)爬虫软件 v1.0 稳定版正式发布
高并发、分布式爬虫 Pholcus 0.8.5 发布
Pholcus 爬虫 v0.8.2,性能提升 20% 以上
Pholcus 爬虫 v0.8.0,支持 HTML 风格动态规则
Pholcus 0.7.5 发布,Go 爬虫软件
Pholcus 0.7.4 发布,Go 爬虫软件
Pholcus 0.7.3 发布,Go 爬虫软件
Pholcus 0.6.1 发布,Go 爬虫软件
Pholcus 0.6.0 发布,Go 爬虫软件
Pholcus 0.5.2 发布,Go 爬虫软件
Pholcus 0.5.1 发布,Go 爬虫软件
最新网友评论  共有(0)条评论 发布评论 返回顶部

Copyright © 2007-2017 PHPERZ.COM All Rights Reserved   冀ICP备14009818号  版权声明  广告服务