发布于 2014-09-30 07:20:01 | 142 次阅读 | 评论: 0 | 来源: 网友投递

这里有新鲜出炉的Python教程,程序狗速度看过来!

Python编程语言

Python 是一种面向对象、解释型计算机程序设计语言,由Guido van Rossum于1989年底发明,第一个公开发行版发行于1991年。Python语法简洁而清晰,具有丰富和强大的类库。它常被昵称为胶水语言,它能够把用其他语言制作的各种模块(尤其是C/C++)很轻松地联结在一起。


本文是一个python实现的采集程序,可以从web抓取文档的方法,以抓取人人网页面为例讲述了完整的web文档抓取方法,需要的朋友可以参考下

python采集代码如下:

import urllib 
doc = urllib.urlopen("http://www.python.org").read() 
print doc#直接打印出网页 
def reporthook(*a): 
 print a 
#将http://www.renren.com网页保存到renre.html中,
#每读取一个块调用一字reporthook函数 
 
urllib.urlretrieve("http://www.renren.com",'renren.html',reporthook) 
#将http://www.renren.com网页保存到renre.html中 
urllib.urlretrieve("http://www.renren.com",'renren.html')

程序运行结果如下:

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
..........................网页内容
</body>
</html>


(0, 8192, -1)
(1, 8192, -1)
(2, 8192, -1)

其中urllib.urlopen返回一个类文件对象。



相关阅读 :
python实现从web抓取文档的方法
Python实现从百度API获取天气的方法
Python打印scrapy蜘蛛抓取树结构的方法
利用python程序生成word和PDF文档的方法
python 3利用BeautifulSoup抓取div标签的方法示例
Python实现的批量下载RFC文档的方法
Python实现周期性抓取网页内容的方法
python读取word文档的方法
Python使用MYSQLDB实现从数据库中导出XML文件的方法
简单介绍使用Python解析并修改XML文档的方法
利用Python抓取行政区划码的方法
Python使用正则表达式抓取网页图片的方法示例
最新网友评论  共有(0)条评论 发布评论 返回顶部

Copyright © 2007-2017 PHPERZ.COM All Rights Reserved   冀ICP备14009818号  版权声明  广告服务