Python使用urllib2模块抓取HTML页面资源的实例分享

发布于 2016-05-15 21:35:01 | 130 次阅读 | 评论: 0 | 来源: 网友投递

这里有新鲜出炉的Python3 Cookbook中文版，程序狗速度看过来！

Python编程语言

Python 是一种面向对象、解释型计算机程序设计语言，由Guido van Rossum于1989年底发明，第一个公开发行版发行于1991年。Python语法简洁而清晰，具有丰富和强大的类库。它常被昵称为胶水语言，它能够把用其他语言制作的各种模块（尤其是C/C++）很轻松地联结在一起。

这篇文章主要介绍了Python使用urllib2模块抓取HTML页面资源的实例分享,将要抓取的页面地址写在单独的规则列表中方便组织和重复使用,需要的朋友可以参考下

先把要抓取的网络地址列在单独的list文件中


http://www.phperz.com/article/83440.html
http://www.phperz.com/article/83437.html
http://www.phperz.com/article/83430.html
http://www.phperz.com/article/83449.html

然后我们来看程序操作，代码如下：


#!/usr/bin/python

import os
import sys
import urllib2
import re

def Cdown_data(fileurl, fpath, dpath):
  if not os.path.exists(dpath):
    os.makedirs(dpath)
  try:
    getfile = urllib2.urlopen(fileurl)  
   data = getfile.read()
   f = open(fpath, 'w')
   f.write(data)
   f.close()
  except:
 print 

with open('u1.list') as lines:
  for line in lines:
    URI = line.strip()
    if '?' and '%' in URI:
      continue
 elif URI.count('/') == 2:
      continue
    elif URI.count('/') > 2:
      #print URI,URI.count('/')
   try:
        dirpath = URI.rpartition('/')[0].split('//')[1]
        #filepath = URI.split('//')[1].split('/')[1]
        filepath = URI.split('//')[1]
     if filepath:
          print URI,filepath,dirpath
          Cdown_data(URI, filepath, dirpath)
      except:
        print URI,'error'

最新网友评论 共有(0)条评论发布评论返回顶部

Python使用urllib2模块抓取HTML页面资源的实例分享

Python编程语言

后端技术

前端技术

数据库

热门框架

常用IDE

其他