Python 抓取动态网页内容方案详解 - PHPERZ中文资讯站

发布于 2016-01-22 07:37:15 | 474 次阅读 | 评论: 0 | 来源: 网友投递

这里有新鲜出炉的Python教程，程序狗速度看过来！

Python编程语言

Python 是一种面向对象、解释型计算机程序设计语言，由Guido van Rossum于1989年底发明，第一个公开发行版发行于1991年。Python语法简洁而清晰，具有丰富和强大的类库。它常被昵称为胶水语言，它能够把用其他语言制作的各种模块（尤其是C/C++）很轻松地联结在一起。

这篇文章主要介绍了Python 抓取动态网页内容方案详解,首先通过Chrome的工具来进行分析，然后再使用python进行处理，最终得到我们需要的内容，非常的方便，这里也算是给大家提供一个思路

用Python实现常规的静态网页抓取时，往往是用urllib2来获取整个HTML页面，然后从HTML文件中逐字查找对应的关键字。如下所示：

代码如下:

import urllib2
url="http://mm.taobao.com/json/request_top_list.htm?type=0&page=1"
up=urllib2.urlopen(url)#打开目标页面，存入变量up
cont=up.read()#从up中读入该HTML文件
key1='<a href="http'#设置关键字1
key2="target"#设置关键字2
pa=cont.find(key1)#找出关键字1的位置
pt=cont.find(key2,pa)#找出关键字2的位置(从字1后面开始查找)
urlx=cont[pa:pt]#得到关键字1与关键字2之间的内容(即想要的数据)
print urlx

但是，在动态页面中，所显示的内容往往不是通过HTML页面呈现的，而是通过调用js等方式从数据库中得到数据，回显到网页上。以发改委网站上的“备案信息”（http://beian.hndrc.gov.cn/）为例，要抓取此页面中的某些备案项目。例如“http://beian.hndrc.gov.cn/indexinvestment.jsp?id=162518”。

那么，在浏览器中打开此页面：

相关信息都显示的很全了，但是如果按照之前的办法：

代码如下:

up=urllib2.urlopen(url)

cont=up.read()

就抓取不到上述内容了。

我们查看一下这个页面对应的源码：

由源码可以看出，这个《备案确认书》属于“填空”形式的，HTML提供文字模板，js根据不同的id提供不同的变量，“填入”到文字模板中，形成了一个具体的《备案确认书》。所以单纯抓取此HTML，只能得到一些文字模板，而无法得到具体内容。

那么，该如何找到那些具体内容呢？可以利用Chrome的“开发者工具”来寻找谁是真正的内容提供者。

打开Chrome浏览器，按下键盘F12即可呼出此工具。如下图：

此时选中“Network”标签，在地址栏中输入此页面“http://beian.hndrc.gov.cn/indexinvestment.jsp?id=162518”，浏览器会分析出此次响应的全过程，而红框内的文件，就是此次响应中，浏览器和web后端的所有通信。

因为要获得不同企业对应的不同信息，那么浏览器发送给服务器的请求里面一定会有一个和当前企业id有关的参数。

那么，参数是多少呢？URL上有，是“jsp?id=162518”，问号表示要调用参数，后面跟的是id号即是被调用的参数。而通过对这几个文件的分析，很显然，企业信息存在于“indexinvestment.action”文件中。

然而，双击打开此文件并不能获得企业信息，而是一堆代码。因为没有对应的参数为它指明要显示第几号的信息。如图：

那么，应该如何将参数传递给它呢？这时我们仍旧看F12窗口：

“Header”一栏中明确地显示出了此次响应的过程：

对目标URL，用POST的方式，传递了一个id为162518的参数。

我们先手工操作一下。js是如何调用参数的呢？对，上面说过：问号+变量名+等号+变量对应的数字。也就是说，向“http://beian.hndrc.gov.cn/indexinvestment.action”这个页面提交id为162518的参数时，应该在URL后面加上

“?id=162518”,即

“http://beian.hndrc.gov.cn/indexinvestment.action?id=162518”。

我们把这个URL粘贴到浏览器中来看：

似乎有了点内容，可是都是乱码啊，怎么破？熟悉的朋友可能一眼就看出来，这是编码的问题。是因为响应回来的内容与浏览器默认的编码方式不同。只需要在Chrome右上角菜单——更多工具——编码——“自动检测”即可。（其实这是UTF-8的编码，而Chrome默认的是中文简体）。如下图：

好了，真正的信息源已经被挖出，剩下的就是用Python处理这些页面上的字符串，然后剪切、拼接，重新组成新的《项目备案书》了。

再然后使用for、while等循环，批量获取这些《备案书》。

正如“不论是静态网页，动态网页，模拟登陆等，都要先分析、搞懂逻辑，再去写代码”所说，编程语言只是一个工具，重要的是解决问题的思路。有了思路，再寻找趁手的工具去解决，就OK了。

最新网友评论 共有(0)条评论发布评论返回顶部

推荐阅读

终极炫富——2016 年 iOS 开发者收入调查报告

年度大片：Stack Overflow 2017 开发者调查报告发布！

开发者需要大学学位吗？

程序员多大年纪算高龄，届时该何去何从？

2017 年高薪编程语言排行榜，你的语言上榜没？

各编程语言开发者最常使用的按键，中了没?

伤不起的三十岁，干不动的程序员要何去何从？

2016年中国加班最狠IT公司排行

一句话"面试"漫画：黑了苹果、谷歌、三星

拿代码量算 KPI ……跟程序员们来这套？

程序员遇到 Bug 时的 30 个反应，你是哪一种？

2016年收入最高的5个编程语言 Java和C没在前五?

为什么很少见人傻钱多的程序员炫富？

阿里月薪两万是什么体验？

代码缩进时程序员更喜欢空格键还是Tab键？

最新资讯

Python获取系统所有进程PID及进程名称的方法示例

Python简单获取网卡名称及其IP地址的方法【基于psutil模块】

Python实现的根据IP地址计算子网掩码位数功能示例

好的Python培训机构应该具备哪些条件

详解Pytorch 使用Pytorch拟合多项式(多项式回归)

Python加载带有注释的Json文件实例

对python的文件内注释 help注释方法

Python实现判断一行代码是否为注释的方法

Oracle数据库表中字段顺序的修改方法

ASP.NET MVC 4使用PagedList.Mvc分页的实现代码

Oracle实例启动时报错：ORA-32004的解决方法

解读ASP.NET 5 & MVC6系列教程（7）：依赖注入

详解IDEA用maven创建springMVC项目和配置

ASP.NET MVC5网站开发之展示层架构（五）

SpringBoot创建maven多模块项目实战代码

后端技术

前端技术

数据库

热门框架

常用IDE

其他

Copyright © 2007-2017 PHPERZ.COM All Rights Reserved 冀ICP备14009818号版权声明广告服务