c post请求网页_Python使用urllib2抓取网页

使用Python的库urllib2，用到urlopen和Request方法。
方法urlopen原形

❝ urllib2.urlopen(url[, data][, timeout]) 其中：url表示目标网页地址，可以是字符串，也可以是请求对象Requestdata表示post方式提交给目标服务器的参数timeout表示超时时间设置改方法返回一个类似文件的对象，有geturl()、info()、read()方法其中geturl()返回连接地址，info()返回网页信息。要获取网页内容可以使用read()方法，read也可以带参数，表示读取内容的大小（字节）。
❞

import urllib2
socket = urllib2.urlopen("http://www.baidu.com")
content = socket.read()
socket.close()

这样，网页的内容（content）就爬下来了，但是有些网站禁止爬虫，如果直接请求会出现以下错误：urllib2.HTTPError: HTTP Error 403: Forbidden解决方法是可以在请求加上头信息，伪装成浏览器的访问行为，需要用到Request方法：

方法Request原型

❝ urllib2.Request(url[, data][, headers][, origin_req_host][, unverifiable])其中： url表示目标网页地址，可以是字符串，也可以是请求对象Requestdata表示post方式提交给目标服务器的参数headers表示用户标识，是一个字典类型的数据，有些不允许脚本的抓取，所以需要用户代理，像火狐浏览器的代理就是类似：Mozilla/5.0 (X11; U; Linux i686)Gecko/20071127 Firefox/2.0.0.11 浏览器的标准UA格式为：浏览器标识 (操作系统标识; 加密等级标识; 浏览器语言) 渲染引擎标识版本信息，headers默认是Python-urllib/2.6origin_req_host表示请求方的主机域名或者ip地址
❞

headers = {'User-Agent':'Mozilla/5.0 (X11; U; Linux i686)Gecko/20071127 Firefox/2.0.0.11'}
req = urllib2.Request(url="http://blog.csdn.net/deqingguo",headers=headers)
socket = urllib2.urlopen(req)
content = socket.read()
socket.close()

c post请求网页_Python使用urllib2抓取网页相关推荐

使用 python urllib2 抓取网页时出现乱码的解决方案
这里记录的是一个门外汉解决使用 urllib2 抓取网页时遇到乱码.崩溃.求助.解决和涨经验的过程.这类问题,事后看来只是个极小极小的坑,不过竟然花去很多时间,也值得记录一下.过程如下: 目标: 抓取 ...
idm抓取网页视频原理 idm抓取网页视频后怎么提取
对于网页视频的下载,我们可以使用windows端多线程下载工具--Internet Download Manager,通过Internet Download Manager我们可以直接抓取网页视频,i ...
c 语言获取网页源码,CHttpFile抓取网页源代码 | C/C++程序员之家
发现MFC真是一个好东西,减少许多C++开发者造轮子的麻烦(说MFC-微软基础类库过时的勿喷).如下,包含头文件afxinet.h(该类封装了一些MFC SOCKET的操作).CHttpFile抓取网 ...
网页java代码_java抓取网页代码
导读热词代码以下 import java.io.BufferedReader; import java.io.InputStreamReader; import java.net.HttpURLCo ...
python爬虫爬取网页图片_Python爬虫实现抓取网页图片
在逛贴吧的时候看见贴吧里面漂亮的图片,或有漂亮妹纸的图片,是不是想保存下来? 但是有的网页的图片比较多,一个个保存下来比较麻烦. 最近在学Python,所以用Python来抓取网页内容还是比较方便的: ...
python爬取新闻网站标题_python如何正确抓取网页标题
有一个简单的错误.HTML文件不能用正则表达式parse,因为他的文法比正则表达式高级,具体原因参考这里. 推荐解析这种HTML用一些第三方库,例如mechanize 我的代码如下:import me ...
vba抓取网页数据到excel_抓取网页数据，上班也能看股票
小伙伴们,你还好吗? 今天老祝和大家一起学习一个导入网页数据的技巧. 很多时候,咱们需要将网页中的数据导入到Excel里做进一步的分析汇总,比如每天的股市行情.外汇牌价.开奖信息等等. 接下来咱们演示 ...
抓取网页代码php,PHP抓取网页代码示例
//PHP(前提是装了curl): $ch = curl_init(); curl_setopt ($ch, CURLOPT_URL, "http://www.xxx/"); cu ...
php curl抓去网页名单,PHP CURL抓取网页 simple_html_dom类
$ch=curl_init();$timeout = 1;//echo CURLOPT_URL; // CURLOPT_URL: 这是你想用PHP取回的URL地址.你也可以在用curl_init()函 ...

c post请求网页_Python使用urllib2抓取网页

c post请求网页_Python使用urllib2抓取网页相关推荐

最新文章

热门文章