1. 使用Python的库urllib2,用到urlopenRequest方法。
  2. 方法urlopen原形

urllib2.urlopen(url[, data][, timeout]) 其中:url表示目标网页地址,可以是字符串,也可以是请求对象Requestdata表示post方式提交给目标服务器的参数timeout表示超时时间设置改方法返回一个类似文件的对象,有geturl()、info()、read()方法其中geturl()返回连接地址,info()返回网页信息。要获取网页内容可以使用read()方法,read也可以带参数,表示读取内容的大小(字节)。

import urllib2
socket = urllib2.urlopen("http://www.baidu.com")
content = socket.read()
socket.close()

这样,网页的内容(content)就爬下来了,但是有些网站禁止爬虫,如果直接请求会出现以下错误:urllib2.HTTPError: HTTP Error 403: Forbidden解决方法是可以在请求加上头信息,伪装成浏览器的访问行为,需要用到Request方法:

  1. 方法Request原型

urllib2.Request(url[, data][, headers][, origin_req_host][, unverifiable])其中: url表示目标网页地址,可以是字符串,也可以是请求对象Requestdata表示post方式提交给目标服务器的参数headers表示用户标识,是一个字典类型的数据,有些不允许脚本的抓取,所以需要用户代理,像火狐浏览器的代理就是类似:Mozilla/5.0 (X11; U; Linux i686)Gecko/20071127 Firefox/2.0.0.11 浏览器的标准UA格式为:浏览器标识 (操作系统标识; 加密等级标识; 浏览器语言) 渲染引擎标识 版本信息 ,headers默认是Python-urllib/2.6origin_req_host表示请求方的主机域名或者ip地址

headers = {'User-Agent':'Mozilla/5.0 (X11; U; Linux i686)Gecko/20071127 Firefox/2.0.0.11'}
req = urllib2.Request(url="http://blog.csdn.net/deqingguo",headers=headers)
socket = urllib2.urlopen(req)
content = socket.read()
socket.close()

c post请求网页_Python使用urllib2抓取网页相关推荐

  1. 使用 python urllib2 抓取网页时出现乱码的解决方案

    这里记录的是一个门外汉解决使用 urllib2 抓取网页时遇到乱码.崩溃.求助.解决和涨经验的过程.这类问题,事后看来只是个极小极小的坑,不过竟然花去很多时间,也值得记录一下.过程如下: 目标: 抓取 ...

  2. idm抓取网页视频原理 idm抓取网页视频后怎么提取

    对于网页视频的下载,我们可以使用windows端多线程下载工具--Internet Download Manager,通过Internet Download Manager我们可以直接抓取网页视频,i ...

  3. c 语言获取网页源码,CHttpFile抓取网页源代码 | C/C++程序员之家

    发现MFC真是一个好东西,减少许多C++开发者造轮子的麻烦(说MFC-微软基础类库过时的勿喷).如下,包含头文件afxinet.h(该类封装了一些MFC SOCKET的操作).CHttpFile抓取网 ...

  4. 网页java代码_java抓取网页代码

    导读热词 代码以下 import java.io.BufferedReader; import java.io.InputStreamReader; import java.net.HttpURLCo ...

  5. python爬虫爬取网页图片_Python爬虫实现抓取网页图片

    在逛贴吧的时候看见贴吧里面漂亮的图片,或有漂亮妹纸的图片,是不是想保存下来? 但是有的网页的图片比较多,一个个保存下来比较麻烦. 最近在学Python,所以用Python来抓取网页内容还是比较方便的: ...

  6. python爬取新闻网站标题_python如何正确抓取网页标题

    有一个简单的错误.HTML文件不能用正则表达式parse,因为他的文法比正则表达式高级,具体原因参考这里. 推荐解析这种HTML用一些第三方库,例如mechanize 我的代码如下:import me ...

  7. vba抓取网页数据到excel_抓取网页数据,上班也能看股票

    小伙伴们,你还好吗? 今天老祝和大家一起学习一个导入网页数据的技巧. 很多时候,咱们需要将网页中的数据导入到Excel里做进一步的分析汇总,比如每天的股市行情.外汇牌价.开奖信息等等. 接下来咱们演示 ...

  8. 抓取网页代码php,PHP抓取网页代码示例

    //PHP(前提是装了curl): $ch = curl_init(); curl_setopt ($ch, CURLOPT_URL, "http://www.xxx/"); cu ...

  9. php curl抓去网页名单,PHP CURL抓取网页 simple_html_dom类

    $ch=curl_init();$timeout = 1;//echo CURLOPT_URL; // CURLOPT_URL: 这是你想用PHP取回的URL地址.你也可以在用curl_init()函 ...

最新文章

  1. 几篇较新的计算机视觉Self-Attention
  2. Windows环境下搭建React Native
  3. Geospark从Shapefile中加载RDD
  4. 完美解决移动Web小于12px文字居中的问题
  5. monk js_使用Monk AI进行手语分类
  6. 网站实现点击 “加入收藏 ”功能 - 代码篇
  7. 银联接口(注意项备忘)
  8. 每周百万封业务邮件的服务器不知道为啥就down掉了?
  9. Python字典学习
  10. mysql查询 多门课程的平均成绩_数据库学生成绩分析问题.doc
  11. coldfusion_Coldfusion数据结构简介第IV部分–查询
  12. 【JZOJ 5421】【NOIP2017提高A组集训10.25】嘟嘟噜
  13. 漏洞管理平台-洞察贰
  14. 虚拟机安装debian教程
  15. 前端vue3+typescript搭建vite项目(初识vite+项目配置完善+屏幕适配)
  16. mysql求中位值函数_SQLServer下取中位数(中位值)的方法
  17. imYun 一个Go+Vue编写简化打印店工作流程的系统【开源后端+小程序端】
  18. 【C】操作符归纳+表达式运算原理
  19. python中数字应该用什么表示_8.python中的数字
  20. CAD命令集 CAD命令笔记本

热门文章

  1. java testng 项目_java – Junit4和TestNG在Maven的一个项目中
  2. 分布式事务与2PC、3PC理论详解
  3. 第三篇:稳定性之借风险之力驱动架构演进
  4. 05And06VM和Linux安装
  5. ax.spines——matplotlib坐标轴设置
  6. Candies-POJ 3159
  7. python中的序列类型数据结构元素的切片_第四章 Python字符串以及(split,rsplit,replace,strip.....)...
  8. java判断两个时间区间是否有重合
  9. 中移4G模块-ML302-OpenCpu开发-MCP23017输入/输出
  10. c语言普通字符放哪里,C语言字符串的输入输出