爬取页面数据,我们需要访问页面,发送http请求,以下内容就是Python发送请求的几种简单方式:

会使用到的库  urllib   requests

1.urlopen

import urllib.request

import urllib.parse

import urllib.error

import socket

data = bytes(urllib.parse.urlencode({"hello": "world"}),encoding='utf8')

try:

response = urllib.request.urlopen('http://httpbin.org/post',data=data,timeout=10)

print(response.status)

print(response.read().decode('utf-8'))

except urllib.error.URLError as e:

if isinstance(e.reason, socket.timeout):

print("TIMEOUT")

2.requests

用到requests中的get  post  delete  put 方法访问请求  这种比一简单一些

每个方法有相应的参数列表,比如 get  params参数   proxies:设置代理  auth: 认证  timeout :超时时间 等

import requests

ico = requests.get("https://github.com/favicon.ico")

with open("favicon.ico", "wb") as file:

file.write(ico.content)

3.Request Session

from requests import Session, Request

url = "https://home.cnblogs.com/u/qiutian-guniang/"

s = Session()

req = Request('GET', url=url, headers=header)

pred = s.prepare_request(req)

r = s.send(pred)

print(r.text)

某些网页会禁止抓取数据 我们可以 通过设置User-Agent来设置 使用cookies来保持登录的访问状态例如:以下的cookie内容可以通过在F12控制台获取 复制粘贴 放入headers中

cookies = "_gat=1"

headers = {

"Cookie": cookies,

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; '

'x64) AppleWebKit/537.36 (KHTML, like Gecko) '

'Chrome/68.0.3440.106 Safari/537.36'

}

python爬虫解析页面数据的三种方式

re模块 re.S表示匹配单行 re.M表示匹配多行 使用re模块提取图片url,下载所有糗事百科中的图片 普通版 import requests import re import os if not ...

Python爬虫突破封禁的6种常见方法

转 Python爬虫突破封禁的6种常见方法 2016年08月17日 22:36:59 阅读数:37936 在互联网上进行自动数据采集(抓取)这件事和互联网存在的时间差不多一样长.今天大众好像更倾向于用 ...

命令行运行Python脚本时传入参数的三种方式

原文链接:命令行运行Python脚本时传入参数的三种方式(原文的几处错误在此已纠正) 如果在运行python脚本时需要传入一些参数,例如gpus与batch_size,可以使用如下三种方式. pyth ...

Servlet访问路径的两种方式、Servlet生命周期特点、计算服务启动后的访问次数、Get请求、Post请求

Servlet访问路径的两种方式: 1:注解 即在Servlet里写一个@WebServlet @WebServlet("/myServlet") 2:配置web.xml < ...

JPA访问数据库的几种方式

JPA访问数据库的几种方式 本文为原创,转载请注明出处:https://www.cnblogs.com/supiaopiao/p/10901793.html 1. Repository 1.1. 通过 ...

Python 与 C&sol;C&plus;&plus; 交互的几种方式

python作为一门脚本语言,其好处是语法简单,很多东西都已经封装好了,直接拿过来用就行,所以实现同样一个功能,用Python写要比用C/C++代码量会少得多.但是优点也必然也伴随着缺点(这是肯定的, ...

python 零散记录&lpar;五&rpar; import的几种方式 序列解包 条件和循环 强调getattr内建函数

用import关键字导入模块的几种方式: #python是自解释的,不必多说,代码本身就是人可读的 import xxx from xxx import xxx from xxx import xx1 ...

Python爬虫——Python 岗位分析报告

前两篇我们分别爬取了糗事百科和妹子图网站,学习了 Requests, Beautiful Soup 的基本使用.不过前两篇都是从静态 HTML 页面中来筛选出我们需要的信息.这一篇我们来学习下如何来获 ...

VSCode的Python扩展下程序运行的几种方式与环境变量管理

在VSCode中编写Python程序时,由于有些地方要使用环境变量,但是发现设置的环境变量有时不起作用,花了点时间研究了一下,过程不表,直接说结论. 首先,环境变量的设置,Python扩展中有三种方式 ...

python 读取wav 音频文件的两种方式

python 中,常用的有两种可以读取wav音频格式的方法,如下所示: import scipy from scipy.io import wavfile import soundfile as sf ...

随机推荐

LabVIEW有限状态机

顺序模式是我们最先接触,也是最基本的一种编程模式, 程序按照固定的顺序依次执行,结束(如图1) 但在很多情况下,静态的顺序模式并不能满足我们编程的要求,我们需要更有效地动态结构来实时改变程序的执行顺序 ...

atitit&period;提升开发效率---MDA 软件开发方式的革命&lpar;5&rpar;----列表查询建模

)----列表查询建模 1. 配置条件字段@Conditional 1 2. 配置条件字段显示类型为range----@Conditional(displayType = displayType.ra ...

php扩展开发初探

2015年2月26日 15:44:41 原因: 想用PHP实现一个布隆过滤器算法, 其中要用到位运算, 但是PHP的内置的int类型不给力, 不能支持大整数的位运算 数据一旦太大, 就会变为浮点数表示 ...

CSS语法与用法小字典

前言:这是上学时期对CSS学习的整理,一直没见过光,由于不是专门做前端开发的,难免写不到重点,但对于看懂CSS,和掌握一些基本的用法,熟悉里面的门路还是大有裨益的.由于是从word中贴过来的,排版和格 ...

HDU 5074 Luck Competition (暴力,概率)

题意:有 n 个人参加比赛,给出n-1个人的成绩,然后要选出一个幸运的人,先把所有的分数求平均数,然后再*2/3,那个不大于这个数,且最接近的数,就是最幸运的, 让你设置最后一个人的分,使他是最幸运的 ...

QListWidget方式显示缩略图

最近在工作中经常遇到了一个问题就是把把文件夹中的图片全部以缩略图的形式显示出来,刚开始的时候一头雾水,不知道怎么办,经过在网上查资料,发现QListWidget控件可以实现图片的缩略图显示,但是不知道 ...

使用BBED恢复数据文件头

转载请注明出处:http://blog.csdn.net/guoyjoe/article/details/31018075 @@@@@@@利用BBED模拟损坏5文件1号块(文件头) BBED> ...

mvc中怎么读取htm的文件

@Html.Raw(File.ReadAllText(Server.MapPath("/Include/head01.htm")))

Java并发编程 Volatile关键字解析

volatile关键字的两层语义 一旦一个共享变量(类的成员变量.类的静态成员变量)被volatile修饰之后,那么就具备了两层语义: 1)保证了不同线程对这个变量进行操作时的可见性,即一个线程修改了 ...

MAC使用小技巧之用好mac电脑&quest;的10个必知的小技巧&excl;

很多朋友是不是都有这样的困惑,刚接手Mac电脑,无论是笔记本亦或是台式机,很是不方便,因为windows系统那种习惯已经先入为主了,今天就给大家普及一些小技巧. 当你看到这篇文章,不管你有没有mac电 ...

python爬虫有多少种方式_python爬虫-----Python访问http的几种方式相关推荐

  1. python爬虫爬取图片代码_Python爬虫入门:批量爬取网上图片的两种简单实现方式——基于urllib与requests...

    Python到底多强大,绝对超乎菜鸟们(当然也包括我了)的想象.近期我接触到了爬虫,被小小地震撼一下.总体的感觉就两个词--"强大"和"有趣".今天就跟大家分享 ...

  2. python爬虫快速下载图片_Python爬虫入门:批量爬取网上图片的两种简单实现方式——基于urllib与requests...

    Python到底多强大,绝对超乎菜鸟们(当然也包括我了)的想象.近期我接触到了爬虫,被小小地震撼一下.总体的感觉就两个词--"强大"和"有趣".今天就跟大家分享 ...

  3. python爬虫十二种方法_Python爬虫的N种姿势

    问题的由来 前几天,在微信公众号(Python爬虫及算法)上有个人问了笔者一个问题,如何利用爬虫来实现如下的需求,需要爬取的网页如下(网址为:https://www.wikidata.org/w/in ...

  4. python高阶面试题_Python 爬虫面试题 170 道:2019 版

    通过本场 Chat,你将获得如下知识点:掌握 Python 的基础语法 语法常见的 Python 应用场景 掌握 Python 闭包的使用以及装饰器的使用 生成器和迭代器的使用 常见的设计模式的使用 ...

  5. python什么时候用框架_python爬虫-什么时候选择selenium框架框架?

    不知不觉已经从事Python编程开发5年了,Python刚开始其实不是很起眼,但是随着大数据越来越活,现在Python也越来越火了,但是目前我主要从事的Python工作还是以数据挖掘.数据爬虫技术深度 ...

  6. python爬虫什么结构好_python爬虫入门:爬虫基础了解一下 !! 盘它

    1.什么是爬虫 爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来.想抓取什么?这个由你来控制它咯. ...

  7. python在线翻译小程序_Python爬虫学习之翻译小程序

    本次博客分享的内容为基于有道在线翻译实现一个实时翻译小程序,本次任务是参考小甲鱼的书<零基础入门学习Python>完成的,书中代码对于当前的有道词典并不适用,使用后无法实现翻译功能,在网上 ...

  8. python手机壁纸超清_Python爬虫-王者荣耀高清壁纸下载

    绪论 网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.python是一种跨平台的计算机程序设计语言.是一种 ...

  9. python爬虫常见报错_Python爬虫系列之什么是爬虫

    时间过的总是那么快,特别是对于一个有拖延症的人来说,例如我...早就想出一个关于爬虫的系列教程,但总是被自己的拖延症和一系列的杂碎事情打断.最近终于将自己的所有事情以及自己最真实的想法捋顺了,所以决定 ...

最新文章

  1. java se 7u67_Linux下安装jdk-7u67-linux-x64.rpm
  2. JAVA进阶教学之(集合)
  3. 再提“鸿蒙”,任正非说这是为物联网而生;硅谷公司年薪报告出炉,谷歌年薪居榜首;苹果CEO库克接班人浮出水面,苹果高层或大换血?...
  4. 数据结构排序系列详解之七 归并排序
  5. 【操作系统/OS笔记05】非连续内存分配:分段、分页、页表
  6. 改 3 行代码不应该花一整天的时间
  7. python画散点图、折线图
  8. c语言常量10进制,C语言常量
  9. FPGA基础入门篇(三) 程序的固化和下载
  10. thinkpadt410接口介绍_【ThinkPadT410s(2912BR7)评测】丰富接口满足日常所需-中关村在线...
  11. Minecraft Mod 开发:2-Hello, Minecraft Mod World!
  12. 01百思不得其姐基本配置
  13. 自己动手设计一个简单的HTML网页
  14. 2021.11.10 - 145.提莫攻击
  15. 市场调研很难做?这些软件帮你理清思绪
  16. 淘宝商品SKU接口、desc信息、淘宝商品详情API
  17. 简述python程序的书写规范_简明的 Python 编程规范
  18. 5.PCIe协议分析3-PCIe TLP包详解1
  19. 什么是物联网?物联网面临哪些挑战?
  20. vue全家桶+Echarts+百度地图,搭建数据可视化系统(项目)

热门文章

  1. 基于微信小程序的选课系统的设计与实现源码
  2. [深度学习]Part1 Python学习进阶Ch24图像处理OpenCV(24.1~24.13)——【DeepBlue学习笔记】
  3. 关于耳机与电脑连接断断续续问题的解决办法
  4. Ubuntu 下大文件夹分卷压缩
  5. CF545C Woodcutters
  6. MySQL数据库与登录注册
  7. 在CygWin中设置proxy
  8. TOEFL wordlist 6
  9. java hevc和heif_HEVC和HEIF有哪些区别 HEVC和HEIF将兼容哪些设备
  10. Redis(2) redis-cli 客户端操作Redis - 常用命令大全