1、创建一个爬虫项目

在项目中新建middlewares.py文件(./项目名/middlewares.py)

2、使用代理服务器

采集大量数据时,最好使用代理。防止IP被封,下载次数受限等。

# 代理服务器(产品官网

www.16yun.cn)

proxyHost =

"t.16yun.cn"

proxyPort =

"31111"

# 代理验证信息

proxyUser =

"username"

proxyPass =

"password"

proxyMeta =

"http://%(user)s:%(pass)s@%(host)s:%(port)s" % {

"host" : proxyHost,

"port" : proxyPort,

"user" : proxyUser,

"pass" : proxyPass,

}

# 设置

http和https访问都是用HTTP代理

proxies =

{

"http"  : proxyMeta,

"https" : proxyMeta,

}

3、解决爬虫登陆

表单登陆:这种情况属于post请求,即先向服务器发送表单数据,服务器再将返回的cookie存入本地。

import requests

data = {'data1':'XXXXX', 'data2':'XXXXX'}

response = requests.post(url=url, data=data)

使用cookie登陆:

使用cookie登陆,服务器会认为你是一个已登陆的用户,所以就会返回给你一个已登陆的内容。因此,需要验证码的情况可以使用带验证码登陆的cookie解决。

# 设置cookie

cookie_dict =

{"JSESSION":"123456789"}

cookies =

requests.utils.cookiejar_from_dict(cookie_dict, cookiejar=None,

overwrite=True)

s.cookies =

cookies

for i in

range(3):

for url in targetUrlList:

r =

s.get(url, proxies=proxies)

print

r.text

4、模拟真实用户

有些网站会检查你是不是真的浏览器访问,还是机器自动访问的。这种情况,加上User-Agent,表明你是浏览器访问即可。有时还会检查是否带Referer信息还会检查你的Referer是否合法,一般再加上Referer。

User-Agent可以用亿牛云提供给的真实库,Referer的来源可以伪装成百度搜索来的。

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0;

WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.1276.73

Safari/537.36',

'Referer':'https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=1&tn=baidu&wd=nike'}

response = requests.get(url=url,

headers=headers)

python爬虫提取教学_python爬虫的基本抓取相关推荐

  1. python 正则表达式提取数据_Python爬虫教程-19-数据提取-正则表达式(re)

    本篇主页内容:match的基本使用,search的基本使用,findall,finditer的基本使用,匹配中文,贪婪与非贪婪模式 Python爬虫教程-19-数据提取-正则表达式(re) 正则表达式 ...

  2. python爬虫提取人名_python爬虫—爬取英文名以及正则表达式的介绍

    python爬虫-爬取英文名以及正则表达式的介绍 爬取英文名: 一. 爬虫模块详细设计 (1)整体思路 对于本次爬取英文名数据的爬虫实现,我的思路是先将A-Z所有英文名的连接爬取出来,保存在一个csv ...

  3. python soup提取叶子标签_python3用BeautifulSoup抓取div标签

    #-*- coding:utf-8 -*-#python 2.7#XiaoDeng#http://tieba.baidu.com/p/2460150866#标签操作 from bs4 importBe ...

  4. python爬虫的用途_python爬虫用途

    广告关闭 腾讯云11.11云上盛惠 ,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高返5000元! 专业点来说就是应用多台机器同时实现爬虫任务,这多台机器上的爬虫,就是称作分布式爬 ...

  5. python爬虫框架教程_Python爬虫实战(十二):爬虫框架Scrapy的第一个爬虫示例入门教程...

    本文主要向大家介绍了Python爬虫实战的爬虫框架Scrapy的第一个爬虫示例入门教程,通过具体的内容向大家展现,希望对大家学习Python爬虫实战有所帮助. 我们使用dmoz.org这个网站来作为小 ...

  6. python编程理论篇_Python爬虫入门实战之猫眼电影数据抓取(理论篇)

    前言 本文可能篇幅较长,但是绝对干货满满,提供了大量的学习资源和途径.达到让读者独立自主的编写基础网络爬虫的目标,这也是本文的主旨,输出有价值能够真正帮助到读者的知识,即授人以鱼不如授人以渔,让我们直 ...

  7. python爬虫入门实战争胜法_Python爬虫入门实战之猫眼电影数据抓取(理论篇)

    前言 本文可能篇幅较长,但是绝对干货满满,提供了大量的学习资源和途径.达到让读者独立自主的编写基础网络爬虫的目标,这也是本文的主旨,输出有价值能够真正帮助到读者的知识,即授人以鱼不如授人以渔,让我们直 ...

  8. python爬虫怎么爬同一个网站的多页数据-如何用Python爬数据?(一)网页抓取

    如何用Python爬数据?(一)网页抓取 你期待已久的Python网络数据爬虫教程来了.本文为你演示如何从网页里找到感兴趣的链接和说明文字,抓取并存储到Excel. 需求 我在公众号后台,经常可以收到 ...

  9. python初学者爬虫教程(二)动态网页抓取

    python爬虫教程(二)动态网页抓取 解析真实地址抓取 通过selenium 模拟浏览器抓取 selenium 安装与测试 selenium爬取一条评论 selenium获取文章的所有评论 sele ...

最新文章

  1. SpringBoot + Shiro 缓存记住密码
  2. 使用saltstack编译安装nginx
  3. python调用摄像头人脸识别代码_OpenCV3-Python人脸识别方法—人脸识别与标记
  4. linux命令echo的实现,Linux echo命令的使用及三种实现方式
  5. Android下将图片载入到内存中
  6. Super Saiyan 寻找创业合伙人
  7. 【POJ3415】 Common Substrings (SA+单调栈)
  8. c语言文本编辑器源代码_程序员专属的10个免费编程文本编辑器,哪个是你的最爱?...
  9. HDU 5634 Rikka with Phi
  10. MFC开发 常见控件库
  11. 十大验证码解决方案服务比较
  12. 柔顺控制 - 技术发展综述
  13. 基础实验4-2.7 修理牧场
  14. Gunicorn-配置参数
  15. 微信企业向个人账户提现
  16. 【Python计量】两期面板数据分析
  17. python的random()函数用法_python中的随机函数random的用法示例
  18. 阿里云如何提交工单呼叫人工帮助技术支持的方法
  19. 去掉Echarts饼状图的引导线
  20. linux中文入门,Ylmf OS 4.0 - 最适合国人使用和入门学习的中文Linux操作系统 (免费开源)...

热门文章

  1. WCF4.0进阶系列--第四章 保护企业内部的WCF服务(转)
  2. Java基础知识回顾
  3. Ril分析五——ril学习总结
  4. Python源码剖析学习二
  5. SQL Server 2008 R2中文版快速安装
  6. 聊聊技术、利基市场、激情与梦想
  7. SQL Server 数据库崩溃后的恢复之法
  8. elastic ik分词搜索_php环境下使用elasticSearch+ik分词器进行全文搜索
  9. linux系统下如何github,Linux系统下如何安装和使用GitHub
  10. java 硬件交互_Java关键字之native