python爬虫提取教学_python爬虫的基本抓取
1、创建一个爬虫项目
在项目中新建middlewares.py文件(./项目名/middlewares.py)
2、使用代理服务器
采集大量数据时,最好使用代理。防止IP被封,下载次数受限等。
# 代理服务器(产品官网
www.16yun.cn)
proxyHost =
"t.16yun.cn"
proxyPort =
"31111"
# 代理验证信息
proxyUser =
"username"
proxyPass =
"password"
proxyMeta =
"http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
"host" : proxyHost,
"port" : proxyPort,
"user" : proxyUser,
"pass" : proxyPass,
}
# 设置
http和https访问都是用HTTP代理
proxies =
{
"http" : proxyMeta,
"https" : proxyMeta,
}
3、解决爬虫登陆
表单登陆:这种情况属于post请求,即先向服务器发送表单数据,服务器再将返回的cookie存入本地。
import requests
data = {'data1':'XXXXX', 'data2':'XXXXX'}
response = requests.post(url=url, data=data)
使用cookie登陆:
使用cookie登陆,服务器会认为你是一个已登陆的用户,所以就会返回给你一个已登陆的内容。因此,需要验证码的情况可以使用带验证码登陆的cookie解决。
# 设置cookie
cookie_dict =
{"JSESSION":"123456789"}
cookies =
requests.utils.cookiejar_from_dict(cookie_dict, cookiejar=None,
overwrite=True)
s.cookies =
cookies
for i in
range(3):
for url in targetUrlList:
r =
s.get(url, proxies=proxies)
r.text
4、模拟真实用户
有些网站会检查你是不是真的浏览器访问,还是机器自动访问的。这种情况,加上User-Agent,表明你是浏览器访问即可。有时还会检查是否带Referer信息还会检查你的Referer是否合法,一般再加上Referer。
User-Agent可以用亿牛云提供给的真实库,Referer的来源可以伪装成百度搜索来的。
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0;
WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.1276.73
Safari/537.36',
'Referer':'https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=1&tn=baidu&wd=nike'}
response = requests.get(url=url,
headers=headers)
python爬虫提取教学_python爬虫的基本抓取相关推荐
- python 正则表达式提取数据_Python爬虫教程-19-数据提取-正则表达式(re)
本篇主页内容:match的基本使用,search的基本使用,findall,finditer的基本使用,匹配中文,贪婪与非贪婪模式 Python爬虫教程-19-数据提取-正则表达式(re) 正则表达式 ...
- python爬虫提取人名_python爬虫—爬取英文名以及正则表达式的介绍
python爬虫-爬取英文名以及正则表达式的介绍 爬取英文名: 一. 爬虫模块详细设计 (1)整体思路 对于本次爬取英文名数据的爬虫实现,我的思路是先将A-Z所有英文名的连接爬取出来,保存在一个csv ...
- python soup提取叶子标签_python3用BeautifulSoup抓取div标签
#-*- coding:utf-8 -*-#python 2.7#XiaoDeng#http://tieba.baidu.com/p/2460150866#标签操作 from bs4 importBe ...
- python爬虫的用途_python爬虫用途
广告关闭 腾讯云11.11云上盛惠 ,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高返5000元! 专业点来说就是应用多台机器同时实现爬虫任务,这多台机器上的爬虫,就是称作分布式爬 ...
- python爬虫框架教程_Python爬虫实战(十二):爬虫框架Scrapy的第一个爬虫示例入门教程...
本文主要向大家介绍了Python爬虫实战的爬虫框架Scrapy的第一个爬虫示例入门教程,通过具体的内容向大家展现,希望对大家学习Python爬虫实战有所帮助. 我们使用dmoz.org这个网站来作为小 ...
- python编程理论篇_Python爬虫入门实战之猫眼电影数据抓取(理论篇)
前言 本文可能篇幅较长,但是绝对干货满满,提供了大量的学习资源和途径.达到让读者独立自主的编写基础网络爬虫的目标,这也是本文的主旨,输出有价值能够真正帮助到读者的知识,即授人以鱼不如授人以渔,让我们直 ...
- python爬虫入门实战争胜法_Python爬虫入门实战之猫眼电影数据抓取(理论篇)
前言 本文可能篇幅较长,但是绝对干货满满,提供了大量的学习资源和途径.达到让读者独立自主的编写基础网络爬虫的目标,这也是本文的主旨,输出有价值能够真正帮助到读者的知识,即授人以鱼不如授人以渔,让我们直 ...
- python爬虫怎么爬同一个网站的多页数据-如何用Python爬数据?(一)网页抓取
如何用Python爬数据?(一)网页抓取 你期待已久的Python网络数据爬虫教程来了.本文为你演示如何从网页里找到感兴趣的链接和说明文字,抓取并存储到Excel. 需求 我在公众号后台,经常可以收到 ...
- python初学者爬虫教程(二)动态网页抓取
python爬虫教程(二)动态网页抓取 解析真实地址抓取 通过selenium 模拟浏览器抓取 selenium 安装与测试 selenium爬取一条评论 selenium获取文章的所有评论 sele ...
最新文章
- SpringBoot + Shiro 缓存记住密码
- 使用saltstack编译安装nginx
- python调用摄像头人脸识别代码_OpenCV3-Python人脸识别方法—人脸识别与标记
- linux命令echo的实现,Linux echo命令的使用及三种实现方式
- Android下将图片载入到内存中
- Super Saiyan 寻找创业合伙人
- 【POJ3415】 Common Substrings (SA+单调栈)
- c语言文本编辑器源代码_程序员专属的10个免费编程文本编辑器,哪个是你的最爱?...
- HDU 5634 Rikka with Phi
- MFC开发 常见控件库
- 十大验证码解决方案服务比较
- 柔顺控制 - 技术发展综述
- 基础实验4-2.7 修理牧场
- Gunicorn-配置参数
- 微信企业向个人账户提现
- 【Python计量】两期面板数据分析
- python的random()函数用法_python中的随机函数random的用法示例
- 阿里云如何提交工单呼叫人工帮助技术支持的方法
- 去掉Echarts饼状图的引导线
- linux中文入门,Ylmf OS 4.0 - 最适合国人使用和入门学习的中文Linux操作系统 (免费开源)...