python 网页爬虫nike_python爬虫的基本抓取

1、创建一个爬虫项目

在项目中新建middlewares.py文件(./项目名/middlewares.py)

2、使用代理服务器

采集大量数据时，最好使用代理。防止IP被封，下载次数受限等。

# 代理服务器(产品官网 www.16yun.cn)

proxyHost="t.16yun.cn"

proxyPort="31111"

# 代理验证信息

proxyUser="username"

proxyPass="password"

proxyMeta="http://%(user)s:%(pass)s@%(host)s:%(port)s"%{

"host":proxyHost,

"port":proxyPort,

"user":proxyUser,

"pass":proxyPass,

}

# 设置 http和https访问都是用HTTP代理

proxies={

"http":proxyMeta,

"https":proxyMeta,

}

3、解决爬虫登陆

表单登陆：这种情况属于post请求，即先向服务器发送表单数据，服务器再将返回的cookie存入本地。

import requests

data = {‘data1’:’XXXXX’, ‘data2’:’XXXXX’}

response = requests.post(url=url, data=data)

使用cookie登陆：

使用cookie登陆，服务器会认为你是一个已登陆的用户，所以就会返回给你一个已登陆的内容。因此，需要验证码的情况可以使用带验证码登陆的cookie解决。

设置cookiecookie_dict={"JSESSION":"123456789"}

cookies=requests.utils.cookiejar_from_dict(cookie_dict,cookiejar=None,overwrite=True)

s.cookies=cookies

foriinrange(3):

forurlintargetUrlList:

r=s.get(url,proxies=proxies)

printr.text

4、模拟真实用户

有些网站会检查你是不是真的浏览器访问，还是机器自动访问的。这种情况，加上User-Agent，表明你是浏览器访问即可。有时还会检查是否带Referer信息还会检查你的Referer是否合法，一般再加上Referer。

User-Agent可以用亿牛云提供给的真实库，Referer的来源可以伪装成百度搜索来的。

headers = {‘User-Agent’:’Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.1276.73 Safari/537.36’, ‘Referer’:’https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=1&tn=baidu&wd=nike'}

response = requests.get(url=url, headers=headers)

python 网页爬虫nike_python爬虫的基本抓取相关推荐

[Python]爬虫02：用Beautifulsoup抓取的网页中有br标签，返回字符串为None，先用replace去除网页中br再抓内容。
问题:用Beautifulsoup抓取网页,网页中含有br标签,抓取相关的内容结果是None. 试了用字符串的replace函数替换br,还是返回None.试了用re正则替换br,提示返回类型错误. ...
python中国大学排名爬虫写明详细步骤-Python爬虫--2019大学排名数据抓取
Python爬虫--2019大学排名数据抓取准备工作输入:大学排名URL连接输出:大学排名信息屏幕输出所需要用到的库:requests,bs4 思路获取网页信息提取网页中的内容并放到数据结 ...
Python之 - 使用Scrapy建立一个网站抓取器，网站爬取Scrapy爬虫教程
Scrapy是一个用于爬行网站以及在数据挖掘.信息处理和历史档案等大量应用范围内抽取结构化数据的应用程序框架,广泛用于工业. 在本文中我们将建立一个从Hacker News爬取数据的爬虫,并将数据按我 ...
Python网络爬虫，pyautogui与pytesseract抓取新浪微博数据，OCR
Python网络爬虫,pyautogui与pytesseract抓取新浪微博数据,OCR方案用ocr与pyautogui,以及webbrowser实现功能:设计爬虫抓取新浪微博数据,比如,抓取微博用 ...
Python爬虫成长之路：抓取证券之星的股票数据(转）
获取数据是数据分析中必不可少的一部分,而网络爬虫是是获取数据的一个重要渠道之一.鉴于此,我拾起了Python这把利器,开启了网络爬虫之路. 本篇使用的版本为python3.5,意在抓取证券之星上当天所 ...
Python学习笔记——爬虫原理与Requests数据抓取
目录为什么要做网络爬虫? 通用爬虫和聚焦爬虫 HTTP和HTTPS 客户端HTTP请求请求方法 HTTP请求主要分为Get和Post两种方法常用的请求报头 1. Host (主机和端口号) 2. ...
python爬虫教程，带你抓取百度的高清摄影图片
python爬虫教程,带你抓取百度的高清摄影图片源码分享: ''' 在学习过程中有什么不懂得可以加我的 python学习交流扣扣qun,934109170 群里有不错的学习教程.开发工具与电子书籍. ...
iOS—网络实用技术OC篇网络爬虫－使用java语言抓取网络数据
网络爬虫-使用java语言抓取网络数据前提:熟悉java语法(能看懂就行) 准备阶段:从网页中获取html代码实战阶段:将对应的html代码使用java语言解析出来,最后保存到plist文件上一 ...
爬虫的原理和数据抓取
为什么要做爬虫? 都说现在是"大数据时代",那数据从何而来? 企业产生的用户数据:百度指数.阿里指数.TBI腾讯浏览指数.新浪微博指数数据平台购买数据:数据堂.国云数据市场.贵阳 ...
网络爬虫——中国大学排名数据抓取
网络爬虫--中国大学排名数据抓取目标网址中国大学排名网:http://www.zuihaodaxue.com/zuihaodaxuepaiming2019.html 全球有很多份大学排名,这里以上 ...

python 网页爬虫nike_python爬虫的基本抓取

python 网页爬虫nike_python爬虫的基本抓取相关推荐

最新文章

热门文章