Handler处理器 和 自定义Opener

opener是 urllib2.OpenerDirector 的实例,我们之前一直都在使用的urlopen,它是一个特殊的opener(也就是模块帮我们构建好的)。但是基本的urlopen()方法不支持代理IP、cookie等其他的HTTP/HTTPS高级功能。所以要支持这些功能:
1、使用相关的Handler处理器来创建特定功能的处理器对象;
2、然后通过urllib.request.build_opener()方法使用这些处理器对象,创建自定义opener对象;
3、使用自定义的opener对象,调用open()方法发送请求。如果程序里所有的请求都使用自定义的opener,可以使用urllib2.install_opener()将自定义的 opener 对象 定义为 全局opener,表示如果之后凡是调用urlopen,都将使用这个opener(根据自己的需求来选择)

简单的自定义opener()

import urllib
from urllib import request# 构建一个HTTPHandler 处理器对象,支持处理HTTP请求
handler = urllib.request.HTTPHandler()  # http# 构建一个HTTPHandler 处理器对象,支持处理HTTPS请求
# handlers = urllib.request.HTTPSHandler()  # 处理https的处理器# 调用urllib2.build_opener()方法,创建支持处理HTTP请求的opener对象
opener = urllib.request.build_opener(handler)# 构建 Request请求
req = urllib.request.Request("http://www.baidu.com", headers=headers)# 调用自定义opener对象的open()方法,发送request请求
response = opener.open(req)# 获取服务器响应内容
print(response.read())

Cookie

Cookie 是指某些网站服务器为了辨别用户身份和进行会话跟踪,而储存在用户浏览器上的文本文件,Cookie可以保持登录信息到用户下次与服务器的会话。Cookie原理
HTTP是无状态的协议, 为了保持连接状态, 引入了Cookie机制 Cookie是http消息头中的一种属性,包括:
Cookie名字(Name)
Cookie的值(Value)
Cookie的过期时间(Expires/Max-Age)
Cookie作用路径(Path)
Cookie所在域名(Domain),
使用Cookie进行安全连接(Secure)。前两个参数是Cookie应用的必要条件,另外,还包括Cookie大小(Size,不同浏览器对Cookie个数及大小限制是有差异的)。Cookie由变量名和值组成,根据 Netscape公司的规定,Cookie格式如下:
Set-Cookie: NAME=VALUE;Expires=DATE;Path=PATH;Domain=DOMAIN_NAME;SECURE

Cookie应用

Cookies在爬虫方面最典型的应用是判定注册用户是否已经登录网站,用户可能会得到提示,是否在下一次进入此网站时保留用户信息以便简化登录手续。cookielib库 和 HTTPCookieProcessor处理器
在Python处理Cookie,一般是通过cookielib模块和 urllib2模块的HTTPCookieProcessor处理器类一起使用。cookielib模块:主要作用是提供用于存储cookie的对象HTTPCookieProcessor处理器:主要作用是处理这些cookie对象,并构建handler对象。cookielib 库
该模块主要的对象有CookieJar、FileCookieJar、MozillaCookieJar、LWPCookieJar。CookieJar:管理HTTP cookie值、存储HTTP请求生成的cookie、向传出的HTTP请求添加cookie的对象。整个cookie都存储在内存中,对CookieJar实例进行垃圾回收后cookie也将丢失。FileCookieJar (filename,delayload=None,policy=None):从CookieJar派生而来,用来创建FileCookieJar实例,检索cookie信息并将cookie存储到文件中。filename是存储cookie的文件名。delayload为True时支持延迟访问访问文件,即只有在需要时才读取文件或在文件中存储数据。MozillaCookieJar (filename,delayload=None,policy=None):从FileCookieJar派生而来,创建与Mozilla浏览器 cookies.txt兼容的FileCookieJar实例。LWPCookieJar (filename,delayload=None,policy=None):从FileCookieJar派生而来,创建与libwww-perl标准的 Set-Cookie3 文件格式兼容的FileCookieJar实例。其实大多数情况下,我们只用CookieJar(),如果需要和本地文件交互,就用 MozillaCookjar() 或 LWPCookieJar()

Cookie案例:

1.获取Cookie
import urllib.request
from http import cookiejar  # python3
# import cookiejar  # python2# 创建一个对象存储cookie
cookies = cookiejar.LWPCookieJar()
# cookie处理器, 提取cookie
cookie_handler = urllib.request.HTTPCookieProcessor(cookies)
# 创建打开器, 处理cookie
opener = urllib.request.build_opener(cookie_handler)# 使用opener打开url
response = opener.open("http://www.baidu.com/")
# 得到cookies
print(cookies)
  1. 下载cookie
import urllib.request
from http import cookiejarfilename = "baiducookie.txt"  # 用于保存cookie
# 管理cookie的对象
cookies = cookiejar.LWPCookieJar(filename=filename)
# 创建cookie处理器
cookie_handler = urllib.request.HTTPCookieProcessor(cookies)
# 创建打开器
opener = urllib.request.build_opener(cookie_handler)# 添加UA,并打开百度,下载cookie
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36"
}req = urllib.request.Request("http://www.baidu.com", headers=headers)# 打开
response = opener.open(req)# 保存, 忽略错误
cookies.save(ignore_discard=True, ignore_expires=True)
  1. 使用下载的cookie
import urllib.request
from http import cookiejarfilename = "baiducookie.txt"
cookies = cookiejar.LWPCookieJar()# 使用cookie
cookies.load(filename)cookie_handler = urllib.request.HTTPCookieProcessor(cookies)
opener = urllib.request.build_opener(cookie_handler)# 添加UA,并打开百度
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36"
}req = urllib.request.Request("http://www.baidu.com", headers=headers)
response = opener.open(req)
示例: cookie登录qq空间
1,用自己的账号登录qq空间,将登录成功后的cookie拷贝出来
2,将拷贝出来的cookie保存在HTTP头部信息headers中
3,使用headers发送请求
QQ空间: https://user.qzone.qq.com/904552498
练习: 登录人人网
# 人人网登录接口:
url = "http://www.renren.com/ajaxLogin/login?1=1&uniqueTimestamp=2018921035604"
# 参数:
data = {"email": "18566218481","icode": "","origURL": "http://www.renren.com/home","domain": "renren.com","key_id": "1","captcha_type": "web_login","password": "1260ec8f79d73201e2e7aaca932e88465dffe9f59bd7104a9d7c1bac981dad59","rkey": "44fd96c219c593f3c9612360c80310a3","f": "http%3A%2F%2Fwww.renren.com%2F548819077%2Fprofile",
}1, 保存登录成功后的cookie
2, 使用保存的cookie进行登录, 登录后获取个人信息url = "http://www.renren.com/548819077/profile"

##HTTP代理神器Fiddler / Charles青花瓷

Fiddler是一款强大Web调试工具,它能记录所有客户端和服务器的HTTP请求。 Fiddler启动的时候,默认IE的代理设为了127.0.0.1:8888,而其他浏览器是需要手动设置。

请求 (Request) 部分详解

Headers —— 显示客户端发送到服务器的 HTTP 请求的 header,显示为一个分级视图,包含了 Web 客户端信息、Cookie、传输状态等。
Textview —— 显示 POST 请求的 body 部分为文本。
WebForms —— 显示请求的 GET 参数 和 POST body 内容。
HexView —— 用十六进制数据显示请求。
Auth —— 显示响应 header 中的 Proxy-Authorization(代理身份验证) 和 Authorization(授权) 信息.
Raw —— 将整个请求显示为纯文本。
JSON - 显示JSON格式文件。
XML —— 如果请求的 body 是 XML 格式,就是用分级的 XML 树来显示它。

响应 (Response) 部分详解

Transformer —— 显示响应的编码信息。
Headers —— 用分级视图显示响应的 header。
TextView —— 使用文本显示相应的 body。
ImageVies —— 如果请求是图片资源,显示响应的图片。
HexView —— 用十六进制数据显示响应。
WebView —— 响应在 Web 浏览器中的预览效果。
Auth —— 显示响应 header 中的 Proxy-Authorization(代理身份验证) 和 Authorization(授权) 信息。
Caching —— 显示此请求的缓存信息。
Privacy —— 显示此请求的私密 (P3P) 信息。
Raw —— 将整个响应显示为纯文本。
JSON - 显示JSON格式文件。
XML —— 如果响应的 body 是 XML 格式,就是用分级的 XML 树来显示它 。

###ProxyHandler处理器(代理设置)

使用代理IP,这是爬虫/反爬虫的第二大招,通常也是最好用的。很多网站会检测某一段时间某个IP的访问次数(通过流量统计,系统日志等),如果访问次数多的不像正常人,它会禁止这个IP的访问。所以我们可以设置一些代理服务器,每隔一段时间换一个代理IP,就算IP被禁止,依然可以换个IP继续爬取。免费的开放代理获取基本没有成本,我们可以在一些代理网站上收集这些免费代理,测试后如果可以用,就把它收集起来用在爬虫上面。免费短期代理网站举例:(免费代理不稳定,可用率低)西刺免费代理IP快代理免费代理Proxy360代理全网代理IP收费代理:芝麻代理,蘑菇代理,快代理等..import urllib.request
import random# 假设此时有一已经格式化好的ip代理地址proxies
# 可访问西刺代理获取免费代理ip:http://www.xicidaili.com/# ip代理
iplist = ["http://183.159.84.198:18118","http://183.159.92.206:18118","http://119.179.209.43:61234","http://183.159.82.181:18118"
]# ua
UserAngentList=["Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36","Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; Touch; rv:11.0) like Gecko","Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11.0 Mobile/15A372 Safari/604.1","Mozilla/5.0 (Linux; Android 5.0; SM-G900P Build/LRX21T) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Mobile Safari/537.36"
]url = 'https://blog.csdn.net'for i in range(3):headers = { "User-Agent": random.choice(UserAngentList)}proxy = {"http": random.choice(iplist)}try:proxy_handler = urllib.request.ProxyHandler(proxy)opener = urllib.request.build_opener(proxy_handler)req = urllib.request.Request(url, headers=headers)response = opener.open(req)  # 使用代理print(response.code)except:print('失败')else:print('成功')
使用西刺代理客户端:
安装ccproxy代理
设置禁止外部用户访问: 设置 -> 高级 -> 网络 -> 禁止局域网外用户,取消勾选import urllib.request
import random# 使用西刺代理
# 无密码
proxy = {"http": "http://172.20.10.3:808"}# 有密码(需要在 西刺代理软件中添加账号和密码 )
proxy = {"http": "http://user1:123456@172.20.10.3:808"}

HTTP响应状态码参考

1xx:信息100 Continue服务器仅接收到部分请求,但是一旦服务器并没有拒绝该请求,客户端应该继续发送其余的请求。
101 Switching Protocols服务器转换协议:服务器将遵从客户的请求转换到另外一种协议。2xx:成功200 OK请求成功(其后是对GET和POST请求的应答文档)
201 Created请求被创建完成,同时新的资源被创建。
202 Accepted供处理的请求已被接受,但是处理未完成。
203 Non-authoritative Information文档已经正常地返回,但一些应答头可能不正确,因为使用的是文档的拷贝。
204 No Content没有新文档。浏览器应该继续显示原来的文档。如果用户定期地刷新页面,而Servlet可以确定用户文档足够新,这个状态代码是很有用的。
205 Reset Content没有新文档。但浏览器应该重置它所显示的内容。用来强制浏览器清除表单输入内容。
206 Partial Content客户发送了一个带有Range头的GET请求,服务器完成了它。3xx:重定向300 Multiple Choices多重选择。链接列表。用户可以选择某链接到达目的地。最多允许五个地址。
301 Moved Permanently所请求的页面已经转移至新的url。
302 Moved Temporarily所请求的页面已经临时转移至新的url。
303 See Other所请求的页面可在别的url下被找到。
304 Not Modified未按预期修改文档。客户端有缓冲的文档并发出了一个条件性的请求(一般是提供If-Modified-Since头表示客户只想比指定日期更新的文档)。服务器告诉客户,原来缓冲的文档还可以继续使用。
305 Use Proxy客户请求的文档应该通过Location头所指明的代理服务器提取。
306 Unused此代码被用于前一版本。目前已不再使用,但是代码依然被保留。
307 Temporary Redirect被请求的页面已经临时移至新的url。4xx:客户端错误400 Bad Request服务器未能理解请求。
401 Unauthorized被请求的页面需要用户名和密码。
401.1登录失败。
401.2服务器配置导致登录失败。
401.3由于 ACL 对资源的限制而未获得授权。
401.4筛选器授权失败。
401.5ISAPI/CGI 应用程序授权失败。
401.7访问被 Web 服务器上的 URL 授权策略拒绝。这个错误代码为 IIS 6.0 所专用。
402 Payment Required此代码尚无法使用。
403 Forbidden对被请求页面的访问被禁止。
403.1执行访问被禁止。
403.2读访问被禁止。
403.3写访问被禁止。
403.4要求 SSL。
403.5要求 SSL 128。
403.6IP 地址被拒绝。
403.7要求客户端证书。
403.8站点访问被拒绝。
403.9用户数过多。
403.10配置无效。
403.11密码更改。
403.12拒绝访问映射表。
403.13客户端证书被吊销。
403.14拒绝目录列表。
403.15超出客户端访问许可。
403.16客户端证书不受信任或无效。
403.17客户端证书已过期或尚未生效。
403.18在当前的应用程序池中不能执行所请求的 URL。这个错误代码为 IIS 6.0 所专用。
403.19不能为这个应用程序池中的客户端执行 CGI。这个错误代码为 IIS 6.0 所专用。
403.20Passport 登录失败。这个错误代码为 IIS 6.0 所专用。
404 Not Found服务器无法找到被请求的页面。
404.0没有找到文件或目录。
404.1无法在所请求的端口上访问 Web 站点。
404.2Web 服务扩展锁定策略阻止本请求。
404.3MIME 映射策略阻止本请求。
405 Method Not Allowed请求中指定的方法不被允许。
406 Not Acceptable服务器生成的响应无法被客户端所接受。
407 Proxy Authentication Required用户必须首先使用代理服务器进行验证,这样请求才会被处理。
408 Request Timeout请求超出了服务器的等待时间。
409 Conflict由于冲突,请求无法被完成。
410 Gone被请求的页面不可用。
411 Length Required"Content-Length" 未被定义。如果无此内容,服务器不会接受请求。
412 Precondition Failed请求中的前提条件被服务器评估为失败。
413 Request Entity Too Large由于所请求的实体的太大,服务器不会接受请求。
414 Request-url Too Long由于url太长,服务器不会接受请求。当post请求被转换为带有很长的查询信息的get请求时,就会发生这种情况。
415 Unsupported Media Type由于媒介类型不被支持,服务器不会接受请求。
416 Requested Range Not Satisfiable服务器不能满足客户在请求中指定的Range头。
417 Expectation Failed执行失败。
423锁定的错误。5xx:服务器错误500 Internal Server Error请求未完成。服务器遇到不可预知的情况。
500.12应用程序正忙于在 Web 服务器上重新启动。
500.13Web 服务器太忙。
500.15不允许直接请求 Global.asa。
500.16UNC 授权凭据不正确。这个错误代码为 IIS 6.0 所专用。
500.18URL 授权存储不能打开。这个错误代码为 IIS 6.0 所专用。
500.100内部 ASP 错误。
501 Not Implemented请求未完成。服务器不支持所请求的功能。
502 Bad Gateway请求未完成。服务器从上游服务器收到一个无效的响应。
502.1CGI 应用程序超时。 ·
502.2CGI 应用程序出错。
503 Service Unavailable请求未完成。服务器临时过载或当机。
504 Gateway Timeout网关超时。
505 HTTP Version Not Supported服务器不支持请求中指明的HTTP协议版本

Day02

Requests: 让 HTTP 服务人类

虽然Python的标准库中 urllib.request 模块已经包含了平常我们使用的大多数功能,但是它的 API 使用起来让人感觉不太好,而 Requests 自称 “HTTP for Humans”,说明使用更简洁方便。requests 唯一的一个非转基因的 Python HTTP 库,人类可以安全享用:requests 继承了urllib2的所有特性。Requests支持HTTP连接保持和连接池,支持使用cookie保持会话,支持文件上传,支持自动确定响应内容的编码,支持国际化的 URL 和 POST 数据自动编码。requests 的底层实现其实就是 urllib3
requests 的文档非常完备,中文文档也相当不错
Requests 能完全满足当前网络的需求,支持Python 2.6以上。开源地址:https://github.com/kennethreitz/requests
中文文档 API:http://docs.python-requests.org/zh_CN/latest/index.html

安装方式

利用 pip 安装 或者利用 easy_install 都可以完成安装:
pip install requests或 easy_install requests

Requests使用

GET请求和POST请求

最基本的GET请求

最基本的GET请求可以直接用get方法
response = requests.get("http://www.baidu.com/")也可以这么写
# response = requests.request("get", "http://www.baidu.com/")添加 headers 和 查询参数:如果想添加 headers,可以传入headers参数来增加请求头中的headers信息。如果要将参数放在url中传递,可以利用params参数。
示例:百度搜索
import requests
kw = {'wd':'长城'}headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"
}# params 接收一个字典或者字符串的查询参数,字典类型自动转换为url编码,不需要urlencode()
response = requests.get("http://www.baidu.com/s?", params = kw, headers = headers)# 查看响应内容,response.text 返回的是Unicode格式的数据
print(response.text)# 查看响应内容,response.content返回的字节流数据
print(respones.content)# 查看完整url地址
print(response.url)# 查看响应头部字符编码
print(response.encoding)# 查看响应码
print(response.status_code)使用response.text 时,Requests 会基于 HTTP 响应的文本编码自动解码响应内容,大多数 Unicode 字符集都能被无缝地解码。
使用response.content 时,返回的是服务器响应数据的原始二进制字节流,可以用来保存图片等二进制文件。

基本POST请求(data参数)

1. 最基本的GET请求可以直接用post方法response = requests.post("http://www.baidu.com/", data = data)
2. 传入data数据对于 POST 请求来说,我们一般需要为它增加一些参数。那么最基本的传参方法可以利用data这个参数。
示例:有道翻译
import requests
import jsondef youdaoAPI(kw):url = "http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule"response = requests.post(url, data=kw, headers=header)res = response.content# tgt = json.loads(res)  # json解析tgt = res.json() # 自带json解析print(tgt["translateResult"])if __name__ == '__main__':kw = input("请输入你想翻译的内容:")timet = int(time.time() * 1000)data = {"i": kw,"from": "AUTO","to": "AUTO","smartresult": "dict","client": "fanyideskweb","salt": timet,"sign": "f66461b42fe9edb6d88230788fb33cfb","doctype": "json","version": "2.1","keyfrom": "fanyi.web","action  ": "FY_BY_REALTIME","typoResult ": "false",}youdaoAPI(data)
代理(proxies参数)

如果需要使用代理,你可以通过为任意请求方法提供proxies参数来配置单个请求:

import requests# 根据协议类型,选择不同的代理
proxies = {"http": "http://12.34.56.79:9527","https": "http://12.34.56.79:9527",
}
# 带密码代理
# proxies = {"https": "http://User1:123456@10.3.132.6:808"}response = requests.get("http://www.baidu.com", proxies = proxies)
print(response.text)
web客户端验证

如果是Web客户端验证,需要添加 auth = (账户名, 密码)

import requestsauth=('test', '123456')
response = requests.get('https://api.github.com/user', auth = auth)
print(response.text)

Cookies 和 Session

Cookies

如果一个响应中包含了cookie,那么我们可以利用 cookies参数拿到:

import requestsresponse = requests.get("http://www.baidu.com/")# 返回CookieJar对象:
cookiejar = response.cookies# 将CookieJar转为字典:
cookiedict = requests.utils.dict_from_cookiejar(cookiejar)print(cookiejar)  # <RequestsCookieJar[<Cookie BDORZ=27315 for .baidu.com/>]>
print(cookiedict)  # {'BDORZ': '27315'}

Session

在 requests 里,session对象是一个非常常用的对象,这个对象代表一次用户会话:从客户端浏览器连接服务器开始,到客户端浏览器与服务器断开。会话能让我们在跨请求时候保持某些参数,比如在同一个 Session 实例发出的所有请求之间保持 cookie 。
示例:实现笔趣阁登录
import requestsheaders = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36"
}session = requests.session()  # 保存cookie# 笔趣阁登录
url = "https://www.biquge5200.cc/u/login.htm"
data = {# 用户名: niejeff, 密码: 123456"name": "niejeff","password": "E10ADC3949BA59ABBE56E057F20F883E","autoLogin": "1","autologin": "1"
}# 登录
response = session.post(url, data=data, headers=headers)
print(response.text)
处理HTTPS请求 SSL证书验证
Requests也可以为HTTPS请求验证SSL证书:import requests# 要想检查某个主机的SSL证书,你可以使用 verify 参数(也可以不写)
response = requests.get("https://www.baidu.com/", verify=True)# 忽略验证, 可以省略不写或设置为verify=false
response = requests.get("https://www.baidu.com/")print(response.text)

如果SSL证书验证不通过,或者不信任服务器的安全证书,则会报出SSLError,据说 12306 证书是自己做的:
来测试一下:

import requests
response = requests.get("https://www.12306.cn/mormhweb/")
print(response.text)果然:
SSLError: ("bad handshake: Error([('SSL routines', 'ssl3_get_server_certificate', 'certificate verify failed')],)",)如果我们想跳过 12306 的证书验证,把 verify 设置为 False 就可以正常请求了。
import requests
response = requests.get("https://www.12306.cn/mormhweb/",verify=False)
print response.text

python爬虫-Day02相关推荐

  1. python 爬虫day02

    cookies和session 什么是cookies和session 1.主要解决HTTP协议无连接.无状态的特点,使服务器能够识别用户 2.cookies是保存在客户端的一组识别信息(例如会员卡), ...

  2. python商业爬虫教程_廖雪峰老师的Python商业爬虫课程 Python网络爬虫实战教程 体会不一样的Python爬虫课程...

    廖雪峰老师的Python商业爬虫课程 Python网络爬虫实战教程 体会不一样的Python爬虫课程 1.JPG (53.51 KB, 下载次数: 1) 2019-8-9 08:15 上传 2.JPG ...

  3. 关于Python爬虫原理和数据抓取1.1

    为什么要做爬虫? 首先请问:都说现在是"大数据时代",那数据从何而来? 企业产生的用户数据:百度指数.阿里指数.TBI腾讯浏览指数.新浪微博指数 数据平台购买数据:数据堂.国云数据 ...

  4. python爬虫之Scrapy框架的post请求和核心组件的工作 流程

    python爬虫之Scrapy框架的post请求和核心组件的工作 流程 一 Scrapy的post请求的实现 在爬虫文件中的爬虫类继承了Spider父类中的start_urls,该方法就可以对star ...

  5. python爬虫抓取信息_python爬虫爬取网上药品信息并且存入数据库

    我最近在学习python爬虫,然后正好碰上数据库课设,我就选了一个连锁药店的,所以就把网上的药品信息爬取了下来. 1,首先分析网页 2,我想要的是评论数比较多的,毕竟好东西大概是买的人多才好.然后你会 ...

  6. python爬虫案例_推荐上百个github上Python爬虫案例

    现在学生都对爬虫感兴趣,这里发现一些好的github开源的代码,分享给各位 1.awesome-spider 该网站提供了近上百个爬虫案例代码,这是ID为facert的一个知乎工程师开源的,star6 ...

  7. Python培训分享:python爬虫可以用来做什么?

    爬虫又被称为网络蜘蛛,它可以抓取我们页面的一些相关数据,近几年Python技术的到来,让我们对爬虫有了一个新的认知,那就是Python爬虫,下面我们就来看看python爬虫可以用来做什么? Pytho ...

  8. 玩转 Python 爬虫,需要先知道这些

    作者 | 叶庭云 来源 | 修炼Python 头图 | 下载于视觉中国 爬虫基本原理 1. URI 和 URL URI 的全称为 Uniform Resource Identifier,即统一资源标志 ...

  9. 买不到口罩怎么办?Python爬虫帮你时刻盯着自动下单!| 原力计划

    作者 | 菜园子哇 编辑 | 唐小引 来源 | CSDN 博客 马上上班了,回来的路上,上班地铁上都是非常急需口罩的. 目前也非常难买到正品.发货快的口罩,许多药店都售完了. 并且,淘宝上一些新店口罩 ...

  10. 一个月入门Python爬虫,轻松爬取大规模数据

    如果你仔细观察,就不难发现,懂爬虫.学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方面,像 Python这样一个月入门Python爬虫,轻松爬的编程语言提供越来越多的优秀工具,让爬虫 ...

最新文章

  1. 1052 Linked List Sorting
  2. 国办支持乡村医生建设 医疗信息化提速
  3. 携程在线风控系统架构
  4. python filename 以txt截尾_What?PPT里也能运行Python?
  5. 64位Win7安装Oracle12C临时位置权限错误解决方案
  6. Linux云服务器安装JDK1.8
  7. vs2005的webbrowser控件如何接收鼠标事件
  8. (转)全文检索技术学习(三)——Lucene支持中文分词
  9. DataSet的Join操作
  10. ubuntu 18.04桌面版启动错误: Unable to mount root fs on unknown-block(0,0)
  11. 清华大学操作系统OS学习(四)——物理内存管理:连续内存分配
  12. 51单片机驱动数码管显示
  13. 微信设置字体后微信浏览器页面字体也会跟着改变的解决办法
  14. 人工智能NLP项目_深度学习和神经网络(1)
  15. MSP430F415IRTDR
  16. 使用labelme遇到path is on mount 'C:', start on mount 'D:'
  17. 我的过错不值得原谅,麻木的岁月我还要背负多久。
  18. [electron]Electron安装报错connect ETIMEDOUT
  19. python批量下载邮件附件
  20. Community Day - Let's re:Invent re:Invent 技术创新盘点

热门文章

  1. jQuery 选择器
  2. 2014年东北四省赛总结
  3. CFS三层内网环境 渗透流程
  4. CSDN浏览器助手又双叒叕更新啦,来体验下都更新了什么
  5. YARN-ResourceManager重启
  6. 打开chm文件提示“已取消到该网页的导航”
  7. java normalize_node.js中的path.normalize方法使用说明
  8. php normalize,normalize函数怎么使用
  9. linux删除文件的前n行
  10. 我的世界java版execute指令_命令/execute