爬虫基础（案例：爬取17K小说个人书架信息）

爬取思路：
1、进入17K官网，（先不要登录），然后点击书架，这时会弹出登录页面。
2、进行抓包，然后输入登录的账号密码（请勿使用第三方登录）
3、登录成功后，找到名称为login的包，这样就得到了登录的URL，Form data为请求时需要提交的信息。
4、使用post请求该URL，提交的信息data为Form data中的信息。
5、登录成功后，可以获得该URL的cookie信息，找到其中的accessToken
6、找到书架书籍所在的链接，使用get请求，请求头中要带有刚刚获取的accessToken
7、这样就得到了包含信息的json数据。

import requests
import json
#获取登录链接，登录网站的同时进行抓包，在Network中的XHR中可以找到，
login_url = "https://passport.17k.com/ck/user/login"
headers = {#User-Agent可以随便在一个网址上找一个"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36"}
#Post请求需要传入数据，待传入的数据可以在Headers中的Form Data中找到
data = {"loginName": "15565827813","password": "zhao15565827813"}login_res =requests.post(login_url, headers = headers,data = data)#看一下状态码，如果是200，说明访问成功
print(login_res.status_code)#访问成功后，我们需要找cookie中的accessToken,
#该信息保存在headers中,可以打印查看，然后找到 accessToken
se_res = login_res.headers['Set-Cookie']
se_res_split = se_res.split(";")
cookie = ""
for i in se_res_split:if("accessToken" in i):cookie = i.split(",")[-1].strip()break
#至此我们已经得到了accessToken，把它命名为cookie并传给访问书架的函数
# print(cookie)def visit_book(ck):#发现书架书籍信息都在该URL中,请求方式为get,可以直接访问url = "https://user.17k.com/ck/author/shelf?page=1&appKey=2406394919"headers = {#User-Agent可以随便在一个网址上找一个"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36","cookie":ck}res = requests.get(url,headers = headers)print(res.text)
#这样就访问成功了，如果不添加cookie，无法访问，因为没有身份信息
visit_book(ck = cookie)

爬虫基础（案例：爬取17K小说个人书架信息）相关推荐

python爬虫简单实例-爬取17K小说网小说
什么是网络爬虫? 网络爬虫(Web Spider),又被称为网页蜘蛛,是一种按照一定的规则,自动地抓取网站信息的程序或者脚本. 爬虫流程先由urllib的request打开Url得到网页html文档 ...
python爬虫怎么爬小说_python从爬虫基础到爬取网络小说实例
一.爬虫基础 1.1 requests类 1.1.1 request的7个方法 requests.request() 实例化一个对象,拥有以下方法 requests.get(url, *args) r ...
Python爬虫入门 | 5 爬取小猪短租租房信息
小猪短租是一个租房网站,上面有很多优质的民宿出租信息,下面我们以成都地区的租房信息为例,来尝试爬取这些数据. 小猪短租(成都)页面:http://cd.xiaozhu.com/ 1.爬取租房标题 ...
python抓取文献关键信息,python爬虫——使用selenium爬取知网文献相关信息
python爬虫--使用selenium爬取知网文献相关信息写在前面: 本文章限于交流讨论,请不要使用文章的代码去攻击别人的服务器如侵权联系作者删除文中的错误已经修改过来了,谢谢各位爬友指出错误 ...
爬取17k小说网的小说
最近在学习python爬虫,所以写了一个17K小说网爬取的脚本来做练习,分享一下 1.爬取的网页为http://all.17k.com/lib/book.html 小说分类页面的免费区的小说,付费vi ...
Python爬虫期末作业 | 爬取起点小说网作者和书名，并以Excel形式存储
使用Python爬虫技术爬取起点小说网作者及书名,并且以xlsx形式保存前言随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容. 一. ...
【Python爬虫实战】爬取某小说网排行榜上的图书封面图片
文章目录一.Python爬虫必备两大模块 1.1 requests模块用于发送http请求 1.2 bs4(beautifulsoup)模块用于解析html文本二.Python爬虫项目演示 2.1 ...
python爬虫爬取起点小说_python3爬虫-使用requests爬取起点小说
import requests from lxml import etree from urllib import parse import os, time def get_page_html(ur ...
Python疫起学习·万丈高楼平地起Day09（精简版|浓缩就是精华）爬虫知识附上案例爬取北京地区短租房信息、爬取酷狗TOP500的数据以及爬取网易云音乐热歌榜单
爬虫知识 Requests库部分运行结果如下: 有时爬虫需要加入请求头来伪装成浏览器,以便更好地抓取数据.在Chrome浏览器中按F12键打开Chrome开发者工具,刷新网页后找到User-Agen ...

爬虫基础（案例：爬取17K小说个人书架信息）

爬虫基础（案例：爬取17K小说个人书架信息）相关推荐

最新文章

热门文章