爬取思路:
1、进入17K官网,(先不要登录),然后点击书架,这时会弹出登录页面。
2、进行抓包,然后输入登录的账号密码(请勿使用第三方登录)
3、登录成功后,找到名称为login的包,这样就得到了登录的URL,Form data为请求时需要提交的信息。
4、使用post请求该URL,提交的信息data为Form data中的信息。
5、登录成功后,可以获得该URL的cookie信息,找到其中的accessToken
6、找到书架书籍所在的链接,使用get请求,请求头中要带有刚刚获取的accessToken
7、这样就得到了包含信息的json数据。

import requests
import json
#获取登录链接,登录网站的同时进行抓包,在Network中的XHR中可以找到,
login_url = "https://passport.17k.com/ck/user/login"
headers = {#User-Agent可以随便在一个网址上找一个"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36"}
#Post请求需要传入数据,待传入的数据可以在Headers中的Form Data中找到
data = {"loginName": "15565827813","password": "zhao15565827813"}login_res =requests.post(login_url, headers = headers,data = data)#看一下状态码,如果是200,说明访问成功
print(login_res.status_code)#访问成功后,我们需要找cookie中的accessToken,
#该信息保存在headers中,可以打印查看,然后找到 accessToken
se_res = login_res.headers['Set-Cookie']
se_res_split = se_res.split(";")
cookie = ""
for i in se_res_split:if("accessToken" in i):cookie = i.split(",")[-1].strip()break
#至此我们已经得到了accessToken,把它命名为cookie并传给访问书架的函数
# print(cookie)def visit_book(ck):#发现书架书籍信息都在该URL中,请求方式为get,可以直接访问url = "https://user.17k.com/ck/author/shelf?page=1&appKey=2406394919"headers = {#User-Agent可以随便在一个网址上找一个"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36","cookie":ck}res = requests.get(url,headers = headers)print(res.text)
#这样就访问成功了,如果不添加cookie,无法访问,因为没有身份信息
visit_book(ck = cookie)

爬虫基础(案例:爬取17K小说个人书架信息)相关推荐

  1. python爬虫简单实例-爬取17K小说网小说

    什么是网络爬虫? 网络爬虫(Web Spider),又被称为网页蜘蛛,是一种按照一定的规则,自动地抓取网站信息的程序或者脚本. 爬虫流程 先由urllib的request打开Url得到网页html文档 ...

  2. python爬虫怎么爬小说_python从爬虫基础到爬取网络小说实例

    一.爬虫基础 1.1 requests类 1.1.1 request的7个方法 requests.request() 实例化一个对象,拥有以下方法 requests.get(url, *args) r ...

  3. Python爬虫入门 | 5 爬取小猪短租租房信息

    小猪短租是一个租房网站,上面有很多优质的民宿出租信息,下面我们以成都地区的租房信息为例,来尝试爬取这些数据. 小猪短租(成都)页面:http://cd.xiaozhu.com/   1.爬取租房标题 ...

  4. python抓取文献关键信息,python爬虫——使用selenium爬取知网文献相关信息

    python爬虫--使用selenium爬取知网文献相关信息 写在前面: 本文章限于交流讨论,请不要使用文章的代码去攻击别人的服务器 如侵权联系作者删除 文中的错误已经修改过来了,谢谢各位爬友指出错误 ...

  5. 爬取17k小说网的小说

    最近在学习python爬虫,所以写了一个17K小说网爬取的脚本来做练习,分享一下 1.爬取的网页为http://all.17k.com/lib/book.html 小说分类页面的免费区的小说,付费vi ...

  6. Python爬虫期末作业 | 爬取起点小说网作者和书名,并以Excel形式存储

    使用Python爬虫技术爬取起点小说网作者及书名,并且以xlsx形式保存 前言 随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容. 一. ...

  7. 【Python爬虫实战】爬取某小说网排行榜上的图书封面图片

    文章目录 一.Python爬虫必备两大模块 1.1 requests模块用于发送http请求 1.2 bs4(beautifulsoup)模块用于解析html文本 二.Python爬虫项目演示 2.1 ...

  8. python爬虫爬取起点小说_python3爬虫-使用requests爬取起点小说

    import requests from lxml import etree from urllib import parse import os, time def get_page_html(ur ...

  9. Python疫起学习·万丈高楼平地起Day09(精简版|浓缩就是精华)爬虫知识附上案例爬取北京地区短租房信息、爬取酷狗TOP500的数据以及爬取网易云音乐热歌榜单

    爬虫知识 Requests库 部分运行结果如下: 有时爬虫需要加入请求头来伪装成浏览器,以便更好地抓取数据.在Chrome浏览器中按F12键打开Chrome开发者工具,刷新网页后找到User-Agen ...

最新文章

  1. curl命令具体解释
  2. zabbix部署onealert云警告平台
  3. 「技术综述」一文道尽传统图像降噪方法
  4. quota在oracle,Oracle的表空间quota详解
  5. 【090723】动态调用webservice
  6. java订单编号生产代码,java 订单编号 生成器,可用于生产环境
  7. OpenCV GrabCut分割的实例(附完整代码)
  8. C#中的矩阵乘法——对图像应用变换
  9. 报告 | 73%的“落伍”开发者说:明年要学AI技术
  10. 理解 Generator 的执行
  11. VS2005 工程在win7下使用管理员权限运行
  12. 小码王python_小码王分享给Python初学者的几个技巧
  13. 货币金额大写格式(银行需要)
  14. 【demo记录】百度地图获取当前所在城市
  15. win10解决安装时的2503 2502问题
  16. 工业4.0 资产管理壳学习笔记(1)
  17. 一个人的格局,往往决定着一生【看世间繁华,品百味人生】
  18. CDH6.3 failure: repodata/repomd.xml from cloudera-manager: [Errno 256] No more mirr
  19. 面向切面编程的简单应用
  20. 生活哲理故事系列之五(转贴)

热门文章

  1. 【Python】绘制Barball杠铃图及导出其边信息和节点标签
  2. 李威克挑战N小黑,虚拟人真实自然天花板之争的背后
  3. MySql 系列三:事务
  4. 超链接(网页设计实验)
  5. 【飞郁2022新课程】32 - xdbg的认识与设置
  6. 交流电量信号隔离变送器
  7. 师兄新作!Cell Stem Cell背靠背 | 吴军等建立了一种全新的全能干细胞
  8. vue el-table 动态添加行、删除行
  9. 1-50可复制到word文档外带圈的数生成方法
  10. LeetCode Top-100