Python爬虫入门案例:获取百词斩已学单词列表
本文首发在我的个人博客:https://jlice.top/p/6sjd1/。欢迎大家前去参观,么么哒~
百词斩是一款很不错的单词记忆APP,在学习过程中,它会记录你所学的每个单词及你答错的次数,通过此列表可以很方便地找到自己在记忆哪些单词时总是反复出错记不住。我们来用Python来爬取这些信息,同时学习Python爬虫基础。
首先来到百词斩网站:http://www.baicizhan.com/login
这个网站是需要登录的,不过还好没验证码,我们可以先看下在登录过程中浏览器POST了哪些数据。打开浏览器开发工具(F12),以Chrome浏览器为例,记录登录过程中浏览器的Network情况:
我们可以发现,在登录过程中,浏览器向http://www.baicizhan.com/login以POST方式提交了数据。提交了什么数据呢?我们可以在下面的Form Data里看到。
其中,email是用户名,raw_pwd就是密码,这里的数据是需要经过URL编码的,我们可以点view URL encoded查看编码后的样子。URL编码需要urllib库。
在请求头(Request Headers)部分,我们还看到了Cookie。因此,我们还需要cookie库,来处理我们的Cookie。
import urllib
import urllib2
import cookielibemail = 'your_email'
pwd = 'your_password'
data = {'email':email,'raw_pwd':pwd}
post_data = urllib.urlencode(data)opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookielib.CookieJar()))response = opener.open('http://www.baicizhan.com/login', post_data)
print(response.read())
这样,我们可以发现,打印的是登录后的页面源码,这说明我们成功实现了登录。
接着,我们来分析下单词列表的页面:http://www.baicizhan.com/user/words/list
当我们点击页码时,实际上是发送了GET请求。然后我们看Response,发现是个json,我们解析下看看(可以到http://www.json.cn/在线解析json)
如果要在Python中解析json,我们需要json库。我们打印下前两页的单词看看:
import urllib2
import cookielib
import urllib
import jsonemail = 'your_email'
pwd = 'your_password'
data = {'email':email,'raw_pwd':pwd}
post_data = urllib.urlencode(data)opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookielib.CookieJar()))opener.open('http://www.baicizhan.com/login', post_data)for i in range(1, 3):content = json.loads(opener.open("http://www.baicizhan.com/user/all_done_words_list?page=%s"%i).read())for word in content["list"]:print word["word"]print word["word_meaning"].strip()print word["wrong_times"]
这样,我们就能打印出前两页的单词以及释义、错误次数。
至于要把所有已学单词都获取到,只需要稍作修改即可,之后我们便能把这些数据存储进行一些后续的处理。
Python爬虫入门案例:获取百词斩已学单词列表相关推荐
- 爬虫爬取python词汇_Python爬虫入门案例:获取百词斩已学单词列表
百词斩是一款很不错的单词记忆APP,在学习过程中,它会记录你所学的每个单词及你答错的次数,通过此列表可以很方便地找到自己在记忆哪些单词时总是反复出错记不住.我们来用Python来爬取这些信息,同时学习 ...
- python写爬虫要记的单词_Python爬虫入门案例:获取百词斩已学单词列表
百词斩是一款很不错的单词记忆APP,在学习过程中,它会记录你所学的每个单词及你答错的次数,通过此列表可以很方便地找到自己在记忆哪些单词时总是反复出错记不住.我们来用Python来爬取这些信息,同时学习 ...
- python爬虫英文单词_Python爬虫入门案例:获取百词斩已学单词列表
标签: 百词斩是一款很不错的单词记忆APP,在学习过程中,它会记录你所学的每个单词及你答错的次数,通过此列表可以很方便地找到自己在记忆哪些单词时总是反复出错记不住.我们来用Python来爬取这些信息, ...
- python爬虫入门案例day01:拼多多
python爬虫入门案例day01:拼多多 目标网站 拼多多 目标网址 https://www.pinduoduo.com/ 开发环境 1.window11 2.python3.7 3.PyCharm ...
- python爬虫入门教程pdf-从零开始学Python网络爬虫 PDF 原书扫描版
给大家带来的一篇关于Python爬虫相关的电子书资源,介绍了关于Python.网络爬虫方面的内容,本书是由机械工业出版社出版,格式为PDF,资源大小143.9 MB,罗攀编写,目前豆瓣.亚马逊.当当. ...
- Python爬虫入门案例教学:批量爬取彼岸桌面4K超清美女壁纸
先图片开路 环境介绍 python 3.6 / 3.8 pycharm 编辑器 requests parsel os 文件操作 在cmd里面就可以进行安装 pip install requests 无 ...
- python爬虫入门案例day11:街舞
引言 今天小编来带领大家批量下载街舞视频 爬虫应用 1.数据分析:2.商业领域: 开发爬虫的流程 1. 准备工作2. 获取数据3. 解析内容4. 保存数据 requests介绍 1.requests库 ...
- python爬虫入门案例day10:珠宝图片
目标网址 http://pic.525zb.com/ 开发环境 1.window11 2.python3.7 3.PyCharm Community Edition 2021.2.1 4.双核浏览器 ...
- Python 爬虫入门(1)获取豆瓣网页源代码
import urllib.request #引入第三方模块 url = "http://www.douban.com" #每一个网页都有一个唯一的名称标识 通常称为UR ...
最新文章
- 机器学习防止模型过拟合的讲解
- 在Linux里使用dosbox运行debug.exe
- 五大要点分析手游美术设计:如何在前5分钟抓住玩家眼球
- SQL Server 2008安装配置说明书+简单使用 亲测可用
- mysql 二叉树表设计_mysql---B+tree索引的设计原理
- 腾讯视频下载电脑_腾讯视频如何设置允许腾讯视频驻留功能
- java实现把数据写入到Excel并下载
- Windows7部署WordPress傻瓜式教程-cnblogs
- dbf文件怎么创建_DBC文件到底是个啥
- springboot启动 fastDFS启动报错 mbeanExporter: defined by method 'mbeanExporter' in class path
- CSDN新版下载频道改版上线了
- yaml 文件格式语法
- CSS单位:em、rem、%、vh、vw、vmin、vmax
- Linux课程--实验四 shell 编程
- 【电脑配置知识】显卡 GPU
- 立场开源 | 电动锡膏挤出器
- 群晖NAS误删30T数据成功恢复全过程
- @keyframes详解与实例
- 死并不可怕,可怕的是华丽地去死
- DP(动态规划)是什么?
热门文章
- php 车型接口,车型大全API接口_汽车配置_免费数据接口 - 极速数据
- 霍尼韦尔、奥的斯、格兰富、紫荆花亮相绿色智慧建筑博览会;乌东德水电站全部机组投产发电 | 能动...
- 奥运开幕,奥运行情宣告谢幕!
- 蒙特卡罗强化学习算法
- Golang服务平滑重启
- 香港理工大学计算机硕士2021,2021年香港理工大学知识及科技管理研究生录取案例一览-录取条件...
- 【IDEA使用技巧】使用阿里统一的code style规范你的代码格式
- 随机数生成题,利用小的随机数生成大的随机数
- 计算机二级c相关书籍,二级C
- 不是吧?2000块的英语听读应用长这样?!