Python网络爬虫:利用正则表达式方法爬取‘’豆瓣读书‘’中‘’新书速递‘’条目
1.简述:正则表达式是爬虫的方法之一,这里利用Requests库进行爬取,尽管Urllib也能进行爬取,但过程过于繁琐,在了解Urllib的爬取过程后,没有进行实战演练,但在学习了Requests的爬取后,进行了实战学习,因为考虑到确实之后会多用到Requests包,所以这一步还是要好好掌握学习一下的:)另外,还用到re包,主要在利用正则表达式进行爬虫是时用到匹配(re.match)、查找(re.findall)等方法。
2.环境:这次我进行爬虫用的是Jupyter而不再是DOS命令窗口了。Jupyter是Anaconda编译环境的一个交互式笔记本,用起来非常便捷。接下来简单记录一下我的爬取过程。
3.过程:
一),明确爬取内容,这次练习要爬取的内容是豆瓣读书(https://book.douban.com/)的‘新书速递’内容中所列出来的近期新书,主要爬取:1.书名,2.作者和3.对应图书的豆瓣链接。要爬取网页的界面截图如下:
我爬取的是新书速递的四十本推荐图书:
二)、利用包:
requests,re
三)、代码:
import requests
import re
i=0//统计爬取条目,这里应该要爬到40条图书信息
content=requests.get('https://book.douban.com/').text
pattern=re.compile('<li.*?cover.*?href="(.*?)title="(.*?)">.*?more-meta.*?author">(.*?)</span>.*?year">(.*?)</span>.*?</li>',re.S)
results=re.findall(pattern,content)
for result in results:print('书名:'+result[1]+'\n作者:'+result[2].strip()+'\n图书链接:'+result[0])i+=1
print('in all:',i)
四)、爬取结果:
五)、验证:
数一下豆瓣读书页面上的数目,一共有40条,这里用i进行统计,并输出统计结果,结果显示为40,则表示爬取信息没有遗失。执行截图如下:
六)总结:
1.正则表达式不难,主要是掌握它写的方式就好,但它的写法也是爬取的关键所在。
2.这个网址www.oschina.com很牛p,功能很多,其中正则表达式提取模块,可以直接得到想要到的正则表达式功能,但不会写的正则表达式,以后有些不会写的可以直接去上这个网站。
Python网络爬虫:利用正则表达式方法爬取‘’豆瓣读书‘’中‘’新书速递‘’条目相关推荐
- Python网络爬虫实战12:爬取豆瓣电影中热门电影数据
代码实例 # coding:utf8 import json import requests from bs4 import BeautifulSoup import openpyxlwb = ope ...
- Python网络爬虫实战练习:爬取豆瓣图书信息
一.注意事项 1.文件名尽量使用英文,避免出现编码问题 2.含中文的文件写入,注意标注编码,如: with open(r"C:\Users\10335\Desktop\response.tx ...
- python——利用正则表达式爬取豆瓣读书中的图书信息
本来可以使用一条正则表达式完成图书信息的爬取,结果发现在CPU性能较差的电脑上进行爬取时耗时非常长,几乎无法将结果获取到.所以,将大的html源码先经过一次简单的匹配以获取到一个中间结果,然后再从中间 ...
- 使用python的scrapy框架简单的爬取豆瓣读书top250
使用python的scrapy框架简单的爬取豆瓣读书top250 一.配置scrapy环境 1. 配置相应模块 如果没有配置过scrapy环境的一般需要安装lxml.PyOpenssl.Twisted ...
- Python网络爬虫requests、bs4爬取空姐图片,福利哦
Scrapy框架很好,也提供了很多扩展点,可以自己编写中间件处理Scrapy的Request和Response.但是可定制化或者可掌控性来说,还是自己写的爬虫更加强一些. 接下来,我们来看一下使用Py ...
- python爬取豆瓣书籍_Python利用lxml模块爬取豆瓣读书排行榜的方法与分析
前言 上次使用了BeautifulSoup库爬取电影排行榜,爬取相对来说有点麻烦,爬取的速度也较慢.本次使用的lxml库,我个人是最喜欢的,爬取的语法很简单,爬取速度也快. 本次爬取的豆瓣书籍排行榜的 ...
- Python网络爬虫——Appuim+夜神模拟器爬取得到APP课程数据
一.背景介绍 随着生产力和经济社会的发展,温饱问题基本解决,人们开始追求更高层次的精神文明,开始愿意为知识和内容付费.从2016年开始,内容付费渐渐成为时尚. 罗辑思维创始人罗振宇全力打造" ...
- Python网络爬虫(6)--爬取淘宝模特图片
经过前面的一些基础学习,我们大致知道了如何爬取并解析一个网页中的信息,这里我们来做一个更有意思的事情,爬取MM图片并保存.网址为https://mm.taobao.com/json/request_t ...
- python网络爬虫--项目实战--scrapy爬取人人车(5)
一.目标 爬取多页人人车的车辆信息 二.分析 2.1 网站分析 在网页源代码中可以搜索到页面中的数据,所以可以判断该页面为静态加载的 三.完整代码 renrenche.py import scrapy ...
最新文章
- 中学生可以这样学python.pdf_中学生可以这样学Python
- hbase+hive应用场景
- java hibernate 自定义排序_Java hibernate如何对条件查询结果集排序?
- 【笔记】具有O-DU和O-RU的eNB / gNB架构
- redis LRU和LFU
- IEC103规约介绍
- 惠普局域网共享打印机设置_网络共享惠普打印机的操作方法
- Visio画图删去四周白边
- [DCDC](DC-DC) 电感计算有难题 ? 你我一起来学习
- 如何使用Python实现一个pdf阅读器?
- 基于onnxruntime的YOLOv5单张图片检测实现
- (五)Excel函数应用之查询与引用函数
- R语言读取(加载)txt格式数据为dataframe、按照指定字段(数据列)对dataframe进行升序排序(ascending)、返回行索引的位置向量
- html 复选框事件,HTML复选框选中与未选中触发事件的方法
- 同城跑腿微信小程序制作步骤_分享下同城跑腿小程序的作用
- 6-2 有序顺序表的插入
- 用余弦算法做相似度匹配
- UDF开发手册 - UDF
- LaTeX插入GIF的标准方法
- 详解Redis和Memcached