Python网络爬虫：利用正则表达式方法爬取‘’豆瓣读书‘’中‘’新书速递‘’条目

1.简述：正则表达式是爬虫的方法之一，这里利用Requests库进行爬取，尽管Urllib也能进行爬取，但过程过于繁琐，在了解Urllib的爬取过程后，没有进行实战演练，但在学习了Requests的爬取后，进行了实战学习，因为考虑到确实之后会多用到Requests包，所以这一步还是要好好掌握学习一下的：)另外，还用到re包，主要在利用正则表达式进行爬虫是时用到匹配(re.match)、查找(re.findall)等方法。
2.环境：这次我进行爬虫用的是Jupyter而不再是DOS命令窗口了。Jupyter是Anaconda编译环境的一个交互式笔记本，用起来非常便捷。接下来简单记录一下我的爬取过程。
3.过程：
一），明确爬取内容，这次练习要爬取的内容是豆瓣读书（https://book.douban.com/）的‘新书速递’内容中所列出来的近期新书，主要爬取：1.书名，2.作者和3.对应图书的豆瓣链接。要爬取网页的界面截图如下：

我爬取的是新书速递的四十本推荐图书：

二）、利用包：
requests,re

三）、代码：

import requests
import re
i=0//统计爬取条目，这里应该要爬到40条图书信息
content=requests.get('https://book.douban.com/').text
pattern=re.compile('<li.*?cover.*?href="(.*?)title="(.*?)">.*?more-meta.*?author">(.*?)</span>.*?year">(.*?)</span>.*?</li>',re.S)
results=re.findall(pattern,content)
for result in results:print('书名：'+result[1]+'\n作者：'+result[2].strip()+'\n图书链接：'+result[0])i+=1
print('in all:',i)

四）、爬取结果：

五）、验证：
数一下豆瓣读书页面上的数目，一共有40条，这里用i进行统计，并输出统计结果，结果显示为40，则表示爬取信息没有遗失。执行截图如下：

六）总结：
1.正则表达式不难，主要是掌握它写的方式就好，但它的写法也是爬取的关键所在。
2.这个网址www.oschina.com很牛p,功能很多，其中正则表达式提取模块，可以直接得到想要到的正则表达式功能，但不会写的正则表达式，以后有些不会写的可以直接去上这个网站。

Python网络爬虫：利用正则表达式方法爬取‘’豆瓣读书‘’中‘’新书速递‘’条目相关推荐

Python网络爬虫实战12：爬取豆瓣电影中热门电影数据
代码实例 # coding:utf8 import json import requests from bs4 import BeautifulSoup import openpyxlwb = ope ...
Python网络爬虫实战练习：爬取豆瓣图书信息
一.注意事项 1.文件名尽量使用英文,避免出现编码问题 2.含中文的文件写入,注意标注编码,如: with open(r"C:\Users\10335\Desktop\response.tx ...
python——利用正则表达式爬取豆瓣读书中的图书信息
本来可以使用一条正则表达式完成图书信息的爬取,结果发现在CPU性能较差的电脑上进行爬取时耗时非常长,几乎无法将结果获取到.所以,将大的html源码先经过一次简单的匹配以获取到一个中间结果,然后再从中间 ...
使用python的scrapy框架简单的爬取豆瓣读书top250
使用python的scrapy框架简单的爬取豆瓣读书top250 一.配置scrapy环境 1. 配置相应模块如果没有配置过scrapy环境的一般需要安装lxml.PyOpenssl.Twisted ...
Python网络爬虫requests、bs4爬取空姐图片，福利哦
Scrapy框架很好,也提供了很多扩展点,可以自己编写中间件处理Scrapy的Request和Response.但是可定制化或者可掌控性来说,还是自己写的爬虫更加强一些. 接下来,我们来看一下使用Py ...
python爬取豆瓣书籍_Python利用lxml模块爬取豆瓣读书排行榜的方法与分析
前言上次使用了BeautifulSoup库爬取电影排行榜,爬取相对来说有点麻烦,爬取的速度也较慢.本次使用的lxml库,我个人是最喜欢的,爬取的语法很简单,爬取速度也快. 本次爬取的豆瓣书籍排行榜的 ...
Python网络爬虫——Appuim+夜神模拟器爬取得到APP课程数据
一.背景介绍随着生产力和经济社会的发展,温饱问题基本解决,人们开始追求更高层次的精神文明,开始愿意为知识和内容付费.从2016年开始,内容付费渐渐成为时尚. 罗辑思维创始人罗振宇全力打造" ...
Python网络爬虫（6）--爬取淘宝模特图片
经过前面的一些基础学习,我们大致知道了如何爬取并解析一个网页中的信息,这里我们来做一个更有意思的事情,爬取MM图片并保存.网址为https://mm.taobao.com/json/request_t ...
python网络爬虫--项目实战--scrapy爬取人人车（5）
一.目标爬取多页人人车的车辆信息二.分析 2.1 网站分析在网页源代码中可以搜索到页面中的数据,所以可以判断该页面为静态加载的三.完整代码 renrenche.py import scrapy ...

Python网络爬虫：利用正则表达式方法爬取‘’豆瓣读书‘’中‘’新书速递‘’条目

Python网络爬虫：利用正则表达式方法爬取‘’豆瓣读书‘’中‘’新书速递‘’条目相关推荐

最新文章

热门文章