1.简述:正则表达式是爬虫的方法之一,这里利用Requests库进行爬取,尽管Urllib也能进行爬取,但过程过于繁琐,在了解Urllib的爬取过程后,没有进行实战演练,但在学习了Requests的爬取后,进行了实战学习,因为考虑到确实之后会多用到Requests包,所以这一步还是要好好掌握学习一下的:)另外,还用到re包,主要在利用正则表达式进行爬虫是时用到匹配(re.match)、查找(re.findall)等方法。
2.环境:这次我进行爬虫用的是Jupyter而不再是DOS命令窗口了。Jupyter是Anaconda编译环境的一个交互式笔记本,用起来非常便捷。接下来简单记录一下我的爬取过程。
3.过程:
一),明确爬取内容,这次练习要爬取的内容是豆瓣读书(https://book.douban.com/)的‘新书速递’内容中所列出来的近期新书,主要爬取:1.书名,2.作者和3.对应图书的豆瓣链接。要爬取网页的界面截图如下:

我爬取的是新书速递的四十本推荐图书:


二)、利用包:
requests,re

三)、代码:

import requests
import re
i=0//统计爬取条目,这里应该要爬到40条图书信息
content=requests.get('https://book.douban.com/').text
pattern=re.compile('<li.*?cover.*?href="(.*?)title="(.*?)">.*?more-meta.*?author">(.*?)</span>.*?year">(.*?)</span>.*?</li>',re.S)
results=re.findall(pattern,content)
for result in results:print('书名:'+result[1]+'\n作者:'+result[2].strip()+'\n图书链接:'+result[0])i+=1
print('in all:',i)

四)、爬取结果:

五)、验证:
数一下豆瓣读书页面上的数目,一共有40条,这里用i进行统计,并输出统计结果,结果显示为40,则表示爬取信息没有遗失。执行截图如下:

六)总结:
1.正则表达式不难,主要是掌握它写的方式就好,但它的写法也是爬取的关键所在。
2.这个网址www.oschina.com很牛p,功能很多,其中正则表达式提取模块,可以直接得到想要到的正则表达式功能,但不会写的正则表达式,以后有些不会写的可以直接去上这个网站。

Python网络爬虫:利用正则表达式方法爬取‘’豆瓣读书‘’中‘’新书速递‘’条目相关推荐

  1. Python网络爬虫实战12:爬取豆瓣电影中热门电影数据

    代码实例 # coding:utf8 import json import requests from bs4 import BeautifulSoup import openpyxlwb = ope ...

  2. Python网络爬虫实战练习:爬取豆瓣图书信息

    一.注意事项 1.文件名尽量使用英文,避免出现编码问题 2.含中文的文件写入,注意标注编码,如: with open(r"C:\Users\10335\Desktop\response.tx ...

  3. python——利用正则表达式爬取豆瓣读书中的图书信息

    本来可以使用一条正则表达式完成图书信息的爬取,结果发现在CPU性能较差的电脑上进行爬取时耗时非常长,几乎无法将结果获取到.所以,将大的html源码先经过一次简单的匹配以获取到一个中间结果,然后再从中间 ...

  4. 使用python的scrapy框架简单的爬取豆瓣读书top250

    使用python的scrapy框架简单的爬取豆瓣读书top250 一.配置scrapy环境 1. 配置相应模块 如果没有配置过scrapy环境的一般需要安装lxml.PyOpenssl.Twisted ...

  5. Python网络爬虫requests、bs4爬取空姐图片,福利哦

    Scrapy框架很好,也提供了很多扩展点,可以自己编写中间件处理Scrapy的Request和Response.但是可定制化或者可掌控性来说,还是自己写的爬虫更加强一些. 接下来,我们来看一下使用Py ...

  6. python爬取豆瓣书籍_Python利用lxml模块爬取豆瓣读书排行榜的方法与分析

    前言 上次使用了BeautifulSoup库爬取电影排行榜,爬取相对来说有点麻烦,爬取的速度也较慢.本次使用的lxml库,我个人是最喜欢的,爬取的语法很简单,爬取速度也快. 本次爬取的豆瓣书籍排行榜的 ...

  7. Python网络爬虫——Appuim+夜神模拟器爬取得到APP课程数据

    一.背景介绍 随着生产力和经济社会的发展,温饱问题基本解决,人们开始追求更高层次的精神文明,开始愿意为知识和内容付费.从2016年开始,内容付费渐渐成为时尚. 罗辑思维创始人罗振宇全力打造" ...

  8. Python网络爬虫(6)--爬取淘宝模特图片

    经过前面的一些基础学习,我们大致知道了如何爬取并解析一个网页中的信息,这里我们来做一个更有意思的事情,爬取MM图片并保存.网址为https://mm.taobao.com/json/request_t ...

  9. python网络爬虫--项目实战--scrapy爬取人人车(5)

    一.目标 爬取多页人人车的车辆信息 二.分析 2.1 网站分析 在网页源代码中可以搜索到页面中的数据,所以可以判断该页面为静态加载的 三.完整代码 renrenche.py import scrapy ...

最新文章

  1. 中学生可以这样学python.pdf_中学生可以这样学Python
  2. hbase+hive应用场景
  3. java hibernate 自定义排序_Java hibernate如何对条件查询结果集排序?
  4. 【笔记】具有O-DU和O-RU的eNB / gNB架构
  5. redis LRU和LFU
  6. IEC103规约介绍
  7. 惠普局域网共享打印机设置_网络共享惠普打印机的操作方法
  8. Visio画图删去四周白边
  9. [DCDC](DC-DC) 电感计算有难题 ? 你我一起来学习
  10. 如何使用Python实现一个pdf阅读器?
  11. 基于onnxruntime的YOLOv5单张图片检测实现
  12. (五)Excel函数应用之查询与引用函数
  13. R语言读取(加载)txt格式数据为dataframe、按照指定字段(数据列)对dataframe进行升序排序(ascending)、返回行索引的位置向量
  14. html 复选框事件,HTML复选框选中与未选中触发事件的方法
  15. 同城跑腿微信小程序制作步骤_分享下同城跑腿小程序的作用
  16. 6-2 有序顺序表的插入
  17. 用余弦算法做相似度匹配
  18. UDF开发手册 - UDF
  19. LaTeX插入GIF的标准方法
  20. 详解Redis和Memcached

热门文章

  1. JavaScript 是怎么运行起来的?
  2. 状态模式、有限状态机 Unity版本实现
  3. excel内容少却文件很大_(excel内容很少,文件却很大,怎么解决)excel表格数据少但是过大怎么办...
  4. 关于中医把脉的一点想法
  5. mac配置git公钥
  6. web前端开发免费教程
  7. 神器VIM配置文件进阶v1.0beta
  8. NB-IoT从原理到实践 学习笔记 part1-8
  9. 小程序添加插屏广告教程
  10. 【程序人生】全国一二线程序员工资统计新鲜出炉,又涨了!