写在前面:感谢马中华老师。

# 导入库
from urllib.request import urlopen
import re# 模拟浏览器发起请求
url = 'http://quotes.toscrape.com/'
# 第二页
# url = 'http://quotes.toscrape.com/page/2/'
# url = 'http://quotes.toscrape.com/page/3/'
response = urlopen(url)# 获取网页内容
html_content = response.read().decode("utf-8")# 用正则给网页内容分组
# 注意:.*只能匹配除换行符以外的所有内容(因此含有换行符的网页标签则无法匹配,如名言tag对应的网页代码:div标签)
pattern = '<span class="text" itemprop="text">(.*)</span>'# 抓取名言
quotes10_span = re.findall(pattern, html_content)# 抓取作者
authors10_small = re.findall('<small class="author" itemprop="author">(.*)</small>', html_content)# 抓取标签
# tags = re.findall('<a class="tag" href=".*">.*</a>', html_content)
# tags10_meta = re.findall('<meta class="keywords" itemprop="keywords" content="(.*)">', html_content)  //(meta标签不能被提取)
# div10 = re.findall('<div class="tags">(.*)</div>', html_content)   //.在python的正则中不能匹配换行符,需要匹配换行的话需要如下# div10 = re.findall('<div class="tags">.*</div>', html_content, re.RegexFlag.DOTALL)   #RegexFlag.DOTALL大小写严格匹配
# print(div10)    //查看div10
# print(len(div10))    //查看div10列表中元素数量,结果为1.解决:加入?,屏蔽贪婪规则												

用re库正则方法抓取名言网数据相关推荐

  1. 使用Python抓取婚恋网数据并用决策树生成择偶观

    最近在看<机器学习实战>的时候萌生了一个想法,自己去网上爬一些数据按照书上的方法处理一下,不仅可以加深自己 对书本的理解,顺便还可以在github拉拉人气.刚好在看决策树这一章,书里面的理 ...

  2. 07. 实战:Python正则法抓取某网站2022必看片迅雷种子

    目录 前言                URL(在评论区)URL(在评论区)URL(在评论区) 目的                URL(在评论区)URL(在评论区)URL(在评论区) 思路    ...

  3. php curl_setopt抓取内容,PHP的CURL方法curl_setopt()函数案例介绍(抓取网页,POST数据)

    通过curl_setopt()函数可以方便快捷的抓取网页(采集很方便),curl_setopt 是php的一个扩展库 使用条件:需要在php.ini 中配置开启.(PHP 4 >= 4.0.2) ...

  4. python获取app信息的库_Python学习教程:另辟蹊径,appium抓取app应用数据了解一下...

    作为爬虫工程师,没有价格不知道selenium的. 什么是selenium? Selenium原本是一个用于Web应用程序自动化测试工具.Selenium测试直接运行在浏览器中,就像真正的用户在操作一 ...

  5. python豆瓣影评_使用Python抓取豆瓣影评数据的方法

    抓取豆瓣影评评分 正常的抓取 分析请求的url https://movie.douban.com/subject/26322642/comments?start=20&limit=20& ...

  6. php取网页内容乱码,如何解决php用file_get_contents方法抓取网页数据出现乱码

    我们都经常碰到在抓取数据时碰到乱码现象,让人崩溃.今天主要和大家探讨如何解决php用file_get_contents方法抓取网页数据出现乱码的问题,需要的朋友可以参考下,希望能帮助到大家.下面跟随小 ...

  7. 微信好友大揭秘,使用Python抓取朋友圈数据,通过人脸识别全面分析好友,一起看透你的“朋友圈”...

    微信:一个提供即时通讯服务的应用程序,更是一种生活方式,超过数十亿的使用者,越来越多的人选择使用它来沟通交流. 不知从何时起,我们的生活离不开微信,每天睁开眼的第一件事就是打开微信,关注着朋友圈里好友 ...

  8. Python中使用PhantomJS抓取Javascript网页数据

    有些网页不是静态加载的,而是通过javascirpt函数动态加载网页,比如下面这个网页,表格中的看涨合约和看跌合约的数据都是通过javascirpt函数从后台加载.仅仅使用beautifulsoup并 ...

  9. 手把手教你入侵网站修改数据_手把手教你使用Python抓取QQ音乐数据(第四弹)...

    [一.项目目标] 通过手把手教你使用Python抓取QQ音乐数据(第一弹)我们实现了获取 QQ 音乐指定歌手单曲排行指定页数的歌曲的歌名.专辑名.播放链接. 通过手把手教你使用Python抓取QQ音乐 ...

最新文章

  1. Cpp 对象模型探索 / 成员初始化列表
  2. Object-C学习代码【简单的Car程序】
  3. Redis—主从复制
  4. OS X 10.11 Error: /usr/local must be writable! (Sierra 10.12 ) Error: /usr/local must be writable!
  5. leetcode278. 第一个错误的版本(二分查找)
  6. LeetCode 491. 递增子序列(回溯+判重剪枝)
  7. 兼容IE和FF:获取Referer的JS和PHP方法 及 PHP利用curl伪造IP和来路
  8. 虚拟货币公有链项目集体爆发,AE超过历史最高点
  9. 一个正经的前端学习 开源 仓库(每日更新)-648道知识点
  10. 数列极限:数列极限的概念
  11. 晶振外匹配电容应该怎样选取
  12. 中文句法分析_句法分析StanfordParser+依存句法分析pyhanlp
  13. C\C++ 大作业 直接运行—员工信息管理系统(STL/类与对象/继承/多态/文件操作)
  14. Android_openCV图片处理
  15. 姓名转拼音的几种格式
  16. 如何根据vin码查询_汽车VIN码是什么,怎么查询Vin码?
  17. C++反汇编代码分析--函数调用
  18. CG 学习 (1)——CG概览
  19. 【闲趣】你的父母有哪些神操作?
  20. 关于Java虚拟机(Java Virtual Machine 简称JVM) 笔记

热门文章

  1. 微信小程序教程:文字超出显示区域后隐藏并显示省略号
  2. 从0.1开始学Python——[9]
  3. 一文讲尽面试前的准备问题
  4. 苹果能不能分屏_安卓机也能运行电脑软件?好东西不能苹果独享
  5. WEB3.0定义与未来发展趋势
  6. 无线路由器设置wifi
  7. 好莱坞七大片中的经典台词
  8. 有趣的歌单昵称_2019抖音最火的10大神曲 你的歌单里面有几首
  9. Android 代码混淆之-群魔乱舞的字符串
  10. 行人检测-LUV颜色空间