用re库正则方法抓取名言网数据
写在前面:感谢马中华老师。
# 导入库
from urllib.request import urlopen
import re# 模拟浏览器发起请求
url = 'http://quotes.toscrape.com/'
# 第二页
# url = 'http://quotes.toscrape.com/page/2/'
# url = 'http://quotes.toscrape.com/page/3/'
response = urlopen(url)# 获取网页内容
html_content = response.read().decode("utf-8")# 用正则给网页内容分组
# 注意:.*只能匹配除换行符以外的所有内容(因此含有换行符的网页标签则无法匹配,如名言tag对应的网页代码:div标签)
pattern = '<span class="text" itemprop="text">(.*)</span>'# 抓取名言
quotes10_span = re.findall(pattern, html_content)# 抓取作者
authors10_small = re.findall('<small class="author" itemprop="author">(.*)</small>', html_content)# 抓取标签
# tags = re.findall('<a class="tag" href=".*">.*</a>', html_content)
# tags10_meta = re.findall('<meta class="keywords" itemprop="keywords" content="(.*)">', html_content) //(meta标签不能被提取)
# div10 = re.findall('<div class="tags">(.*)</div>', html_content) //.在python的正则中不能匹配换行符,需要匹配换行的话需要如下# div10 = re.findall('<div class="tags">.*</div>', html_content, re.RegexFlag.DOTALL) #RegexFlag.DOTALL大小写严格匹配
# print(div10) //查看div10
# print(len(div10)) //查看div10列表中元素数量,结果为1.解决:加入?,屏蔽贪婪规则
用re库正则方法抓取名言网数据相关推荐
- 使用Python抓取婚恋网数据并用决策树生成择偶观
最近在看<机器学习实战>的时候萌生了一个想法,自己去网上爬一些数据按照书上的方法处理一下,不仅可以加深自己 对书本的理解,顺便还可以在github拉拉人气.刚好在看决策树这一章,书里面的理 ...
- 07. 实战:Python正则法抓取某网站2022必看片迅雷种子
目录 前言 URL(在评论区)URL(在评论区)URL(在评论区) 目的 URL(在评论区)URL(在评论区)URL(在评论区) 思路 ...
- php curl_setopt抓取内容,PHP的CURL方法curl_setopt()函数案例介绍(抓取网页,POST数据)
通过curl_setopt()函数可以方便快捷的抓取网页(采集很方便),curl_setopt 是php的一个扩展库 使用条件:需要在php.ini 中配置开启.(PHP 4 >= 4.0.2) ...
- python获取app信息的库_Python学习教程:另辟蹊径,appium抓取app应用数据了解一下...
作为爬虫工程师,没有价格不知道selenium的. 什么是selenium? Selenium原本是一个用于Web应用程序自动化测试工具.Selenium测试直接运行在浏览器中,就像真正的用户在操作一 ...
- python豆瓣影评_使用Python抓取豆瓣影评数据的方法
抓取豆瓣影评评分 正常的抓取 分析请求的url https://movie.douban.com/subject/26322642/comments?start=20&limit=20& ...
- php取网页内容乱码,如何解决php用file_get_contents方法抓取网页数据出现乱码
我们都经常碰到在抓取数据时碰到乱码现象,让人崩溃.今天主要和大家探讨如何解决php用file_get_contents方法抓取网页数据出现乱码的问题,需要的朋友可以参考下,希望能帮助到大家.下面跟随小 ...
- 微信好友大揭秘,使用Python抓取朋友圈数据,通过人脸识别全面分析好友,一起看透你的“朋友圈”...
微信:一个提供即时通讯服务的应用程序,更是一种生活方式,超过数十亿的使用者,越来越多的人选择使用它来沟通交流. 不知从何时起,我们的生活离不开微信,每天睁开眼的第一件事就是打开微信,关注着朋友圈里好友 ...
- Python中使用PhantomJS抓取Javascript网页数据
有些网页不是静态加载的,而是通过javascirpt函数动态加载网页,比如下面这个网页,表格中的看涨合约和看跌合约的数据都是通过javascirpt函数从后台加载.仅仅使用beautifulsoup并 ...
- 手把手教你入侵网站修改数据_手把手教你使用Python抓取QQ音乐数据(第四弹)...
[一.项目目标] 通过手把手教你使用Python抓取QQ音乐数据(第一弹)我们实现了获取 QQ 音乐指定歌手单曲排行指定页数的歌曲的歌名.专辑名.播放链接. 通过手把手教你使用Python抓取QQ音乐 ...
最新文章
- Cpp 对象模型探索 / 成员初始化列表
- Object-C学习代码【简单的Car程序】
- Redis—主从复制
- OS X 10.11 Error: /usr/local must be writable! (Sierra 10.12 ) Error: /usr/local must be writable!
- leetcode278. 第一个错误的版本(二分查找)
- LeetCode 491. 递增子序列(回溯+判重剪枝)
- 兼容IE和FF:获取Referer的JS和PHP方法 及 PHP利用curl伪造IP和来路
- 虚拟货币公有链项目集体爆发,AE超过历史最高点
- 一个正经的前端学习 开源 仓库(每日更新)-648道知识点
- 数列极限:数列极限的概念
- 晶振外匹配电容应该怎样选取
- 中文句法分析_句法分析StanfordParser+依存句法分析pyhanlp
- C\C++ 大作业 直接运行—员工信息管理系统(STL/类与对象/继承/多态/文件操作)
- Android_openCV图片处理
- 姓名转拼音的几种格式
- 如何根据vin码查询_汽车VIN码是什么,怎么查询Vin码?
- C++反汇编代码分析--函数调用
- CG 学习 (1)——CG概览
- 【闲趣】你的父母有哪些神操作?
- 关于Java虚拟机(Java Virtual Machine 简称JVM) 笔记
热门文章