python爬虫——提取抓取内容（3）经典语录网语录抓取

一.分析代码

对比两个链接

标题正则表达式：

r'<a href="(/a/jingdianmingyan/.*?/\d+\.html)" class="title">(.*?)</a>'

每个标题的内容正则表达式：

r'<div class="content">.*?<td>.*?</div>(.*?)</td>.*?</div>'

二.代码展示

import urllib.request
import urllib.parse
import re
import osdef handle_request(url, page=None): # 设置默认值，可以二次使用（get_text函数）if page != None:url = url + str(page) + '.html'headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36',}# print(url)request = urllib.request.Request(url, headers=headers)return requestdef get_text(a_href):# 调用函数构建请求对象request = handle_request(a_href)# 发送请求，获取响应content = urllib.request.urlopen(request).read().decode()# 解析内容pattern = re.compile(r'<div class="content">.*?<td>.*?</div>(.*?)</td>.*?</div>', re.S)lt = pattern.findall(content)  # 返回一个列表# print(lt[0])text = lt[0]# 写个正则，将内容里面所有的图片标签全部清空pat = re.compile(r'<img .*?>')text = pat.sub('', text)return textdef parse_content(content):pattern=re.compile(r'<a href="(/a/jingdianmingyan/.*?/\d+\.html)" class="title">(.*?)</a>')"""返回的是一个列表，列表中的元素都是元组，元组中第一个元素就是正则中第一个小括号匹配到的内容，第二个元素就是正则中第二个小括号匹配到的内容"""lt = pattern.findall(content)# print(lt)# 遍历列表for href_title in lt:# 获取内容链接a_href = 'https://www.jdylw.cn'+href_title[0]# 获取标题title = href_title[1]# print(title)# 向a_href发送请求，获取响应内容text = get_text(a_href)# 写入到html中string = '<h1>%s</h1>%s' % (title, text)with open('mingyan.html', 'a',encoding="utf8") as fp:fp.write(string)def main():url = 'https://www.jdylw.cn/a/jingdianmingyan/list_15_'start_page = int(input("请输入起始页码："))end_page = int(input("请输入结束页码："))for page in range(start_page,end_page+1):# 根据url和page生成指定的requestrequest=handle_request(url,page)# 发送请求content = urllib.request.urlopen(request).read().decode()# 解析内容parse_content(content)if __name__ == "__main__":main()

用浏览器查看

python爬虫——提取抓取内容（3）经典语录网语录抓取相关推荐

Python爬虫入门【3】：美空网数据爬取
美空网数据----简介从今天开始,我们尝试用2篇博客的内容量,搞定一个网站叫做"美空网"网址为:http://www.moko.cc/, 这个网站我分析了一下,我们要爬取的图片在 ...
Python爬虫编程思想（6）：实战案例：抓取所有的网络资源
Python爬虫编程思想(7):实战案例:抓取博客文章列表到现在为止,我们已经对网络爬虫涉及到的基本知识有了一个初步的了解.本文会编写一个简单的爬虫应用,以便让读者对爬虫有一个基本的认识.本节要编写 ...
零基础入门python爬虫之《青春有你2》选手信息爬取
零基础入门python爬虫之<青春有你2>选手信息爬取完成<青春有你2>选手图片爬取,生成选手图片的绝对路径并输出,统计爬取的图片总数量.使用工具:requests模块.Be ...
python爬虫数据提取_入门Python爬虫——提取数据篇
原标题:入门Python爬虫--提取数据篇作者: 李菲来源:人工智能学习圈前言在提取数据这一环节,爬虫程序会将我们所需要的数据提取出来.在上一篇文章<入门Python爬虫 -- 解析数据 ...
Python爬虫学习第三章-4.3-使用xpath解析爬取全国城市名称
Python爬虫学习第三章-4.3-使用xpath解析爬取全国城市名称这一节主要是使用xpath解析爬取全国城市名称这里使用的网址是:空气质量历史数据查询这一个案例体现的点主要是xpat ...
python怎么读取pdf为文本_轻松用Python批量提取PDF文本内容，这个小技巧告诉你！...
轻松用Python批量提取PDF文本内容,这个小技巧告诉你!-1.jpg (22.73 KB, 下载次数: 0) 2018-9-7 08:33 上传本文为你展示,如何用Python把许多PDF文件的 ...
【爬虫+数据可视化毕业设计：英雄联盟数据爬取及可视化分析，python爬虫可视化/数据分析/大数据/大数据屏/数据挖掘/数据爬取，程序开发-哔哩哔哩】
[爬虫+数据可视化毕业设计:英雄联盟数据爬取及可视化分析,python爬虫可视化/数据分析/大数据/大数据屏/数据挖掘/数据爬取,程序开发-哔哩哔哩] https://b23.tv/TIoy6hj
【【数据可视化毕业设计：差旅数据可视化分析，python爬虫可视化/数据分析/大数据/大数据屏/数据挖掘/数据爬取，程序开发-哔哩哔哩】-哔哩哔哩】 https://b23.tv/iTt30QG
[[数据可视化毕业设计:差旅数据可视化分析,python爬虫可视化/数据分析/大数据/大数据屏/数据挖掘/数据爬取,程序开发-哔哩哔哩]-哔哩哔哩] https://b23.tv/iTt30QG ht ...
Python爬虫编程思想（48）：项目实战：抓取起点中文网的小说信息
本文会利用requests库抓取起点中文网上的小说信息,并通过XPath提取相关的内容,最后将经过提取的内容保存到Excel文件中.本例需要使用第三方的xlwt库,该库用来通过Python操作Exce ...
python爬虫提取人名_python爬虫—爬取英文名以及正则表达式的介绍
python爬虫-爬取英文名以及正则表达式的介绍爬取英文名: 一. 爬虫模块详细设计 (1)整体思路对于本次爬取英文名数据的爬虫实现,我的思路是先将A-Z所有英文名的连接爬取出来,保存在一个csv ...

python爬虫——提取抓取内容（3）经典语录网语录抓取

一.分析代码

二.代码展示

python爬虫——提取抓取内容（3）经典语录网语录抓取相关推荐

最新文章

热门文章