Python 正则表达式 解析猫眼电影网页
引导
- 题目
- 网页样例内容
- 正则表达式
- 输出结果
题目
根据网页源代码提取电影信息,格式如下:
获取内容由
board-index ***(排名)、
date-src(图片地址)、
title(影片名)、
star(主演)、
releasetime(上映时间)、
integer、
fraction (评分 如:9.5 integer:9. fraction:5)
标签组合。
网页样例内容
<dd><i class="board-index board-index-1">1</i><a href="/films/1203" title="霸王别姬" class="image-link" data-act="boarditem-click" data-val="{movieId:1203}"><img src="//s3plus.meituan.net/v1/mss_e2821d7f0cfe4ac1bf9202ecf9590e67/cdn-prod/file:5788b470/image/loading_2.e3d934bf.png" alt="" class="poster-default" /><img data-src="https://p1.meituan.net/movie/20803f59291c47e1e116c11963ce019e68711.jpg@160w_220h_1e_1c" alt="霸王别姬" class="board-img" /></a><div class="board-item-main"><div class="board-item-content"><div class="movie-item-info"><p class="name"><a href="/films/1203" title="霸王别姬" data-act="boarditem-click" data-val="{movieId:1203}">霸王别姬</a></p><p class="star">主演:张国荣,张丰毅,巩俐</p><p class="releasetime">上映时间:1993-01-01</p></div><div class="movie-item-number score-num"><p class="score"><i class="integer">9.</i><i class="fraction">5</i></p></div></div></div>
</dd>
解析
观察网页代码可发现,每条电影信息都由一个dd标签括起来,二电影的其他信息已经分别标出。获取排名信息的正则表达式:<dd>.*?board-index.*?>(.*?)</i>再获取电影封面:<dd>.*?board-index.*?>(.*?)</i>.*?data-src="(.*?)"再提取电影名,主演,上映时间等信息,同样的道理,最后正则表达式为:'<dd>.*?board-index.*?>(.*?)</i>.*?data-src="(.*?)"'
+'.*?name.*?a.*?>(.*?)</a>.*?star.*?>(.*?)</p>'+'.*?releasetime.*?>(.*?)</p>.*?integer.*?>(.*?)</i>'+'.*?fraction.*?>(.*?)</i>.*?</dd>'
正则表达式
import redef parse_one_page(html):#*********** Begin **********#pattern = re.compile('<dd>.*?board-index.*?>(.*?)</i>.*?data-src="(.*?)"'+'.*?name.*?a.*?>(.*?)</a>.*?star.*?>[^\u4e00-\u9fff]+(.*?)[^\u4e00-\u9fff]+</p>'+'.*?releasetime.*?>(.*?)</p>.*?integer.*?>(.*?)</i>'+'.*?fraction.*?>(.*?)</i>.*?</dd>',re.S) res = re.findall(pattern, html)print(res)# 将输出结果打印即可#*********** End **********#
输出结果
[(‘1’,‘https://p1.meituan.net/movie/20803f59291c47e1e116c11963ce019e68711.jpg@160w_220h_1e_1c’, ‘霸王别姬’, ‘主演:张国荣,张丰毅,巩俐’, ‘上映时间:1993-01-01’, ‘9.’, ‘5’)]
Python 正则表达式 解析猫眼电影网页相关推荐
- Python正则表达式匹配猫眼电影HTML信息
爬虫项目爬取猫眼电影TOP100电影信息 项目内容来自:https://github.com/Germey/MaoYan/blob/master/spider.py 由于其中需要爬取的包含电影名字.电 ...
- python爬虫实战——猫眼电影案例
python爬虫实战--猫眼电影案例 ·背景 笔者上一篇文章<基于猫眼票房数据的可视化分析>中爬取了猫眼实时票房数据,用于展示近三年电影票房概况.由于数据中缺少导演/演员/编剧阵容等信 ...
- (伪)Python爬取猫眼电影(反反爬虫过程中遇到的坑)
Python爬取猫眼电影 1.打开一个猫眼电影的URL,例如本月的较火的电影<毒液:致命守护者>http://maoyan.com/films/42964 直接F12,查看审核元素,发现上 ...
- python爬取猫眼电影数据
每天一点点,记录学习每一步 近期爬虫项目: 1:python 爬取菜鸟教程python100题,百度贴吧图片反爬虫下载,批量下载 2:python爬虫爬取百度贴吧图片,requests方法 3:pyt ...
- python猫眼电影分析_用Python 爬取猫眼电影数据分析《无名之辈》
前言 作者: 罗昭成 PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 http://note.youdao.com/noteshare?id=3054cce4add8a909e7 ...
- Python爬取猫眼电影TOP100榜
Python爬取猫眼电影TOP100榜 兴趣点: 这个没什么特别的兴趣,只是单纯爬猫眼练手的人太多了,所以我也打算加入他们,对猫眼员工说一声不好意思了,哈哈哈! 爬取网址: 传送门:https://m ...
- 利用python爬取猫眼电影,分析《大侦探皮卡丘》|凹凸数读
利用python爬取猫眼电影,分析<大侦探皮卡丘>,看看当皮卡丘长出绒毛,"丑拒"还是"真香"都在猫眼短评里了. 本文首发于微信公众号<凹凸数 ...
- Python爬取猫眼电影榜单评分,以及评论
猫眼电影评论爬取 [目标] (1)爬取榜单电影名称以及评分,简单的数据可视化. (2)爬取< 你好,李焕英>的评论,用词云显示 第一步:了解反爬机制: 1.请求过多,ip地址会被封掉24h ...
- 【Python爬虫】猫眼电影榜单Top100
这是一个入门级的Python爬虫,结构易于理解.本文对编写此爬虫的全过程进行了讲述.希望对大家的Python爬虫学习有所帮助. 一.目标 爬取猫眼电影榜单Top100,将数据存入Excel文件中,并利 ...
最新文章
- 分享阿里云SLB-负载均衡的实现基本原理架构
- C二维数组行为空,列不为空
- GDCM:gdcm::ImageApplyLookupTable的测试程序
- oauth2 token为空拦截_feign之间传递oauth2-token的问题和解决
- No module named 'oscar.apps.promotions'
- 怎么运行Typescript
- Mongodb Replica Configure
- 什么是软件测试?和软件开发又有什么区别?
- 亚信基于AWS构建世界级企业互联网平台
- a span做成按钮样式不选中文字
- c语言九九乘法表的值,c语言九九乘法表!
- Android游戏开发入门基础
- 磁盘管理查看内存软件——WizTree使用
- C语言程序设计摘抄笔记1
- java小球落体问题_小球落体 -- 算法Java
- 排列组合 C语言函数,排列组合(C递归版)
- window.print();去除页眉页脚及网址。
- 高薪offer,只因做对了这套笔试题
- 谷俊丽分享之基于深度学习的大数据挖掘
- # #define 以及 # ##解释
热门文章
- listener之一二
- 计算机故障吧,摊上事了!我给客户修电脑说主板硬盘坏了,客户:你也太坑了吧!...
- python中num是什么意思_python – num_epochs和步骤有什么区别?
- mysql完全删除文件_MySQL完全删除教程
- html span box shadow,box-shadow用法
- 拖放API中的drag和drop实战
- Python socket 获取本机IP地址
- 作为全新流量密码,AI绘画到底怎么挣钱?
- Missing semicolon
- 巨杉2017行业认可盘点