引导

  • 题目
  • 网页样例内容
  • 正则表达式
  • 输出结果

题目

根据网页源代码提取电影信息,格式如下:
获取内容由
board-index ***(排名)、
date-src(图片地址)、
title(影片名)、
star(主演)、
releasetime(上映时间)、
integer、
fraction (评分 如:9.5 integer:9. fraction:5)
标签组合。

网页样例内容

<dd><i class="board-index board-index-1">1</i><a href="/films/1203" title="霸王别姬" class="image-link" data-act="boarditem-click" data-val="{movieId:1203}"><img src="//s3plus.meituan.net/v1/mss_e2821d7f0cfe4ac1bf9202ecf9590e67/cdn-prod/file:5788b470/image/loading_2.e3d934bf.png" alt="" class="poster-default" /><img data-src="https://p1.meituan.net/movie/20803f59291c47e1e116c11963ce019e68711.jpg@160w_220h_1e_1c" alt="霸王别姬" class="board-img" /></a><div class="board-item-main"><div class="board-item-content"><div class="movie-item-info"><p class="name"><a href="/films/1203" title="霸王别姬" data-act="boarditem-click" data-val="{movieId:1203}">霸王别姬</a></p><p class="star">主演:张国荣,张丰毅,巩俐</p><p class="releasetime">上映时间:1993-01-01</p></div><div class="movie-item-number score-num"><p class="score"><i class="integer">9.</i><i class="fraction">5</i></p></div></div></div>
</dd>

解析

观察网页代码可发现,每条电影信息都由一个dd标签括起来,二电影的其他信息已经分别标出。获取排名信息的正则表达式:<dd>.*?board-index.*?>(.*?)</i>再获取电影封面:<dd>.*?board-index.*?>(.*?)</i>.*?data-src="(.*?)"再提取电影名,主演,上映时间等信息,同样的道理,最后正则表达式为:'<dd>.*?board-index.*?>(.*?)</i>.*?data-src="(.*?)"'
+'.*?name.*?a.*?>(.*?)</a>.*?star.*?>(.*?)</p>'+'.*?releasetime.*?>(.*?)</p>.*?integer.*?>(.*?)</i>'+'.*?fraction.*?>(.*?)</i>.*?</dd>'

正则表达式

import redef parse_one_page(html):#*********** Begin **********#pattern = re.compile('<dd>.*?board-index.*?>(.*?)</i>.*?data-src="(.*?)"'+'.*?name.*?a.*?>(.*?)</a>.*?star.*?>[^\u4e00-\u9fff]+(.*?)[^\u4e00-\u9fff]+</p>'+'.*?releasetime.*?>(.*?)</p>.*?integer.*?>(.*?)</i>'+'.*?fraction.*?>(.*?)</i>.*?</dd>',re.S)    res = re.findall(pattern, html)print(res)# 将输出结果打印即可#*********** End **********#

输出结果

[(‘1’,‘https://p1.meituan.net/movie/20803f59291c47e1e116c11963ce019e68711.jpg@160w_220h_1e_1c’, ‘霸王别姬’, ‘主演:张国荣,张丰毅,巩俐’, ‘上映时间:1993-01-01’, ‘9.’, ‘5’)]

Python 正则表达式 解析猫眼电影网页相关推荐

  1. Python正则表达式匹配猫眼电影HTML信息

    爬虫项目爬取猫眼电影TOP100电影信息 项目内容来自:https://github.com/Germey/MaoYan/blob/master/spider.py 由于其中需要爬取的包含电影名字.电 ...

  2. python爬虫实战——猫眼电影案例

    python爬虫实战--猫眼电影案例 ·背景   笔者上一篇文章<基于猫眼票房数据的可视化分析>中爬取了猫眼实时票房数据,用于展示近三年电影票房概况.由于数据中缺少导演/演员/编剧阵容等信 ...

  3. (伪)Python爬取猫眼电影(反反爬虫过程中遇到的坑)

    Python爬取猫眼电影 1.打开一个猫眼电影的URL,例如本月的较火的电影<毒液:致命守护者>http://maoyan.com/films/42964 直接F12,查看审核元素,发现上 ...

  4. python爬取猫眼电影数据

    每天一点点,记录学习每一步 近期爬虫项目: 1:python 爬取菜鸟教程python100题,百度贴吧图片反爬虫下载,批量下载 2:python爬虫爬取百度贴吧图片,requests方法 3:pyt ...

  5. python猫眼电影分析_用Python 爬取猫眼电影数据分析《无名之辈》

    前言 作者: 罗昭成 PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 http://note.youdao.com/noteshare?id=3054cce4add8a909e7 ...

  6. Python爬取猫眼电影TOP100榜

    Python爬取猫眼电影TOP100榜 兴趣点: 这个没什么特别的兴趣,只是单纯爬猫眼练手的人太多了,所以我也打算加入他们,对猫眼员工说一声不好意思了,哈哈哈! 爬取网址: 传送门:https://m ...

  7. 利用python爬取猫眼电影,分析《大侦探皮卡丘》|凹凸数读

    利用python爬取猫眼电影,分析<大侦探皮卡丘>,看看当皮卡丘长出绒毛,"丑拒"还是"真香"都在猫眼短评里了. 本文首发于微信公众号<凹凸数 ...

  8. Python爬取猫眼电影榜单评分,以及评论

    猫眼电影评论爬取 [目标] (1)爬取榜单电影名称以及评分,简单的数据可视化. (2)爬取< 你好,李焕英>的评论,用词云显示 第一步:了解反爬机制: 1.请求过多,ip地址会被封掉24h ...

  9. 【Python爬虫】猫眼电影榜单Top100

    这是一个入门级的Python爬虫,结构易于理解.本文对编写此爬虫的全过程进行了讲述.希望对大家的Python爬虫学习有所帮助. 一.目标 爬取猫眼电影榜单Top100,将数据存入Excel文件中,并利 ...

最新文章

  1. 分享阿里云SLB-负载均衡的实现基本原理架构
  2. C二维数组行为空,列不为空
  3. GDCM:gdcm::ImageApplyLookupTable的测试程序
  4. oauth2 token为空拦截_feign之间传递oauth2-token的问题和解决
  5. No module named 'oscar.apps.promotions'
  6. 怎么运行Typescript
  7. Mongodb Replica Configure
  8. 什么是软件测试?和软件开发又有什么区别?
  9. 亚信基于AWS构建世界级企业互联网平台
  10. a span做成按钮样式不选中文字
  11. c语言九九乘法表的值,c语言九九乘法表!
  12. Android游戏开发入门基础
  13. 磁盘管理查看内存软件——WizTree使用
  14. C语言程序设计摘抄笔记1
  15. java小球落体问题_小球落体 -- 算法Java
  16. 排列组合 C语言函数,排列组合(C递归版)
  17. window.print();去除页眉页脚及网址。
  18. 高薪offer,只因做对了这套笔试题
  19. 谷俊丽分享之基于深度学习的大数据挖掘
  20. # #define 以及 # ##解释

热门文章

  1. listener之一二
  2. 计算机故障吧,摊上事了!我给客户修电脑说主板硬盘坏了,客户:你也太坑了吧!...
  3. python中num是什么意思_python – num_epochs和步骤有什么区别?
  4. mysql完全删除文件_MySQL完全删除教程
  5. html span box shadow,box-shadow用法
  6. 拖放API中的drag和drop实战
  7. Python socket 获取本机IP地址
  8. 作为全新流量密码,AI绘画到底怎么挣钱?
  9. Missing semicolon
  10. 巨杉2017行业认可盘点