import re,json
from urllib import request
#maoyan.com

#1.获取网页内容
base_url='http://maoyan.com/board'
response=request.urlopen(base_url)
html=response.read()
html=html.decode('utf-8')
#写入文件
with open('maoyan_film.html','w',encoding='utf-8') as f:f.write(html)f.close()#2.提取数据
#(1)缩小范围
# pattern=re.compile(r'<dd>(.*?)</dd>',re.S)#(.*?)只要括号内的内容
pattern=re.compile(r'<dd>.*?</dd>',re.S)#包括<dd>.*?</dd>所有内容
movie_list=pattern.findall(html)
# print(len(s))
# print(s[0])
for movie in movie_list:# print(movie)
    # 拿排名
    # pattern=re.compile(r'<i class="board-index board-index-\d*">(\d+)</i>')
    pattern=re.compile(r'<i class="board-index board-index-\d*">(\d{1,2})</i>')# index=pattern.search(movie)
    # print(index.group(1))
    index=pattern.findall(movie)# print(index[0])

    # 拿名称
    pattern=re.compile(r'title="(.*?)"')title=pattern.findall(movie)print(title[0])# 拿图片
    pattern=re.compile(r'<img data-src="(.*?)@')img=pattern.findall(movie)print(img[0])# 拿主演
    # pattern = re.compile(r'<p class="star">(.*?)</p>')#由于‘\n’原因取不着。
    #方法一
    # pattern=re.compile(r'<p class="star">(.*?)</p>',re.S)
    # star=pattern.findall(movie)
    # print(star[0].strip())

    # 方法2
    pattern = re.compile(r'<p class="star">([\w\W]*?)</p>')  # \s\S,\d\D
    star = pattern.findall(movie)print(star[0].strip())# 上映时间
    pattern=re.compile(r'<p class="releasetime">(.*?)</p>')releaseTime=pattern.findall(movie)print(releaseTime[0])# 评分
    #方法一
    # pattern=re.compile(r'<i class="integer">(\d\.?)</i>')
    # score1=pattern.findall(movie)
    #
    # pattern = re.compile(r'<i class="fraction">(\d?)</i>')
    # score2 = pattern.findall(movie)
    # print(score1[0]+score2[0])

    # 方法二
    pattern = re.compile(r'<p class="score"><i class="integer">(\d+\.)</i><i class="fraction">(\d)</i></p> ')score = pattern.findall(movie)print(score[0][0] + score[0][1])

/Library/Frameworks/Python.framework/Versions/3.6/bin/python3.6 /Users/apple/PycharmProjects/stage4/spider/2018——0307/spider_maoyan_films.py
头号玩家
http://p0.meituan.net/movie/a547dd7f6851d7ced67ec1b6c8b7f3b2447754.jpg
主演:泰尔·谢里丹,奥利维亚·库克,本·门德尔森
上映时间:2018-03-30
9.1
狂暴巨兽
http://p0.meituan.net/movie/d414df29b364e010976c4be97d5ee907290840.jpg
主演:道恩·强森,娜奥米·哈里斯,杰弗里·迪恩·摩根
上映时间:2018-04-13
9.0
起跑线
http://p0.meituan.net/movie/cf9ff1aad19254d99aae31cd53065a271370654.jpg
主演:伊尔凡·可汗,萨巴·卡玛尔,内哈·迪胡皮阿
上映时间:2018-04-04
8.9
黄金花
http://p1.meituan.net/movie/15f0ae1961a0229f71e5c5106a8c55902561485.jpg
主演:毛舜筠,凌文龙,吕良伟
上映时间:2018-04-28
8.8
巴霍巴利王2:终结
http://p0.meituan.net/movie/3e42788f6f6283f430e74ac2381dd6ad151806.jpg
主演:帕拉巴斯,拉纳·达格巴帝,安努舒卡·谢蒂
上映时间:2018-05-04
8.7
青年马克思
http://p1.meituan.net/movie/3b5a995b705b11b5b190e9fd556eecba780985.jpg
主演:奧古斯特·迪赫,史特凡·柯纳斯克,薇姬·克里普斯
上映时间:2018-05-05
8.5
米花之味
http://p0.meituan.net/movie/2129e4efaea8c67a515d6bb0c50cb443992318.jpg
主演:英泽,叶不勒
上映时间:2018-04-20
8.5
脱单告急
http://p0.meituan.net/movie/50fc70e63364f92ff540ef02d26f8102631867.jpg
主演:董子健,钟楚曦,春夏
上映时间:2018-04-20
8.4
21克拉
http://p0.meituan.net/movie/8b154402ef3ac5d59e4a89649f4f5190375170.jpg
主演:郭京飞,迪丽热巴,大鹏
上映时间:2018-04-20
8.2
冰雪女王3:火与冰
http://p1.meituan.net/movie/cb0c58e1da76a387e4433b69627c9680305708.jpg
主演:杰森·格里菲,劳里·海梅斯,迪·布拉雷·贝克尔
上映时间:2018-04-05
8.2

Process finished with exit code 0

Python3-正则表达式~爬取猫眼电影应用相关推荐

  1. 爬虫从头学之Requests+正则表达式爬取猫眼电影top100

    爬取思路 当我们想要爬取一个页面的时候,我们要保证思路清晰,爬虫的思路分四个步骤,发起请求,获取响应内容,解析内容,存储内容.根据这四个内容我们的思路就很清晰.以下为具体步骤 使用requests库爬 ...

  2. python爬取猫眼_python正则表达式爬取猫眼电影top100

    用正则表达式爬取猫眼电影top100,具体内容如下 #!/usr/bin/python # -*- coding: utf-8 -*- import json # 快速导入此模块:鼠标先点到要导入的函 ...

  3. Python3爬虫——爬取猫眼电影排行

    一.爬取猫眼电影排行 目标:提取猫眼电影TOP100的电影排名.名称.主演.上映时间.评分.海报链接. URL:https://maoyan.com/board/4 保存:JSON # 版本:Pyth ...

  4. 利用正则表达式爬取猫眼电影TOP100信息

    本文利用requests库和正则表达式爬取了猫眼电影TOP100电影信息,并将电影封面和标题.主演等文字信息保存在了本地.本文完整代码链接:https://github.com/iapcoder/Ma ...

  5. Python爬虫实战01:Requests+正则表达式爬取猫眼电影

    1 目标站点的分析 2 流程框架 抓取单页内容 利用requests请求目标站点,得到单个网页HTML代码,返回结果. 正则表达式分析 根据HTML代码分析得到电影的名称.主演.上映.时间.评分.图片 ...

  6. Requests+正则表达式爬取猫眼电影(TOP100榜)

    猫眼电影网址:www.maoyan.com 前言:网上一些大神已经对猫眼电影进行过爬取,所用的方法也是各有其优,最终目的是把影片排名.图片.名称.主要演员.上映时间与评分提取出来并保存到文件或者数据库 ...

  7. requests+正则表达式爬取猫眼电影TOP100

    代码: 1 import json 2 from multiprocessing import Pool 3 import requests 4 # http://cn.python-requests ...

  8. 爬虫基本库request使用—爬取猫眼电影信息

    使用request库和正则表达式爬取猫眼电影信息. 1.爬取目标 猫眼电影TOP100的电影名称,时间,评分,等信息,将结果以文件存储. 2.准备工作 安装request库. 3.代码实现 1 imp ...

  9. python爬虫入门练习:BeautifulSoup爬取猫眼电影TOP100排行榜,pandas保存本地excel文件

    传送门:[python爬虫入门练习]正则表达式爬取猫眼电影TOP100排行榜,openpyxl保存本地excel文件 对于上文使用的正则表达式匹配网页内容,的确是有些许麻烦,替换出现任何的差错都会导致 ...

  10. python爬虫,爬取猫眼电影1(正则表达式)

    本文用正则.xpath.beautifulsoup.css.pyquery几种不同的方式,爬取猫眼电影.只是记录过程.比较乱. 猫眼电影现在也添加了一些反爬虫机制,如果直接用requests可能会40 ...

最新文章

  1. c# getresponsestream返回byte[]_C# 基础知识系列-13 常见类库(三)
  2. BizTalk开发系列(九) MAP的连接方法
  3. (七) shiro 加密与解密
  4. python代码没有反应_没有任何编程经验者不要被Python简明手册误导。
  5. SpringBoot中注入ApplicationContext对象的三种方式
  6. 前端开发 表单元素 0229
  7. Lodash-一个一致性、模块化、高性能的 JavaScript 实用工具库介绍
  8. 18.外部相机校准——刚体变换,变换和旋转,外参数矩阵 测验_3
  9. C 和 CPP 混合代码cmath编译出错
  10. HD TUNE以及所有其他硬盘检测工具都不能使用的情况
  11. matlab随机生成点图,matlab随机生成散点图
  12. 多源信息融合中的一些名词及知识点
  13. 设置合适的密码策略chage命令
  14. 环信Android端实时语音视频通话时在本地实现通话录音录像
  15. 形式化方法 | Proof Engineering in Coq——Coq tatics 在命题逻辑证明中的应用
  16. 一枚钻戒如何成功借势世界杯,与粉丝秀恩爱
  17. 工程项目进度控制的重点内容是什么?
  18. 和monkey的相处日记
  19. Single Tree Segmentation and Diameter at Breast Height Estimation With Mobile LiDAR
  20. Mini CFA 考试练习题 Economics of International Trade

热门文章

  1. 带语音通话功能的华为ME909s-821a使用方法
  2. 金山词霸2009破解版SP1牛津版完整绿色破解版
  3. 【冬瓜哥论文】浅析固态介质在存储系统中的应用方式
  4. M个苹果放N个篮子,篮子可以为空,有多少种放法?
  5. DBVisualizer导入excel数据
  6. IReport问题的整理
  7. 人工智能NLP在金融领域的发展趋势和实践经验
  8. adb shell error: device offline
  9. Linux通过windows代理上网配置方式
  10. 手动查毒删除病毒文件图