Python3-正则表达式~爬取猫眼电影应用
import re,json from urllib import request #maoyan.com #1.获取网页内容 base_url='http://maoyan.com/board' response=request.urlopen(base_url) html=response.read() html=html.decode('utf-8') #写入文件 with open('maoyan_film.html','w',encoding='utf-8') as f:f.write(html)f.close()#2.提取数据 #(1)缩小范围 # pattern=re.compile(r'<dd>(.*?)</dd>',re.S)#(.*?)只要括号内的内容 pattern=re.compile(r'<dd>.*?</dd>',re.S)#包括<dd>.*?</dd>所有内容 movie_list=pattern.findall(html) # print(len(s)) # print(s[0]) for movie in movie_list:# print(movie) # 拿排名 # pattern=re.compile(r'<i class="board-index board-index-\d*">(\d+)</i>') pattern=re.compile(r'<i class="board-index board-index-\d*">(\d{1,2})</i>')# index=pattern.search(movie) # print(index.group(1)) index=pattern.findall(movie)# print(index[0]) # 拿名称 pattern=re.compile(r'title="(.*?)"')title=pattern.findall(movie)print(title[0])# 拿图片 pattern=re.compile(r'<img data-src="(.*?)@')img=pattern.findall(movie)print(img[0])# 拿主演 # pattern = re.compile(r'<p class="star">(.*?)</p>')#由于‘\n’原因取不着。 #方法一 # pattern=re.compile(r'<p class="star">(.*?)</p>',re.S) # star=pattern.findall(movie) # print(star[0].strip()) # 方法2 pattern = re.compile(r'<p class="star">([\w\W]*?)</p>') # \s\S,\d\D star = pattern.findall(movie)print(star[0].strip())# 上映时间 pattern=re.compile(r'<p class="releasetime">(.*?)</p>')releaseTime=pattern.findall(movie)print(releaseTime[0])# 评分 #方法一 # pattern=re.compile(r'<i class="integer">(\d\.?)</i>') # score1=pattern.findall(movie) # # pattern = re.compile(r'<i class="fraction">(\d?)</i>') # score2 = pattern.findall(movie) # print(score1[0]+score2[0]) # 方法二 pattern = re.compile(r'<p class="score"><i class="integer">(\d+\.)</i><i class="fraction">(\d)</i></p> ')score = pattern.findall(movie)print(score[0][0] + score[0][1])
/Library/Frameworks/Python.framework/Versions/3.6/bin/python3.6 /Users/apple/PycharmProjects/stage4/spider/2018——0307/spider_maoyan_films.py
头号玩家
http://p0.meituan.net/movie/a547dd7f6851d7ced67ec1b6c8b7f3b2447754.jpg
主演:泰尔·谢里丹,奥利维亚·库克,本·门德尔森
上映时间:2018-03-30
9.1
狂暴巨兽
http://p0.meituan.net/movie/d414df29b364e010976c4be97d5ee907290840.jpg
主演:道恩·强森,娜奥米·哈里斯,杰弗里·迪恩·摩根
上映时间:2018-04-13
9.0
起跑线
http://p0.meituan.net/movie/cf9ff1aad19254d99aae31cd53065a271370654.jpg
主演:伊尔凡·可汗,萨巴·卡玛尔,内哈·迪胡皮阿
上映时间:2018-04-04
8.9
黄金花
http://p1.meituan.net/movie/15f0ae1961a0229f71e5c5106a8c55902561485.jpg
主演:毛舜筠,凌文龙,吕良伟
上映时间:2018-04-28
8.8
巴霍巴利王2:终结
http://p0.meituan.net/movie/3e42788f6f6283f430e74ac2381dd6ad151806.jpg
主演:帕拉巴斯,拉纳·达格巴帝,安努舒卡·谢蒂
上映时间:2018-05-04
8.7
青年马克思
http://p1.meituan.net/movie/3b5a995b705b11b5b190e9fd556eecba780985.jpg
主演:奧古斯特·迪赫,史特凡·柯纳斯克,薇姬·克里普斯
上映时间:2018-05-05
8.5
米花之味
http://p0.meituan.net/movie/2129e4efaea8c67a515d6bb0c50cb443992318.jpg
主演:英泽,叶不勒
上映时间:2018-04-20
8.5
脱单告急
http://p0.meituan.net/movie/50fc70e63364f92ff540ef02d26f8102631867.jpg
主演:董子健,钟楚曦,春夏
上映时间:2018-04-20
8.4
21克拉
http://p0.meituan.net/movie/8b154402ef3ac5d59e4a89649f4f5190375170.jpg
主演:郭京飞,迪丽热巴,大鹏
上映时间:2018-04-20
8.2
冰雪女王3:火与冰
http://p1.meituan.net/movie/cb0c58e1da76a387e4433b69627c9680305708.jpg
主演:杰森·格里菲,劳里·海梅斯,迪·布拉雷·贝克尔
上映时间:2018-04-05
8.2
Process finished with exit code 0
Python3-正则表达式~爬取猫眼电影应用相关推荐
- 爬虫从头学之Requests+正则表达式爬取猫眼电影top100
爬取思路 当我们想要爬取一个页面的时候,我们要保证思路清晰,爬虫的思路分四个步骤,发起请求,获取响应内容,解析内容,存储内容.根据这四个内容我们的思路就很清晰.以下为具体步骤 使用requests库爬 ...
- python爬取猫眼_python正则表达式爬取猫眼电影top100
用正则表达式爬取猫眼电影top100,具体内容如下 #!/usr/bin/python # -*- coding: utf-8 -*- import json # 快速导入此模块:鼠标先点到要导入的函 ...
- Python3爬虫——爬取猫眼电影排行
一.爬取猫眼电影排行 目标:提取猫眼电影TOP100的电影排名.名称.主演.上映时间.评分.海报链接. URL:https://maoyan.com/board/4 保存:JSON # 版本:Pyth ...
- 利用正则表达式爬取猫眼电影TOP100信息
本文利用requests库和正则表达式爬取了猫眼电影TOP100电影信息,并将电影封面和标题.主演等文字信息保存在了本地.本文完整代码链接:https://github.com/iapcoder/Ma ...
- Python爬虫实战01:Requests+正则表达式爬取猫眼电影
1 目标站点的分析 2 流程框架 抓取单页内容 利用requests请求目标站点,得到单个网页HTML代码,返回结果. 正则表达式分析 根据HTML代码分析得到电影的名称.主演.上映.时间.评分.图片 ...
- Requests+正则表达式爬取猫眼电影(TOP100榜)
猫眼电影网址:www.maoyan.com 前言:网上一些大神已经对猫眼电影进行过爬取,所用的方法也是各有其优,最终目的是把影片排名.图片.名称.主要演员.上映时间与评分提取出来并保存到文件或者数据库 ...
- requests+正则表达式爬取猫眼电影TOP100
代码: 1 import json 2 from multiprocessing import Pool 3 import requests 4 # http://cn.python-requests ...
- 爬虫基本库request使用—爬取猫眼电影信息
使用request库和正则表达式爬取猫眼电影信息. 1.爬取目标 猫眼电影TOP100的电影名称,时间,评分,等信息,将结果以文件存储. 2.准备工作 安装request库. 3.代码实现 1 imp ...
- python爬虫入门练习:BeautifulSoup爬取猫眼电影TOP100排行榜,pandas保存本地excel文件
传送门:[python爬虫入门练习]正则表达式爬取猫眼电影TOP100排行榜,openpyxl保存本地excel文件 对于上文使用的正则表达式匹配网页内容,的确是有些许麻烦,替换出现任何的差错都会导致 ...
- python爬虫,爬取猫眼电影1(正则表达式)
本文用正则.xpath.beautifulsoup.css.pyquery几种不同的方式,爬取猫眼电影.只是记录过程.比较乱. 猫眼电影现在也添加了一些反爬虫机制,如果直接用requests可能会40 ...
最新文章
- c# getresponsestream返回byte[]_C# 基础知识系列-13 常见类库(三)
- BizTalk开发系列(九) MAP的连接方法
- (七) shiro 加密与解密
- python代码没有反应_没有任何编程经验者不要被Python简明手册误导。
- SpringBoot中注入ApplicationContext对象的三种方式
- 前端开发 表单元素 0229
- Lodash-一个一致性、模块化、高性能的 JavaScript 实用工具库介绍
- 18.外部相机校准——刚体变换,变换和旋转,外参数矩阵 测验_3
- C 和 CPP 混合代码cmath编译出错
- HD TUNE以及所有其他硬盘检测工具都不能使用的情况
- matlab随机生成点图,matlab随机生成散点图
- 多源信息融合中的一些名词及知识点
- 设置合适的密码策略chage命令
- 环信Android端实时语音视频通话时在本地实现通话录音录像
- 形式化方法 | Proof Engineering in Coq——Coq tatics 在命题逻辑证明中的应用
- 一枚钻戒如何成功借势世界杯,与粉丝秀恩爱
- 工程项目进度控制的重点内容是什么?
- 和monkey的相处日记
- Single Tree Segmentation and Diameter at Breast Height Estimation With Mobile LiDAR
- Mini CFA 考试练习题 Economics of International Trade