Python3-正则表达式~爬取猫眼电影应用

import re,json
from urllib import request
#maoyan.com

#1.获取网页内容
base_url='http://maoyan.com/board'
response=request.urlopen(base_url)
html=response.read()
html=html.decode('utf-8')
#写入文件
with open('maoyan_film.html','w',encoding='utf-8') as f:f.write(html)f.close()#2.提取数据
#（1）缩小范围
# pattern=re.compile(r'<dd>(.*?)</dd>',re.S)#(.*?)只要括号内的内容
pattern=re.compile(r'<dd>.*?</dd>',re.S)#包括<dd>.*?</dd>所有内容
movie_list=pattern.findall(html)
# print(len(s))
# print(s[0])
for movie in movie_list:# print(movie)
    # 拿排名
    # pattern=re.compile(r'<i class="board-index board-index-\d*">(\d+)</i>')
    pattern=re.compile(r'<i class="board-index board-index-\d*">(\d{1,2})</i>')# index=pattern.search(movie)
    # print(index.group(1))
    index=pattern.findall(movie)# print(index[0])

    # 拿名称
    pattern=re.compile(r'title="(.*?)"')title=pattern.findall(movie)print(title[0])# 拿图片
    pattern=re.compile(r'<img data-src="(.*?)@')img=pattern.findall(movie)print(img[0])# 拿主演
    # pattern = re.compile(r'<p class="star">(.*?)</p>')#由于‘\n’原因取不着。
    #方法一
    # pattern=re.compile(r'<p class="star">(.*?)</p>',re.S)
    # star=pattern.findall(movie)
    # print(star[0].strip())

    # 方法2
    pattern = re.compile(r'<p class="star">([\w\W]*?)</p>')  # \s\S,\d\D
    star = pattern.findall(movie)print(star[0].strip())# 上映时间
    pattern=re.compile(r'<p class="releasetime">(.*?)</p>')releaseTime=pattern.findall(movie)print(releaseTime[0])# 评分
    #方法一
    # pattern=re.compile(r'<i class="integer">(\d\.?)</i>')
    # score1=pattern.findall(movie)
    #
    # pattern = re.compile(r'<i class="fraction">(\d?)</i>')
    # score2 = pattern.findall(movie)
    # print(score1[0]+score2[0])

    # 方法二
    pattern = re.compile(r'<p class="score"><i class="integer">(\d+\.)</i><i class="fraction">(\d)</i></p> ')score = pattern.findall(movie)print(score[0][0] + score[0][1])

/Library/Frameworks/Python.framework/Versions/3.6/bin/python3.6 /Users/apple/PycharmProjects/stage4/spider/2018——0307/spider_maoyan_films.py
头号玩家
http://p0.meituan.net/movie/a547dd7f6851d7ced67ec1b6c8b7f3b2447754.jpg
主演：泰尔·谢里丹,奥利维亚·库克,本·门德尔森
上映时间：2018-03-30
9.1
狂暴巨兽
http://p0.meituan.net/movie/d414df29b364e010976c4be97d5ee907290840.jpg
主演：道恩·强森,娜奥米·哈里斯,杰弗里·迪恩·摩根
上映时间：2018-04-13
9.0
起跑线
http://p0.meituan.net/movie/cf9ff1aad19254d99aae31cd53065a271370654.jpg
主演：伊尔凡·可汗,萨巴·卡玛尔,内哈·迪胡皮阿
上映时间：2018-04-04
8.9
黄金花
http://p1.meituan.net/movie/15f0ae1961a0229f71e5c5106a8c55902561485.jpg
主演：毛舜筠,凌文龙,吕良伟
上映时间：2018-04-28
8.8
巴霍巴利王2：终结
http://p0.meituan.net/movie/3e42788f6f6283f430e74ac2381dd6ad151806.jpg
主演：帕拉巴斯,拉纳·达格巴帝,安努舒卡·谢蒂
上映时间：2018-05-04
8.7
青年马克思
http://p1.meituan.net/movie/3b5a995b705b11b5b190e9fd556eecba780985.jpg
主演：奧古斯特·迪赫,史特凡·柯纳斯克,薇姬·克里普斯
上映时间：2018-05-05
8.5
米花之味
http://p0.meituan.net/movie/2129e4efaea8c67a515d6bb0c50cb443992318.jpg
主演：英泽,叶不勒
上映时间：2018-04-20
8.5
脱单告急
http://p0.meituan.net/movie/50fc70e63364f92ff540ef02d26f8102631867.jpg
主演：董子健,钟楚曦,春夏
上映时间：2018-04-20
8.4
21克拉
http://p0.meituan.net/movie/8b154402ef3ac5d59e4a89649f4f5190375170.jpg
主演：郭京飞,迪丽热巴,大鹏
上映时间：2018-04-20
8.2
冰雪女王3：火与冰
http://p1.meituan.net/movie/cb0c58e1da76a387e4433b69627c9680305708.jpg
主演：杰森·格里菲,劳里·海梅斯,迪·布拉雷·贝克尔
上映时间：2018-04-05
8.2

Process finished with exit code 0

Python3-正则表达式~爬取猫眼电影应用相关推荐

爬虫从头学之Requests+正则表达式爬取猫眼电影top100
爬取思路当我们想要爬取一个页面的时候,我们要保证思路清晰,爬虫的思路分四个步骤,发起请求,获取响应内容,解析内容,存储内容.根据这四个内容我们的思路就很清晰.以下为具体步骤使用requests库爬 ...
python爬取猫眼_python正则表达式爬取猫眼电影top100
用正则表达式爬取猫眼电影top100,具体内容如下 #!/usr/bin/python # -*- coding: utf-8 -*- import json # 快速导入此模块:鼠标先点到要导入的函 ...
Python3爬虫——爬取猫眼电影排行
一.爬取猫眼电影排行目标:提取猫眼电影TOP100的电影排名.名称.主演.上映时间.评分.海报链接. URL:https://maoyan.com/board/4 保存:JSON # 版本:Pyth ...
利用正则表达式爬取猫眼电影TOP100信息
本文利用requests库和正则表达式爬取了猫眼电影TOP100电影信息,并将电影封面和标题.主演等文字信息保存在了本地.本文完整代码链接:https://github.com/iapcoder/Ma ...
Python爬虫实战01：Requests+正则表达式爬取猫眼电影
1 目标站点的分析 2 流程框架抓取单页内容利用requests请求目标站点,得到单个网页HTML代码,返回结果. 正则表达式分析根据HTML代码分析得到电影的名称.主演.上映.时间.评分.图片 ...
Requests+正则表达式爬取猫眼电影(TOP100榜)
猫眼电影网址:www.maoyan.com 前言:网上一些大神已经对猫眼电影进行过爬取,所用的方法也是各有其优,最终目的是把影片排名.图片.名称.主要演员.上映时间与评分提取出来并保存到文件或者数据库 ...
requests+正则表达式爬取猫眼电影TOP100
代码: 1 import json 2 from multiprocessing import Pool 3 import requests 4 # http://cn.python-requests ...
爬虫基本库request使用—爬取猫眼电影信息
使用request库和正则表达式爬取猫眼电影信息. 1.爬取目标猫眼电影TOP100的电影名称,时间,评分,等信息,将结果以文件存储. 2.准备工作安装request库. 3.代码实现 1 imp ...
python爬虫入门练习：BeautifulSoup爬取猫眼电影TOP100排行榜，pandas保存本地excel文件
传送门:[python爬虫入门练习]正则表达式爬取猫眼电影TOP100排行榜,openpyxl保存本地excel文件对于上文使用的正则表达式匹配网页内容,的确是有些许麻烦,替换出现任何的差错都会导致 ...
python爬虫，爬取猫眼电影1（正则表达式）
本文用正则.xpath.beautifulsoup.css.pyquery几种不同的方式,爬取猫眼电影.只是记录过程.比较乱. 猫眼电影现在也添加了一些反爬虫机制,如果直接用requests可能会40 ...

Python3-正则表达式~爬取猫眼电影应用

Python3-正则表达式~爬取猫眼电影应用相关推荐

最新文章

热门文章