python+requests+re匹配抓取猫眼上映电影信息

python+requests抓取猫眼中上映电影，re正则匹配获取对应电影的排名，图片地址，片名，主演及上映时间和评分

import requests
import re, json
def get_html(url):"""获取网页html源码:return:"""user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) " \"AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36"# 浏览器信息headers = {"User-Agent": user_agent}r = requests.get(url, headers=headers)  html = r.text# print(html)return htmldef parse_one_page(html):"""正则匹配需要内容:param html::return:"""# 排名+图片地址+主演+上映时间+评分pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a'+ '.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>'+ '.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>', re.S)items = re.findall(pattern, html)for item in items:yield {"排名": item[0],"图片地址": item[1],"片名": item[2],"主演": item[3].strip()[3:],"上映时间": item[4].strip()[4:],"分数": item[5] + item[6]}# 数据存储def write_file(content):with open("result.txt", 'a+', encoding='utf-8') as f:f.write(json.dumps(content, ensure_ascii=False) + "\n")def main():"""主函数:return:"""url = "http://maoyan.com/board/4"html = get_html(url)for item in parse_one_page(html):print(item)write_file(item)if __name__ == '__main__':main()

转载于:https://www.cnblogs.com/CesareZhang/p/11027772.html

python+requests+re匹配抓取猫眼上映电影信息相关推荐

抓取猫眼top100电影信息
1. 在google浏览器中输入maoyan.com, 点击榜单top100. 2.观察分页路由,构造分页url = 'http://maoyan.com/board/4?offset=' + st ...
003.[python学习] 简单抓取豆瓣网电影信息程序
003.[python学习] 简单抓取豆瓣网电影信息程序声明:本程序仅用于学习爬网页数据,不可用于其它用途. 本程序仍有很多不足之处,请读者不吝赐教. 依赖:本程序依赖BeautifulSoup4和 ...
【Python】Python3网络爬虫实战-27、Requests与正则表达式抓取猫眼电影排行
本节我们利用 Requests 和正则表达式来抓取猫眼电影 TOP100 的相关内容,Requests 相较于 Urllib 使用更加方便,而目前我们还没有系统学习 HTML 解析库,所以可能对 HT ...
Requests与正则表达式抓取猫眼电影排行！
本节我们利用 Requests 和正则表达式来抓取猫眼电影 TOP100 的相关内容,Requests 相较于 Urllib 使用更加方便,而目前我们还没有系统学习 HTML 解析库,所以可能对 HT ...
Python3网络爬虫实战-27、Requests与正则表达式抓取猫眼电影排行
本节我们利用 Requests 和正则表达式来抓取猫眼电影 TOP100 的相关内容,Requests 相较于 Urllib 使用更加方便,而目前我们还没有系统学习 HTML 解析库,所以可能对 HT ...
通过python requests第三方库抓取淘宝商品名称和信息价格
项目名称:淘宝爬虫之抓取商品标题和价格信息任务背景: 公司要求提取各电商平台的咖啡机的价格信息,在淘宝开放平台找不到合适的API..获取价格就是为了产品定价,和将来打价格战. 实现用到的库:requ ...
python爬虫练习--爬取猫眼top100电影信息
#! /usr/bin/env python # coding: utf-8 #环境要求:python3 #抓取猫眼电影top100 ''' 抓取的目标网站为:http://maoyan.com/bo ...
Python爬虫项目：抓取智联招聘信息
来自https://mp.weixin.qq.com/s/0SzLGqv2p0-IWSN3r8bOHA ''' Python爬虫之五:抓取智联招聘基础版该文件运行后会产生一个代码,保存在这个Pyth ...
python找房源_python抓取链家房源信息(二)
试着用scrapy将之前写的抓取链家网信息的重新写了写然后先是用了第一页的网页作为测试,调试代码,然后发现总是抓取的时候遇见了类似于这样的问题,并且抓取不到信息 2017-03-28 17:52: ...

python+requests+re匹配抓取猫眼上映电影信息

python+requests+re匹配抓取猫眼上映电影信息相关推荐

最新文章

热门文章