python+requests+re匹配抓取猫眼上映电影信息
python+requests抓取猫眼中上映电影,re正则匹配获取对应电影的排名,图片地址,片名,主演及上映时间和评分
import requests import re, json def get_html(url):"""获取网页html源码:return:"""user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) " \"AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36"# 浏览器信息headers = {"User-Agent": user_agent}r = requests.get(url, headers=headers) html = r.text# print(html)return htmldef parse_one_page(html):"""正则匹配需要内容:param html::return:"""# 排名+图片地址+主演+上映时间+评分pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a'+ '.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>'+ '.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>', re.S)items = re.findall(pattern, html)for item in items:yield {"排名": item[0],"图片地址": item[1],"片名": item[2],"主演": item[3].strip()[3:],"上映时间": item[4].strip()[4:],"分数": item[5] + item[6]}# 数据存储def write_file(content):with open("result.txt", 'a+', encoding='utf-8') as f:f.write(json.dumps(content, ensure_ascii=False) + "\n")def main():"""主函数:return:"""url = "http://maoyan.com/board/4"html = get_html(url)for item in parse_one_page(html):print(item)write_file(item)if __name__ == '__main__':main()
转载于:https://www.cnblogs.com/CesareZhang/p/11027772.html
python+requests+re匹配抓取猫眼上映电影信息相关推荐
- 抓取猫眼top100电影信息
1. 在google浏览器中输入maoyan.com, 点击榜单top100. 2.观察分页路由,构造分页url = 'http://maoyan.com/board/4?offset=' + st ...
- 003.[python学习] 简单抓取豆瓣网电影信息程序
003.[python学习] 简单抓取豆瓣网电影信息程序 声明:本程序仅用于学习爬网页数据,不可用于其它用途. 本程序仍有很多不足之处,请读者不吝赐教. 依赖:本程序依赖BeautifulSoup4和 ...
- 【Python】Python3网络爬虫实战-27、Requests与正则表达式抓取猫眼电影排行
本节我们利用 Requests 和正则表达式来抓取猫眼电影 TOP100 的相关内容,Requests 相较于 Urllib 使用更加方便,而目前我们还没有系统学习 HTML 解析库,所以可能对 HT ...
- Requests与正则表达式抓取猫眼电影排行!
本节我们利用 Requests 和正则表达式来抓取猫眼电影 TOP100 的相关内容,Requests 相较于 Urllib 使用更加方便,而目前我们还没有系统学习 HTML 解析库,所以可能对 HT ...
- Python3网络爬虫实战-27、Requests与正则表达式抓取猫眼电影排行
本节我们利用 Requests 和正则表达式来抓取猫眼电影 TOP100 的相关内容,Requests 相较于 Urllib 使用更加方便,而目前我们还没有系统学习 HTML 解析库,所以可能对 HT ...
- 通过python requests第三方库抓取淘宝商品名称和信息价格
项目名称:淘宝爬虫之抓取商品标题和价格信息 任务背景: 公司要求提取各电商平台的咖啡机的价格信息,在淘宝开放平台找不到合适的API..获取价格就是为了产品定价,和将来打价格战. 实现用到的库:requ ...
- python爬虫练习--爬取猫眼top100电影信息
#! /usr/bin/env python # coding: utf-8 #环境要求:python3 #抓取猫眼电影top100 ''' 抓取的目标网站为:http://maoyan.com/bo ...
- Python爬虫项目:抓取智联招聘信息
来自https://mp.weixin.qq.com/s/0SzLGqv2p0-IWSN3r8bOHA ''' Python爬虫之五:抓取智联招聘基础版 该文件运行后会产生一个代码,保存在这个Pyth ...
- python找房源_python抓取链家房源信息(二)
试着用scrapy将之前写的抓取链家网信息的重新写了写 然后先是用了第一页的网页作为测试,调试代码,然后发现总是抓取的时候遇见了 类似于这样的问题,并且抓取不到信息 2017-03-28 17:52: ...
最新文章
- 利用Libra进行机器学习和深度学习
- 10.07-Idea的使用
- Leetcode1702. 修改后的最大二进制字符串[C++题解]:思维题
- php多个 r n如何过滤,php怎么去掉r n
- Yum database disk image is malformed 错误
- Little Sub and Sequence
- resin php mysql_RedhatAS4.0上安装Apache2+PHP5+MySQL+Resin+SSL+GD+webalizer
- dojo/dom-class源码学习
- 系统集成j2cache
- 坐标系的旋转与欧拉角
- numpy手写NLP模型(四)———— RNN
- Java在手机平台上的Porting
- 个税汇算期,公司收到好多申诉,怎么办?
- java开发256g固态硬盘_256g固态硬盘有哪些
- 手动安装ceph和使用
- 怎样用比较器实现信号的衰减和饱和_【白皮书】利用信号调理提高测量质量(中)...
- 未能加载文件或程序集“office, Version=15.0.0.0, Culture=neutral, PublicKeyToken=71e9bce111e9429c”或它的某一个依赖项。拒绝访问
- 飞思卡尔XS128系列(三) PIT
- 微信小程序人工智能之添加学生信息
- 精读《素书》精彩语录及感悟篇(三)