python爬取猫眼电影评分
直接上代码
import datetime
import json
from multiprocessing.dummy import Pool
from time import localtime, strftimeimport requests
from requests.exceptions import RequestException
import redef get_one_page(url):try:response = requests.get(url)if response.status_code == 200:return response.textelse:return Noneexcept RequestException:return Nonedef parse_one_page(html):pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>.*?integer">(.*?)</i>.*?fraction">(.*?)</i></p>.*?</dd>', re.S)items = re.findall(pattern, html)# print(items)for item in items:yield {'index': item[0],'image': item[1],'title': item[2],'actor': item[3].strip()[3:],'time': item[4].strip()[5:],'score': item[5] + item[6]}def write_to_file(content):with open('result.txt', 'a', encoding='utf-8') as f:f.write(json.dumps(content, ensure_ascii=False) + '\r')f.close()def main(offset):url = 'https://maoyan.com/board/4?offset=' + str(offset)html = get_one_page(url)for item in parse_one_page(html):print(item)write_to_file(item)if __name__ == '__main__':# for i in range(10):# main(i*10)start = datetime.datetime.now()pool = Pool()pool.map(main, [i*10 for i in range(10)])end = datetime.datetime.now()print(end - start)
python爬取猫眼电影评分相关推荐
- python爬取猫眼电影评分反反爬方式
一.所需工具 FontCreator 二.问题引入 我们用Chrome登录电影<死侍2>的主页,查看页面信息,会发现用户评分出现乱码两个方框: 再查看这个地方的html源代码: 是类似一个 ...
- 使用Requests库+re库爬取猫眼电影评分
使用Requests库+re库爬取猫眼电影评分 作者:小胖 0x1: 分析 在简单的翻页中,我们可以知道.网页涵盖了以下几个规律 1.offset参数的值是除以30就是当前的页面 2.每个页面只有30 ...
- python爬取猫眼电影数据
每天一点点,记录学习每一步 近期爬虫项目: 1:python 爬取菜鸟教程python100题,百度贴吧图片反爬虫下载,批量下载 2:python爬虫爬取百度贴吧图片,requests方法 3:pyt ...
- python猫眼电影分析_用Python 爬取猫眼电影数据分析《无名之辈》
前言 作者: 罗昭成 PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 http://note.youdao.com/noteshare?id=3054cce4add8a909e7 ...
- 利用python爬取猫眼电影,分析《大侦探皮卡丘》|凹凸数读
利用python爬取猫眼电影,分析<大侦探皮卡丘>,看看当皮卡丘长出绒毛,"丑拒"还是"真香"都在猫眼短评里了. 本文首发于微信公众号<凹凸数 ...
- (伪)Python爬取猫眼电影(反反爬虫过程中遇到的坑)
Python爬取猫眼电影 1.打开一个猫眼电影的URL,例如本月的较火的电影<毒液:致命守护者>http://maoyan.com/films/42964 直接F12,查看审核元素,发现上 ...
- Python爬取猫眼电影TOP100榜
Python爬取猫眼电影TOP100榜 兴趣点: 这个没什么特别的兴趣,只是单纯爬猫眼练手的人太多了,所以我也打算加入他们,对猫眼员工说一声不好意思了,哈哈哈! 爬取网址: 传送门:https://m ...
- python爬取猫眼电影
爬取猫眼电影排名前一百的电影 验证问题不知道怎么解决,隔段时间要重新输一次链接' # -*- coding: utf-8 -*- """ Created on Wed D ...
- python 爬取猫眼电影网站数据
完整代码下载:https://github.com/tanjunchen/SpiderProject/tree/master/maoyan python 爬取 movie.douban.com 网站 ...
最新文章
- Python 语法小知识
- Spring Cloud Stream消费失败后的处理策略(四):重新入队(RabbitMQ)
- ERP笔记2-善用SVN对系统环境进行配置和组织
- element ui点击按钮弹出款_前端猿应该知道的十大最流行的前端UI框架
- Android核心分析之GUI框架的原理
- 一篇文章全方位了解:static main final
- 赛码网算法: 上台阶 ( python3实现 、c实现)
- es6方法过滤掉两个数组中对象id值相等的项
- Linux下发生段错误时如何产生core文件-转
- 哦,指针问题的见解啊
- mysql 5.6.15 winx64_mysql-5.6.15-winx64免安装 配置步骤
- 一个注册表清理工具Advanced Uninstaller PRO 12
- linaro 网站资源
- 纯手工html+css实现静态游戏网首页(免费拿源码)
- CSS基础常识问答(四)
- Cesium自定义编辑多边形
- springboot controller 中新建一个控制器类 提示该类从未被使用
- 何海涛100题(1)自己心得
- 煤炭行业生命周期分析,煤炭行业周期性特征
- VisualSVN Server版本库搭建