直接上代码

import datetime
import json
from multiprocessing.dummy import Pool
from time import localtime, strftimeimport requests
from requests.exceptions import RequestException
import redef get_one_page(url):try:response = requests.get(url)if response.status_code == 200:return response.textelse:return Noneexcept RequestException:return Nonedef parse_one_page(html):pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>.*?integer">(.*?)</i>.*?fraction">(.*?)</i></p>.*?</dd>', re.S)items = re.findall(pattern, html)# print(items)for item in items:yield {'index': item[0],'image': item[1],'title': item[2],'actor': item[3].strip()[3:],'time': item[4].strip()[5:],'score': item[5] + item[6]}def write_to_file(content):with open('result.txt', 'a', encoding='utf-8') as f:f.write(json.dumps(content, ensure_ascii=False) + '\r')f.close()def main(offset):url = 'https://maoyan.com/board/4?offset=' + str(offset)html = get_one_page(url)for item in parse_one_page(html):print(item)write_to_file(item)if __name__ == '__main__':# for i in range(10):#     main(i*10)start = datetime.datetime.now()pool = Pool()pool.map(main, [i*10 for i in range(10)])end = datetime.datetime.now()print(end - start)

python爬取猫眼电影评分相关推荐

  1. python爬取猫眼电影评分反反爬方式

    一.所需工具 FontCreator 二.问题引入 我们用Chrome登录电影<死侍2>的主页,查看页面信息,会发现用户评分出现乱码两个方框: 再查看这个地方的html源代码: 是类似一个 ...

  2. 使用Requests库+re库爬取猫眼电影评分

    使用Requests库+re库爬取猫眼电影评分 作者:小胖 0x1: 分析 在简单的翻页中,我们可以知道.网页涵盖了以下几个规律 1.offset参数的值是除以30就是当前的页面 2.每个页面只有30 ...

  3. python爬取猫眼电影数据

    每天一点点,记录学习每一步 近期爬虫项目: 1:python 爬取菜鸟教程python100题,百度贴吧图片反爬虫下载,批量下载 2:python爬虫爬取百度贴吧图片,requests方法 3:pyt ...

  4. python猫眼电影分析_用Python 爬取猫眼电影数据分析《无名之辈》

    前言 作者: 罗昭成 PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 http://note.youdao.com/noteshare?id=3054cce4add8a909e7 ...

  5. 利用python爬取猫眼电影,分析《大侦探皮卡丘》|凹凸数读

    利用python爬取猫眼电影,分析<大侦探皮卡丘>,看看当皮卡丘长出绒毛,"丑拒"还是"真香"都在猫眼短评里了. 本文首发于微信公众号<凹凸数 ...

  6. (伪)Python爬取猫眼电影(反反爬虫过程中遇到的坑)

    Python爬取猫眼电影 1.打开一个猫眼电影的URL,例如本月的较火的电影<毒液:致命守护者>http://maoyan.com/films/42964 直接F12,查看审核元素,发现上 ...

  7. Python爬取猫眼电影TOP100榜

    Python爬取猫眼电影TOP100榜 兴趣点: 这个没什么特别的兴趣,只是单纯爬猫眼练手的人太多了,所以我也打算加入他们,对猫眼员工说一声不好意思了,哈哈哈! 爬取网址: 传送门:https://m ...

  8. python爬取猫眼电影

    爬取猫眼电影排名前一百的电影 验证问题不知道怎么解决,隔段时间要重新输一次链接' # -*- coding: utf-8 -*- """ Created on Wed D ...

  9. python 爬取猫眼电影网站数据

    完整代码下载:https://github.com/tanjunchen/SpiderProject/tree/master/maoyan python 爬取 movie.douban.com 网站 ...

最新文章

  1. Python 语法小知识
  2. Spring Cloud Stream消费失败后的处理策略(四):重新入队(RabbitMQ)
  3. ERP笔记2-善用SVN对系统环境进行配置和组织
  4. element ui点击按钮弹出款_前端猿应该知道的十大最流行的前端UI框架
  5. Android核心分析之GUI框架的原理
  6. 一篇文章全方位了解:static main final
  7. 赛码网算法: 上台阶 ( python3实现 、c实现)
  8. es6方法过滤掉两个数组中对象id值相等的项
  9. Linux下发生段错误时如何产生core文件-转
  10. 哦,指针问题的见解啊
  11. mysql 5.6.15 winx64_mysql-5.6.15-winx64免安装 配置步骤
  12. 一个注册表清理工具Advanced Uninstaller PRO 12
  13. linaro 网站资源
  14. 纯手工html+css实现静态游戏网首页(免费拿源码)
  15. CSS基础常识问答(四)
  16. Cesium自定义编辑多边形
  17. springboot controller 中新建一个控制器类 提示该类从未被使用
  18. 何海涛100题(1)自己心得
  19. 煤炭行业生命周期分析,煤炭行业周期性特征
  20. VisualSVN Server版本库搭建

热门文章

  1. Python中IO编程-文件读写
  2. 数据库ALTER语句使用
  3. 美团外卖订单小票打印规范
  4. Android中的事件处理总结
  5. 什么打印软件比较好用?可以打印资料的网上打印平台
  6. Contest2257 - 抗击疫情,从我做起--大中小学生联合训练赛第五十二场
  7. HTTP Error 503错误
  8. 推荐十本值得一读的AI书籍(留言送书)
  9. 2312、卖木头块 | 面试官与狂徒张三的那些事(leetcode,附思维导图 + 全部解法)
  10. 手把手教你整合SSM实现一个简单的CRUD项目