一个Python 爬取猫眼top100的小栗子

import json
import requests
import re
from multiprocessing import Pool #//进程池
from requests.exceptions import RequestException
#请求单页
def get_one_page(url):try:headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.79 Safari/537.36'}response = requests.get(url,headers=headers)if response.status_code == 200:return response.textreturn Noneexcept RequestException:return None#解析页面
def parse_one_page(html):pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>',re.S)items = re.findall(pattern, html)print(items)for item in items:yield {'index':item[0],'image': item[1],'title': item[2],'actor': item[3].strip()[3:],'time':item[4].strip()[5:],'score': item[5]+item[6]}def main(offset):url = 'https://maoyan.com/board/4?offset='+str(offset)html = get_one_page(url)htmls=parse_one_page(html)for item in htmls:print(item)wirte_to_file(item) #写入文件#写到文件中
def wirte_to_file(content):with open('result.txt','a') as f:f.write(json.dumps(content)+'\n')f.close()#开始调用
if __name__ =='__main__':#普通方式for item in range(10):main(str(item*10))#线程池# pool = Pool()# pool.map(main,[i*10 for i in range(10)])

Python 爬取 猫眼 top100 电影例子相关推荐

  1. python爬取猫眼top100电影,经典永远是经典

    想必大家在无聊的时候,都想找一部口碑的好电影,而自己又没看过的,这个其实可以参考猫眼top100的上排名,因为排名是靠评分升上去,想排名第一的<霸王别姬>,"哥哥"在里 ...

  2. python 爬取豆瓣top100电影页面

    python 爬取豆瓣top100电影页面 运行结果截图: 代码: (原网站:https://movie.douban.com/top250) 1.将页面保存 避免多次访问 (登陆状态需页面cooki ...

  3. python爬虫练习--爬取猫眼top100电影信息

    #! /usr/bin/env python # coding: utf-8 #环境要求:python3 #抓取猫眼电影top100 ''' 抓取的目标网站为:http://maoyan.com/bo ...

  4. 爬取猫眼 TOP100 电影并以 excel 格式存储

    爬取目标 本文将提取猫眼电影 TOP100 排行榜的电影名称.时间.评分.图片等信息,URL 为http://maoyan.com/board/4,提取的结果我们以 excel 格式保存下来. 准备工 ...

  5. 爬取猫眼TOP100电影

    import json import re import requests from requests import RequestException from multiprocessing imp ...

  6. Jupyter notebook爬取猫眼top100电影信息(Xpath)

    文章目录 Jupyter notebook 简介 代码 Jupyter notebook 简介 基于网页交互式运算的应用程序,可以在网页上编写和执行代码.本文将使用Xpath方法获取信息. 代码 导入 ...

  7. python爬取电影评分_用Python爬取猫眼上的top100评分电影

    代码如下: # 注意encoding = 'utf-8'和ensure_ascii = False,不写的话不能输出汉字 import requests from requests.exception ...

  8. Python爬取猫眼电影TOP100榜

    Python爬取猫眼电影TOP100榜 兴趣点: 这个没什么特别的兴趣,只是单纯爬猫眼练手的人太多了,所以我也打算加入他们,对猫眼员工说一声不好意思了,哈哈哈! 爬取网址: 传送门:https://m ...

  9. python爬虫:爬取猫眼TOP100榜的100部高分经典电影

    1.问题描述: 爬取猫眼TOP100榜的100部高分经典电影,并将数据存储到CSV文件中 2.思路分析: (1)目标网址:http://maoyan.com/board/4 (2)代码结构: (3) ...

  10. python爬取猫眼电影数据

    每天一点点,记录学习每一步 近期爬虫项目: 1:python 爬取菜鸟教程python100题,百度贴吧图片反爬虫下载,批量下载 2:python爬虫爬取百度贴吧图片,requests方法 3:pyt ...

最新文章

  1. oracle 更改用户状态,密码
  2. 第八周实践项目10 稀疏矩阵的十字链表表示
  3. 影响 PCR 体系蒸发的三大因素
  4. 配置使用EF6.0常见的一些问题及解决方案
  5. JVM学习笔记(一)------基本结构
  6. CoreText入门
  7. 收集网络状态(Ping),并用邮件通知管理员
  8. 【HTML】一个好看的登录界面
  9. java oracle的2种分页方法
  10. Windows下提升进程权限(转)
  11. 树莓派4B安装Ubuntu20.04
  12. 结合索引优化SQL语句提高数据库查询效率
  13. SQL 数据库操作类
  14. ps剪贴蒙版教程(ps创建剪贴蒙版步骤)
  15. Javascript匿名类
  16. 关于安装SQLServer2012时遇到1402错误,未能打开注册表项的解决方法
  17. Unity3D——AR小游戏
  18. linux内核驱动 DMA Engine使用
  19. 基于Vue.js模拟酒店预订移动App
  20. 用c语言录入3组学生数据编程,学生信息管理系统C语言编程

热门文章

  1. LaTeX常用的符号
  2. 一个人喝酒的时候看什么比较应景且下酒?
  3. 身份管理提供商:Gigya和PingIdentity
  4. JME3中级手册--最佳实践1
  5. 69篇关于微博的研究论文和报告
  6. Pixel 3a 开箱及 Google Fi 服务评测视频
  7. [数据结构]P1.3 栈 Stack
  8. Fizz Buzz 面试题
  9. [NOI2018]你的名字(68pts)
  10. BZOJ5212: [Zjoi2018]历史