Python 爬取 猫眼 top100 电影例子
一个Python 爬取猫眼top100的小栗子
import json import requests import re from multiprocessing import Pool #//进程池 from requests.exceptions import RequestException #请求单页 def get_one_page(url):try:headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.79 Safari/537.36'}response = requests.get(url,headers=headers)if response.status_code == 200:return response.textreturn Noneexcept RequestException:return None#解析页面 def parse_one_page(html):pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>',re.S)items = re.findall(pattern, html)print(items)for item in items:yield {'index':item[0],'image': item[1],'title': item[2],'actor': item[3].strip()[3:],'time':item[4].strip()[5:],'score': item[5]+item[6]}def main(offset):url = 'https://maoyan.com/board/4?offset='+str(offset)html = get_one_page(url)htmls=parse_one_page(html)for item in htmls:print(item)wirte_to_file(item) #写入文件#写到文件中 def wirte_to_file(content):with open('result.txt','a') as f:f.write(json.dumps(content)+'\n')f.close()#开始调用 if __name__ =='__main__':#普通方式for item in range(10):main(str(item*10))#线程池# pool = Pool()# pool.map(main,[i*10 for i in range(10)])
Python 爬取 猫眼 top100 电影例子相关推荐
- python爬取猫眼top100电影,经典永远是经典
想必大家在无聊的时候,都想找一部口碑的好电影,而自己又没看过的,这个其实可以参考猫眼top100的上排名,因为排名是靠评分升上去,想排名第一的<霸王别姬>,"哥哥"在里 ...
- python 爬取豆瓣top100电影页面
python 爬取豆瓣top100电影页面 运行结果截图: 代码: (原网站:https://movie.douban.com/top250) 1.将页面保存 避免多次访问 (登陆状态需页面cooki ...
- python爬虫练习--爬取猫眼top100电影信息
#! /usr/bin/env python # coding: utf-8 #环境要求:python3 #抓取猫眼电影top100 ''' 抓取的目标网站为:http://maoyan.com/bo ...
- 爬取猫眼 TOP100 电影并以 excel 格式存储
爬取目标 本文将提取猫眼电影 TOP100 排行榜的电影名称.时间.评分.图片等信息,URL 为http://maoyan.com/board/4,提取的结果我们以 excel 格式保存下来. 准备工 ...
- 爬取猫眼TOP100电影
import json import re import requests from requests import RequestException from multiprocessing imp ...
- Jupyter notebook爬取猫眼top100电影信息(Xpath)
文章目录 Jupyter notebook 简介 代码 Jupyter notebook 简介 基于网页交互式运算的应用程序,可以在网页上编写和执行代码.本文将使用Xpath方法获取信息. 代码 导入 ...
- python爬取电影评分_用Python爬取猫眼上的top100评分电影
代码如下: # 注意encoding = 'utf-8'和ensure_ascii = False,不写的话不能输出汉字 import requests from requests.exception ...
- Python爬取猫眼电影TOP100榜
Python爬取猫眼电影TOP100榜 兴趣点: 这个没什么特别的兴趣,只是单纯爬猫眼练手的人太多了,所以我也打算加入他们,对猫眼员工说一声不好意思了,哈哈哈! 爬取网址: 传送门:https://m ...
- python爬虫:爬取猫眼TOP100榜的100部高分经典电影
1.问题描述: 爬取猫眼TOP100榜的100部高分经典电影,并将数据存储到CSV文件中 2.思路分析: (1)目标网址:http://maoyan.com/board/4 (2)代码结构: (3) ...
- python爬取猫眼电影数据
每天一点点,记录学习每一步 近期爬虫项目: 1:python 爬取菜鸟教程python100题,百度贴吧图片反爬虫下载,批量下载 2:python爬虫爬取百度贴吧图片,requests方法 3:pyt ...
最新文章
- oracle 更改用户状态,密码
- 第八周实践项目10 稀疏矩阵的十字链表表示
- 影响 PCR 体系蒸发的三大因素
- 配置使用EF6.0常见的一些问题及解决方案
- JVM学习笔记(一)------基本结构
- CoreText入门
- 收集网络状态(Ping),并用邮件通知管理员
- 【HTML】一个好看的登录界面
- java oracle的2种分页方法
- Windows下提升进程权限(转)
- 树莓派4B安装Ubuntu20.04
- 结合索引优化SQL语句提高数据库查询效率
- SQL 数据库操作类
- ps剪贴蒙版教程(ps创建剪贴蒙版步骤)
- Javascript匿名类
- 关于安装SQLServer2012时遇到1402错误,未能打开注册表项的解决方法
- Unity3D——AR小游戏
- linux内核驱动 DMA Engine使用
- 基于Vue.js模拟酒店预订移动App
- 用c语言录入3组学生数据编程,学生信息管理系统C语言编程