python爬虫练习--爬取猫眼top100电影信息
#! /usr/bin/env python # coding: utf-8 #环境要求:python3 #抓取猫眼电影top100 ''' 抓取的目标网站为:http://maoyan.com/board/4 页面中显示的有效信息有影片名称、主演、上映时间、上映地区、评分、图片等信息 点击下一页发现url会变成http://maoyan.com/board/4?offset=30,主要增加了offset参数, 且规律是0,10,20,30 '''import json import requests from requests.exceptions import RequestException import re import time#抓取首页 def get_one_page(url):try:headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36'}response = requests.get(url, headers=headers)if response.status_code == 200:return response.textreturn Noneexcept RequestException:return Nonedef parse_one_page(html):pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a'+ '.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>'+ '.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>', re.S)items = re.findall(pattern, html)for item in items:yield {'index': item[0],'image': item[1],'title': item[2],'actor': item[3].strip()[3:],'time': item[4].strip()[5:],'score': item[5] + item[6]}def write_to_file(content):with open('result.txt', 'a', encoding='utf-8') as f:f.write(json.dumps(content, ensure_ascii=False) + '\n')def main(offset):url = 'http://maoyan.com/board/4?offset=' + str(offset)html = get_one_page(url)for item in parse_one_page(html):print(item)write_to_file(item)if __name__ == '__main__':for i in range(10):main(offset=i * 10)time.sleep(1)
转载于:https://www.cnblogs.com/watchslowly/p/9122486.html
python爬虫练习--爬取猫眼top100电影信息相关推荐
- python爬虫:爬取猫眼TOP100榜的100部高分经典电影
1.问题描述: 爬取猫眼TOP100榜的100部高分经典电影,并将数据存储到CSV文件中 2.思路分析: (1)目标网址:http://maoyan.com/board/4 (2)代码结构: (3) ...
- Jupyter notebook爬取猫眼top100电影信息(Xpath)
文章目录 Jupyter notebook 简介 代码 Jupyter notebook 简介 基于网页交互式运算的应用程序,可以在网页上编写和执行代码.本文将使用Xpath方法获取信息. 代码 导入 ...
- Python爬虫项目--爬取某宝男装信息
本次爬取用到的知识点有: 1. selenium 2. pymysql 3 pyquery ''' 文章:Python爬虫项目--爬取某宝男装信息 作者:Star_Zhao 源自:https://w ...
- python爬虫实战--爬取猫眼专业版-实时票房
小白级别的爬虫入门 最近闲来无事,发现了猫眼专业版-实时票房,可以看到在猫眼上映电影的票房数据,便验证自己之前学的python爬虫,爬取数据,做成.svg文件. 爬虫开始之前 我们先来看看猫眼专业版- ...
- python爬虫之--爬取当当网商品信息
python爬虫之--爬取当当网图商品信息 ...
- python爬虫,爬取猫眼电影1(正则表达式)
本文用正则.xpath.beautifulsoup.css.pyquery几种不同的方式,爬取猫眼电影.只是记录过程.比较乱. 猫眼电影现在也添加了一些反爬虫机制,如果直接用requests可能会40 ...
- 【Python爬虫】爬取猫眼电影排行榜并存放至csv文件
在进行本节实战之前,希望您对requests库以及正则表达式有所了解. 运行平台:windows **Python版本: Python3.x ** 一.依赖库的安装 在本节实战之前,请确保已经正确安装 ...
- 【Python爬虫】爬取猫眼电影票房
题记 本文旨在记录爬取猫眼电影国内票房榜单的过程,以及对脚本内字体文件反爬函数的说明. 环境 系统: Windows 10 Python版本: Python 3.7 爬取时间: 2019.3.19 难 ...
- Python全栈开发-Python爬虫-05 爬取猫眼电影榜单信息
爬取猫眼电影榜单信息(翻页) 一. 获取url及headers 首先进入猫眼电影首页: 猫眼电影 之后点击菜单栏的 榜单 并在下面选择 TOP100榜 接着右击检查并刷新界面,在Network中找到4 ...
最新文章
- ArrayList集合为什么不能使用foreach增删改
- 2021 OceanBase 数据库大赛来了!
- LINUX:GRUB破解root密码【远程不可
- 致我的2018 你好2019
- 软件测试简历上的职业技能怎么写,软件测试岗位个人技能范文
- Python中三个双引号的作用是什么?
- 云服务器不需要网站吗,网站不用云服务器可以吗
- 巧用TP-LINK无线路由器连接IPv6网络
- 审稿审什么你真的弄清楚了吗
- 新手选车系列之(五): 手动挡还是自动挡
- Linux修改网卡配置
- 把MySQL语句转换为sqlserver_mysql语句转换为sql server语句
- 【SLAM学习】ORB-SLAM2-大体框架(OpenVSLAM)
- 华软java综合实验二_华软-企业级javaII(第一次作业)
- 如何将web项目部署到远程桌面,通过远程地址访问web项目
- 清泉HAL库开发STM32之TIM中断
- 第一份工作,我差点没转正
- Java工程师-招聘要求
- golang proto3的message中奇怪字段XXX_NoUnkeyedLiteral
- c++版opencv中的Mat数据类型的说明
热门文章
- mysql数据库命令_新手入门MYSQL数据库命令大全
- canvas js 绘图插件_快速入门前端图表插件Echart
- php 怎么复制一个文件,php如何复制文件夹?
- nginx解决浏览器跨域问题_使用nginx解决浏览器跨域
- python编程词典_Python 字典(Dictionary)操作详解
- cgi php是什么意思,cgi,fastcgi,php-cgi,php-fpm 是什么
- java reduce 分组_使用JAVA8 stream中三个参数的reduce方法对List进行分组统计
- html5在线裁剪,HTML5 Canvas裁剪clip
- 系统辨识理论及应用_企业战略分析的理论工具
- linux压缩文件命令_Linux基础篇(二)--Linux常用命令