#! /usr/bin/env python
# coding: utf-8
#环境要求:python3
#抓取猫眼电影top100
'''
抓取的目标网站为:http://maoyan.com/board/4
页面中显示的有效信息有影片名称、主演、上映时间、上映地区、评分、图片等信息
点击下一页发现url会变成http://maoyan.com/board/4?offset=30,主要增加了offset参数,
且规律是0,10,20,30
'''import json
import requests
from requests.exceptions import RequestException
import re
import time#抓取首页
def get_one_page(url):try:headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36'}response = requests.get(url, headers=headers)if response.status_code == 200:return response.textreturn Noneexcept RequestException:return Nonedef parse_one_page(html):pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a'+ '.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>'+ '.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>', re.S)items = re.findall(pattern, html)for item in items:yield {'index': item[0],'image': item[1],'title': item[2],'actor': item[3].strip()[3:],'time': item[4].strip()[5:],'score': item[5] + item[6]}def write_to_file(content):with open('result.txt', 'a', encoding='utf-8') as f:f.write(json.dumps(content, ensure_ascii=False) + '\n')def main(offset):url = 'http://maoyan.com/board/4?offset=' + str(offset)html = get_one_page(url)for item in parse_one_page(html):print(item)write_to_file(item)if __name__ == '__main__':for i in range(10):main(offset=i * 10)time.sleep(1)

转载于:https://www.cnblogs.com/watchslowly/p/9122486.html

python爬虫练习--爬取猫眼top100电影信息相关推荐

  1. python爬虫:爬取猫眼TOP100榜的100部高分经典电影

    1.问题描述: 爬取猫眼TOP100榜的100部高分经典电影,并将数据存储到CSV文件中 2.思路分析: (1)目标网址:http://maoyan.com/board/4 (2)代码结构: (3) ...

  2. Jupyter notebook爬取猫眼top100电影信息(Xpath)

    文章目录 Jupyter notebook 简介 代码 Jupyter notebook 简介 基于网页交互式运算的应用程序,可以在网页上编写和执行代码.本文将使用Xpath方法获取信息. 代码 导入 ...

  3. Python爬虫项目--爬取某宝男装信息

    本次爬取用到的知识点有: 1. selenium 2. pymysql 3  pyquery ''' 文章:Python爬虫项目--爬取某宝男装信息 作者:Star_Zhao 源自:https://w ...

  4. python爬虫实战--爬取猫眼专业版-实时票房

    小白级别的爬虫入门 最近闲来无事,发现了猫眼专业版-实时票房,可以看到在猫眼上映电影的票房数据,便验证自己之前学的python爬虫,爬取数据,做成.svg文件. 爬虫开始之前 我们先来看看猫眼专业版- ...

  5. python爬虫之--爬取当当网商品信息

                                    python爬虫之--爬取当当网图商品信息                                               ...

  6. python爬虫,爬取猫眼电影1(正则表达式)

    本文用正则.xpath.beautifulsoup.css.pyquery几种不同的方式,爬取猫眼电影.只是记录过程.比较乱. 猫眼电影现在也添加了一些反爬虫机制,如果直接用requests可能会40 ...

  7. 【Python爬虫】爬取猫眼电影排行榜并存放至csv文件

    在进行本节实战之前,希望您对requests库以及正则表达式有所了解. 运行平台:windows **Python版本: Python3.x ** 一.依赖库的安装 在本节实战之前,请确保已经正确安装 ...

  8. 【Python爬虫】爬取猫眼电影票房

    题记 本文旨在记录爬取猫眼电影国内票房榜单的过程,以及对脚本内字体文件反爬函数的说明. 环境 系统: Windows 10 Python版本: Python 3.7 爬取时间: 2019.3.19 难 ...

  9. Python全栈开发-Python爬虫-05 爬取猫眼电影榜单信息

    爬取猫眼电影榜单信息(翻页) 一. 获取url及headers 首先进入猫眼电影首页: 猫眼电影 之后点击菜单栏的 榜单 并在下面选择 TOP100榜 接着右击检查并刷新界面,在Network中找到4 ...

最新文章

  1. ArrayList集合为什么不能使用foreach增删改
  2. 2021 OceanBase 数据库大赛来了!
  3. LINUX:GRUB破解root密码【远程不可
  4. 致我的2018 你好2019
  5. 软件测试简历上的职业技能怎么写,软件测试岗位个人技能范文
  6. Python中三个双引号的作用是什么?
  7. 云服务器不需要网站吗,网站不用云服务器可以吗
  8. 巧用TP-LINK无线路由器连接IPv6网络
  9. 审稿审什么你真的弄清楚了吗
  10. 新手选车系列之(五): 手动挡还是自动挡
  11. Linux修改网卡配置
  12. 把MySQL语句转换为sqlserver_mysql语句转换为sql server语句
  13. 【SLAM学习】ORB-SLAM2-大体框架(OpenVSLAM)
  14. 华软java综合实验二_华软-企业级javaII(第一次作业)
  15. 如何将web项目部署到远程桌面,通过远程地址访问web项目
  16. 清泉HAL库开发STM32之TIM中断
  17. 第一份工作,我差点没转正
  18. Java工程师-招聘要求
  19. golang proto3的message中奇怪字段XXX_NoUnkeyedLiteral
  20. c++版opencv中的Mat数据类型的说明

热门文章

  1. mysql数据库命令_新手入门MYSQL数据库命令大全
  2. canvas js 绘图插件_快速入门前端图表插件Echart
  3. php 怎么复制一个文件,php如何复制文件夹?
  4. nginx解决浏览器跨域问题_使用nginx解决浏览器跨域
  5. python编程词典_Python 字典(Dictionary)操作详解
  6. cgi php是什么意思,cgi,fastcgi,php-cgi,php-fpm 是什么
  7. java reduce 分组_使用JAVA8 stream中三个参数的reduce方法对List进行分组统计
  8. html5在线裁剪,HTML5 Canvas裁剪clip
  9. 系统辨识理论及应用_企业战略分析的理论工具
  10. linux压缩文件命令_Linux基础篇(二)--Linux常用命令