程序运行结果如下图示:


代码如下:

import requests
import re
import json
from requests.exceptions import RequestException
import timedef get_one_page(url):headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36'
    }try:response=requests.get(url,headers=headers)if response.status_code==200:return response.textreturn None
    except RequestException:return None

def parse_one_page(html):pattern=re.compile('<dd>.*?board-index.*?>(.*?)</i>.*?data-src="(.*?)".*?name.*?a.*?>'
        '(.*?)</a>.*?star.*?>(.*?)</p>.*?releasetime.*?>(.*?)</p>.*?'
        'integer.*?>(.*?)</i>.*?fraction.*?>(.*?)</i>.*?</dd>',re.S)items=re.findall(pattern,html)for item in items:yield{'index':item[0],'image':item[1],'title':item[2],'actor':item[3].strip()[3:],'time':item[4].strip()[5:],'score':item[5]+item[6]}def write_to_json(content):with open('result.txt','a',encoding='utf-8') as f:f.write(json.dumps(content,ensure_ascii=False)+'\n')def main(offset):url='http://maoyan.com/board/4?offset='+str(offset)html=get_one_page(url)for item in parse_one_page(html):print(item)write_to_json(item)if __name__=='__main__':for i in range(10):main(offset=i*10)time.sleep(1)

出自  静觅 » [Python3网络爬虫开发实战] 3.4-抓取猫眼电影排行

Python3抓取猫眼电影排行相关推荐

  1. python3网络爬虫开发实战-抓取猫眼电影排行(正则表达式版)

    抓取猫眼电影排行 目前没有学习HTML解析库,这里先选用正则表达式作为解析工具 目标 提取出猫眼电影top100的电影名称.时间.评分.图片等信息.提取的站点URL为http://maoyan.com ...

  2. 00_抓取猫眼电影排行TOP100

    前言: 学习python3爬虫有一段时间了,熟悉了爬虫的一些基本原理和基本库的使用,本次就准备利用requests库和正则表达式来抓取猫眼电影排行TOP100的相关内容. 1.本次目标: 爬取猫眼电影 ...

  3. 【Python3网络爬虫开发实战】3-基本库的使用-4抓取猫眼电影排行

    本节中,我们利用requests库和正则表达式来抓取猫眼电影TOP100的相关内容.requests比urllib使用更加方便,而且目前我们还没有系统学习HTML解析库,所以这里就选用正则表达式来作为 ...

  4. Python3网络爬虫实战-27、Requests与正则表达式抓取猫眼电影排行

    本节我们利用 Requests 和正则表达式来抓取猫眼电影 TOP100 的相关内容,Requests 相较于 Urllib 使用更加方便,而目前我们还没有系统学习 HTML 解析库,所以可能对 HT ...

  5. 【Python】Python3网络爬虫实战-27、Requests与正则表达式抓取猫眼电影排行

    本节我们利用 Requests 和正则表达式来抓取猫眼电影 TOP100 的相关内容,Requests 相较于 Urllib 使用更加方便,而目前我们还没有系统学习 HTML 解析库,所以可能对 HT ...

  6. 利用requests库抓取猫眼电影排行

    文章目录 1.抓取目标 2.准备工作 3.抓取分析 4.抓取首页 5.正则提取 6.写入文件 7.整合代码 8.分页爬取 9.运行结果 10.本节代码 最近刚开始了解爬虫,学习了一下基本库的使用.跟着 ...

  7. 爬虫之抓取猫眼电影排行

    一 需求 我们要提取出猫眼电影TOP100的电影名称.时间.评分.图片等信息,提取的站点URL为http://maoyan.com/board/4,提取的结果会以文件形式保存下来. 二 技术手段 利用 ...

  8. 正则表达式和requests抓取猫眼电影排行

    一.目的 利用学习的requests库和正则表达式抓取猫眼电影的排行榜的名称.时间.评分和图片等信息.提取站点的地址:https://maoyan.com/board/4 二.准备工作 确保开发环境安 ...

  9. Requests与正则表达式抓取猫眼电影排行!

    本节我们利用 Requests 和正则表达式来抓取猫眼电影 TOP100 的相关内容,Requests 相较于 Urllib 使用更加方便,而目前我们还没有系统学习 HTML 解析库,所以可能对 HT ...

  10. 【python】抓取猫眼电影排行

    抓取猫眼电影上面Top100榜单,抓取的内容有电影名称,主演,上映时间,图片,得分等信息.抓取的内容以文件形式保存,地址为https://maoyan.com/board/4 1.分析 该榜单页面如下 ...

最新文章

  1. 「Mysql数据库」MySQL数据库开发的 36 条军规!
  2. HDLBits 系列(7)对for循环以及generate for的各种实践
  3. php中间值,比较当前值和下一个值,并在中间推送数组(Adodb)PHP
  4. LeetCode(69):x 的平方根
  5. 阿里技术大牛最爱的“闲书”,你看过多少?
  6. “棱镜”折射出了什么
  7. C++ STL set(集合)
  8. webpack第一节(4)
  9. Flink WriteRedis
  10. UIView layer 的对应关系
  11. Latex 中的算法流程介绍,含中文和矩阵公式段落整体居中内部左对齐
  12. 关于GOP和帧率、码率的关系
  13. UI 设计师不容错过的12款APP UI 交互设计
  14. 【愚公系列】2022年09月 微信小程序-slider滑动选择器详解
  15. 删除Mac中的Windows启动项
  16. Android aosp10,AOSP Android10 hook dlsym
  17. 怎么利用外链快速上排名?
  18. TexturePacker 命令行方式调用参数
  19. 查找字符串中某个字符出现的次数
  20. Aerial for Mac(mac高清鸟瞰屏幕保护程序)v2.1.3最新版

热门文章

  1. **python 随机生成一段旋律**
  2. 7-4 复数的实部和虚部(8 分)
  3. AE无法输出h.264 安装Quick time也不好使的办法 本人使用 AE CC2019
  4. 迅雷下载电影天堂片源,出现“应版权方要求,文件无法下载”的解决方法
  5. Putty配色方案修改
  6. 合宙Air720U724U722U Lua 固件更新说明
  7. 什么是Excel宏?
  8. 3D图形学基础 基本概念
  9. python实现网页微信登陆_(转帖)网站微信登录-python 实现
  10. 建模案例1:北京二手房房价影响因素