猫眼电影数据抓取实现分析

1、基准xpath: 匹配所有电影信息的节点对象列表

'//dl[@class="board-wrapper"]/dd'

2、遍历对象列表,依次获取每个电影信息

for dd in dd_list:

电影名称:'.//p[@class="name"]/a/text()'

电影主演:'.//p[@class="star"]/text()'

上映时间:'.//p[@class="releasetime"]/text()'

参考代码

import requests

from lxml import etree

class MaoyanSpider(object):

def __init__(self):

self.url = 'https://maoyan.com/board/4'

self.headers = { 'User-Agent':'' }

def save_html(self):

html = requests.get(url=self.url,headers=self.headers).text

# 解析

parse_html = etree.HTML(html)

# 基准xpath,大的节点对象列表

dd_list = parse_html.xpath('//dl[@class="board-wrapper"]/dd')

item = {}

for dd in dd_list:

item['name'] = dd.xpath('.//p[@class="name"]/a/@title')[0].strip()

item['star'] = dd.xpath('.//p[@class="star"]/text()')[0].strip()

item['time'] = dd.xpath('.//p[@class="releasetime"]/text()')[0].strip()

print(item)

def run(self):

self.save_html()

if __name__ == '__main__':

spider = MaoyanSpider()

spider.run()

The End

猫眼api html,猫眼电影数据抓取相关推荐

  1. 基于Python猫眼票房TOP100电影数据抓取

    基于Python猫眼票房TOP100电影数据抓取 使用requests库抓取数据 BeatifulSoup解析URL,将数据存入csv文件 处理数据,生成图表 本次爬取数据使用Python语言在jup ...

  2. Python爬虫入门实战之猫眼电影数据抓取(理论篇)

    前言 本文可能篇幅较长,但是绝对干货满满,提供了大量的学习资源和途径.达到让读者独立自主的编写基础网络爬虫的目标,这也是本文的主旨,输出有价值能够真正帮助到读者的知识,即授人以鱼不如授人以渔,让我们直 ...

  3. python编程理论篇_Python爬虫入门实战之猫眼电影数据抓取(理论篇)

    前言 本文可能篇幅较长,但是绝对干货满满,提供了大量的学习资源和途径.达到让读者独立自主的编写基础网络爬虫的目标,这也是本文的主旨,输出有价值能够真正帮助到读者的知识,即授人以鱼不如授人以渔,让我们直 ...

  4. python爬虫入门实战争胜法_Python爬虫入门实战之猫眼电影数据抓取(理论篇)

    前言 本文可能篇幅较长,但是绝对干货满满,提供了大量的学习资源和途径.达到让读者独立自主的编写基础网络爬虫的目标,这也是本文的主旨,输出有价值能够真正帮助到读者的知识,即授人以鱼不如授人以渔,让我们直 ...

  5. Python爬虫入门实战之猫眼电影数据抓取(实战篇)

    项目实战 静态网页实战 本节我们将为大家展现一个完整爬虫的大致过程,此次项目内容为提取猫眼电影TOP100榜中的所有电影信息并存储至CSV文件中,其首页地址为http://maoyan.com/boa ...

  6. python 爬虫实例 电影-Python爬虫入门实战之猫眼电影数据抓取(实战篇)

    电影名 上映信息 综合票房 票房占比 累计票房

  7. python爬虫-电影数据抓取

    1.进入此次爬取的页面点这里. 2.按F12-> network 3.ctrl+r 刷新 如图搜索一个电影名,找到数据位置,然后查看 4.找到请求的url '?'后边的是参数,不要带上 5.参数 ...

  8. python爬虫之Ajax动态加载数据抓取--豆瓣电影/腾讯招聘

    动态加载数据抓取-Ajax 特点 1.右键 -> 查看网页源码中没有具体数据 2.滚动鼠标滑轮或其他动作时加载 抓取 1.F12打开控制台,页面动作抓取网络数据包 2.抓取json文件URL地址 ...

  9. 基于Hadoop的豆瓣电影的数据抓取、数据清洗、大数据分析(hdfs、flume、hive、mysql等)、大屏可视化

    目录 项目介绍 研究背景 国内外研究现状分析 研究目的 研究意义 研究总体设计 数据获取 网络爬虫介绍 豆瓣电影数据的采集 数据预处理 数据导入及环境配置 Flume介绍 Hive介绍 MySQL介绍 ...

最新文章

  1. 美国本科计算机专业,美国本科计算机专业的最新排名介绍
  2. hitTest练手例子
  3. php实现 简单密码(代码颜色变化)
  4. linux make怎么运行,Linux Make 命令教程
  5. python tfidf特征变换_机器学习的“万能模板” - 数据分析
  6. VideoSolo Blu ray Player for Mac - 强大的蓝光播放器
  7. 避开10个面试大坑,接offer成功率提升至99%
  8. Android虚拟化技术
  9. dubbo原理和机制_面试官几个 Dubbo 微服务框架问题,把我整懵了?
  10. SilkTest 对 Excel 表操作的两种方式
  11. 【转载】【C基础】#define宏定义中的#,##,@#,\ 这些符号的神奇用法
  12. dialogArguments的用法
  13. 女神也用的约会决策:决策树算法实践
  14. 电脑ping手机该怎么玩(很多网友都说电脑ping不通手机)
  15. [创业-18]:财务报表之资产负债表
  16. 戴尔服务器安装ESXI
  17. 桌面虚拟化-精彩刚刚开始
  18. 禁止腾讯检测HTML代码,微信域名检测API接口的分享以及腾讯屏蔽检测的原理
  19. Android系统篇(二)——Android编译核心Build系统
  20. 如何在2小时内快速入门彩铅

热门文章

  1. BG22蓝牙——第三弹 蓝牙的一些入门知识,整理了大佬们的文章和链接
  2. Mybatis —— @Options注解实现执行参数配置
  3. 华硕笔记本k555拆机图解_「华硕k401n」华硕K401笔记本电脑拆机清灰步骤详解 - seo实验室...
  4. Python学习笔记---merge和concat数据合并(1)
  5. Spring源码解读(一)——容器是如何初始化的
  6. 海思芯片-Hi3512参数规格介绍
  7. 我国拟立法禁止大数据杀熟;工信部通报43款App违规整改不彻底丨钛晚报
  8. 常用控件 — 列表视图
  9. 系统设计-网关(一)
  10. Excel 去除重复项的几种常用技巧