猫眼api html,猫眼电影数据抓取
猫眼电影数据抓取实现分析
1、基准xpath: 匹配所有电影信息的节点对象列表
'//dl[@class="board-wrapper"]/dd'
2、遍历对象列表,依次获取每个电影信息
for dd in dd_list:
电影名称:'.//p[@class="name"]/a/text()'
电影主演:'.//p[@class="star"]/text()'
上映时间:'.//p[@class="releasetime"]/text()'
参考代码
import requests
from lxml import etree
class MaoyanSpider(object):
def __init__(self):
self.url = 'https://maoyan.com/board/4'
self.headers = { 'User-Agent':'' }
def save_html(self):
html = requests.get(url=self.url,headers=self.headers).text
# 解析
parse_html = etree.HTML(html)
# 基准xpath,大的节点对象列表
dd_list = parse_html.xpath('//dl[@class="board-wrapper"]/dd')
item = {}
for dd in dd_list:
item['name'] = dd.xpath('.//p[@class="name"]/a/@title')[0].strip()
item['star'] = dd.xpath('.//p[@class="star"]/text()')[0].strip()
item['time'] = dd.xpath('.//p[@class="releasetime"]/text()')[0].strip()
print(item)
def run(self):
self.save_html()
if __name__ == '__main__':
spider = MaoyanSpider()
spider.run()
The End
猫眼api html,猫眼电影数据抓取相关推荐
- 基于Python猫眼票房TOP100电影数据抓取
基于Python猫眼票房TOP100电影数据抓取 使用requests库抓取数据 BeatifulSoup解析URL,将数据存入csv文件 处理数据,生成图表 本次爬取数据使用Python语言在jup ...
- Python爬虫入门实战之猫眼电影数据抓取(理论篇)
前言 本文可能篇幅较长,但是绝对干货满满,提供了大量的学习资源和途径.达到让读者独立自主的编写基础网络爬虫的目标,这也是本文的主旨,输出有价值能够真正帮助到读者的知识,即授人以鱼不如授人以渔,让我们直 ...
- python编程理论篇_Python爬虫入门实战之猫眼电影数据抓取(理论篇)
前言 本文可能篇幅较长,但是绝对干货满满,提供了大量的学习资源和途径.达到让读者独立自主的编写基础网络爬虫的目标,这也是本文的主旨,输出有价值能够真正帮助到读者的知识,即授人以鱼不如授人以渔,让我们直 ...
- python爬虫入门实战争胜法_Python爬虫入门实战之猫眼电影数据抓取(理论篇)
前言 本文可能篇幅较长,但是绝对干货满满,提供了大量的学习资源和途径.达到让读者独立自主的编写基础网络爬虫的目标,这也是本文的主旨,输出有价值能够真正帮助到读者的知识,即授人以鱼不如授人以渔,让我们直 ...
- Python爬虫入门实战之猫眼电影数据抓取(实战篇)
项目实战 静态网页实战 本节我们将为大家展现一个完整爬虫的大致过程,此次项目内容为提取猫眼电影TOP100榜中的所有电影信息并存储至CSV文件中,其首页地址为http://maoyan.com/boa ...
- python 爬虫实例 电影-Python爬虫入门实战之猫眼电影数据抓取(实战篇)
电影名 上映信息 综合票房 票房占比 累计票房
- python爬虫-电影数据抓取
1.进入此次爬取的页面点这里. 2.按F12-> network 3.ctrl+r 刷新 如图搜索一个电影名,找到数据位置,然后查看 4.找到请求的url '?'后边的是参数,不要带上 5.参数 ...
- python爬虫之Ajax动态加载数据抓取--豆瓣电影/腾讯招聘
动态加载数据抓取-Ajax 特点 1.右键 -> 查看网页源码中没有具体数据 2.滚动鼠标滑轮或其他动作时加载 抓取 1.F12打开控制台,页面动作抓取网络数据包 2.抓取json文件URL地址 ...
- 基于Hadoop的豆瓣电影的数据抓取、数据清洗、大数据分析(hdfs、flume、hive、mysql等)、大屏可视化
目录 项目介绍 研究背景 国内外研究现状分析 研究目的 研究意义 研究总体设计 数据获取 网络爬虫介绍 豆瓣电影数据的采集 数据预处理 数据导入及环境配置 Flume介绍 Hive介绍 MySQL介绍 ...
最新文章
- 美国本科计算机专业,美国本科计算机专业的最新排名介绍
- hitTest练手例子
- php实现 简单密码(代码颜色变化)
- linux make怎么运行,Linux Make 命令教程
- python tfidf特征变换_机器学习的“万能模板” - 数据分析
- VideoSolo Blu ray Player for Mac - 强大的蓝光播放器
- 避开10个面试大坑,接offer成功率提升至99%
- Android虚拟化技术
- dubbo原理和机制_面试官几个 Dubbo 微服务框架问题,把我整懵了?
- SilkTest 对 Excel 表操作的两种方式
- 【转载】【C基础】#define宏定义中的#,##,@#,\ 这些符号的神奇用法
- dialogArguments的用法
- 女神也用的约会决策:决策树算法实践
- 电脑ping手机该怎么玩(很多网友都说电脑ping不通手机)
- [创业-18]:财务报表之资产负债表
- 戴尔服务器安装ESXI
- 桌面虚拟化-精彩刚刚开始
- 禁止腾讯检测HTML代码,微信域名检测API接口的分享以及腾讯屏蔽检测的原理
- Android系统篇(二)——Android编译核心Build系统
- 如何在2小时内快速入门彩铅
热门文章
- BG22蓝牙——第三弹 蓝牙的一些入门知识,整理了大佬们的文章和链接
- Mybatis —— @Options注解实现执行参数配置
- 华硕笔记本k555拆机图解_「华硕k401n」华硕K401笔记本电脑拆机清灰步骤详解 - seo实验室...
- Python学习笔记---merge和concat数据合并(1)
- Spring源码解读(一)——容器是如何初始化的
- 海思芯片-Hi3512参数规格介绍
- 我国拟立法禁止大数据杀熟;工信部通报43款App违规整改不彻底丨钛晚报
- 常用控件 — 列表视图
- 系统设计-网关(一)
- Excel 去除重复项的几种常用技巧