爬取豆瓣正在上映的电影

1.目标

爬取豆瓣上显示正在上映的电影的信息，包括电影名、评分、导演、主演等信息。将其保存在一个CSV文件中，可以使用Excel打开查看。

2.思路分析

1.获取网页的URL

2.请求网页的源代码

3.解析源代码，提取目标信息

4.保存信息

3.准备工作

1.请求网页源代码使用`webdriver.Chrome()`

2.解析网页使用xpath

4.实施阶段

1.获取URL

https://movie.douban.com/cinema/nowplaying/xian/

2.请求网页的源代码

 driver = webdriver.Chrome()driver.get(r'https://movie.douban.com/cinema/nowplaying/xian/')html=driver.page_sourcedriver.close()

3.分析网页源代码

使用Chrome查看玩野源代码，可以发现正在上映的电影都在该标签之下

而且，每一部电影都在一个li标签中，而我们需要的信息就包含在其中，我们只需要获取到，并且将之提取出来即可。

4.提取目标信息

html = etree.HTML(html)
title = html.xpath('//*[@id="nowplaying"]//li/ul/li[2]/a/@title')
actor = html.xpath('//*[@id="nowplaying"]//li/@data-actors')
score = html.xpath('//*[@id="nowplaying"]//li/@data-score')
duration = html.xpath('//*[@id="nowplaying"]//li/@data-duration')
director = html.xpath('//*[@id="nowplaying"]//li/@data-director')

5.保存信息

使用pandas创建DataFrame，并且将数据存储为.csv 文件

df=pd.DataFrame(data=data,columns=['电影','评分','导演','主演','时长'])
df.to_csv('豆瓣最近上映.csv',encoding='gb18030')

为了能使用Excel查看保存的文件，保存文件是使用的编码的方式是gb18030

5.程序源代码

# -*- coding: utf-8 -*-
from selenium import webdriver
from lxml import etree
import pandas as pd
def get():driver = webdriver.Chrome()driver.get(r'https://movie.douban.com/cinema/nowplaying/xian/')html=driver.page_sourcedriver.close()#整理文档对象html = etree.HTML(html)title = html.xpath('//*[@id="nowplaying"]//li/ul/li[2]/a/@title')actor = html.xpath('//*[@id="nowplaying"]//li/@data-actors')score = html.xpath('//*[@id="nowplaying"]//li/@data-score')duration = html.xpath('//*[@id="nowplaying"]//li/@data-duration')director = html.xpath('//*[@id="nowplaying"]//li/@data-director')data=list(zip(title,score,director,actor,duration))return data
def saving(data):df=pd.DataFrame(data=data,columns=['电影','评分','导演','主演','时长'])df.to_csv('豆瓣最近上映.csv',encoding='gb18030')
def main():data=get()saving(data)
if __name__ == '__main__':main()

6.结果显示

7.评价

1.可以发现爬取到的信息有部分是缺失的或者是异常的，例如在评分一列，值为0的数据是该电影暂未评分，我们同样可以使用pandas进行简单的数据清洗。

保存的CSV文件会自己添加索引号，如果不想要，在保存文件的时候可以自己设置。

爬取豆瓣正在上映的电影相关推荐

Python爬取豆瓣正在上映的电影
Python爬取豆瓣正在上映的电影 #爬取豆瓣正在上映的电影 import requests from lxml import etree #1.将目标从网站上的页面抓取下来 headers = {' ...
利用python 爬取豆瓣即将上映的电影
仅学习交流 Upcoming.py import re import requests from doubanapi import findmovie from bs4 import Beautifu ...
python实践爬取豆瓣各个标签的电影爬虫
python实践爬取豆瓣各个标签的电影实践题目爬取豆瓣电影中,华语.欧美.韩国.日本电影每个标签下按评价排序的全部电影,需要如下信息: (1)每个电影的电影名.导演.编剧.主演.类型.国家.上映 ...
python scrapy爬取豆瓣即将上映电影用邮件定时推送给自己
本文不是python.scrapy的教程,而是分享一个好玩的点子. python教程请看python教程,scrapy教程请看scrapy教程爬取豆瓣高分电影教程参考python爬虫入门笔记:用sc ...
【爬取豆瓣前 250 部电影】Python 爬虫和数据可视化（上篇）
文章目录一.学习内容二.任务介绍三.爬虫知识四.基本流程五.准备工作 5.1 获取数据 5.2 解析数据 5.3 保存数据一.学习内容 Python 语言的基础知识网络爬虫的技术实现数 ...
爬虫-基于requests模块xpath解析爬取豆瓣即将上映电影目录
首先,我们要确定要爬取的对象,然后确定我们需要的数据,要有针对性的去分析,打开豆瓣网查看在这里我们可以看到即将上映的电影不多呀,先试试这个吧- 右键检查,打开开发者模式此时点击NETWORK选项是 ...
使用requests与lxml爬取豆瓣正在上映电影
利用requests库与lxml解析,获取豆瓣电影展示的所有正在上映的电影.没有进行进一步详情查看.因此比较简单. 所有单个正在上映电影信息以字典存储,并整合在一张列表里.整理后格式如下: [ {'t ...
爬取豆瓣正在上映的影片信息
import requests from lxml import etree# 将目标网站上的页面抓取下来 # headers -> url -> requests -> respo ...
[爬虫] 爬取豆瓣电影排行榜
申明:本文对爬取的数据仅做学习使用,不涉及任何商业活动,侵删爬取豆瓣电影排行榜这是一个Scrapy框架入门级的项目, 它可以帮助我们基本了解Scrapy的操作流程和运行原理这次我们要做例子的网站 ...

爬取豆瓣正在上映的电影

爬取豆瓣正在上映的电影

1.目标

2.思路分析

1.获取网页的URL

2.请求网页的源代码

3.解析源代码，提取目标信息

4.保存信息

3.准备工作

1.请求网页源代码使用`webdriver.Chrome()`

2.解析网页使用xpath

4.实施阶段

1.获取URL

2.请求网页的源代码

3.分析网页源代码

4.提取目标信息

5.保存信息

5.程序源代码

6.结果显示

7.评价

爬取豆瓣正在上映的电影相关推荐

最新文章

热门文章

爬取豆瓣正在上映的电影

爬取豆瓣正在上映的电影

1.目标

2.思路分析

1.获取网页的URL

2.请求网页的源代码

3.解析源代码，提取目标信息

4.保存信息

3.准备工作

1.请求网页源代码使用webdriver.Chrome()

2.解析网页使用xpath

4.实施阶段

1.获取URL

2.请求网页的源代码

3.分析网页源代码

4.提取目标信息

5.保存信息

5.程序源代码

6.结果显示

7.评价

爬取豆瓣正在上映的电影相关推荐

最新文章

热门文章

1.请求网页源代码使用`webdriver.Chrome()`