python爬虫之豆瓣评分爬取

1 第一步获取网页源码
2 第二步获取电影信息
3 第三步保存数据
4 综合

'''
需求：爬取电影的名字 评分 引言 详情页的url，每一页都爬取并且把数据保存到csv文件当中
步骤：
第一步 获取网页源码
第二步 获取电影信息
第三步 保存数据
'''

1 第一步获取网页源码

'''
第一步：获取网页源码
(1)分析目标url
(2)获取网页源代码
'''
# https://movie.douban.com/top250?start=0&filter= 第一页 （start=0）
# https://movie.douban.com/top250?start=25&filter= 第二页 （start=25）
# https://movie.douban.com/top250?start=50&filter= 第三页  （start=50）
# 目标url： https://movie.douban.com/top250?start=(i-1)*25&filter=  第i页 start=(i-1)
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36'}import requests
def get_source(url):response = requests.get(url,headers=headers)# print(response) # <Response [200]>response.encoding = 'utf-8'return response.textif __name__ == '__main__':for i in range(0,10):page = str(i*25)url = 'https://movie.douban.com/top250?start='+page+'&filter='get_source(url)

2 第二步获取电影信息

'''
第二步：获取电影信息
'''
import lxml
from lxml import etree
def get_item(source):html_element = etree.HTML(source)movieItemList = html_element.xpath('//div[@class="info"]')# 定义一个空的列表movieList = []for eachMoive in movieItemList:# 创建一个字典 像列表中存储数据[{电影一},{电影二}......]movieDict = {}title = eachMoive.xpath('div[@class="hd"]/a/span[@class="title"]/text()') # 标题subtitle = eachMoive.xpath('div[@class="hd"]/a/span[@class="other"]/text()')  # 副标题link = eachMoive.xpath('div[@class="hd"]/a/@href')[0]  # urlstar = eachMoive.xpath('div[@class="bd"]/div[@class="star"]/span[@class="rating_num"]/text()')[0] # 评分quote = eachMoive.xpath('div[@class="bd"]/p[@class="quote"]/span/text()')  # 引言（名句）if quote:quote = quote[0]else:quote = ''# 保存数据movieDict['title'] = titlemovieDict['subtitle'] = subtitlemovieDict['url'] = linkmovieDict['star'] = starmovieDict['quote'] = quotemovieList.append(movieDict)print(movieList)return movieList

3 第三步保存数据

import csv
def writeData(movieList):with open('douban.csv','w',encoding='utf-8',newline='') as f:writer = csv.DictWriter(f,fieldnames=['title','subtitle','url','star','quote'])writer.writeheader() # 写入表头for each in movieList:writer.writerow(each)

4 综合

# 导入模块
import requests  # 获取源代码
import lxml  # 获取电影项目
from lxml import etree # 获取电影项目
import csv  # 保存数据'''
第一步：获取网页源码
(1)分析目标url
(2)获取网页源代码
'''
# https://movie.douban.com/top250?start=0&filter= 第一页 （start=0）
# https://movie.douban.com/top250?start=25&filter= 第二页 （start=25）
# https://movie.douban.com/top250?start=50&filter= 第三页  （start=50）
# 目标url： https://movie.douban.com/top250?start=(i-1)*25&filter=  第i页 start=(i-1)
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36'}
def get_source(url):response = requests.get(url,headers=headers)# print(response) # <Response [200]>response.encoding = 'utf-8'return response.text'''
第二步：获取并保存电影项目
(1)获取项目
(2)保存电影项目
'''
def get_item(source):html_element = etree.HTML(source)movieItemList = html_element.xpath('//div[@class="info"]')# 定义一个空的列表movieList = []for eachMoive in movieItemList:# 创建一个字典 像列表中存储数据[{电影一},{电影二}......]movieDict = {}title = eachMoive.xpath('div[@class="hd"]/a/span[@class="title"]/text()') # 标题subtitle = eachMoive.xpath('div[@class="hd"]/a/span[@class="other"]/text()')  # 副标题link = eachMoive.xpath('div[@class="hd"]/a/@href')[0]  # urlstar = eachMoive.xpath('div[@class="bd"]/div[@class="star"]/span[@class="rating_num"]/text()')[0] # 评分quote = eachMoive.xpath('div[@class="bd"]/p[@class="quote"]/span/text()')  # 引言（名句）if quote:quote = quote[0]else:quote = ''# 保存数据movieDict['title'] = titlemovieDict['subtitle'] = subtitlemovieDict['url'] = linkmovieDict['star'] = starmovieDict['quote'] = quotemovieList.append(movieDict)print(movieList)return movieList# 保存数据
def writeData(movieList):with open('douban.csv','w',encoding='utf-8',newline='') as f:writer = csv.DictWriter(f,fieldnames=['title','subtitle','url','star','quote'])writer.writeheader() # 写入表头for each in movieList:writer.writerow(each)movieList = []
for i in range(0,10):page = str(i*25)url = 'https://movie.douban.com/top250?start='+page+'&filter='print(url)source = get_source(url)movieList += get_item(source)
writeData(movieList)

python爬虫之xpath和lxml应用—爬取豆瓣评分爬取相关推荐

python xpath语法-Python爬虫之XPath语法和lxml库的用法
本来打算写的标题是XPath语法,但是想了一下Python中的解析库lxml,使用的是Xpath语法,同样也是效率比较高的解析方法,所以就写成了XPath语法和lxml库的用法安装为什么要用这个库 ...
Python爬虫：Xpath爬取网页信息（附代码）
Python爬虫:Xpath爬取网页信息(附代码) 上一次分享了使用Python简单爬取网页信息的方法.但是仅仅对于单一网页的信息爬取一般无法满足我们的数据需求.对于一般的数据需求,我们通常需要从一个 ...
Python爬虫之findall和lxml
Python爬虫之findall和lxml 提示:前言 Python爬虫之findall和lxml 提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录 Python爬虫之fin ...
【Python】【进阶篇】十二、Python爬虫的Xpath简明教程（十分钟入门）
目录十二.Python爬虫的Xpath简明教程(十分钟入门) 12.1 Xpath表达式 12.2 Xpath节点 12.3 节点关系 12.4 Xpath基本语法 12.4.1 基本语法使用 12 ...
Python爬虫之XPath基础教程：用代码抓取网页数据
Python爬虫之XPath基础教程:用代码抓取网页数据在网络时代,网页数据是获取信息和进行分析的最重要的来源之一.Python的爬虫技术让我们可以轻松抓取网页数据,并进行数据处理.XPath是一种 ...
Python爬虫小白教程（二）—— 爬取豆瓣评分TOP250电影
文章目录前言安装bs4库网站分析获取页面爬取页面页面分析其他页面爬虫系列前言经过上篇博客Python爬虫小白教程(一)-- 静态网页抓取后我们已经知道如何抓取一个静态的页面了,现在 ...
零基础入门python爬虫之《青春有你2》选手信息爬取
零基础入门python爬虫之<青春有你2>选手信息爬取完成<青春有你2>选手图片爬取,生成选手图片的绝对路径并输出,统计爬取的图片总数量.使用工具:requests模块.Be ...
Python爬虫：Xpath语法笔记
Python爬虫:Xpath语法笔记一.选取节点常用的路劲表达式: 表达式描述实例 nodename 选取nodename节点的所有子节点 xpath('//div') 选取了div节点的 ...
【爬虫+数据可视化毕业设计：英雄联盟数据爬取及可视化分析，python爬虫可视化/数据分析/大数据/大数据屏/数据挖掘/数据爬取，程序开发-哔哩哔哩】
[爬虫+数据可视化毕业设计:英雄联盟数据爬取及可视化分析,python爬虫可视化/数据分析/大数据/大数据屏/数据挖掘/数据爬取,程序开发-哔哩哔哩] https://b23.tv/TIoy6hj

python爬虫之xpath和lxml应用—爬取豆瓣评分爬取

python爬虫之豆瓣评分爬取

1 第一步获取网页源码

2 第二步获取电影信息

3 第三步保存数据

4 综合

python爬虫之xpath和lxml应用—爬取豆瓣评分爬取相关推荐

最新文章

热门文章

python爬虫之xpath和lxml应用—爬取豆瓣评分爬取

python爬虫之豆瓣评分爬取

1 第一步 获取网页源码

2 第二步 获取电影信息

3 第三步 保存数据

4 综合

python爬虫之xpath和lxml应用—爬取豆瓣评分爬取相关推荐

最新文章

热门文章

1 第一步获取网页源码

2 第二步获取电影信息

3 第三步保存数据