80 行代码爬取豆瓣 Top250 电影信息并导出到 CSV 及数据库

一、下载页面并处理

二、提取数据

观察该网站 html 结构

可知该页面下所有电影包含在 ol 标签下。每个 li 标签包含单个电影的内容。

使用 XPath 语句获取该 ol 标签

在 ol 标签中遍历每个 li 标签获取单个电影的信息。

以电影名字为例

其余部分详见源码

三、页面跳转

检查“后页”标签。跳转到下一页面

返回 None 则已获取所有页面。

四、导入 CSV

创建 CSV 文件

其余部分详见源码

五、导入数据库（以 mysql 为例）

先在 mysql 中创建数据库与表，表的属性应与要插入的数据保持一致

连接数据库 db = pymysql.connect(host='127.0.0.1', port=3306, user='root', passwd='syb123', db='douban',charset='utf8')

创建游标 cur = db.cursor()

将获取的电影信息导入数据库

六、效果显示

因 Windows 系统默认以 ANSI 编码打开 Excel，所以直接用 Excel 打开 csv 文件会出现乱码，需对其重新编码。

以上所有内容可以在 80 行 Python 代码内完成，很简单吧！

源码：https://github.com/AlexRedfield/douban_movies_top250

原文链接：https://segmentfault.com/a/1190000011964958

Python学习交流群：238757010

转载于:https://www.cnblogs.com/reboot51/p/8176266.html

80 行代码爬取豆瓣 Top250 电影信息并导出到 CSV 及数据库相关推荐

[python爬虫] BeautifulSoup和Selenium对比爬取豆瓣Top250电影信息
这篇文章主要对比BeautifulSoup和Selenium爬取豆瓣Top250电影信息,两种方法从本质上都是一样的,都是通过分析网页的DOM树结构进行元素定位,再定向爬取具体的电影信息,通过代码的对 ...
python采用requests+bs4爬取豆瓣top250电影信息
爬取豆瓣top250电影说明 (链接:https://movie.douban.com/top250,可爬取一页或者多页(输出电影的正标题(肖申克的救赎),副标题( The Shawshank Red ...
爬取豆瓣TOP250电影的评分、评价人数、短评等信息，并在其保存在sql数据库中。
爬取目标爬取豆瓣TOP250电影的评分.评价人数.短评等信息,并在其保存在sql数据库中. 最终实现效果如图: 确定爬取的URL 爬取的网页地址为:https://movie.douban.com/ ...
scrapy爬取豆瓣top250电影数据
scrapy爬取豆瓣top250电影数据 scrapy框架 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中. sc ...
Python25行代码爬取豆瓣排行榜数据
Python25行代码爬取豆瓣排行榜数据只需要用到requests, re ,csv 三个库即可. code import re import requests import csv url = ' ...
【实战2】爬取豆瓣Top250电影的海报
[实战2]爬取豆瓣Top250电影的海报一. 项目目标分析二. 完整代码参考链接: https://www.bilibili.com/video/BV1ZJ411N7Fq?p=4 一. 项目目标 ...
Python爬取豆瓣Top250电影中2000年后上映的影片信息
Python爬取豆瓣Top250电影中2000年后上映的影片信息前言双十一前加在京东购物车的一个东西,价格330,Plus会员用券后差不多310.双十一当天打开看了下399,还得去抢满300减10 ...
Python爬取豆瓣Top250电影可见资料并保存为excel形式
Python爬取豆瓣Top250电影可见资料并保存为excel形式利用requests第三方库实现网页的元素爬取,再使用openpyxl库进行信息的录入. 具体思路 1.分析网页的headers. ...
爬取豆瓣Top250电影
爬取豆瓣Top250电影数据一直是爬虫小白的入门练手项目,下面就来分享一下自己的爬取过程. 开始之前,先简单写一下需求和实现思路. 需求: 爬取豆瓣电影Top250的数据,数据包含排名.电影名称.导演 ...
爬取豆瓣top250电影并分析
爬取豆瓣top250电影,提取评论关键词,然后将同一国家的关键词做成一个词云,轮廓是每个国家的地图轮廓爬取数据需要爬取电影名称.导演.年份.地区和前10个评论除了地区,其他的都没什么问题,我们来研 ...

80 行代码爬取豆瓣 Top250 电影信息并导出到 CSV 及数据库

80 行代码爬取豆瓣 Top250 电影信息并导出到 CSV 及数据库相关推荐

最新文章

热门文章