80 行代码爬取豆瓣 Top250 电影信息并导出到 CSV 及数据库
一、下载页面并处理
二、提取数据
观察该网站 html 结构
可知该页面下所有电影包含在 ol 标签下。每个 li 标签包含单个电影的内容。
使用 XPath 语句获取该 ol 标签
在 ol 标签中遍历每个 li 标签获取单个电影的信息。
以电影名字为例
其余部分详见源码
三、页面跳转
检查“后页”标签。跳转到下一页面
返回 None 则已获取所有页面。
四、导入 CSV
创建 CSV 文件
其余部分详见源码
五、导入数据库(以 mysql 为例)
先在 mysql 中创建数据库与表,表的属性应与要插入的数据保持一致
连接数据库 db = pymysql.connect(host='127.0.0.1', port=3306, user='root', passwd='syb123', db='douban',charset='utf8')
创建游标 cur = db.cursor()
将获取的电影信息导入数据库
六、效果显示
因 Windows 系统默认以 ANSI 编码打开 Excel,所以直接用 Excel 打开 csv 文件会出现乱码,需对其重新编码。
以上所有内容可以在 80 行 Python 代码内完成,很简单吧!
源码:https://github.com/AlexRedfield/douban_movies_top250
原文链接:https://segmentfault.com/a/1190000011964958
Python学习交流群:238757010
转载于:https://www.cnblogs.com/reboot51/p/8176266.html
80 行代码爬取豆瓣 Top250 电影信息并导出到 CSV 及数据库相关推荐
- [python爬虫] BeautifulSoup和Selenium对比爬取豆瓣Top250电影信息
这篇文章主要对比BeautifulSoup和Selenium爬取豆瓣Top250电影信息,两种方法从本质上都是一样的,都是通过分析网页的DOM树结构进行元素定位,再定向爬取具体的电影信息,通过代码的对 ...
- python采用requests+bs4爬取豆瓣top250电影信息
爬取豆瓣top250电影说明 (链接:https://movie.douban.com/top250,可爬取一页或者多页(输出电影的正标题(肖申克的救赎),副标题( The Shawshank Red ...
- 爬取豆瓣TOP250电影的评分、评价人数、短评等信息,并在其保存在sql数据库中。
爬取目标 爬取豆瓣TOP250电影的评分.评价人数.短评等信息,并在其保存在sql数据库中. 最终实现效果如图: 确定爬取的URL 爬取的网页地址为:https://movie.douban.com/ ...
- scrapy爬取豆瓣top250电影数据
scrapy爬取豆瓣top250电影数据 scrapy框架 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中. sc ...
- Python25行代码爬取豆瓣排行榜数据
Python25行代码爬取豆瓣排行榜数据 只需要用到requests, re ,csv 三个库即可. code import re import requests import csv url = ' ...
- 【实战2】爬取豆瓣Top250电影的海报
[实战2]爬取豆瓣Top250电影的海报 一. 项目目标分析 二. 完整代码 参考链接: https://www.bilibili.com/video/BV1ZJ411N7Fq?p=4 一. 项目目标 ...
- Python爬取豆瓣Top250电影中2000年后上映的影片信息
Python爬取豆瓣Top250电影中2000年后上映的影片信息 前言 双十一前加在京东购物车的一个东西,价格330,Plus会员用券后差不多310.双十一当天打开看了下399,还得去抢满300减10 ...
- Python爬取豆瓣Top250电影可见资料并保存为excel形式
Python爬取豆瓣Top250电影可见资料并保存为excel形式 利用requests第三方库实现网页的元素爬取,再使用openpyxl库进行信息的录入. 具体思路 1.分析网页的headers. ...
- 爬取豆瓣Top250电影
爬取豆瓣Top250电影数据一直是爬虫小白的入门练手项目,下面就来分享一下自己的爬取过程. 开始之前,先简单写一下需求和实现思路. 需求: 爬取豆瓣电影Top250的数据,数据包含排名.电影名称.导演 ...
- 爬取豆瓣top250电影并分析
爬取豆瓣top250电影,提取评论关键词,然后将同一国家的关键词做成一个词云,轮廓是每个国家的地图轮廓 爬取数据 需要爬取电影名称.导演.年份.地区和前10个评论除了地区,其他的都没什么问题,我们来研 ...
最新文章
- 生命真的源于宇宙吗?多名宇航员身体,都曾发生“不可逆”的变化
- matlab求adc信号的信噪比,关于ADC的信噪比 - pengyouxiaohui的日志 - EETOP 创芯网论坛 (原名:电子顶级开发网) -...
- java什么是工作流程_springmvc工作流程是什么
- 信号与槽是如何实现的_苹果iPhone 12信号仍弱?网友反馈打不进电话需重启解决...
- 教你在Yii2.0框架中如何创建自定义小部件
- 前端:JS/37/canvas对象(画布对象),用canvas对象(画布)画一些基本的图像
- 盒马要造车?网友调侃:不会就搞个车轮卷蛋糕吧
- PostGreSql工作笔记003---在Navicat中创建数据库时报错rolcatupdate不存在_具体原因看其他博文_这里使用pgAdmin4创建管理postgre
- Aspose.Words操作Word.PDF,让图片和文本垂直居中,水平居中解决方案
- 力扣 26.删除有序数组中的重复元素
- c语言题库及详解答案 免费下载,C语言最新完整版本题库(带详解答案).pdf
- 国内各大企业邮箱,选择看重哪几个方面?
- 黑白棋——C语言设计
- Mac 使用mysql出现ERROR [MY-013183][InnoDB] Assertion failure以及找不到my.cnf的解决过程
- Excel表格导入数据库进行判断是否有相同的数据
- 反思,让人难以忍受的人
- 京东回应大面积裁员传闻:系造谣 已报案
- 一幅长文细学华为MRS大数据开发(五)——MapReduce和Yarn
- 【点云处理】PointNet网络
- jmeter结合Taurus分布式压测