一、下载页面并处理

二、提取数据

观察该网站 html 结构

可知该页面下所有电影包含在 ol 标签下。每个 li 标签包含单个电影的内容。

使用 XPath 语句获取该 ol 标签

在 ol 标签中遍历每个 li 标签获取单个电影的信息。

以电影名字为例

其余部分详见源码

 三、页面跳转

检查“后页”标签。跳转到下一页面

返回 None 则已获取所有页面。

四、导入 CSV

创建 CSV 文件

其余部分详见源码

五、导入数据库(以 mysql 为例)

先在 mysql 中创建数据库与表,表的属性应与要插入的数据保持一致

连接数据库 db = pymysql.connect(host='127.0.0.1', port=3306, user='root', passwd='syb123', db='douban',charset='utf8')

创建游标 cur = db.cursor()

将获取的电影信息导入数据库

六、效果显示

因 Windows 系统默认以 ANSI 编码打开 Excel,所以直接用 Excel 打开 csv 文件会出现乱码,需对其重新编码。

以上所有内容可以在 80 行 Python 代码内完成,很简单吧!

源码:https://github.com/AlexRedfield/douban_movies_top250

原文链接:https://segmentfault.com/a/1190000011964958

Python学习交流群:238757010

转载于:https://www.cnblogs.com/reboot51/p/8176266.html

80 行代码爬取豆瓣 Top250 电影信息并导出到 CSV 及数据库相关推荐

  1. [python爬虫] BeautifulSoup和Selenium对比爬取豆瓣Top250电影信息

    这篇文章主要对比BeautifulSoup和Selenium爬取豆瓣Top250电影信息,两种方法从本质上都是一样的,都是通过分析网页的DOM树结构进行元素定位,再定向爬取具体的电影信息,通过代码的对 ...

  2. python采用requests+bs4爬取豆瓣top250电影信息

    爬取豆瓣top250电影说明 (链接:https://movie.douban.com/top250,可爬取一页或者多页(输出电影的正标题(肖申克的救赎),副标题( The Shawshank Red ...

  3. 爬取豆瓣TOP250电影的评分、评价人数、短评等信息,并在其保存在sql数据库中。

    爬取目标 爬取豆瓣TOP250电影的评分.评价人数.短评等信息,并在其保存在sql数据库中. 最终实现效果如图: 确定爬取的URL 爬取的网页地址为:https://movie.douban.com/ ...

  4. scrapy爬取豆瓣top250电影数据

    scrapy爬取豆瓣top250电影数据 scrapy框架 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中. sc ...

  5. Python25行代码爬取豆瓣排行榜数据

    Python25行代码爬取豆瓣排行榜数据 只需要用到requests, re ,csv 三个库即可. code import re import requests import csv url = ' ...

  6. 【实战2】爬取豆瓣Top250电影的海报

    [实战2]爬取豆瓣Top250电影的海报 一. 项目目标分析 二. 完整代码 参考链接: https://www.bilibili.com/video/BV1ZJ411N7Fq?p=4 一. 项目目标 ...

  7. Python爬取豆瓣Top250电影中2000年后上映的影片信息

    Python爬取豆瓣Top250电影中2000年后上映的影片信息 前言 双十一前加在京东购物车的一个东西,价格330,Plus会员用券后差不多310.双十一当天打开看了下399,还得去抢满300减10 ...

  8. Python爬取豆瓣Top250电影可见资料并保存为excel形式

    Python爬取豆瓣Top250电影可见资料并保存为excel形式 利用requests第三方库实现网页的元素爬取,再使用openpyxl库进行信息的录入. 具体思路 1.分析网页的headers. ...

  9. 爬取豆瓣Top250电影

    爬取豆瓣Top250电影数据一直是爬虫小白的入门练手项目,下面就来分享一下自己的爬取过程. 开始之前,先简单写一下需求和实现思路. 需求: 爬取豆瓣电影Top250的数据,数据包含排名.电影名称.导演 ...

  10. 爬取豆瓣top250电影并分析

    爬取豆瓣top250电影,提取评论关键词,然后将同一国家的关键词做成一个词云,轮廓是每个国家的地图轮廓 爬取数据 需要爬取电影名称.导演.年份.地区和前10个评论除了地区,其他的都没什么问题,我们来研 ...

最新文章

  1. 生命真的源于宇宙吗?多名宇航员身体,都曾发生“不可逆”的变化
  2. matlab求adc信号的信噪比,关于ADC的信噪比 - pengyouxiaohui的日志 - EETOP 创芯网论坛 (原名:电子顶级开发网) -...
  3. java什么是工作流程_springmvc工作流程是什么
  4. 信号与槽是如何实现的_苹果iPhone 12信号仍弱?网友反馈打不进电话需重启解决...
  5. 教你在Yii2.0框架中如何创建自定义小部件
  6. 前端:JS/37/canvas对象(画布对象),用canvas对象(画布)画一些基本的图像
  7. 盒马要造车?网友调侃:不会就搞个车轮卷蛋糕吧
  8. PostGreSql工作笔记003---在Navicat中创建数据库时报错rolcatupdate不存在_具体原因看其他博文_这里使用pgAdmin4创建管理postgre
  9. Aspose.Words操作Word.PDF,让图片和文本垂直居中,水平居中解决方案
  10. 力扣 26.删除有序数组中的重复元素
  11. c语言题库及详解答案 免费下载,C语言最新完整版本题库(带详解答案).pdf
  12. 国内各大企业邮箱,选择看重哪几个方面?
  13. 黑白棋——C语言设计
  14. Mac 使用mysql出现ERROR [MY-013183][InnoDB] Assertion failure以及找不到my.cnf的解决过程
  15. Excel表格导入数据库进行判断是否有相同的数据
  16. 反思,让人难以忍受的人
  17. 京东回应大面积裁员传闻:系造谣 已报案
  18. 一幅长文细学华为MRS大数据开发(五)——MapReduce和Yarn
  19. 【点云处理】PointNet网络
  20. jmeter结合Taurus分布式压测

热门文章

  1. TMS320C55x的硬件结构
  2. vue使用ajax库,Vue 中使用Ajax请求
  3. Kafka高可用机制入门
  4. win7_FTP服务器配置教程_IIS
  5. 非表单元素如何使用焦点事件
  6. css与jquery、图标字体、常用数据
  7. 19.浏览器Window服务($window)
  8. [LeetCode]41.First Missing Positive
  9. BZOJ 2754 喵星球上的点名(后缀数组)
  10. Python热门开源项目TOP10