二、豆瓣电影数据的整理

下一部分的爬取需要借助上一节爬取的数据,也就是电影的id号,根据id号来爬取具体的电影数据。 需要对爬取的数据进行处理,成为更有利于我们使用的数据。如下图所示:

这里把代码贴出来就不进行解释了。 数据和代码放到一个目录下(data下是我们上一节爬取的数据,get_index_id_name.py是整理程序):

import os
import csvdef readAllFiles(filePath):id = []name = []fileList = os.listdir(filePath)for file in fileList:path = os.path.join(filePath, file)if os.path.isfile(path):with open(path, 'r') as f:reader = csv.reader(f)for i in reader:if str(i[4]) != "NONE" and str(i[4]) != 'id':id.append(i[4])name.append(i[7])return name, id
#这里的路径是你当前目录下的路径,看下图解释
movie_name, movie_id = readAllFiles("data")with open('index.csv', 'w', encoding='utf-8-sig', newline='') as f:f1 = csv.writer(f)for i in range(len(movie_name)):f1.writerow([movie_id[i], movie_name[i]])

谢谢大家的阅读!

豆瓣电影爬虫Ⅱ 豆瓣电影数据的整理相关推荐

  1. 豆瓣影评爬虫:cutecharts数据可视化看看大家对八佰的评价如何

    一.前言 近期热播电影<八佰>,'1937年淞沪会战的最后一役,"八百壮士"奉命坚守上海四行仓库,以少敌多顽强抵抗四天四夜.电影<八佰>由管虎导演,是亚洲首 ...

  2. python爬豆瓣小组,爬虫豆瓣群数量,小组

    #-*- coding = utf-8 -*- #@Time : 2020/7/23 15:09 #@Author : #@File : douban_group.py #@software : Py ...

  3. python爬虫翻页代码 豆瓣_Python爬虫 豆瓣动态页面的爬取

    动态页面和静态页面可通过检查元素查看爬取的信息和查看源代码中的信息是否一致,一致则为静态页面,反则为动态页面.因为检查查看的代码是经过处理后生成的,而查看源代码形式是你实际抓取的页面. 1.爬虫思路 ...

  4. 使用Java语言开发在线电影推荐网 电影推荐系统 豆瓣电影爬虫 基于用户、物品的协同过滤推荐算法实现 SSM(Spring+SpringMVC+Mybatis)开发框架 机器学习、人工智能、大数据开发

    使用Java语言开发在线电影推荐网 电影推荐系统 豆瓣电影爬虫 基于用户.物品的协同过滤推荐算法实现 SSM(Spring+SpringMVC+Mybatis)开发框架 机器学习.人工智能.大数据开发 ...

  5. 使用Java+SSM框架+JSP开发简单在线电影推荐网 电影推荐系统 豆瓣电影爬虫 基于用户、物品的协同过滤推荐算法 大数据 机器学习 SimpleMovieRecommendOnline

    使用Java+SSM框架+JSP开发简单在线电影推荐网 电影推荐系统 豆瓣电影爬虫 基于用户.物品的协同过滤推荐算法 大数据 机器学习 SimpleMovieRecommendOnline 一.项目简 ...

  6. 【爬取豆瓣前 250 部电影】Python 爬虫和数据可视化(上篇)

    文章目录 一.学习内容 二.任务介绍 三.爬虫知识 四.基本流程 五.准备工作 5.1 获取数据 5.2 解析数据 5.3 保存数据 一.学习内容 Python 语言的基础知识 网络爬虫的技术实现 数 ...

  7. python 豆瓣电影top250_豆瓣电影top250爬虫系列(三)--- python+Echarts数据可视化

    前两篇我们分别爬取了电影数据,也将爬取到的数据存到了数据库: 接下来我们要对现有的数据进行分析,已获得一些有效信息: 我这里只是进行了简单的可视化分析,运用Echarts插件生成各种图标: pytho ...

  8. python爬虫豆瓣电影短评_豆瓣Python爬虫:500条电影短评

    豆瓣电影短评总数多少不一,但是在短评区只能显示500条评论. 例如<囧妈>,评论数达到117120条. (当我打开爬到的评论时,还以为自己代码有问题,检查代码未发现问题.用手机登录豆瓣AP ...

  9. Python豆瓣电影爬虫实战(超详解)-----我的机器人女友《阿丽塔》

    写在前面 爬虫基础详见我另一篇博客:https://blog.csdn.net/weixin_43329700/article/details/86768422 我的机器人女友----<阿丽塔& ...

  10. 基于Python的海量豆瓣电影、数据获取、数据预处理、数据分析、可视化、大屏设计项目(含数据库)

    目录 项目介绍 研究背景 国内外研究现状分析 研究目的 研究意义 研究总体设计 网络爬虫介绍 豆瓣电影数据的采集 数据预处理 大数据分析及可视化 豆瓣影评结构化分析 大屏可视化 文本可视化 总结 每文 ...

最新文章

  1. java和C操作数组的一个小区别
  2. php : RBAC 基于角色的用户权限控制-表参考
  3. 电脑微信多开方法_微信电脑端多开方法
  4. 自由群,外代数和泛包络代数
  5. spark学习-76-目标:如何成为大数据Spark高手
  6. 【WebSocket】手把手教会使用WebSocket
  7. 单点服务器微信公众号,腾讯云联合微信降低开发门槛 微信生态从单点云开发到全面云开发...
  8. [Unity3D]推荐几个不错的网站
  9. 国产高分系列卫星平台介绍
  10. 基于联咏NT98528_IMX335_开发IPC模组实测_视频截图
  11. 微信小程序UI 有赞开源UI尝试(https://github.com/youzan/zanui-weapp)
  12. linux 怎么格式化u盘写保护,u盘写保护怎么去掉
  13. Nacos注册中心AP架构源码(Distro)上篇
  14. java中国象棋棋子走法,《中国象棋对弈》象棋规则 棋子的走法
  15. SVG之线条动画相关
  16. shopnc linux im安装教程,shopnc编译安装IM服务器node.js
  17. Word2019工具栏未显示MathType7.0解决办法
  18. REINFORCEMENT LEARNING USING QUANTUM BOLTZMANN MACHINES利用量子波兹曼机进行强化学习
  19. Protobuf-net ProtoGen的使用
  20. FlexRay通信协议概述

热门文章

  1. 上海航芯 | 智能网联汽车终端T-BOX应用方案
  2. rtc校准算法_CRC校验算法的实例解析
  3. 小米线刷包需要解压么_小米8官方原版线刷包rom刷机包下载_小米8线刷官方包的教程...
  4. 升级iOS10后,AVPlayer有时候播放延时和播放不了的问题
  5. 斐讯k2路由器v22.4.6.3版本刷breed刷华硕固件方法
  6. 杨辉三角的几种 Python 实现方法
  7. 【基础】杨辉三角python题解
  8. Unity--初识Live2D Cubism以及通过代码来实现Live2D模型的基本功能(二)
  9. Python设置随机数种子
  10. 幅频特性曲线的绘制(2)