一、背景概述

1、豆瓣一次性发5篇影评就要想办法阻止你了,输对了验证码也告诉你是错的。还经常因为语言过激就把影评给和谐了。

2、想把影评、体验这一类的数据都转存的到维格表格里面统一管理,再通过api标准接口做可视化。

3、然后摸索了一下用浏览器的爬虫插件快速把自己这些年在豆瓣上对各种电影,电视剧,综艺的评价快速爬取下来。具体过程如下。

二、准备内容

  1. web scraper 浏览器插件

  2. 豆瓣账户地址

三、过程记录

0)安装webscraper 浏览器插件

这个不多赘述,自行狗度。插件商店也能直接搜索安装下载。

1)配置爬虫

0、复制广播页面的url地址备用

1、F12打开控制栏,打开webscraper控制台新增一个爬虫,设置复制的广播地址作为sitemap的开始url。注意后面[1-6],代表的是爬取我1到6页的内容,自己可以按需配置。

2、配置第一个容器:add newselector;然后点击select按钮在页面中选中那个评论的div,然后再选第二个,就会默认把整页的这个div都选中了,然后勾选下面的multiple。表示这是爬虫在页面里要爬取的主要对象。

3、配置容器里面的元素:咱们这个列表页的容器里面除了一个访问二级详情页的跳转url,没有任何有价值的元素。所以就添加一个跳转元素即可。先选择type类型为link,然后在上一步容器内找到点击后会跳转详情页的区域。选择父级选择器为上一步的容器即可。

4、配置二级页面的需要元素:方法同理上面2步,类型选择text就行,然后可以按需在右侧电影信息栏抓取影片信息里面的项目。我主要抓了自己的评论,导演,地区。

上映日期不是一个纯粹的日期(会后面加地区),并且经常包含多个日趋,需要做正则或者在表格里另做函数处理才能数据结构化。于是我就放弃了这个。

5、查看自己配置的选择器的内容与层级:我从root》容器》二级》各种内容

2)运行爬虫

1、点击sitemap下面的scrape,设置延时用默认的就行,这个不是视频站,加载还是比较快的。然后就静静等待插件运行抓取数据。注意运行爬虫前把多余的窗口都关闭了。这个占电脑资源还是比较大的。

整个爬取过程就是会有一个插件的浏览器弹窗会按配置的规则一条一条的打开你的评论详情页,把指定的内容数据自动存下来。

2、查看抓取进度:点击browse,可以实时刷新看爬虫抓到的数据内容表格。因为我状态页面里除了影评还会有软件和其他东西的评价,规则不适用所以抓上来是null,这个可以回头下载本地直接筛选清除。

3)下载爬取结果

点击export as csv就能直接下载本地了。

4)确认爬取数据完整性

爬取完成不会有具体的提示,直接插件的爬取窗口会关闭,也有可能是占用资源太多插件崩溃了,所以需要在下载的文件里看一下爬取内容的数据是否和预期数量一致,我设定了6页,每页二十条,差不多120条用了10分钟完成爬取。所以数据是完整的。

四、心得体会

1、这个应该是对于无IT基础最快捷的抓取和移动数据的方法了。场景还可以适用于行业网站的联系方式啥的获取,或者各种工具平台之间的数据迁移。

2、这个爬虫是可以直接快速导入复用的,如果有相同需求的同学可以关注并私信我“爬虫”关键字,就可以获得我上面写好的现成脚本,直接导入插件,编辑账号地址进行修改就能快速抓取目标数据。这个也适用于爬取其他用户的影评记录。

“零代码”写爬虫下载自己全部的豆瓣影评相关推荐

  1. python获取网站代码_python爬虫1——获取网站源代码(豆瓣图书top250信息)

    # -*- coding: utf-8 -*- import requests import re import sys reload(sys) sys.setdefaultencoding('utf ...

  2. Python爬虫实践《流浪地球》豆瓣影评分析及实践心得

    一段多余的话 多余的话不多说,我想聊聊在进行实践分析中遇到的困难与心得. 下载jupyter进行分析的一些建议 我们安装juputer前,首先需要安装python,因为本人曾经上过自然语言处理课,所以 ...

  3. 关于PHP代码写的下载文件打不开的问题,自己备忘!(韩老师2011年的例子)

    <?php $file_name="中文.jpg"; //中文转码 $file_name=iconv("utf-8","gb2312" ...

  4. python 存入数据库bigint_【Python】从0开始写爬虫——把扒到的豆瓣数据存储到数据库...

    1. 我们扒到了什么? id, 名称, 上映年份,上映日期,所属类目, 导演,主演,片长,评分,星评,评价人数 2. 把这些数据做一个分类. a..基本信息 :名称, 导演,上映年份, 所属类目, 片 ...

  5. python爬取豆瓣影评_【python爬虫实战】爬取豆瓣影评数据

    概述: 爬取豆瓣影评数据步骤: 1.获取网页请求 2.解析获取的网页 3.提速数据 4.保存文件 源代码: # 1.导入需要的库 import urllib.request from bs4 impo ...

  6. 豆瓣影评爬虫:cutecharts数据可视化看看大家对八佰的评价如何

    一.前言 近期热播电影<八佰>,'1937年淞沪会战的最后一役,"八百壮士"奉命坚守上海四行仓库,以少敌多顽强抵抗四天四夜.电影<八佰>由管虎导演,是亚洲首 ...

  7. 零代码爬虫神器 — Web Scraper 的使用

    经常会遇到一些简单的需求,需要爬取某网站上的一些数据,但这些页面的结构非常的简单,并且数据量比较小,自己写代码固然可以实现,但杀鸡焉用牛刀? 目前市面上已经有一些比较成熟的零代码爬虫工具,比如说八爪鱼 ...

  8. 零代码爬虫神器 -- Web Scraper 的使用

    点击上方"Python爬虫与数据挖掘",进行关注 回复"书籍"即可获赠Python从入门到进阶共10本电子书 今 日 鸡 汤 八骏日行三万里,穆王何事不重来. ...

  9. 我是如何零基础开始能写爬虫的?

    刚开始接触爬虫的时候,简直惊为天人,十几行代码,就可以将无数网页的信息全部获取下来,自动选取网页元素,自动整理成结构化的文件. 利用这些数据,可以做很多领域的分析.市场调研,获得很多有价值的信息,可以 ...

最新文章

  1. QT 下配置OpenCV(VS编译器+QT+OpenCV)
  2. 有没有插件_这 10 款插件让你的 GitHub 更好用、更有趣
  3. NLP之TEA:基于SnowNLP实现自然语言处理之对输入文本进行情感分析(分词→词性标注→拼音简繁转换→情感分析→测试)
  4. goland设置goroot_go环境搭建-goland使用、gopath、go命令
  5. layui结合ajax实现下拉菜单联动效果
  6. 95-240-060-源码-state-状态生存时间(TTL)
  7. Linux安装与配置
  8. 累计收益是我的收益吗?
  9. 【原】Coursera—Andrew Ng机器学习—Week 9 习题—异常检测
  10. [转载]要死的人都后悔些什么
  11. Pytm:威胁建模框架
  12. SWUST OJ Coin Changing
  13. USBKEY用户认证平台的研究和实现
  14. 量子纠缠 计算机,计算机科学家利用量子纠缠系统,证实44年前的一个猜想是错误的...
  15. 操作系统 请求分页存储管理方式(含页面置换算法)
  16. Connect to tfhub.dev:443 [tfhub.dev/216.58.200.238] failed 问题解决
  17. VCam 能做什么?
  18. 【Mysql上分之路】第三篇:Mysql安装与配置、目录结构
  19. 公司双飞燕键盘的主键盘上数字5上的欧元符号输入
  20. 「Vue系列」欢迎传送到“Teleport”星球

热门文章

  1. 那个炒币,8小时赚了一辆法拉利的女大学生,现在怎么样了?
  2. java如何进行word文档的合并
  3. python快速入门【四】-----各类函数创建
  4. RDLC报表 报表数据(参数栏)不显示怎么办?
  5. java背单词软件_背单词的java小软件
  6. S2SH药膳馆会员管理系统计算机专业毕业论文java毕业设计开题报告
  7. 南阳oj 语言入门 房间安排
  8. signal 11 linux,signal 11 (SIGSEGV)错误排查
  9. 自上而下解读ncnn系列(1):加载param模型和bin文件前向传播
  10. Matlab三相全桥逆变电路的仿真