关于八爪鱼

八爪鱼, 是一款简单易操作的爬虫工具。当然这种工具也有一定的局限性,可定制性肯定没有用一些爬虫框架(scrapy等)好(毕竟代码是自己写的,哈哈)。

使用八爪鱼

最近,使用八爪鱼爬取了一些微博的热门评论。当然,使用新浪微博API也是可以的。但是,自己为了快嘛,也想了解一下这个工具。
八爪鱼软件中基本爬取工作都有教程的。下面,我就以爬取微博热门评论,讲解一下,足以应付八爪鱼的基本使用了。

安装

八爪鱼目前只有Windows版本,没有Mac版本,所以我在虚拟机中装了一个八爪鱼。
八爪鱼下载, 下载安装无脑下一步就好了。
登陆的时候需要提前注册账号,然后用注册号的账号登录即可。

爬虫任务配置

  1. 创建任务(高级模式)
  2. 设置基本信息
  3. 设置工作流程(主要参考教程)


说明:点击元素设置的是点击热门,因为默认是全部评论,所以要先点击一下这个元素。其中,要把“在新标签中打开页面”勾取消掉,然后设置Ajax加载数据,Ajax加载超时设置大概为2秒。这样做的原因在于,微博中全部评论和热门评论的请求用的是Ajax,Ajax的好处就是在不刷新页面的时候进行请求。页面都没有刷新,当然不能在新标签中打开页面。 还有就是因为是Ajax请求,所以一定要设置超时,不然下一步不能检测到变化,就不会进行。
点击翻页也是这样设置,设置Ajax超时,时间到了就说明请求结束了,下一步骤才能检测到,然后才能开始。不这样设置的话,会发现爬取了一页然后就不动了,过一会儿就说结束了。
总结: 就是网页中是进行Ajax请求(简单的识别就是点击后页面链接没有变化的时候),就需要进行如此设置。
问题: 1) 如果将找好的评论链接设置为爬虫链接的时候,每次都会跳转到登录页面,那么就在八爪鱼中登录即可。

爬虫以及导出数据


然后右下角有一个导出按钮,可以导出为Text, Html, Excel, 数据库等格式。

参考文献:
八爪鱼官网

转载于:https://www.cnblogs.com/zhonghuasong/p/5975971.html

用八爪鱼爬取微博热门评论相关推荐

  1. 自动爬取微博热门评论和点赞数并存为EXCEL文件(python2)

    前言 上篇文章介绍了如何获取Cookie并爬取微博评论,但评论千千万,我们可能只对点赞数高的评论感兴趣,也就是热门评论.但要想获取热门评论,用之前的方法得把评论爬个遍,然后按点赞数排序.这种做法一来费 ...

  2. python爬取微博热门消息(一)——效果展示

    微博的热搜榜对于研究大众的流量有非常大的价值. 今天的教程就来说说如何爬取微博的热搜榜. 感兴趣的小伙伴可以 收藏 + 关注 哦! 另外,关于本项目的效果展示,以及教程,点击一下链接即可. pytho ...

  3. python爬取微博热门消息(三)—— 爬取微博热门信息的功能函数

    微博的热搜榜对于研究大众的流量有非常大的价值. 今天的教程就来说说如何爬取微博的热搜榜. 感兴趣的小伙伴可以 收藏 + 关注 哦! 另外,关于本项目的效果展示,以及教程,点击一下链接即可. pytho ...

  4. 八爪鱼 爬取微博中的图片到本地

    八爪鱼 爬取微博中的图片到本地 批量爬取大量的好看的图片 到自己的本地电脑  哈哈哈哈哈哈 抓取的微博图片 详细步骤:http://www.bazhuayu.com/tutorial/wbpiccj ...

  5. Python爬取微博的评论人的微博网址

    这次爬取微博以手机客户端为主.打开手机客户端的微博链接为 https://m.weibo.cn 进入微博后,随机找到评论多的为例.比如搜索鹿晗.爬取评论鹿晗的评论人的微博网址 打开F12控制台,点击网 ...

  6. 备忘5:爬取微博热门信息以及所有热门微博评论的用户信息

    import requests import os import re import csv import time import json#headers是请求加上头信息,伪装成浏览器访问,不然会被 ...

  7. 备忘4:爬取微博热门信息以及所有热门微博转发的用户信息

    import requests import os import re import csv import time import json#headers是请求加上头信息,伪装成浏览器访问,不然会被 ...

  8. 自动获取cookie,爬取新浪微博热门评论

    目录 一.前言 二.代码 一.前言 前几天突然想爬一爬微博的热门评论玩,就间断地挤出来了一点时间写了一个简略版. 最大的难点是新浪的访客机制,导致无法直接用requests爬取,需要先在cookie上 ...

  9. 网络爬虫-爬取微博热门话题前15个

    用java+webdriver+testng实现获取微博热门话题前15个,包括话题排名.标题.阅读量.内容,写入txt文件功能 前提条件: 已安装好java环境,工程导入了webdriver的jar包 ...

最新文章

  1. 【转】Android studio安装与配置
  2. 【十大经典排序算法】java实现--希尔排序(4)
  3. Java内存分配原理
  4. 机器学习中为什么需要梯度下降_机器学习,梯度下降算法,问题引入
  5. Android开发之android与JS互调 | Android与H5互调(附源码)
  6. BZOJ 1006 神奇的国度(弦图的染色数)
  7. Linux---阻塞与非阻塞、同步与异步的区别
  8. vue.js 学习笔记3——TypeScript
  9. git 修改.gitignore文件 不生效
  10. 'conda' 不是内部或外部命令,也不是可运行的程序 或批处理文件。
  11. MATLAB 积分 上限为变量,matlab 求定积分,积分的上限是变量,函数带有其他参数
  12. 矩阵的对数运算公式_对数(运算层面)
  13. 运筹学—线性规划单纯形表
  14. 20190801H3C无线控制器3510H 版本升级总结
  15. Android Studio —— java.lang.VerifyError: Verifier rejected class 问题解决
  16. h61 nvme硬盘_移动硬盘怎么选?看完这篇不踩坑
  17. 图片格式网页在线一键转换源码
  18. ElasticSearch搜索引擎详解-持续更新中
  19. indexedDB使用
  20. 快手极速版(目前稳定奔跑中~)别问能不能跑了~

热门文章

  1. C#的并发机制优秀在哪?
  2. 2021年3月6日 星期六 冬月九九 晴
  3. Matlab实现神经网络(附上完整仿真源码)
  4. 小米盒子4刷机armbian 系统
  5. Ubuntu 22.04安装gcc4.8
  6. android平板电子市场,低调上架的小米平板 3,暗示了 Android 平板市场的消沉吗
  7. 根据标注精灵助手标好并导出的json文件生成txt文件(一)
  8. 【技术博客】2020.04.28-简单塔防游戏和棋牌游戏构架学习 ——学习系列博客(一)构架初探
  9. 计算机盘0字节可用,我的电脑硬盘c盘显示0字节可用,共50.0gb
  10. 大数据时代:我们做好准备了吗