【菜单式爬虫】八爪鱼爬虫笔记
【菜单式爬虫】八爪鱼爬虫笔记
- 八爪鱼下载及官方视频教学
- 一些小的tips
- 1.使用指定cookie避免爬虫中断
- 2.使用页面滚动进行完整加载
- 3.可以先获取网址,之后通过设置循环实现爬取
- 4.可以先用自动识别网页,然后再进行配置
最近因为爬取数据的需要,发现了可用性强的八爪鱼爬虫软件,是模拟人的行为,通过菜单式操作实现的。以此文简单记录遇到的一些问题及解决方案。
八爪鱼下载及官方视频教学
可以前往 八爪鱼官网,安装流程较为简洁,有官方教程学习,视频教学快速上手。个人感觉的优势在于:
- 可以菜单式操作,非常友好;
- 覆盖了大部分爬虫需求;
- 有不少成形模板,自定义配置也比较方便。
一些小的tips
1.使用指定cookie避免爬虫中断
在打开网页->高级设置->使用指定cookie,可以在登陆之后获取当前页面的cookie
2.使用页面滚动进行完整加载
在打开网页->高级设置->页面滚动,无内容更新时结束滚动
3.可以先获取网址,之后通过设置循环实现爬取
添加当前网址,这样的好处是后面可以回溯没有爬取成功的网址
4.可以先用自动识别网页,然后再进行配置
【菜单式爬虫】八爪鱼爬虫笔记相关推荐
- 无敌python爬虫教程学习笔记(一)
python爬虫系列文章目录 无敌python爬虫教程学习笔记(一) 无敌python爬虫教程学习笔记(二) 无敌python爬虫教程学习笔记(三) 无敌python爬虫教程学习笔记(四) 本文目录 ...
- 无敌python爬虫教程学习笔记(二)
系列文章目录 无敌python爬虫教程学习笔记(一) 无敌python爬虫教程学习笔记(二) 无敌python爬虫教程学习笔记(三) 无敌python爬虫教程学习笔记(四) 手刃一个小爬虫 系列文章目 ...
- 爬虫期末考试笔记(选择题)
常用获取数据的方式? 企业产生的数据 数据平台购买的数据 政府.机构公开的数据 数据管理公司的数据 爬虫的概念? 网络爬虫又称为网页蜘蛛.网络机器人是一种按照一定的规则自动请求万维网网站并提取网络数据 ...
- colly爬虫库学习笔记
colly爬虫库学习笔记 前言 稍微的学习了一下Go语言的基础知识(错误处理和协程通道这些还没看),想着能不能做点东西,突然想到自己当时学了python之后就是专门为了写爬虫(虽然后来也咕了,只会一个 ...
- Python网络爬虫与信息提取笔记08-实例2:淘宝商品比价定向爬虫
Python网络爬虫与信息提取笔记01-Requests库入门 Python网络爬虫与信息提取笔记02-网络爬虫之"盗亦有道" Python网络爬虫与信息提取笔记03-Reques ...
- Python网络爬虫与信息提取笔记(续篇)(文末附教学视频)只供教学讲解,请勿对有robots协议的网站(如淘宝网)造成骚扰
接上篇博客:Python网络爬虫与信息提取笔记(文末附教学视频) 14:基于bs4库的HTML内容遍历方法 标签树的下行遍历: 用len(soup.body.contents)返回body标签的儿子节 ...
- 爬虫实战学习笔记_1 爬虫基础+HTTP原理
1 爬虫简介 网络爬虫(又被称作网络蜘蛛.网络机器人,在某些社区中也经常被称为网页追逐者)可以按照指定的规则(网络爬虫的算法)自动浏览或抓取网络中的信息. 1.1 Web网页存在方式 表层网页指的是不 ...
- python爬虫(上课笔记)
爬虫概述 爬虫:网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.其本质就是通过编写程序拟浏览器上网,抓取数据的过程. 爬虫特点 在法律中都是不被禁止的: 具有违法风险: 爬虫是一个博 ...
- 【最全笔记】基础Python爬虫入门全笔记
第一章 网络爬虫之规则 一.Requests库入门 request库:http://www.python-requests.org 安装方法:pip install requests 抓取百度 imp ...
- 爬虫需谨慎!那些你不知道的爬虫反爬虫套路,学起来!
目录 前言 一.爬虫反爬虫运行现状 1.真实世界的爬虫比例 2.哭笑不得的决策思路 二.爬虫反爬虫技术现状 1.为python平反 2.无法绕开的误伤率 3.前端工程师的逆袭 4.误伤,还是误伤 三. ...
最新文章
- ubuntu安装mysql 密码忘了怎么办_Ubuntu安装mysql14.14,查看默认密码,重置密码
- APK反编译得工具总结(转载)
- HTML class和id
- 13.SpringMVC核心技术-异常处理
- 设置TDSAuthenticationManager属性对DataSnap服务端的接口授权
- java数组 方法_Java数组的十大方法
- usb连接不上 艾德克斯电源_硬核充电宝?360汽车应急电源入手体验
- java怎么对用户做自定义模版打印_Printing tools 自定义模板打印的实现
- DAY3 购物车程序
- 将DynamipsGUI和VMware虚拟机进行桥接
- python设计计算器的目的_python的第一个作业:计算器的后台实现
- 计算机cmd复制粘贴指令,win7系统使用CMD命令复制和删除文件夹的方法
- 链表(python版)
- 通信原理 | 信道的概念和实际信道
- 微信小程序自定义icon
- JDK9API网盘下载
- [小说]魔王冢(63)正牌蚩尤
- 倍福控制电机耦合运动
- 云景网络科技面试题【杭州多测师】【杭州多测师_王sir】
- linux查看进程号、端口号
热门文章
- 项目启动报 JDBC Driver has been forcibly unregistered
- 【SQL】用SQL语句表示同比和环比
- excel html 颜色,excel怎么设置鼠标横竖颜色
- win10 linux efi分区大小,EFI模式 win10+Ubuntu16.04双系统
- 1147 Heaps (30分)
- android设置背景图片透明
- 解决 java.sql.SQLException: ORA-01688: unable to extend table XXX partition YYY by 1024 in tablespace
- VSCODE + 搜狗输入法,文字突然变成了繁体字,为什么?
- 机器学习可以应用在哪些场景?机器学习有什么用?
- 蘑菇租房java,租房经历总结-----我是如何2天找到合适租房的(房东直租)简单粗暴...