【Hawk】高级教程——post参数采集万方医学网论文
目标——万方医学网论文列表
http://med.wanfangdata.com.cn/Author/General/A000000001
和普通网页不一样的地方在于点击下一页的时候,URL没有发生变化,不能显眼的看到类似‘page=1’或者‘pge=1’这样的信息。
这就需要我们自己分析网络请求,笔者推荐是汉化更好点的火狐的浏览器——Firefox,右上角的打开菜单下——开发者工具——网络,在chrome浏览器中是更多工具中的开发者工具Network
在第一页时,还没有post请求,这时点击下一页,我们看到发生了变化
点击这个POST请求,会弹出详细的请求头和响应头,我们点击 编辑和重发 按钮
他的请求参数就一目了然了,我们要的就是请求主体‘p=2’,这个参数就是页数,如果有些网站不明显可以多尝试几页应该就能明显的看出什么参数是控制页数了
我们回到HAWK开始采集过程
将网址输入到网页采集器,刷新网页,
使用手气不错提取,
可以点击关闭然后——【否】检查下个目标,一直调整到论文数据出现
进入数据清洗模块,从文本生成我们爬取的网址 http://med.wanfangdata.com.cn/Author/General/A000000001
(之后会再一个教程,说说怎么从一个EXCEl作者列表去万方数据库查找,并自动爬取对应页数,沙漠君的教程里也有这个判断页数的教程)
然后拿一个生成区间数模块到空白列,配置生成1到158的数字,生成模式选择Cross
拖一个”合并多列“到id的列,将开发者工具中的请求主体复制进去,并修改Format值,把”p=2“改为”p={0}“
拖一个”从爬虫转换“到text列中,修改爬虫的属性——post数据:[id]
就可以完美的爬取了,可以把调试的采集量调到50就很明显了
后续只要写入数据表就可以了,其他就不在本教程中详细说明
转载于:https://www.cnblogs.com/xiaokangn/p/6169663.html
【Hawk】高级教程——post参数采集万方医学网论文相关推荐
- python医药数据_采集万方医药方向的期刊+文章+作者信息(数据量千万级)
最近将万方数据的爬取代码进行了重构,速度大概有10w每小时吧,因为属于公司项目,代码暂时就不开源了,所以在这里先说说思路和一些注意事项吧,顺带吐槽一下万方. 先上图: 其实逻辑也蛮简单的,医学类的期刊 ...
- 万方计算机,现代计算机 万方 知网 维普
<现代计算机(专业版)>(旬刊)创刊于1984年,由中山大学主管并主办,是一本学科性.技术性较强的科技类学术期刊,作者读者群均面向计算机信息技术及应用研究开发设计生产的工程技术人员.大专院 ...
- 国内外文献下载(万方知网IEEE)
学校并没有购买文献数据库,没办法只能找网上的一些方法了. 国内文献下载: 在广西壮族自治区读书馆注册账号:http://www.gxlib.org.cn/ 点击电子证注册,填写一下信息就可以了. 登录 ...
- 万方数据库高级索引方式
1.检索方式 1.1数据库总览和选择数据库 进入万方数据库系统后,可以首先在"科技信息子系统"中的"资源总览"页面浏览 全部数据库,系统将全部120多个数据库划 ...
- 计算机方面各种级别论文版面费,计算机类普刊发表加急2021年,万方收录
计算机类普刊发表加急2021年,万方收录 为用户提供统计源期刊发表期刊信息咨询服务.期刊几乎涵盖所有学术领域,包括核心.普刊等各个种类的期刊.核心期刊网专注于文章发表.文章润色.文章修改12年,积累了 ...
- [转帖]tar高级教程:增量备份、定时备份、网络备份
tar高级教程:增量备份.定时备份.网络备份 作者: lesca 分类: Tutorials, Ubuntu 发布时间: 2012-03-01 11:42 ė浏览 27,065 次 61条评论 一.概 ...
- Siki_Unity_2-9_C#高级教程(未完)
Unity 2-9 C#高级教程 任务1:字符串和正则表达式 任务1-1&1-2:字符串类string System.String类(string为别名) 注:string创建的字符串是不可变 ...
- SpringBoot的高级教程
SpringBoot的高级教程 一.SpringBoot缓存 缓存的场景 临时性数据存储[校验码] 避免频繁因为相同的内容查询数据库[查询的信息] 1.JSR107缓存规范 用的比较少 Java Ca ...
- 速取,3D建模速成入门到高级教程(附软件安装包)
同名公号回复"入门资料"获取3D建模速成入门到高级教程 大家好,我是华维导师,从事游戏建模师已有10年,曾参与过腾讯<漫威>,<魂斗罗>.网易<阴阳师 ...
最新文章
- SQL Server执行计划的理解
- C# MySQL数据库的备份 还原 初始化
- 显示外部页面_前端设计-响应式页面开发基础
- Execution Order of Event Functions, unity 3d 事件函数的执行顺序
- 【矩阵乘法】OpenJ_POJ - C17F - A Simple Math Problem
- 苹果应用上架,图片的要求(2017年4月27日)
- hibernate学习内容
- java中如何声明班干部,java类成员变量的定义和声明
- hdu 1693 Eat the Trees 插头dp
- 汇编语言上机考试三星题——判断一个不超过65535的整数是否为质数
- 使用Wireshark抓包分析TCP协议
- matlab 16qam误码率图,16qam理论误码率与实际误码率matlab仿真程序.docx
- 推荐股票理财博客-徐小明
- Python本地文件合并(csv)
- mysql将公历农历转换_SQL农历转换函数(显示中文格式,加入润月的显示)
- c++11新特性std::is_trivial
- 安卓利用谷歌文字转语音引擎实现离线文字播报语音
- windows live messenger 80072eff
- 8种在JavaScript数组中查找指定元素的方法
- 永久修改DNS域名服务器