如何批量保存html,如何批量保存网页信息
如何批量保存网页信息
现在我们利用网络数据库探索者来批量保存这些联系地址,就能大大减少重复劳动的工作量。
下载地址:http://www2.skycn.com/soft/14620.html
一、查找页面规律
在使用网络数据库探索者前我们要摸清页面的规律,一般可以从两、三个所需页面的链接地址对比中找到规律。在“四川”的企业列表中进入第二、第三页,发现它们的地址分别为:http://www.pharmnet.com.cn/cgi/company_search.cgi?p=2&t=company&terms=四川&c=和http://www.pharmnet.com.cn/cgi/company_search.cgi?p=3&t=company&terms=四川&c=,可见地址变化的就是p的值,依此类推就可以得出p=4是第四页、p=5就是第五页……这里的p就是数据页的url关键字,其前面的地址部分http://www.pharmnet.com.cn/cgi/company_search.cgi?是url1,后面的&t=company&terms=四川&c=则是url2了。
二、设置规则
清楚页面规律后还需要为要保存的网页信息建立一个规则。开启网络数据库探索者,在“文件”下点击“新建规则文件”打开“设置规则”窗口(图1)。首先设置“一级规则”,一级规则的内容就是类似制药企业列表这样的一级数据了。在“规则用途”方面是根据所要保存的页面数据大小来定,这里的各企业联系方法数据较小就勾选“提取一般数据”,接下来给规则输入一个名称并输入数据页的url1、url2和关键字。
提示:如果没有url2就以空格代替;填写url关键字的时候要注意其大小写要和实际地址中的一致。
因为在页面中我们只需要其中的列表部分,这里要设置一下列表部分的“起始关键字”,一般可以取列表上一行的固定文字,这里取用“共有159家企业”;“每页行数”则是从关键字开始一直到列表结束的行数,包括空格;“提取页数”就是列表的页数了,这里共有11页,就设置为“1到11”,“递增值”一般设置为1。
我们真正所需的企业联系信息是列表中的各个企业的链接页面值,即二级数据,因此在设置完“一级规则”后勾选“二级规则”,进入“二级设置”选项卡,勾选“使用提取行数”,“二级链接的url范围”的选择可先在软件自带的浏览器中打开一个一级数据网页如http://www.pharmnet.com.cn/cgi/company_search.cgi?p=2&t=company&terms=四川&c=,然后按下“二级链接的url范围”后的小按钮,在弹出的窗口中定位好所需网页资料的序号(图2),若需要28~42之间的二级数据,则“二级链接的url范围”就是“28到42”;然后像设置“一级规则”一样设置好“二级数据页的起始关键字”和“提取行数”就可以“确定”保存规则了。
提示:在选择“使用提取行数”和“使用结束关键字”时要注意,如果二级数据的行数固定就选“使用提取行数”选项,否则选“使用结束关键字”。
三、批量提取数据
规则设置完毕返回软件主界面就可以提取所需要的网页信息了。在“规则”下选择刚才建立的规则文件“四川制药企业”,单击“提取”按钮就可以执行数据库的信息提取了。提取完毕,在“数据浏览”中可以查看到与一级数据相对应的二级数据即各制药企业的具体联系方法了。运行“文件→提取的数据另存为文本”就能保存所需要的网页信息了。
某些网站提供的网页信息是以分页形式发布出来的,这样的网页具有一定的规律性且数据量大,要想保存这样的网页若依靠手工逐一操作,工作量太大。使用网络数据库探索者可以直接读取网站数据库来保存网页信息,能够有效减少重复劳动,减轻工作量。
如何批量保存html,如何批量保存网页信息相关推荐
- python批量读取图片并批量保存_Python实现批量读取图片并存入mongodb数据库的方法示例...
本文实例讲述了Python实现批量读取图片并存入mongodb数据库的方法.分享给大家供大家参考,具体如下: 我的图片放在E:\image\中,然后使用python将图片读取然后,显示一张,存入取一张 ...
- word存为html图片有两个,如何批量保存Word图片?另存为Word多个图片的方法
如何批量保存Word图片?很多用户在发送Word文档的时候都没有附上原图的习惯,导致接收方需要使用Word文档中的图片的时候还需要一个个另存为下载,当然,这是不明智的行为,如果你曾经历过这些,一定想知 ...
- 获取extjs 选择后的表头_批量写入审计底稿的表头信息设定页面
做审计底稿的时候,需要把这个表粘贴很多遍,太麻烦了,所以我想利用vba批量完成这个操作.我是从批量打印里获得的灵感.首先给大家看一下 张翰博www.zhihu.com 写的批量打印的内容 1Sub ...
- chrome浏览器开发者工具F12中某网站的sources下的源码如何批量保存?
目录 chrome浏览器 开发者工具F12中某网站的sources下的源码如何批量保存 1. 常用保存Sources源码的两种方法 1.1单个文件 1.2 单个页面 2. 问题 3.解决方案 chro ...
- 百度云模拟登陆批量保存Python版(一)
开源地址: 老规矩,多说无益,直接亮成品 一.背景分析 相信做过爬虫的各位都会发现各大网站为了缓解自家服务器压力,而将我们需要的保存在云盘中,仅以分享分享链接的方式来分享文件.其中云盘分享又以百度云盘 ...
- 小红书图片 批量保存
小红书图片 批量保存 小红书的图片保存很麻烦 一般只能用截图 所以我做了个小程序 复制粘贴小红书链接 直接保存该文章所有图片 2020/2/28 版本 链接:pan.baidu.com/s/1NMjj ...
- 如何用爬虫批量保存了P站的靓图!!!
今天我决定爬虫下 P站的图片,我们首先打开网站研究下 不好意思,手抖打错了,应该是下面这个网站. 众所周知,插图网站 pixiv 别名叫 P站,所以今天我用爬虫批量保存二次元P站的靓图. 很多人学习p ...
- 终于,我用爬虫批量保存了P站的靓图
今天我决定爬虫下 P站的图片,我们首先打开网站研究下. 不好意思,手抖打错了,应该是下面这个网站. 众所周知,插图网站 pixiv 别名叫 P站,所以今天我用爬虫批量保存二次元P站的靓图. P站主要分 ...
- 终于,我用Python爬虫批量保存了P站的靓图
今天我决定爬虫下 P站的图片,我们首先打开网站研究下. 不好意思,手抖打错了,应该是下面这个网站. 众所周知,插图网站 pixiv 别名叫 P站,所以今天我用爬虫批量保存二次元P站的靓图. P站主要分 ...
- 终于!我用爬虫批量保存了P站的靓图
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以点击下方链接自行获取 python免费学习资料 ...
最新文章
- 第三天:Vue的组件化
- 【 C 】在单链表中插入一个新节点的尝试(一)
- OPPO这次的新旗舰,开始“搞颜色”了,当然不是外壳的那种
- CmsEasy 漏洞挖掘
- 安卓 sharedpreferences可以被其它activity读取_【安卓逆向】“一份礼物”之我要o泡逆向分析...
- 陈天艺1636050045假设跑步者1小时40分钟35秒跑了24英里。编写一个程序显示每小时以公里为单位的平均速度值...
- hutol json null值没了_JSON数据处理框架Jackson精解第一篇-序列化与反序列化核心用法...
- Android-Universal-Image-Loader学习笔记(3)--内存缓存
- 参考文献要不要首行缩进_参考文献格式要求(2015-2016-2)
- rabbitmq中文教程python版 - Topics
- [SCM]源码管理 - SVN的备份和还原
- [转注自官网]Cocos2d-x Tutorial 4 - 如何放出子弹(Glede Edition for 2.0.3)
- Android的Crash日志记录
- VMware安装linux系统镜像教程
- **********模拟新浪微博*********
- 安卓手机管理_安卓必备!!一个小工具干掉所有乱搞的APP,手机速度瞬间提升,管理后台应用...
- 点餐App火爆背后的冷思考
- 【计算机网络】PPP和PPPoE协议
- 13,12_基本运算,add/minus/multiply/divide,矩阵相乘mm,matmul,pow/sqrt/rsqrt,exp/log近似值,统计属性,mean,sum,min,max
- 华为eNsp 配置ospf协议