一、操作步骤

如果网页上有搜索框,但是搜索结果页面没有独立网址,想要采集搜索结果,直接做规则是采集不到的,要先做连续动作(输入+点击)来实现自动输入关键词并搜索,然后才能采集数据。下面用京东搜索为例,演示自动搜索采集,操作步骤如下:

二、案例规则+操作步骤

第一级采集规则:连续动作_京东搜索

第二级采集规则:京东空调列表

样本网址: https://list.jd.com/list.html?cat=737,794,870

采集内容:京东商品的名称、价格、链接

注意:本案例京东搜索是有独立网址的,对于具有独立网址的页面,最简单的方法就是构造出每个关键词的搜索网址,然后把线索网址导入到规则里,就可以批量采集,而不是设置连续动作

第一步:定义第一级规则

1.1打开集搜客网络爬虫,输入网址并Enter,加载出网页后再点击“定义规则”按钮,看到一个浮窗显示出来,称为工作台,在上面定义规则;

注意:这里的截图和文字说明都是集搜客网络爬虫版本,如果您安装的是火狐插件版,那么就没有“定义规则”按钮,而是应该运行MS谋数台

1.2在工作台中输入一级规则的主题名,再点击“查重”,提示“该名可以使用”或“该名已被占用,可编辑:是”,就可以使用这个主题名,否则请重命名。

1.3本级规则主要是设置连续动作,所以,整理箱可以随意抓取一个信息,用来给爬虫判断是否执行采集。双击网页上的信息,输入标签名,并打勾确认,再勾上关键内容,首次标注还要输入整理箱的名字,然后就完成标注映射了。

Tips:为了能准确定位网页信息,点击定义规则会把整个网页定格住,不能跳转网页链接,再次点击定义规则,才会恢复回普通的网页模式。

第二步:定义连续动作

点击工作台的“连续动作”页签,点击新建按钮建立一个新动作,每个动作的设置方法都是一样,基本操作如下:

2.1 ,输入目标主题名

这里的目标主题名是填第二级主题名,点击“谁在用”查看目标主题名是否可用,如果已经被占用,换一个主题名就行

2.2, 创建第一个动作:输入

新建一个动作,并选择动作类型为输入。

2.2.1,填写定位表达式

首先鼠标单击输入框,定位输入框的节点,然后点击“自动生成XPath”按钮,可以选择“偏好id”或者“偏好class”,就可以得到输入框的xpath表达式,再点击“搜索”按钮,检查一下这个xpath是否能唯一定位到输入框,没有问题就把xpath复制到定位表达式方框里。

注意:定位表达式里的xpath是要锁定动作对象的整个有效操作范围,具体就是指鼠标能够点击或输入成功的网页模块,不要定位到最底层的text()节点。

2.2.2,输入关键词

输入关键词填写你想搜索的关键词,可以输入一个关键词,也可以输入多个关键词,输入多个关键词要用双分号;;将每个关键词隔开,免费版只支持5个以内的关键词,旗舰版可以使用连发弹仓功能,支持1万以内的关键词

2.2.3,输入动作名称

告诉自己这一步动作是用来干嘛的,方便以后修改。

2.3,创建第二个动作:点击

参考2.2的操作,创建第二个动作,选择类型为点击,定位到搜索按钮,然后自动生成xpath,检验是否锁定到唯一节点,没问题的话填到定位表达式里就行了。

2.4,存规则

点击“存规则”按钮保存已完成的第一级规则

第三步:定义第二级规则

3.1,新建规则

创建第二级规则,点击“定义规则”恢复到普通网页模式,输入关键词搜索出结果后,再次点击“定义规则”切换到做规则模式,点击左上角“规则”菜单->“新建”,输入主题名,这里的主题名就是第一级规则的连续动作里填写的目标主题名。

3.2,标注想要采集的信息

3.2.1,标注网页上想要采集的信息,这里是对商品名称和价格做标注,因为标注只对文本信息有效,商品详情的链接是属性节点@href,所以,不能对链接做这样的直观标注,而要做内容映射,具体看下面的操作。

3.2.2,点击商品名称,下面的DOM节点定位到A标签,展开A标签下的attributes节点,就可以找到代表网址的@href节点,右击节点,选择“新建抓取内容“,输入一个名字,一般给这个抓取内容起一个和地址有关的名字,比如“下级网址“,或者”下级链接“等等。然后在工作台上,看到这个抓取内容有了。如果还要进入商品详情页采集,就要对着这个抓取内容勾选下级线索,做层级抓取。

3.2.3,设置“关键内容”选项,这样爬虫才能判断出采集规则是否合适。在整理箱里选一个网页上必然能采到的标签,勾上“关键内容”。这里选择的是“名称”做为“关键内容”。

3.2.4,前面只对一个商品做标注,也就能得到一个商品信息,如果想把一整页上每一个商品都采集下来,可以做样例复制,不懂的请参考基础教程《采集列表数据》

3.3,设置翻页路线

在爬虫路线设置翻页,这里用的是记号线索,不懂的请参考基础教程《设置翻页采集》

3.4,存规则

点击“测试”,检查信息完整性。不完整的话,重新标注就可以覆盖之前的内容。检查没问题后点击“存规则”。

第四步:抓数据

4.1,连续动作是连续执行的,所以只要运行第一级主题,第二级主题不用运行。打开DS打数机,搜索出第一级主题名,点击“单搜”或“集搜”,此时可以看到浏览器窗口里会自动输入关键词并且搜索,然后调用第二级主题自动采集搜索结果。

4.2,第一级主题没采到有意义的信息,所以,我们只看第二级主题的文件夹,就能看到采集的搜索结果数据,并且搜索的关键词是默认记录在xml文件的actionvalue字段中,这样就能一一对应起来。

python搜索关键词自动提交_Python自动搜索关键词采集信息—以京东为例!相关推荐

  1. html做一个京东搜索功能,连续动作:自动搜索关键词采集信息—以京东为例

    一.操作步骤 如果网页上有搜索框,但是搜索结果页面没有独立网址,想要采集搜索结果,直接做规则是采集不到的,要先做连续动作(输入+点击)来实现自动输入关键词并搜索,然后才能采集数据.下面用京东搜索为例, ...

  2. python搜索关键词自动提交_Python多线程采集百度相关搜索关键词工具带exe程序!...

    [Python] 纯文本查看 复制代码#百度相关搜索关键词抓取,读取txt关键词,导出txt关键词 # -*- coding=utf-8 -*- import requests import re i ...

  3. python网站自动答题_python自动登录网站答题-女性时尚流行美容健康娱乐mv-ida网...

    女性时尚流行美容健康娱乐mv-ida网 mvida时尚娱乐网 首页 美容 护肤 化妆技巧 发型 服饰 健康 情感 美体 美食 娱乐 明星八卦 首页  > 高级搜索 cookie实现 自动 登录 ...

  4. python朋友圈自动点赞_python自动点赞功能的实现思路

    1.思路 通过pyautogui可以实现鼠标点击.滚动鼠标.截屏等操作.由此功能实现打开页面,进行点赞. aircv可以从大图像获得小图像的位置,利用pyautogui截屏得到的图片,可以在页面获取到 ...

  5. python微博自动投票_python自动投票(新手学python)

    前段时间看到黑马发起的2013年度创业家评选的网络投票活动,发现没有对单IP投票次数进行限制,可以无限次的投! 公司的大BOSS居然也在候选名单中,准备给大BOSS刷点票,写了个python自动投票脚 ...

  6. AJAX设置光标离开自动提交,Ajax自动提交和刷新页面

    所以,我是新来的ajax,我试图使用ajax和jquery提交表单,我想我有服务器端逻辑都想通了,因为当我加载页面它会自动提交并且页面刷新速度非常快.空白表单将进入数据库,但其中有很多内容,因为页面会 ...

  7. python搜索关键词自动提交_python+selenium实现百度关键词搜索自动化操作

    缘起 之前公司找外面网络公司做某些业务相关关键词排名,了解了一下相关的情况,网络公司只需要我们提供网站地址和需要做的关键词即可,故猜想他们采取的方式应该是通过模拟用户搜索提升网站权重进而提升排名. 不 ...

  8. python搜索关键词自动提交_python+selenium实现自动化百度搜索关键词

    原博文 2019-07-22 14:10 − 通过python配合爬虫接口利用selenium实现自动化打开chrome浏览器,进行百度关键词搜索. 1.安装python3,访问官网选择对应的版本安装 ...

  9. python qq自动登陆_Python自动登录QQ的实现示例

    这是一份来自网络的代码,经过了我的修改和验证. 首先我的运行环境是python3.7,需要安装pyuserinput库. 直接上代码吧: #!/usr/bin/python import os imp ...

最新文章

  1. localBlock在java_将java.util.Date转换为java.time.LocalDate
  2. 普通函数与函数模板的区别
  3. 讨论计算机在学术领域的应用,BGPLUS实地科研 | 卡内基梅隆大学 | 计算机、人工智能:在科学实验领域的应用...
  4. 对于mysql的用户权限管理
  5. php 数组改成索引数组_PHP 自定义集合与数组规范
  6. 世界变化快,不学“SQL托管实例”跟不上时代
  7. Codeforces Round #879 (Div. 2) C. Short Program
  8. LeetCode62 Unique Paths
  9. python txt文件 报文分析_Python读写txt文本文件的操作方法全解析
  10. 电脑主板报警声音的故障现象对照表
  11. 淘宝购买win10激活码流程
  12. xp计算机怎样看ip地址,XP电脑ip地址怎么查看?XP系统怎么样查看电脑的IP地址?...
  13. Android 获取当前地理位置信息
  14. #华为云#听从你心,无问西东
  15. 解耦技巧——依赖注入!
  16. 摸鱼 | 远程控制实验室服务器(不在同一局域网)
  17. 《少有人走的路》语录
  18. 新开通了我的CSDN博客,写个处女篇
  19. 学习java的第5天
  20. 最近在玩跑跑卡丁车!

热门文章

  1. C# Windows Media Player 控件的常用属性及方法
  2. 【Go第三方包代理】Go第三方包代理设置 — GOPROXY
  3. goland顶部菜单栏/工具栏隐藏后重现的奇怪办法
  4. w ndows7太卡了,完美解决windows7卡在正在启动windows 一直卡在正在启动window
  5. 三维GIS/GIS开发学习路线、软件和数据、视频资源推荐
  6. Ipconfig命令详解
  7. innerText和textContent的区别
  8. RoboWare使用FAQ
  9. 微信农场火了~都在朋友圈养宠物太搞笑,程序员有你么?
  10. 与君欢喜城,暖色度余生——CSDN