默认记录上一次的xpath  方便多次提取  自动模式下 进入手动提取也会显示上次的xpath

标题就是要提取的纯文本 网址就是要提取的属性(自己看源码  要提取东西为等号后面的 直接就在xpath后面加@等号前面的单词  例如href=“网址”   就写成@href     >< 里面的内容直接就用标题提取  看下面的例子)

简单的xpath提取教程:   发现问题的请反馈一下

右键复制  复制第一个标题的xpath  再复制第二个标题的xpath

第一个标题:/html/body/div[2]/div/div/div/div/div[2]/div/div/div/div[1]/div[3]/div[1]/div/div[1]/div[1]/ul[1]/li[1]/div[2]/a

第二个标题:/html/body/div[2]/div/div/div/div/div[2]/div/div/div/div[1]/div[3]/div[1]/div/div[1]/div[1]/ul[1]/li[2]/div[2]/a

找前面相同的部分

相同的:/html/body/div[2]/div/div/div/div/div[2]/div/div/div/div[1]/div[3]/div[1]/div/div[1]/div[1]/ul[1]

删除不同部分  /li[1]/div[2]/a-->/li/div[2]/a

结果:/html/body/div[2]/div/div/div/div/div[2]/div/div/div/div[1]/div[3]/div[1]/div/div[1]/div[1]/ul[1]//li/div[2]/a

按住ctrl点击动作

提取标题就写:/html/body/div[2]/div/div/div/div/div[2]/div/div/div/div[1]/div[3]/div[1]/div/div[1]/div[1]/ul[1]//li/div[2]/a

要提取东西为等号后面的 直接就在xpath后面加@等号前面的单词  例如href=“网址”   就写成@href     >< 里面的内容直接就用标题提取

提取网址就写:/html/body/div[2]/div/div/div/div/div[2]/div/div/div/div[1]/div[3]/div[1]/div/div[1]/div[1]/ul[1]//li/div[2]/a/@href

上面的方法一般都用在列表那种,分行(或者分块、列表)的话用下面这种方法

第二个标题-->选择第二行的第二个标题

第一个标题:/html/body/div[2]/div/div/div/div/div[2]/div/div/div/div[1]/div[3]/div[1]/div/div[1]/div[1]/ul[1]/li[1]/div[2]/a

第二个标题:/html/body/div[2]/div/div/div/div/div[2]/div/div/div/div[1]/div[3]/div[1]/div/div[1]/div[1]/ul[2]/li[2]/div[2]/a (第二行的)

相同部分:/html/body/div[2]/div/div/div/div/div[2]/div/div/div/div[1]/div[3]/div[1]/div/div[1]/div[1]

删除不同的部分 /ul[2]/li[2]/div[2]/a -->ul/li/div[2]/a

结果:/html/body/div[2]/div/div/div/div/div[2]/div/div/div/div[1]/div[3]/div[1]/div/div[1]/div[1]/ul/li/div[2]/a

(提取的结果有300多 那是因为其他页面的结果也在里面)

标题和链接分别写一个xpath

标题:

/html/body/div[1]/div[4]/div[4]/div[2]/div[1]/div/div[2]/div[1]/a[1]/div/span[2]

/html/body/div[1]/div[4]/div[4]/div[2]/div[1]/div/div[2]/div[1]/a[2]/div/span[2]

结果:/html/body/div[1]/div[4]/div[4]/div[2]/div[1]/div/div[2]/div[1]/a/div/span[2]

网址:

/html/body/div[1]/div[4]/div[4]/div[2]/div[1]/div/div[2]/div[1]/a[1]

/html/body/div[1]/div[4]/div[4]/div[2]/div[1]/div/div[2]/div[1]/a[2]

/html/body/div[1]/div[4]/div[4]/div[2]/div[1]/div/div[2]/div[1]/a/@href  (提取等号后面的东西都写  @等号前面的东西)

自动处理  (自动去重复)

多行的排列的话第一个标题xpath要复制第一行的第一个   第二个标题xpath要复制第二行的第二个

软件会自动根据这2个xpath合成用来提取的xpath

吾爱

多列表的看自己 要一个列表的  就复制同一个列表的标题

要全部列表的就复制 第一个列表的第一个标题  第二个列表的第二个标题

只提取一列:

提取多列

自动点击下一页

输入自动,使用自带的下一页xpath(基于下一页制作)

下一页的名字为 "下一页" 才能定位成功

手动输入:

如果是其他字直接替换就好了,注意比如">",可能是图片生成的,还有就是有些是>加空格,去源码直接复制就好了

实在没办法就只能这样,这样可能最后几页提取时可能会跳

批量提取html文字,批量提取网页内容(全自动)相关推荐

  1. python提取pdf文字,python 提取pdf文字

    安装pdfminer 库 windows 下安装pdfminer3k pip install pdfminer3k Liunx 下安装pdfminer pip install pdfminer 代码 ...

  2. 多行文字cad提取数据_CAD机械教程之批量数据提取图文详解

    要调用此功能,我们可以依次点击[浩辰机械]-[辅助工具]-[批量数据提取],软件会弹出对话框(如图1) 图1 在对话框中,我们可以变更关联字段配置.数据汇总类型.其中,在关联字段配置中,由于浩辰CAD ...

  3. 提取网页文字-免费批量自动提取网页文字软件

    提取网页文字,怎么才能快速提取网页的文章呢.今天给大家分享一款免费的网页文字提取器,全程可视化提取详细参考图片. 如果说网站关键词排名一直都很稳定,但这段时间发现网站关键词排名波动很大,这种情况一般是 ...

  4. 文本提取IP并批量自动化情报查询工具——getIpInfo

    文本提取IP并批量自动化情报查询工具--getIpInfo 一.getIpInfo 二.适用场景 三.基本用法: 1.将含有IP的文本放置根目录下的data.txt文件中: 2.python getI ...

  5. 视频剪辑工具,教你批量分割视频,并提取封面保存为图片格式

    视频太多,如何进行批量剪辑,比如说分割视频,并提取封面进行保存呢?今天小编给大家分享一个新的剪辑技巧,下面一起来试试. 所需工具 视频素材若干 操作步骤 运行[好简单批量智剪],在"分割视频 ...

  6. excel怎么批量插行_批量提取表格名称、插入空列,教你三下五除二秒速完成!...

    点击上方蓝字关注星标★不迷路 本文作者:黄群金本文编辑:小叮.竺兰每天和表哥表姐们打交道,发现他们问的大多数问题,都是怎么整理数据和表格.活生生的表格搬运工~原本要花很多时间才能搞定的工作,其实只要用 ...

  7. vc++ 提取网页上的文字_网页内容不让你复制?老师傅教的这招太绝了,1键提取全网文字...

    在网上冲浪,看到了一些不错的文字,想要复制下来,可是网站就不让你复制,非要你注册登录账号,更有甚者要你购买VIP才能复制文字,这不是天方夜谭吗? 今天老师傅就教你一招,学会了网页文字任你复制,谁也拦不 ...

  8. python图片转文字_【收藏】图片转成文字的方法总结,python批量图片转文字信息参考源码...

    在日常办公或者学习中,往往存在这样一个工作场景,比如,"老王,我这里有一张图片,你把里面的文字信息给我整理出来",都2021年了,你真的还在手敲图片文字信息么?那么还不赶紧收藏这篇 ...

  9. 提取图片中文字的方法

    一.什么是OCR 很早之前就听说有提取图片中文字的工具和方法,这种文字识别技术称为OCR(Optical Character Recognition).OCR技术的出现,实现了将印刷文字扫描得到的图片 ...

  10. 【收藏】图片转成文字的方法总结,python批量图片转文字信息参考源码

    在日常办公或者学习中,往往存在这样一个工作场景,比如,"老王,我这里有一张图片,你把里面的文字信息给我整理出来",都2021年了,你真的还在手敲图片文字信息么?那么还不赶紧收藏这篇 ...

最新文章

  1. 利用gulp处理简单的前端问题
  2. 数据预处理:原始数据集快速分类的方法,numpy的使用技巧,数据的row=mask的column
  3. 2018/8/9 MultiU 6 并查集+dfs,反向建边提高查询效率 !!! / 最大字段和n维(降维)/ 状压+中途相遇法...
  4. romfs, cramfs和ramdisk
  5. 计算机硬件配置组件,配置vcenter server的硬件(默认指windows版本的)
  6. 支持python开发的环境有哪些特点_Python虚拟环境详细教程,一篇带你入坑
  7. 验毛坯房要注意什么?
  8. 报告:代币化资产市值已超200亿美元
  9. 无线桥接 路由AP模式 后怎么进副路由器设置界面?
  10. Linux Shell中的简单命令组合使用
  11. 【附白皮书下载】专家黄正杰:从微笑曲线出发,思考制造业数字化转型方向
  12. JVM垃圾收集器详解之Parallel Scavenge
  13. Vant Tab标签页
  14. MySQL(六)事物(ADID,四种隔离级别)(七)索引(索引测试,原则)
  15. Windows控制台基本操作命令
  16. 查看安卓系统的外接USB声卡
  17. awk 处理反算日志流量
  18. matlab 数理统计,(完整版)Matlab概率论与数理统计
  19. MXC_UART 内核调用过程
  20. 微软华人软件人生经历:功夫在身外

热门文章

  1. 数据库操作:更新数据update
  2. Butterworth滤波
  3. java工具类_16 个超级实用的 Java 工具类
  4. SQLServer2008R2精简版使用
  5. 三角函数和复指数函数的转化_【导数压轴】当三角函数遇到导数02
  6. 微型计算机独立显卡,计算机显卡分为哪几类?有什么特点是?
  7. 虚拟光驱传文件到服务器,虚拟光驱服务器
  8. mysql百万数据迁移_Mysql百万级数据迁移实战笔记
  9. Excel论文画折线图
  10. 关于起点中文网的一个我自认为是BUG的BUG(花了我一毛三分钱才实验出来的)...