NekoHTML 和 XPath   http://dustin.iteye.com/blog/286232 http://www.cnblogs.com/focusj/archive/2012/01/16/2324100.html

1、使用httpclient进行页面数据提取,如果需要cookie的网站需要带cookie(预先访问网页可以获取cookie),配置查询URL。

2、使用nokehtml和xpath进行结果的选取。 产生结果。

3、使用javascript引擎对变化的ajax的response进行处理。

4、第二步产生的结果也可以进行javascript引擎处理。

使用数据库配置form需要的数据,如果:exPassword->icode,number->fphm,code->fpdm,password->fpyzm.  Extxt->”extxt”….

页面中的扩展字段需要配置

5、Form中特殊数据的产生由javascript引擎产生,如时间戳

6、当前网站类型:get,post,ajax(json,XML,乱数据),带验证码,不带验证码,是否需要cookie。

7、不使用proxy代理出外网,需要用户认可这种风险,或者用户知会税务网站。

8、如何动态反馈网站的变更?对网站设置验证正确的发票号码,用于动态评估网站是否变更。每天晚上JOB。

nekohtml和xpath相关推荐

  1. NekoHTML 和 XPath

    如果需要在HTML页面中提取数据,那么NekoHTML 是个不错的工具.因为HTML跟XML不一样,可能存在一些格式不完整的元素,譬如没有end tag的table等,这个时候,NekoHTML是个很 ...

  2. Python的Xpath介绍和语法详解

    1.简介 XPath是一门在XML和HTML文档中查找信息的语言,可以用来在XML和HTML文档中对元素和属性进行遍历 XPath的安装 Chrome插件XPath Helper 点Chrome浏览器 ...

  3. Python案例:使用XPath的爬虫

    案例:使用XPath的爬虫 现在我们用XPath来做一个简单的爬虫,我们尝试爬取某个贴吧里的所有帖子,并且将该这个帖子里每个楼层发布的图片下载到本地. # tieba_xpath.py#!/usr/b ...

  4. Python:XPath与lxml类库

    什么是XML XML 指可扩展标记语言(EXtensible Markup Language) XML 是一种标记语言,很类似 HTML XML 的设计宗旨是传输数据,而非显示数据 XML 的标签需要 ...

  5. xpath选择器简介及如何使用

    xpath选择器简介及如何使用 一.总结 一句话总结:XPath 的全称是 XML Path Language,即 XML 路径语言,它是一种在结构化文档(比如 XML 和 HTML 文档)中定位信息 ...

  6. python xpath用法_Python--xpath的使用

    chromedriver的版本问题:如果出现版本不匹配,可以尝试换一个版本的chromedriver: web自动化的元素定位--8大元素定位 6种元素: id:---id是唯一的,这时候可以用id定 ...

  7. DOM+XPath提取规则注记!

    下面是使用DOM+Xpath提取html中页面时经常使用的Xpath规则的一些示例: XPath相关的规则 没有属性 //B[not(@*)] 没有类属性 //B[not(@class)] 要求链接有 ...

  8. XPath与多线程爬虫

    一.  Xpath的介绍与配置 1.      XPath是什么 XPath是一门语言 XPath可以在XML文档中查找信息 XPath支持HTML XPath通过元素和属性进行导航 总结: XPat ...

  9. 爬虫之Xpath详解

    爬虫之Xpath详解 XPath介绍 XPath 是一门在 XML 文档中查找信息的语言.XPath 可用来在 XML 文档中对元素和属性进行遍历. XPath 是 W3C XSLT 标准的主要元素, ...

  10. python爬取疫情信息html.xpath p标签_python xpath 如何过滤div中的script和style标签

    爬取一个页面中的div,想获取div中的文字,我是这么写的: selector.xpath('//div[@class="text-con"]').xpath('string(.) ...

最新文章

  1. 第3周实践项目1 顺序表的基本运算
  2. 12.集合:在我的世界里,你就是唯一 / 不可变集合
  3. 088实现自动倒计时功能
  4. JQuery.validate.js 表单验证
  5. 【基础】SQL Server系统库的作用
  6. 获取请求的url java_Java获取此次请求URL以及服务器根路径的方法
  7. linux oracle swd.oui,centos7安装oracle11g报错,请问怎么解?
  8. Laravel Collection 常用方法(1)
  9. Java多线程(五)——多线程的多线程池
  10. 网易编程题-操作序列
  11. Vue组件学习(转载)
  12. 解决U盘插入我的电脑中不显示
  13. UOS声势浩大,麒麟没有反应
  14. AX2012 常用表关系(客户地址,联系信息)
  15. arduino编码器计数_基于Arduino开发环境的光电编码器检测仪设计方案
  16. git merge fast-forward squash no-ff
  17. C语言数据结构之一元多项式的求导
  18. FSCE: Few-Shot Object Detection via Contrastive Proposal Encoding
  19. 关于核磁共振图像的命名原则及含义(总结自用)
  20. vc调用浏览器打开指定网址页面

热门文章

  1. AppCompat是什么?
  2. 莫兰迪颜色表以及RGB向16进制颜色的转换连接
  3. win10更新 vm14用不了
  4. Hadoop大数据平台
  5. webstorm汉化攻略
  6. 忘记PDF密码怎么办?
  7. 2021年,产品需求文档PRD模板
  8. IDM下载资源提示无法连接到服务器,代理,防火墙
  9. 票据通的支票管理的账户管理的对应账号支票已使用该怎么重新修改票据打印模板;
  10. 高清人脸数据集—FFHQ