基础知识:

\b 字符边界
\d 数字   \D 表示:  [^0-9]
\w 数字、字母、下划线  \W 表示: [^0-9A-Za-z]

\s 空白字符 \S 非空白字符

\r 回车
\n 换行
\t 制表符号(Tab)
\v 垂直制表符

* 表示:0或者多次======={0,}
? 表示:1或者1次======={0,1}
+ 表示:1或者多次======={1,}

关于采集的正则表达式:1、获取两个字符中间的内容:<!--enpcontent-->(?<content>(.*?))<!--/enpcontent-->
2、给正则表达是起别名:(?<别名>普通正则表达式)
3、获取热点信息:
<AREA[^>]* COORDS="(?<corrds>[^""]*)"[^>]*href="(?<href>[^""]*)"
4、获取版面信息:
<a class=bai href=(?<href>[^>]*) target="_blank" ID=(?<ID>[^>]*)>(?<text>(?:(?!</?a\b).)*)</a>

转载于:https://www.cnblogs.com/piaopiao7891/archive/2012/09/26/2704414.html

正则表达式---采集总结相关推荐

  1. Logtail从入门到精通(四):正则表达式Java日志采集实战

    摘要: 为简化日志接入门槛,我们提供了极简模式的日志解析方式(如[开启日志采集之旅]()中的介绍).为了更好的对日志进行分析,我们还提供了其他解析方式,例如:分隔符模式.完整正则模式.JSON模式等. ...

  2. WP采集汇集WP采集插件-WP关键词采集文章

    已经很久没有使用WP采集器了.想起曾经做站群SEO那段时间,经常会登陆各个采集后台去采集各大相关网站的资讯内容.而且那个时候采集之风盛行,到处是各种采集站,尤其是小说站.文章站等,动不动就是采集几十万 ...

  3. 诸多源码,正是我想要的

    以下是摘自 http://overred.cnblogs.com/archive/2006/03/19/353248.html的源码,正是我想要,放在当做笔记: My Decompiler Code( ...

  4. python京东商品采集_利用Python正则表达式抓取京东网商品信息

    京东(JD.com)是中国最大的自营式电商企业,2015年第一季度在中国自营式B2C电商市场的占有率为56.3%.如此庞大的一个电商网站,上面的商品信息是海量的,小编今天就带小伙伴利用正则表达式,并且 ...

  5. PHP采集天猫商品列表,正则表达式匹配店铺名称和商品ID

    PHP采集天猫商品列表,正则表达式匹配店铺名称和商品ID PHP采集天猫商品列表,正则表达式匹配店铺名称和商品ID preg_match_all("/data-id=\"(\d{1 ...

  6. 2021年大数据ELK(二十二):采集Apache Web服务器日志

    全网最详细的大数据ELK文章系列,强烈建议收藏加关注! 新文章都已经列出历史文章目录,帮助大家回顾前面的知识重点. 目录 采集Apache Web服务器日志 一.需求 二.准备日志数据 三.使用Fil ...

  7. php在函数使用正则表达式,php正则表达式以及正则函数的使用

    随着正则表达式变得越来越强大和易于使用,php正则表达式也成为了一个非常重要的知识点,正则表达式通常用来查找和替换字符串,最常用的就是信息验证,验证用户输入的信息格式是否正确,如邮件格式.电话格式.密 ...

  8. 手把手教你写电商爬虫-第二课 实战尚妆网分页商品采集爬虫

    系列教程 手把手教你写电商爬虫-第一课 找个软柿子捏捏 如果没有看过第一课的朋友,请先移步第一课,第一课讲了一些基础性的东西,通过软柿子"切糕王子"这个电商网站好好的练了一次手,相 ...

  9. php采集 纠正一下

    由于需要,要写一个简单的PHP采集程序,照例是到网上找了一堆教程,然后照猫画虎,可是发现网上的教程全是似是而非,没有一个真正能用的.苦想了几天,终于弄明白了里面的道理.在这里写出来,请高手指正. 采集 ...

最新文章

  1. 第二章 数据结构(一)
  2. elk 搜索 语法_ELK学习笔记7| Lucence 的搜索语法
  3. 《南方都市报》:中国互联网“公共性”正在变形或流失
  4. Java面向对象——基础3 其他关键字
  5. 计算机算法设计与分析教学大纲,《算法设计与分析》教学大纲
  6. 两分钟实现安全完备的登录模块
  7. fd抓包数据类型_fiddler——抓包中的王者
  8. Python POST 修改某计步APP的数据
  9. 服务器vga转hdmi显示器不亮,HDMI转VGA后显示器不亮怎么办?
  10. Vue2在使用Element-UI的分页组件遇到的问题(如PageSize,PageNum等)
  11. mysql查询excel表_使用SQL语句实现对Excel工作表数据进行查询的方法
  12. Filecoin网络为什么需要矿池,ipfs\FIL挖矿比单体矿机有什么优势
  13. CPU 和 GPU - 异构计算的演进与发展
  14. 【沉舟侧畔千帆过,病树前头万木春】---OpenFeign的各种骚操作 -VS- 既生瑜何生亮的感叹,小Ribbon怎么办?
  15. P2P、O2O、B2C、B2B、C2C分别代表什么意思?
  16. 自己的电脑不能连接打印机打印怎么办
  17. 线性代数 线性相关与线性表示的理解
  18. 迅捷fw150服务器无响应,Fast迅捷FW150RM无线路由器Client客户端模式怎么设置
  19. Sagittarius's Trial I - 9 HDU - 1754 I Hate It
  20. 如何恢复SQL SERVER的系统数据库

热门文章

  1. python100以内自然数之和_python输出100以内的质数与合数实例代码
  2. 【kafka】kerberos Server not found in Kerberos database LOOKING_UP_SERVER Identifier doesn‘t match
  3. 【Flink】Flink CDH6.3.2 下的yarn per job模式 savepoint和checkpoint,卡住,没有保存成功文件
  4. 【lucene】Lucene Tika 操作各种文件
  5. Spark Yarn Client模式双网卡-多hostname导致问题(阿里云)
  6. Spark编译报错:missing or invalid depency detected while loading class file RDDOperationScope.class
  7. docker中更新镜像——基于Prometheus
  8. servlet技术是否过时
  9. 云计算实战系列十一(软件包管理)
  10. Elasticsearch 写入优化记录,从3000到8000/s