利用正则表达式提取网页中Table内的数据

using System;
using System.Collections.Generic;
using System.Linq;
using System.Web;
using System.Web.UI;
using System.Web.UI.WebControls;
using System.Text.RegularExpressions;

public partial class Default2 : System.Web.UI.Page
{
    protected void Page_Load(object sender, EventArgs e)
    {

string pagedata = @"<table class=""tabContent"" style=""width:681px;"">
     <tr><td width=""60"" id=""n001"">周六010</td>
    <td width=""100"">英格兰甲级联赛</td>
    <td id=""t036""><a href='http://info.sporttery.cn/football/history/information.php?match_id=7844' target='_blank'>诺维奇<strong> VS </strong>利兹联</a></td>
    <td width=""100"">03-27 22:59</td>
    <td width=""50""><input type=""checkbox"" id=""m036001"" name=""m036001"" value=""49465653"" οnclick=""select_match('036001')""/>1.85</td><td width=""50""><input type=""checkbox"" id=""m036002"" name=""m036002"" value=""51465053"" οnclick=""select_match('036002')""/>3.25</td><td width=""50""><input type=""checkbox"" id=""m036003"" name=""m036003"" value=""51465148"" οnclick=""select_match('036003')""/>3.30</td>    <td width=""50""><input type=""checkbox"" id=""all036"" οnclick=""bao('036',3)""/></td></tr>
   </tr>   <tr><td width=""60"" id=""n037"">周六046</td>
    <td width=""100"">苏格兰超级联赛</td>
    <td id=""t037""><a href='http://info.sporttery.cn/football/history/information.php?match_id=7845' target='_blank'>阿伯丁<strong> VS </strong>圣米伦</a></td>
    <td width=""100"">03-27 22:59</td>
    <td width=""50""><input type=""checkbox"" id=""m037001"" name=""m037001"" value=""49465656"" οnclick=""select_match('037001')""/>1.88</td><td width=""50""><input type=""checkbox"" id=""m037002"" name=""m037002"" value=""51464948"" οnclick=""select_match('037002')""/>3.10</td><td width=""50""><input type=""checkbox"" id=""m037003"" name=""m037003"" value=""51465153"" οnclick=""select_match('037003')""/>3.35</td>    <td width=""50""><input type=""checkbox"" id=""all037"" οnclick=""bao('037',3)""/></td></tr>
   </tr>   <tr><td width=""60"" id=""n038"">周六047</td>
    <td width=""100"">苏格兰超级联赛</td>
    <td id=""t038""><a href='http://info.sporttery.cn/football/history/information.php?match_id=7846' target='_blank'>凯尔特人(-1)<strong> VS </strong>基马诺克</a></td>
    <td width=""100"">03-27 22:59</td>
    <td width=""50""><input type=""checkbox"" id=""m038001"" name=""m038001"" value=""49465253"" οnclick=""select_match('038001')""/>1.45</td><td width=""50""><input type=""checkbox"" id=""m038002"" name=""m038002"" value=""52464853"" οnclick=""select_match('038002')""/>4.05</td><td width=""50""><input type=""checkbox"" id=""m038003"" name=""m038003"" value=""52465448"" οnclick=""select_match('038003')""/>4.60</td>    <td width=""50""><input type=""checkbox"" id=""all038"" οnclick=""bao('038',3)""/></td></tr>
   </tr>
</table>
";

string result="";

Regex re = new Regex(@"<tr><td.*?>(?<text1>.*?)</td>\s+?<td.*?>(?<text2>.*?)</td>\s+?<td.*?><a.*?>(?<text3>.*?)<strong> VS </strong>(?<text4>.*?)</a></td>\s+?<td.*?>(?<text5>.*?)</td>\s+?<td .*?><input .*?/>(?<text6>.*?)</td><td .*?><input .*?/>(?<text7>.*?)</td><td .*?><input .*?/>(?<text8>.*?)</td>"); ----*? 或+?表示非贪婪模式;\s+?决定了可以换行;使用RegexBuddy工具验证

int i = 0;

for (Match m = re.Match(pagedata); m.Success && i < 10; m = m.NextMatch())
        {

result += m.Groups["text1"].Value.Trim() + "|";
            result += m.Groups["text2"].Value.Trim() + "|";
            result += m.Groups["text3"].Value.Trim() + "|";
            result += m.Groups["text4"].Value.Trim() + "|";
            result += m.Groups["text5"].Value.Trim() + "|";
            result += m.Groups["text6"].Value.Trim() + "|";
            result += m.Groups["text7"].Value.Trim() + "|";
            result += m.Groups["text8"].Value.Trim() + "|";
            result += "<br>";

i++;

}

Response.Write(result);

}
}

利用正则表达式提取网页中Table内的数据相关推荐

  1. 01. 利用正则表达式提取文章中的所有英文单词

    利用正则表达式提取文章中的所有英文单词 1.先创建一个Pattern对象, 模式对象,可以理解成一个正则表达式对象 Pattern pattern = Pattern.compile("[a ...

  2. 正则表达式提取网页中的网址

    正则表达式提取网页中的网址,并用匿名函数 #coding=utf-8 import res="https://www.baidu.com/message.asp?id=35" re ...

  3. python从文件中提取特定文本_python利用正则表达式提取文本中特定内容

    正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配. Python 自1.5版本起增加了re 模块,它提供 Perl 风格的正则表达式模式. re 模块使 Python ...

  4. java利用正则表达式提取字符串中的整数和小数部分

    最近开发遇到一个新的东西,就是前端传过来一个字符串,需要将里面的数字提取出来,倒腾了一天,最后还是没有倒腾出来,最后还是借鉴大佬的方法.记录一下. 首先是前端传来的字符串"小明通过扫码向你付 ...

  5. qt中利用正则表达式提取字符串中的浮点数和整数

    当我们需要从一个字符串中提取数字时,可以用正则表达式来操作 QString str = "你的金额是: 0.22示范33^%zd卡兹克44是13.5x的5&ss"; QRe ...

  6. 使用正则表达式提取文件中满足条件的内容

    最近遇到需要处理一个很大文件的情况,需求是提取满足以`(ASCII 十进制 96)开头'结束的字符串,例如xxxxx`abcdedg'. 尝试在shell脚本中用正则表达式提取.有点曲折,后来通过py ...

  7. Python利用正则表达式提取var自定义变量的值

    目标解析HTML文件中的var自定义变量的值 本文主要利用正则表达式提取页面中的var $render_datab 变量的值,$render_datab变量的值是一个json字符串. 目录 1.导入依 ...

  8. HtmlParser提取网页中的纯文本信息

    转载自   HtmlParser提取网页中的纯文本信息 HTMLParser 一个解析web页面的开源类库.           准备学习下搜索方面的技术,就学习了些网络爬虫的知识.最近一直在一个点上 ...

  9. html内嵌框架怎么写,在HTML网页中,内嵌框架的标签代码是()。

    在HTML网页中,内嵌框架的标签代码是(). 更多相关问题 每年人环奖的考试报名时间大约在5月份 嗅觉的香气包裹在闻气味的人周围,成为一种氛围,构成( )天空. Access的控件对象可以设置某个属性 ...

最新文章

  1. ASP.NET MVC 过滤器(一)
  2. 浅析神经协同过滤NCF在推荐系统的应用
  3. 安装jenkins时出现 No such plugin: cloudbees-folder的解决办法
  4. NBU计算机专业期末考试记录
  5. Linux配置本地yum源(RHEL8)
  6. 融云开发案例核心代码分享
  7. Python实战之多线程编程thread模块
  8. Moment.js 一款JS时间封装库
  9. WZOI.CC基础题库答案向导
  10. SQL Server 触发器
  11. 马云和卫哲:从不屑到仰慕 从朋友到诀别
  12. file上传代码 ios_自己动手写一个 iOS 网络请求库(四)——快速文件上传
  13. matlab 12脉波变压器,12脉波整流电路MATLAB-Simulink仿真及谐波分析
  14. 不再年轻,仍从头再来
  15. dpo指标详解买入绝技_极少人知道“DPO”指标,但实战性很强
  16. 利用FME创建3D模型之从Excel到3D
  17. 宁波跨境海关商品订单推送清关及支付宝海关报关
  18. GlassFish主配置文件domain.xml介绍
  19. 微博第三方登录 php,php 网站使用微博第三方授权登录
  20. 偶遇Trojan.AVKill.19646

热门文章

  1. 大量开发者会将访问token和API密钥硬编码至Android应用
  2. pure tornado -- table
  3. ASP.NET伪静态 UrlRewrite(Url重写) 实现和配置
  4. JavaScript 设计模式核⼼原理与应⽤实践 之 创建型:工厂模式·简单工厂——区分“变与不变”
  5. Dubbo面试 - dubbo的工作原理
  6. 受检异常和非受检异常
  7. 2. 移动安全渗透测试-(Android安全基础)
  8. Windows11 Docker镜像存储路径更改(非C盘路径)
  9. shell变量$$,$!,$?,$*,$0,$1,$#,$@的含义解释
  10. AI5天训练-视觉生产技术探究和应用