C#提取HTML代码中的文字

/// <summary>
  /// 去除HTML标记
  /// </summary>
  /// <param name="strHtml">包括HTML的源码 </param>
  /// <returns>已经去除后的文字</returns>
  public static string StripHTML(string strHtml)
  {
   string [] aryReg ={
          @"<script[^>]*?>.*?</script>",

@"<(\/\s*)?!?((\w+:)?\w+)(\w+(\s*=?\s*(([""'])(\\[""'tbnr]|[^\7])*?\7|\w+)|.{0})|\s)*?(\/\s*)?>",
          @"([\r\n])[\s]+",
          @"&(quot|#34);",
          @"&(amp|#38);",
          @"&(lt|#60);",
          @"&(gt|#62);",
          @"&(nbsp|#160);",
          @"&(iexcl|#161);",
          @"&(cent|#162);",
          @"&(pound|#163);",
          @"&(copy|#169);",
          @"&#(\d+);",
          @"-->",
          @"<!--.*\n"
        
         };

string [] aryRep = {
           "",
           "",
           "",
           "\"",
           "&",
           "<",
           ">",
           " ",
           "\xa1",//chr(161),
           "\xa2",//chr(162),
           "\xa3",//chr(163),
           "\xa9",//chr(169),
           "",
           "\r\n",
           ""
          };

string newReg =aryReg[0];
   string strOutput=strHtml;
   for(int i = 0;i<aryReg.Length;i++)
   {
    Regex regex = new Regex(aryReg[i],RegexOptions.IgnoreCase );
    strOutput = regex.Replace(strOutput,aryRep[i]);
   }

strOutput.Replace("<","");
   strOutput.Replace(">","");
   strOutput.Replace("\r\n","");

return strOutput;
  }

转自:http://blog.csdn.net/ljbshiyoudaxue/archive/2006/12/12/1440235.aspx

转载于:https://www.cnblogs.com/yuewh491/archive/2006/12/13/590707.html

C#提取HTML代码中的文字(转)相关推荐

  1. vb.net提取html网址,如何提取网页代码中指定内容

    怎么提取网页代码中指定内容? 某数据库网页结构如下: html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http ...

  2. vscode中打开pdf文件_提取pdf文件中的文字

    环境说明 windows10系统 python3.6版本 安装 网上很多说需要安装pdfminer3k和pdfminer3k.six,我尝试了先安装pdfminer3k后安装pdfminer3k.si ...

  3. pdf exe如何提取pdf文件_python应用:如何用python提取pdf文件中的文字

    从pdf中提取文字,相信很多人都干过这事,怎么在python中实现呢,今天带大家看看. 第一步导入库 import PyPDF2 第二步导入pdf文件 pdf_file =open('dataset/ ...

  4. java中用流提取文档中的文字,语言实现从word文档中提取文本

    word中提取中文 打开Word,CTRL+F打开"查找替换"对话框. 点击下方的"查找替换"对话框的"高级"按钮. 点击"特殊字 ...

  5. 提取HTML代码中文字的C#函数

    /// <summary>   /// 去除HTML标记   /// </summary>   /// <param name="strHtml"&g ...

  6. Python自动化:提取扫描件中的文字

    前言 扫描件一直受大众青睐,任何纸质资料在扫描之后进行存档,想使用时手机就能打开,省心省力.但是扫描件的优点也恰恰造成了它的一个缺点,因为是通过电子设备扫描,所以出来的是图像,如果想要处理文件上的内容 ...

  7. Pandas 提取单元格中的文字并进行切片处理

    比如我们有如下的Excel数据: 现在我们想要提取其中付款时间列中的内容,并且仅截取出发货的当天具体时间.我们可以使用.str.slice()来解决这一问题,代码如下: import pandas a ...

  8. 用Python提取图片截图中的文字

    <用Python"破解"某度文库等文库复制的限制> tips:当个标题党真刺激啊 开发背景 临近期末,CYooQ要写许多作业.迫不得已寻找度娘解决问题,找到之后,CYo ...

  9. Excel函数 - 提取固定字符中的文字

    Excel列中有固定的字符文本,想将其中的文字内容提取出来,我们可以用MID和SEARCH搭配来实现. 比如样例文本中作者想提取 "测试[" 和 "]编号"中间 ...

最新文章

  1. 返回值带头信息 php_PHP注释标记的整理
  2. 权威值和枢纽值:HITS算法
  3. 2020年宇通大量裁人论坛_中国数学会计算数学分会2020年研究生论坛活动总结
  4. html+下拉箭头样式,HTML选择下拉箭头样式
  5. JavaWeb学习中的小问题
  6. 用户登录提交前,密码加密传输
  7. 时光手帐如何打印 时光手帐打印的方法
  8. Hibernate初学者教程
  9. What is Freeview Play
  10. pyspark读取csv_手把手实现 PySpark 机器学习项目回归算法
  11. Ubuntu下安装NetBeans步骤和相关问题的解决方法
  12. Cadence系列之SIPI仿真笔记:Cadence多种版本的安装、卸载重装(一)
  13. c语言ascii字母比较大小,C语言中,大写字母M的ASCII码值比小写字母m的ASCII码值大。...
  14. Win10 Microsoft Store无法安装程序解决方法
  15. MOSS的备份与还原
  16. MayaDay1:历史记录和删除历史记录
  17. 一北大毕业生的返乡报告:家乡面目全非 备感无力
  18. ALM / QC 64-bit Patch 12 S-Chinese
  19. JS+CSS文章查看系统
  20. 电脑不停自动安装垃圾软件怎么办

热门文章

  1. Redux其实很简单(原理篇)
  2. 组态王接入多比物联网云平台
  3. 如何修改WAMP中mysql默认空密码
  4. kettle中使用javascript步骤和fireToDB函数实现自己定义数据库查询
  5. thinkphp模版调用函数方法
  6. 设计模式之四(抽象工厂模式第一回合)
  7. VB100年底测试:McAfee金山遗憾出局 瑞星表现令人意外
  8. SQL Server根据访问历史日志分析提供优化
  9. 4e4 Coursework decomposition
  10. What to bring in UK?