/// <summary>
  /// 去除HTML标记
  /// </summary>
  /// <param name="strHtml">包括HTML的源码 </param>
  /// <returns>已经去除后的文字</returns>
  public static string StripHTML(string strHtml)
  {
   string [] aryReg ={
          @"<script[^>]*?>.*?</script>",

@"<(\/\s*)?!?((\w+:)?\w+)(\w+(\s*=?\s*(([""'])(\\[""'tbnr]|[^\7])*?\7|\w+)|.{0})|\s)*?(\/\s*)?>",
          @"([\r\n])[\s]+",
          @"&(quot|#34);",
          @"&(amp|#38);",
          @"&(lt|#60);",
          @"&(gt|#62);",
          @"&(nbsp|#160);",
          @"&(iexcl|#161);",
          @"&(cent|#162);",
          @"&(pound|#163);",
          @"&(copy|#169);",
          @"&#(\d+);",
          @"-->",
          @"<!--.*\n"
         
         };

string [] aryRep = {
           "",
           "",
           "",
           "\"",
           "&",
           "<",
           ">",
           " ",
           "\xa1",//chr(161),
           "\xa2",//chr(162),
           "\xa3",//chr(163),
           "\xa9",//chr(169),
           "",
           "\r\n",
           ""
          };

string newReg =aryReg[0];
   string strOutput=strHtml;
   for(int i = 0;i<aryReg.Length;i++)
   {
    Regex regex = new Regex(aryReg[i],RegexOptions.IgnoreCase );
    strOutput = regex.Replace(strOutput,aryRep[i]);
   }

strOutput.Replace("<","");
   strOutput.Replace(">","");
   strOutput.Replace("\r\n","");

strOutput.Replace("\n","");

return strOutput;
  }

参考

http://www.webjx.com/htmldata/2005-06-08/1118182315.html

提取HTML代码中文字的C#函数相关推荐

  1. C#提取HTML代码中的文字(转)

    C#提取HTML代码中的文字 /// <summary>   /// 去除HTML标记   /// </summary>   /// <param name=" ...

  2. vb.net提取html网址,如何提取网页代码中指定内容

    怎么提取网页代码中指定内容? 某数据库网页结构如下: html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http ...

  3. 利用python中pdfplumber库提取PDF文件中文字

    pdfplumber库中提供了一个extract_text()方法来帮助我们提取PDF文件中的文字.我们只需要使用pdfplumber中的open()方法打开我们希望提取文字的PDF文件,然后对所需提 ...

  4. 调用c++_WebAssembly: 在C代码中调用JS的函数

    0. 前提知识点 导出C中的函数给JS调用:主要是EMSCRIPTEN_KEEPALIVE这个Emscripten环境特有的宏. #include <stdio.h>#ifndef EM_ ...

  5. 提取pdf文件中文字的两种方法

    如今,在我们的工作与学习中已经不是单单使用word.Excel等格式文件了,pdf格式的文件已经被广泛地运用到我们的办公室中.大家都知道pdf文件是不可直接编辑与修改的,使用起来有些不便.那么当我们需 ...

  6. 如何提取HTML代码中img的src地址?

    答案:专门的代码 使用专门的正则表达式 /// <summary> /// 获得HTML中所有图片的src地址[比较稳定的一个版本]/// </summary> /// < ...

  7. c语言程序代码中的间隔,printf()函数输出后 默认的间隔是多少

    7楼那么输出应该就可以了,不过楼主显然不是这个意思,问题的关键在于普通输出都是直接%d而它用%2d是不是这个2搞的!? ----------------解决方案-------------------- ...

  8. C++ 提取代码中的函数

    输入一段代码,输出这段代码中包含的所有函数 ASCII码表 #include<iostream> #include<fstream> #include<cstring&g ...

  9. Python使用正则表达式识别代码中的中文、英文和数字实例演示

    Python 正则表达式识别代码中的中文.英文和数字 识别中文 识别英文 识别数字 拓展 在文本处理和数据分析中,有时候需要从代码中提取出其中包含的中文.英文和数字信息.正则表达式是一种强大的工具,可 ...

最新文章

  1. 图模型+Bert香不香?完全基于注意力机制的图表征学习模型Graph-Bert
  2. Mac mysql sql_model引起的问题
  3. SSI注入(server side includes injection 服务器端包含注入)
  4. Linux下的shell脚本实战之用户创建
  5. 【ArcGIS微课1000例】0017:ArcGIS测量距离和面积工具的巧妙使用
  6. 写作14个月,审稿花10年:这篇论文解决了数学物理界的大问题
  7. 复习-网络编程之IP和端口号
  8. p10可以适配鸿蒙吗,鸿蒙系统支持旧机型吗
  9. Java虚拟机学习(四)
  10. 蓝桥杯_算法训练_审美课
  11. 牛逼,我的单片机固件被人破解了
  12. MCSA / Windows Server 2016 PowerShell DSC
  13. react 首页加载loading
  14. pacman 升级软件包提示 “failed to commit transaction (invalid or corrupted package)“
  15. 微软云中国的服务器在哪,微软云计算平台Windows Azure将落户中国
  16. 鸿蒙系统小米电视,鸿蒙系统被曝光!首款鸿浩818芯片,华为智慧屏对标小米电视...
  17. 极速office(Word)如何在表格里面插入行或者列
  18. oracle 查询字符代码dump,字符集问题(Linux、oracle、终端等,导入导出数据)
  19. 在你的硬盘上建立第二个 EFI 分区
  20. Hoxx使用保姆级教程【附截图| 安卓苹果电脑】

热门文章

  1. [翻译]pytest测试框架(二):使用
  2. Mac 下anaconda安装mysqldb的方法
  3. Linux中查看各文件夹大小(扫盘)
  4. 从hadoop框架与MapReduce模式中谈海量数据处理
  5. hdu 2025:查找最大元素(水题,顺序查找)
  6. 图像二值形态学——腐蚀和膨胀的C语言实现
  7. Log4Net 使用 FileAppender (log4net 1.2.10.0)
  8. raid5坏了一块盘怎么办_服务器阵列信息丢失,数据怎么办?先不要慌,也许很快就能恢复...
  9. 电子产品设计流程_消费类电子产品设计思维模式是什么?
  10. 【控制】《多智能体系统的动力学分析与设计》徐光辉老师-第10章-带有分层领航者的多智能体系统的混杂协调