方法1

public string checkStr(string html)
      {
          System.Text.RegularExpressions.Regex regex1 = new System.Text.RegularExpressions.Regex(@"<script[\s\S]+</script *>", System.Text.RegularExpressions.RegexOptions.IgnoreCase);
          System.Text.RegularExpressions.Regex regex2 = new System.Text.RegularExpressions.Regex(@" href *= *[\s\S]*script *:", System.Text.RegularExpressions.RegexOptions.IgnoreCase);
          System.Text.RegularExpressions.Regex regex3 = new System.Text.RegularExpressions.Regex(@" no[\s\S]*=", System.Text.RegularExpressions.RegexOptions.IgnoreCase);
          System.Text.RegularExpressions.Regex regex4 = new System.Text.RegularExpressions.Regex(@"<iframe[\s\S]+</iframe *>", System.Text.RegularExpressions.RegexOptions.IgnoreCase);
          System.Text.RegularExpressions.Regex regex5 = new System.Text.RegularExpressions.Regex(@"<frameset[\s\S]+</frameset *>", System.Text.RegularExpressions.RegexOptions.IgnoreCase);
          System.Text.RegularExpressions.Regex regex6 = new System.Text.RegularExpressions.Regex(@"\<img[^\>]+\>", System.Text.RegularExpressions.RegexOptions.IgnoreCase);
          System.Text.RegularExpressions.Regex regex7 = new System.Text.RegularExpressions.Regex(@"</p>", System.Text.RegularExpressions.RegexOptions.IgnoreCase);
          System.Text.RegularExpressions.Regex regex8 = new System.Text.RegularExpressions.Regex(@"<p>", System.Text.RegularExpressions.RegexOptions.IgnoreCase);
          System.Text.RegularExpressions.Regex regex9 = new System.Text.RegularExpressions.Regex(@"<[^>]*>", System.Text.RegularExpressions.RegexOptions.IgnoreCase);
          html = regex1.Replace(html, ""); //过滤<script></script>标记
          html = regex2.Replace(html, ""); //过滤href=javascript: (<A>) 属性
          html = regex3.Replace(html, " _disibledevent="); //过滤其它控件的on...事件
          html = regex4.Replace(html, ""); //过滤iframe
          html = regex5.Replace(html, ""); //过滤frameset
          html = regex6.Replace(html, ""); //过滤frameset
          html = regex7.Replace(html, ""); //过滤frameset
          html = regex8.Replace(html, ""); //过滤frameset
          html = regex9.Replace(html, "");
          html = html.Replace(" ", "");
          html = html.Replace("</strong>", "");
          html = html.Replace("<strong>", "");
          return html;
}

方法2

#region 过滤掉 html代码
public static string StripHTML(string strHtml)
{
string [] aryReg ={
@"<script[^>]*?>.*?</script>",

@"<(\/\s*)?!?((\w+:)?\w+)(\w+(\s*=?\s*(([""'])(\\[""'tbnr]|[^\7])*?\7|\w+)|.{0})|\s)*?(\/\s*)?>",
@"([\r\n])[\s]+",
@"&(quot|#34);",
@"&(amp|#38);",
@"&(lt|#60);",
@"&(gt|#62);",
@"&(nbsp|#160);",
@"&(iexcl|#161);",
@"&(cent|#162);",
@"&(pound|#163);",
@"&(copy|#169);",
@"&#(\d+);",
@"-->",
@"<!--.*\n"
};

string [] aryRep = {
"",
"",
"",
"\"",
"&",
"<",
">",
" ",
"\xa1",//chr(161),
"\xa2",//chr(162),
"\xa3",//chr(163),
"\xa9",//chr(169),
"",
"\r\n",
""
};

string newReg =aryReg[0];
string strOutput=strHtml;
for(int i = 0;i<aryReg.Length;i++)
{
System.Text.RegularExpressions.Regex regex = new System.Text.RegularExpressions.Regex(aryReg[i],System.Text.RegularExpressions.RegexOptions.IgnoreCase);
strOutput = regex.Replace(strOutput,aryRep[i]);
}
strOutput.Replace("<","");
strOutput.Replace(">","");
strOutput.Replace("\r\n","");
return strOutput;
}
#endregion

转载于:https://www.cnblogs.com/yintian2/archive/2007/11/22/968127.html

收藏的2个正则html标签剔除方法相关推荐

  1. php正则替换p闭合标签,php正则替换标签的实现方法

    php正则替换标签的实现方法:首先通过"strip_tags"函数剥去字符串中的HTML标签:然后利用正则表达式替换标签,代码语句如"pregreplace(" ...

  2. 【6】爬虫介绍/准备工作/构建流程/获取数据/BeautifulSoup/Re(正则表达式)/正则提取/标签解析/保存数据到excel

    爬虫介绍/准备工作/构建流程/获取数据/BeautifulSoup/Re(正则表达式)/正则提取/标签解析/保存数据到excel 更新时间:2021.9.16 vedio:15,16,17,18,19 ...

  3. web爬虫,scrapy模块标签选择器下载图片,以及正则匹配标签

    标签选择器对象 HtmlXPathSelector()创建标签选择器对象,参数接收response回调的html对象 需要导入模块:from scrapy.selector import HtmlXP ...

  4. 4、web爬虫,scrapy模块标签选择器下载图片,以及正则匹配标签

    标签选择器对象 HtmlXPathSelector()创建标签选择器对象,参数接收response回调的html对象 需要导入模块:from scrapy.selector import HtmlXP ...

  5. 四 web爬虫,scrapy模块标签选择器下载图片,以及正则匹配标签

    标签选择器对象 HtmlXPathSelector()创建标签选择器对象,参数接收response回调的html对象 需要导入模块:from scrapy.selector import HtmlXP ...

  6. 第三百二十五节,web爬虫,scrapy模块标签选择器下载图片,以及正则匹配标签...

    第三百二十五节,web爬虫,scrapy模块标签选择器下载图片,以及正则匹配标签 标签选择器对象 HtmlXPathSelector()创建标签选择器对象,参数接收response回调的html对象 ...

  7. python读取html文件正则替换_Python正则获取和过滤或者替换HTML标签的方法说明

    这篇文章主要介绍了Python通过正则表达式获取.过滤或者替换HTML标签的方法,感兴趣的小伙伴们可以参考一下 本文实例介绍了Python通过正则表达式获取,去除(过滤)或者替换HTML标签的几种方法 ...

  8. python读取html文件正则替换_Python使用正则表达式过滤或替换HTML标签的方法详解...

    本文实例讲述了Python使用正则表达式过滤或替换HTML标签的方法.分享给大家供大家参考,具体如下: python正则表达式关键内容: python正则表达式转义符: . 匹配除换行符以外的任意字符 ...

  9. 织梦dede所有标签调用方法大全

    2019独角兽企业重金招聘Python工程师标准>>> 织梦dede所有标签调用方法大全!非常实用! 关键描述调用标签: <meta name="keywords&q ...

最新文章

  1. Qt地址簿-加个信号及槽
  2. HDOJ_2010_大二写_水仙花数
  3. svn Error:Wrong committed revision number: -1。
  4. [css] 举例说明CSS特性检测的方式有哪些?
  5. llvm编译linux,在Linux上编译LLVM/Clang 8.0.0等全部源代码
  6. Python标准异常总结
  7. CentOS7下MySQL5.7的安装
  8. navicat工具把SQL Server数据库转换MySQL数据库
  9. win8锁定计算机,Win8怎么关闭锁屏功能
  10. python实现自动打电话软件_python拨打电话
  11. java模拟面试题目_JAVA模拟面试题库
  12. 美食短视频怎么拍才会吸引人?美食+定位,助你吸粉引流
  13. 【Uplift】模拟数据篇
  14. 使用vscode编写html代码
  15. DOM Scripting 学习六 - Image Gallery
  16. 【Java基础快速入门】概述及开发环境搭建
  17. Maltego 版本类型重新选择
  18. 分解因数 java版
  19. 网络精英赛模拟练习(6)
  20. CentOS7 系统基础优化

热门文章

  1. 原生JS DOM操作方法汇总
  2. oracle数据库部署
  3. redis应用场景(2)日志记录及指标统计
  4. jsp的相对路径问题
  5. Linux tmux分屏工具
  6. MongoDB学习笔记~为IMongoRepository接口添加分页取集合的方法
  7. python脚本监控网站状态 - 赵海华_运维之路 - 51CTO技术博客
  8. QT发布中遇到的问题 - wufan的专栏 - 博客频道 - CSDN.NET
  9. Python爬虫(十)_XPath与lxml类库
  10. 操作系统 chapter 12 死锁