提取HTML代码中文字的C#函数
/// <summary>
/// 去除HTML标记
/// </summary>
/// <param name="strHtml">包括HTML的源码 </param>
/// <returns>已经去除后的文字</returns>
public static string StripHTML(string strHtml)
{
string [] aryReg ={
@"<script[^>]*?>.*?</script>",
@"<(\/\s*)?!?((\w+:)?\w+)(\w+(\s*=?\s*(([""'])(\\[""'tbnr]|[^\7])*?\7|\w+)|.{0})|\s)*?(\/\s*)?>",
@"([\r\n])[\s]+",
@"&(quot|#34);",
@"&(amp|#38);",
@"&(lt|#60);",
@"&(gt|#62);",
@"&(nbsp|#160);",
@"&(iexcl|#161);",
@"&(cent|#162);",
@"&(pound|#163);",
@"&(copy|#169);",
@"&#(\d+);",
@"-->",
@"<!--.*\n"
};
string [] aryRep = {
"",
"",
"",
"\"",
"&",
"<",
">",
" ",
"\xa1",//chr(161),
"\xa2",//chr(162),
"\xa3",//chr(163),
"\xa9",//chr(169),
"",
"\r\n",
""
};
string newReg =aryReg[0];
string strOutput=strHtml;
for(int i = 0;i<aryReg.Length;i++)
{
Regex regex = new Regex(aryReg[i],RegexOptions.IgnoreCase );
strOutput = regex.Replace(strOutput,aryRep[i]);
}
strOutput.Replace("<","");
strOutput.Replace(">","");
strOutput.Replace("\r\n","");
strOutput.Replace("\n","");
return strOutput;
}
参考
http://www.webjx.com/htmldata/2005-06-08/1118182315.html
提取HTML代码中文字的C#函数相关推荐
- C#提取HTML代码中的文字(转)
C#提取HTML代码中的文字 /// <summary> /// 去除HTML标记 /// </summary> /// <param name=" ...
- vb.net提取html网址,如何提取网页代码中指定内容
怎么提取网页代码中指定内容? 某数据库网页结构如下: html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http ...
- 利用python中pdfplumber库提取PDF文件中文字
pdfplumber库中提供了一个extract_text()方法来帮助我们提取PDF文件中的文字.我们只需要使用pdfplumber中的open()方法打开我们希望提取文字的PDF文件,然后对所需提 ...
- 调用c++_WebAssembly: 在C代码中调用JS的函数
0. 前提知识点 导出C中的函数给JS调用:主要是EMSCRIPTEN_KEEPALIVE这个Emscripten环境特有的宏. #include <stdio.h>#ifndef EM_ ...
- 提取pdf文件中文字的两种方法
如今,在我们的工作与学习中已经不是单单使用word.Excel等格式文件了,pdf格式的文件已经被广泛地运用到我们的办公室中.大家都知道pdf文件是不可直接编辑与修改的,使用起来有些不便.那么当我们需 ...
- 如何提取HTML代码中img的src地址?
答案:专门的代码 使用专门的正则表达式 /// <summary> /// 获得HTML中所有图片的src地址[比较稳定的一个版本]/// </summary> /// < ...
- c语言程序代码中的间隔,printf()函数输出后 默认的间隔是多少
7楼那么输出应该就可以了,不过楼主显然不是这个意思,问题的关键在于普通输出都是直接%d而它用%2d是不是这个2搞的!? ----------------解决方案-------------------- ...
- C++ 提取代码中的函数
输入一段代码,输出这段代码中包含的所有函数 ASCII码表 #include<iostream> #include<fstream> #include<cstring&g ...
- Python使用正则表达式识别代码中的中文、英文和数字实例演示
Python 正则表达式识别代码中的中文.英文和数字 识别中文 识别英文 识别数字 拓展 在文本处理和数据分析中,有时候需要从代码中提取出其中包含的中文.英文和数字信息.正则表达式是一种强大的工具,可 ...
最新文章
- 图模型+Bert香不香?完全基于注意力机制的图表征学习模型Graph-Bert
- Mac mysql sql_model引起的问题
- SSI注入(server side includes injection 服务器端包含注入)
- Linux下的shell脚本实战之用户创建
- 【ArcGIS微课1000例】0017:ArcGIS测量距离和面积工具的巧妙使用
- 写作14个月,审稿花10年:这篇论文解决了数学物理界的大问题
- 复习-网络编程之IP和端口号
- p10可以适配鸿蒙吗,鸿蒙系统支持旧机型吗
- Java虚拟机学习(四)
- 蓝桥杯_算法训练_审美课
- 牛逼,我的单片机固件被人破解了
- MCSA / Windows Server 2016 PowerShell DSC
- react 首页加载loading
- pacman 升级软件包提示 “failed to commit transaction (invalid or corrupted package)“
- 微软云中国的服务器在哪,微软云计算平台Windows Azure将落户中国
- 鸿蒙系统小米电视,鸿蒙系统被曝光!首款鸿浩818芯片,华为智慧屏对标小米电视...
- 极速office(Word)如何在表格里面插入行或者列
- oracle 查询字符代码dump,字符集问题(Linux、oracle、终端等,导入导出数据)
- 在你的硬盘上建立第二个 EFI 分区
- Hoxx使用保姆级教程【附截图| 安卓苹果电脑】
热门文章
- [翻译]pytest测试框架(二):使用
- Mac 下anaconda安装mysqldb的方法
- Linux中查看各文件夹大小(扫盘)
- 从hadoop框架与MapReduce模式中谈海量数据处理
- hdu 2025:查找最大元素(水题,顺序查找)
- 图像二值形态学——腐蚀和膨胀的C语言实现
- Log4Net 使用 FileAppender (log4net 1.2.10.0)
- raid5坏了一块盘怎么办_服务器阵列信息丢失,数据怎么办?先不要慌,也许很快就能恢复...
- 电子产品设计流程_消费类电子产品设计思维模式是什么?
- 【控制】《多智能体系统的动力学分析与设计》徐光辉老师-第10章-带有分层领航者的多智能体系统的混杂协调