C#提取HTML代码中的文字(转)
/// <summary>
/// 去除HTML标记
/// </summary>
/// <param name="strHtml">包括HTML的源码 </param>
/// <returns>已经去除后的文字</returns>
public static string StripHTML(string strHtml)
{
string [] aryReg ={
@"<script[^>]*?>.*?</script>",
@"<(\/\s*)?!?((\w+:)?\w+)(\w+(\s*=?\s*(([""'])(\\[""'tbnr]|[^\7])*?\7|\w+)|.{0})|\s)*?(\/\s*)?>",
@"([\r\n])[\s]+",
@"&(quot|#34);",
@"&(amp|#38);",
@"&(lt|#60);",
@"&(gt|#62);",
@"&(nbsp|#160);",
@"&(iexcl|#161);",
@"&(cent|#162);",
@"&(pound|#163);",
@"&(copy|#169);",
@"&#(\d+);",
@"-->",
@"<!--.*\n"
};
string [] aryRep = {
"",
"",
"",
"\"",
"&",
"<",
">",
" ",
"\xa1",//chr(161),
"\xa2",//chr(162),
"\xa3",//chr(163),
"\xa9",//chr(169),
"",
"\r\n",
""
};
string newReg =aryReg[0];
string strOutput=strHtml;
for(int i = 0;i<aryReg.Length;i++)
{
Regex regex = new Regex(aryReg[i],RegexOptions.IgnoreCase );
strOutput = regex.Replace(strOutput,aryRep[i]);
}
strOutput.Replace("<","");
strOutput.Replace(">","");
strOutput.Replace("\r\n","");
return strOutput;
}
转自:http://blog.csdn.net/ljbshiyoudaxue/archive/2006/12/12/1440235.aspx
转载于:https://www.cnblogs.com/yuewh491/archive/2006/12/13/590707.html
C#提取HTML代码中的文字(转)相关推荐
- vb.net提取html网址,如何提取网页代码中指定内容
怎么提取网页代码中指定内容? 某数据库网页结构如下: html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http ...
- vscode中打开pdf文件_提取pdf文件中的文字
环境说明 windows10系统 python3.6版本 安装 网上很多说需要安装pdfminer3k和pdfminer3k.six,我尝试了先安装pdfminer3k后安装pdfminer3k.si ...
- pdf exe如何提取pdf文件_python应用:如何用python提取pdf文件中的文字
从pdf中提取文字,相信很多人都干过这事,怎么在python中实现呢,今天带大家看看. 第一步导入库 import PyPDF2 第二步导入pdf文件 pdf_file =open('dataset/ ...
- java中用流提取文档中的文字,语言实现从word文档中提取文本
word中提取中文 打开Word,CTRL+F打开"查找替换"对话框. 点击下方的"查找替换"对话框的"高级"按钮. 点击"特殊字 ...
- 提取HTML代码中文字的C#函数
/// <summary> /// 去除HTML标记 /// </summary> /// <param name="strHtml"&g ...
- Python自动化:提取扫描件中的文字
前言 扫描件一直受大众青睐,任何纸质资料在扫描之后进行存档,想使用时手机就能打开,省心省力.但是扫描件的优点也恰恰造成了它的一个缺点,因为是通过电子设备扫描,所以出来的是图像,如果想要处理文件上的内容 ...
- Pandas 提取单元格中的文字并进行切片处理
比如我们有如下的Excel数据: 现在我们想要提取其中付款时间列中的内容,并且仅截取出发货的当天具体时间.我们可以使用.str.slice()来解决这一问题,代码如下: import pandas a ...
- 用Python提取图片截图中的文字
<用Python"破解"某度文库等文库复制的限制> tips:当个标题党真刺激啊 开发背景 临近期末,CYooQ要写许多作业.迫不得已寻找度娘解决问题,找到之后,CYo ...
- Excel函数 - 提取固定字符中的文字
Excel列中有固定的字符文本,想将其中的文字内容提取出来,我们可以用MID和SEARCH搭配来实现. 比如样例文本中作者想提取 "测试[" 和 "]编号"中间 ...
最新文章
- 返回值带头信息 php_PHP注释标记的整理
- 权威值和枢纽值:HITS算法
- 2020年宇通大量裁人论坛_中国数学会计算数学分会2020年研究生论坛活动总结
- html+下拉箭头样式,HTML选择下拉箭头样式
- JavaWeb学习中的小问题
- 用户登录提交前,密码加密传输
- 时光手帐如何打印 时光手帐打印的方法
- Hibernate初学者教程
- What is Freeview Play
- pyspark读取csv_手把手实现 PySpark 机器学习项目回归算法
- Ubuntu下安装NetBeans步骤和相关问题的解决方法
- Cadence系列之SIPI仿真笔记:Cadence多种版本的安装、卸载重装(一)
- c语言ascii字母比较大小,C语言中,大写字母M的ASCII码值比小写字母m的ASCII码值大。...
- Win10 Microsoft Store无法安装程序解决方法
- MOSS的备份与还原
- MayaDay1:历史记录和删除历史记录
- 一北大毕业生的返乡报告:家乡面目全非 备感无力
- ALM / QC 64-bit Patch 12 S-Chinese
- JS+CSS文章查看系统
- 电脑不停自动安装垃圾软件怎么办