IOS使用正则表达式去掉html中的标签元素,获得纯文本

content是根据网址获得的网页源码字符串
NSRegularExpression *regularExpretion=[NSRegularExpression regularExpressionWithPattern:@"<[^>]*>|\n"
                                                                                    options:0
                                                                                      error:nil];
     
    content=[regularExpretion stringByReplacingMatchesInString:content options:NSMatchingReportProgress range:NSMakeRange(0, content.length) withTemplate:@"-"];//替换所有html和换行匹配元素为"-"
     
    regularExpretion=[NSRegularExpression regularExpressionWithPattern:@"-{1,}" options:0 error:nil] ;
    content=[regularExpretion stringByReplacingMatchesInString:content options:NSMatchingReportProgress range:NSMakeRange(0, content.length) withTemplate:@"-"];//把多个"-"匹配为一个"-"
     
    //根据"-"分割到数组
    NSArray *arr=[NSArray array];
    content=[NSString stringWithString:content];
    arr =  [content componentsSeparatedByString:@"-"];
    NSMutableArray *marr=[NSMutableArray arrayWithArray:arr];
    [marr removeObject:@""];
    return  marr;

//正则去除网络标签
-(NSString *)getZZwithString:(NSString *)string{NSRegularExpression *regularExpretion=[NSRegularExpression regularExpressionWithPattern:@"<[^>]*>|\n"options:0error:nil];string=[regularExpretion stringByReplacingMatchesInString:string options:NSMatchingReportProgress range:NSMakeRange(0, string.length) withTemplate:@""];return string;
}

转载于:https://www.cnblogs.com/liuyingjie/p/5286797.html

IOS使用正则表达式去掉html中的标签元素,获得纯文本相关推荐

  1. C# 使用正则表达式去掉字符串中的数字

    C# 使用正则表达式去掉字符串中的数字 /// <summary> /// 去掉字符串中的数字 /// </summary> /// <param name=" ...

  2. java 去除字符串中的英文_Java利用正则表达式去掉字符串中的英文

    利用正则表达式去掉字符串中的英文String str = "111,aaa,222,bbb"; Pattern p = Pattern.compile("[a-zA-z] ...

  3. php 去掉数组相同元素,php怎么去掉数组中重复的元素

    php去掉数组中重复的元素的方法:可以通过内置函数array_unique()来实现.array_unique()函数可以移除数组中重复的值并返回过滤后的数组.如果数组中存在多个相同元素,则只保留第一 ...

  4. C#正则表达式提取HTML中IMG标签的SRC地址(转)

    一般来说一个 HTML 文档有很多标签,比如"<html>"."<body>"."<table>"等,想 ...

  5. C#正则表达式提取HTML中IMG标签的URL地址 .

    /// <summary> /// 取得HTML中所有图片的 URL. /// </summary> /// <param name="sHtmlText&qu ...

  6. C#正则表达式提取HTML中IMG标签中的SRC地址

    百度到的一个,这里就直接贴了 http://blog.csdn.net/smeller/article/details/7108502#comments 一般来说一个 HTML 文档有很多标签,比如& ...

  7. C# 使用正则表达式去掉字符串中的数字,或者去掉字符串中的非数字

    /// 去掉字符串中的数字 public static string RemoveNumber(string key)           {               return Regex.R ...

  8. 【Jquery】------- iframe标签获取属性src中的标签(元素)input值实例代码

    一,如下iframe标签代码: <iframe id="iframe" src="/pub/job/cron_editor/CronEditor.html" ...

  9. 百度UEditor编译器中获取HTML内容和纯文本,设置UEditor编辑器的内容

    获取纯文本内容的方法: 1.editor.getContentTxt(); 获取编辑器中的纯文本内容,没有段落格式 javascript代码:示例 1 2 //编辑器html内容:<p>& ...

最新文章

  1. 可以使用的mysql和navigate
  2. windbg调试命令
  3. 链表之单链表约瑟夫问题(二)
  4. Qt的简单介绍,发展和由来
  5. 代码规范之prettier+eslint实践
  6. 计算机中DW用户名和域名,如何获取线程关联用户名和域名
  7. cad尺寸标注快捷键_CAD软件中如何修改设置CAD标注尺寸的值?
  8. 查看dSYM文件的UUID
  9. java 解析xml工具类_轻松解析XML的工具类
  10. cis系统服务器,基于客户端/服务器模式头影测量信息系统(CIS)影像测量模块的开发...
  11. u盘启动盘变成普通u盘
  12. 周问题回复-滤波器-锁相环BL参数及环路滤波器参数问题
  13. Java判断本周属于该年的第几周
  14. MySQL复制(三) --- 高可用性和复制
  15. SKY13626-685LF射频开关
  16. C++的学习日记day8(类型转换、异常、输入输出流、文件)
  17. Vscode批量处理
  18. 凌恩客户文章|《Microbiome》:宏基因组构建反刍动物全消化道超1万个MAGs新进展
  19. Oracle游标超出最大值
  20. 为什么还在纠结C++,看了这个就不言自明了。

热门文章

  1. GitHub为所有人免费提供了所有核心功能-这就是您应该关心的原因
  2. react引入多个图片_重新引入React:v16之后的每个React更新都已揭开神秘面纱。
  3. java web开发初学_2018年学习Web开发的绝对初学者指南
  4. 数据通信技术(十一:无中继的DHCP配置(ZTE))
  5. (C++)1002 写出这个数
  6. Oracle可变数组实例说明
  7. 『流畅的Python』第14章:可迭代的对象、迭代器和生成器
  8. --single-transaction 参数对应MyISAM引擎和InnoDB引擎
  9. Debussy的安装
  10. [转]Git忽略规则及.gitignore规则不生效的解决办法