我正在尝试将网页源代码读入R并将其作为字符串处理。我正在尝试删除段落并从段落文本中删除html标签。我遇到了以下问题:

我尝试实现一个功能来删除html标签:

cleanFun=function(fullStr)

{

#find location of tags and citations

tagLoc=cbind(str_locate_all(fullStr,"")[[1]][,1]);

#create storage for tag strings

tagStrings=list()

#extract and store tag strings

for(i in 1:dim(tagLoc)[1])

{

tagStrings[i]=substr(fullStr,tagLoc[i,1],tagLoc[i,2]);

}

#remove tag strings from paragraph

newStr=fullStr

for(i in 1:length(tagStrings))

{

newStr=str_replace_all(newStr,tagStrings[[i]][1],"")

}

return(newStr)

};

这适用于某些标签,但不适用于所有标签,此示例失败的示例是以下字符串:

test="junk junk junk junk"

目标是获得:

cleanFun(test)="junk junk junk junk"

但是,这似乎不起作用。我认为这可能与字符串长度或转义字符有关,但是我找不到涉及这些的解决方案。

html 标签 r语言,从R中的字符串中删除html标签相关推荐

  1. R语言ggplot2可视化在可视化图形的X轴标签中添加温度摄氏度符号(add temperature degree symbol on axis label)

    R语言ggplot2可视化在可视化图形的X轴标签中添加温度摄氏度符号(add temperature degree symbol on axis label) 目录

  2. R语言ggplot2可视化在箱图中为箱图添加均值的标签及对应数值实战

    R语言ggplot2可视化在箱图中为箱图添加均值的标签及对应数值实战 目录 R语言ggplot2可视化在箱图中为箱图添加均值的标签及对应数值实战

  3. R语言ggplot2可视化移除数据中的NA值再可视化实战:消除图形中非常突出的NA柱状图、使用subset函数、使用drop_na函数

    R语言ggplot2可视化移除数据中的NA值再可视化实战:消除图形中非常突出的NA柱状图.使用subset函数.使用drop_na函数 目录

  4. R语言使用R基础安装中的glm函数构建乳腺癌二分类预测逻辑回归模型、分类预测器(分类变量)被自动替换为一组虚拟编码变量、summary函数查看检查模型、使用table函数计算混淆矩阵评估分类模型性能

    R语言使用R基础安装中的glm函数构建乳腺癌二分类预测逻辑回归模型(Logistic regression).分类预测器(分类变量)被自动替换为一组虚拟编码变量.summary函数查看检查模型.使用t ...

  5. R语言使用edit函数在Rsudio中生成数据编辑器(在windows中生成编辑器)、在编辑器中输出需要的数据生成最终的dataframe

    R语言使用edit函数在Rsudio中生成数据编辑器(在windows中生成编辑器).在编辑器中输出需要的数据生成最终的dataframe 目录

  6. R语言ggplot2可视化:计算dataframe中每个数据列缺失值的个数、使用堆叠的条形图(Stacked Barplot)可视化每个数据列的缺失值的情况(自定义堆叠条形图的形式)

    R语言ggplot2可视化:计算dataframe中每个数据列缺失值的个数.使用堆叠的条形图(Stacked Barplot)可视化每个数据列的缺失值的情况(自定义堆叠条形图的形式) 目录

  7. R语言ggplot2可视化使用guide_axis函数避免X轴标签互相重叠(Overlapping)、Dodge Overlapping X-axis Text with guide_axis()

    R语言ggplot2可视化使用guide_axis函数避免X轴标签互相重叠(Overlapping).Dodge Overlapping X-axis Text with guide_axis() 目 ...

  8. R语言ggplot2可视化:为图像中的均值竖线、中位数竖线、 geom_vline添加图例(legend)

    R语言ggplot2可视化:为图像中的均值竖线.中位数竖线. geom_vline添加图例(legend) 目录

  9. R语言ggplot2可视化在可视化图像中添加上限线条、下限线条、添加上下限图例实战

    R语言ggplot2可视化在可视化图像中添加上限线条.下限线条.添加上下限图例实战 目录

  10. R语言ggplot2可视化抑制可视化网格中的竖线输出、抑制可视化网格中的横线线输出、抑制背景网格输出实战

    R语言ggplot2可视化抑制可视化网格中的竖线输出.抑制可视化网格中的横线线输出.抑制背景网格输出实战 目录

最新文章

  1. src-d/gogit 使用
  2. Spark 性能调优-内存设置-GC设置
  3. git clone 时候出现Please make sure you have the correct access rights and the repository exists.
  4. 滴滴网约车前端招聘实习生啦
  5. JavaScript——正则表达式
  6. 【转】Android中Dalvik(DVM)的详解
  7. jsp连接sqlServer数据库教程、jsp连接sqlServer数据库报ClassNotFoundException异常
  8. .net mysql字符串截取_MySQL 字符串拆分操作(含分隔符的字符串截取)
  9. Vue生命周期-手动挂载理解
  10. mdl文件是c语言,mdl文件扩展名,mdl文件怎么打开?
  11. 精算未来会被计算机代替吗,年薪过百万还不用加班?揭开精算专业的真面目(下篇)...
  12. java 读取word 表格,java读取word表格方法
  13. JAVA删除数组中指定元素
  14. pmx转fbx的具体步骤
  15. 如何将ip修改成域名
  16. a java rnvironme_分析113个前缀在各大考纲词汇中的作用(一)
  17. RMAA对多个平台手机音质的评价
  18. 用TortoiseGit工具push上传程序和下拉程序pull
  19. 完数,恰好等于它的因子之和
  20. VS2010+.net4.0仿照苹果手机上的消除之星写了一个电脑版的功能简单(二)

热门文章

  1. 云原生安全模型与实践
  2. 什么是Docker?看这一篇文章就够了
  3. 借助大数据进行社交媒体营销,企业们得这么玩!
  4. Hive精华问答 | Hive的数据模型是怎样的?
  5. 打印n×n数字方阵python_2020华为春招amp;#8211;N阶方阵旋转(python) - 易采站长站
  6. 数据结构python吕云翔_《数据结构》吕云翔编著第1章绪论习题解答
  7. Centos/Red Hat6.8 安装、配置、启动Gitlab (内网环境)心得分享
  8. Flowable 数据库表结构 ACT_RU_IDENTITYLINK
  9. 第4篇:Flowable快速工作流脚手架Jsite_启动项目
  10. 第九篇:Spring Boot整合Spring Data JPA_入门试炼06