html 标签 r语言,从R中的字符串中删除html标签
我正在尝试将网页源代码读入R并将其作为字符串处理。我正在尝试删除段落并从段落文本中删除html标签。我遇到了以下问题:
我尝试实现一个功能来删除html标签:
cleanFun=function(fullStr)
{
#find location of tags and citations
tagLoc=cbind(str_locate_all(fullStr,"")[[1]][,1]);
#create storage for tag strings
tagStrings=list()
#extract and store tag strings
for(i in 1:dim(tagLoc)[1])
{
tagStrings[i]=substr(fullStr,tagLoc[i,1],tagLoc[i,2]);
}
#remove tag strings from paragraph
newStr=fullStr
for(i in 1:length(tagStrings))
{
newStr=str_replace_all(newStr,tagStrings[[i]][1],"")
}
return(newStr)
};
这适用于某些标签,但不适用于所有标签,此示例失败的示例是以下字符串:
test="junk junk junk junk"
目标是获得:
cleanFun(test)="junk junk junk junk"
但是,这似乎不起作用。我认为这可能与字符串长度或转义字符有关,但是我找不到涉及这些的解决方案。
html 标签 r语言,从R中的字符串中删除html标签相关推荐
- R语言ggplot2可视化在可视化图形的X轴标签中添加温度摄氏度符号(add temperature degree symbol on axis label)
R语言ggplot2可视化在可视化图形的X轴标签中添加温度摄氏度符号(add temperature degree symbol on axis label) 目录
- R语言ggplot2可视化在箱图中为箱图添加均值的标签及对应数值实战
R语言ggplot2可视化在箱图中为箱图添加均值的标签及对应数值实战 目录 R语言ggplot2可视化在箱图中为箱图添加均值的标签及对应数值实战
- R语言ggplot2可视化移除数据中的NA值再可视化实战:消除图形中非常突出的NA柱状图、使用subset函数、使用drop_na函数
R语言ggplot2可视化移除数据中的NA值再可视化实战:消除图形中非常突出的NA柱状图.使用subset函数.使用drop_na函数 目录
- R语言使用R基础安装中的glm函数构建乳腺癌二分类预测逻辑回归模型、分类预测器(分类变量)被自动替换为一组虚拟编码变量、summary函数查看检查模型、使用table函数计算混淆矩阵评估分类模型性能
R语言使用R基础安装中的glm函数构建乳腺癌二分类预测逻辑回归模型(Logistic regression).分类预测器(分类变量)被自动替换为一组虚拟编码变量.summary函数查看检查模型.使用t ...
- R语言使用edit函数在Rsudio中生成数据编辑器(在windows中生成编辑器)、在编辑器中输出需要的数据生成最终的dataframe
R语言使用edit函数在Rsudio中生成数据编辑器(在windows中生成编辑器).在编辑器中输出需要的数据生成最终的dataframe 目录
- R语言ggplot2可视化:计算dataframe中每个数据列缺失值的个数、使用堆叠的条形图(Stacked Barplot)可视化每个数据列的缺失值的情况(自定义堆叠条形图的形式)
R语言ggplot2可视化:计算dataframe中每个数据列缺失值的个数.使用堆叠的条形图(Stacked Barplot)可视化每个数据列的缺失值的情况(自定义堆叠条形图的形式) 目录
- R语言ggplot2可视化使用guide_axis函数避免X轴标签互相重叠(Overlapping)、Dodge Overlapping X-axis Text with guide_axis()
R语言ggplot2可视化使用guide_axis函数避免X轴标签互相重叠(Overlapping).Dodge Overlapping X-axis Text with guide_axis() 目 ...
- R语言ggplot2可视化:为图像中的均值竖线、中位数竖线、 geom_vline添加图例(legend)
R语言ggplot2可视化:为图像中的均值竖线.中位数竖线. geom_vline添加图例(legend) 目录
- R语言ggplot2可视化在可视化图像中添加上限线条、下限线条、添加上下限图例实战
R语言ggplot2可视化在可视化图像中添加上限线条.下限线条.添加上下限图例实战 目录
- R语言ggplot2可视化抑制可视化网格中的竖线输出、抑制可视化网格中的横线线输出、抑制背景网格输出实战
R语言ggplot2可视化抑制可视化网格中的竖线输出.抑制可视化网格中的横线线输出.抑制背景网格输出实战 目录
最新文章
- src-d/gogit 使用
- Spark 性能调优-内存设置-GC设置
- git clone 时候出现Please make sure you have the correct access rights and the repository exists.
- 滴滴网约车前端招聘实习生啦
- JavaScript——正则表达式
- 【转】Android中Dalvik(DVM)的详解
- jsp连接sqlServer数据库教程、jsp连接sqlServer数据库报ClassNotFoundException异常
- .net mysql字符串截取_MySQL 字符串拆分操作(含分隔符的字符串截取)
- Vue生命周期-手动挂载理解
- mdl文件是c语言,mdl文件扩展名,mdl文件怎么打开?
- 精算未来会被计算机代替吗,年薪过百万还不用加班?揭开精算专业的真面目(下篇)...
- java 读取word 表格,java读取word表格方法
- JAVA删除数组中指定元素
- pmx转fbx的具体步骤
- 如何将ip修改成域名
- a java rnvironme_分析113个前缀在各大考纲词汇中的作用(一)
- RMAA对多个平台手机音质的评价
- 用TortoiseGit工具push上传程序和下拉程序pull
- 完数,恰好等于它的因子之和
- VS2010+.net4.0仿照苹果手机上的消除之星写了一个电脑版的功能简单(二)
热门文章
- 云原生安全模型与实践
- 什么是Docker?看这一篇文章就够了
- 借助大数据进行社交媒体营销,企业们得这么玩!
- Hive精华问答 | Hive的数据模型是怎样的?
- 打印n×n数字方阵python_2020华为春招amp;#8211;N阶方阵旋转(python) - 易采站长站
- 数据结构python吕云翔_《数据结构》吕云翔编著第1章绪论习题解答
- Centos/Red Hat6.8 安装、配置、启动Gitlab (内网环境)心得分享
- Flowable 数据库表结构 ACT_RU_IDENTITYLINK
- 第4篇:Flowable快速工作流脚手架Jsite_启动项目
- 第九篇:Spring Boot整合Spring Data JPA_入门试炼06