一、BeautifulSoup模块
二、博文简介
三、过滤恶意标签
 
 
一、BeautifulSoup模块
pip install bs4  # 安装bs4
 
from bs4 import BeautifulSoup  # 导入BeautifulSoup

 
二、博文简介
from bs4 import BeautifulSoup
 
content = '<a href="http://example.com/">I linked to <i>example.com</i></a>'
soup = BeautifulSoup(content, 'html.parser')
overview = soup.text[0:9]
print(overview)

 
三、过滤恶意标签
from bs4 import BeautifulSoup
 
content = '<a href="http://example.com/">I linked to <i>example.com</i></a><div><img src=""></img>image</div><a>link</a><script>alert(123)</script>'
soup = BeautifulSoup(content, 'html.parser')
print(soup)  # 这里带有script标签的脚本
 
for tag in soup.find_all():
    if tag.name in ['script', 'link']:
        tag.decompose()
 
print(soup)  # 这里已经把带有script标签的脚本去掉了

 

转载于:https://www.cnblogs.com/changwoo/p/9623487.html

BeautifulSoup实现博文简介与过滤恶意标签(xxs攻击)相关推荐

  1. python3 正则 去除 html标签、提取正文内容_Python通过正则表达式去除(过滤)HTML标签,提取文字...

    # -*- coding: utf-8-*- import re ##过滤HTML中的标签 #将HTML中标签等信息去掉 #@param htmlstr HTML字符串. def filter_tag ...

  2. jquery过滤HTML标签方法

    //过滤HTML标签 function removeHTMLTag(str) {str = str.replace(/<\/?[^>]*>/g, ''); //去除HTML tags ...

  3. php正则过滤html标签_空格_换行符的代码,php正则过滤html标签、空格、换行符的代码(附说明)_php技巧...

    $str=preg_replace("/\s+/", " ", $str); //过滤多余回车 $str=preg_replace("/ $str=p ...

  4. Java过滤HTML标签工具类

    过滤HTML标签能有效的放置XSS攻击. 封装: import org.slf4j.Logger; import org.slf4j.LoggerFactory;import org.springfr ...

  5. PHP中过滤常用标签的正则表达式

    $str=preg_replace("/\s+/", " ", $str); //过滤多余回车 $str=preg_replace("/<[ ] ...

  6. python文本筛选html_Python使用正则表达式去除(过滤)HTML标签提取文字功能

    正则表达式是一个特殊的字符序列,可以帮助您使用模式中保留的专门语法来匹配或查找其他字符串或字符串集. 正则表达式在UNIX世界中被广泛使用. 下面给大家介绍下Python使用正则表达式去除(过滤)HT ...

  7. php 实体转html,PHP 转HTML标签为实体, 把实体html标签转为,过滤html标签 | 学步园...

    1.在开发由于我的需要千变万化.我们得根据需求做各种各样的事情.下面我我在开发中遇到的,HTML标签互转的,记录下来与君共享 实例: $str = preg_replace("//" ...

  8. 过滤html标签 RemoveHTML

    #region =====过滤html标签 RemoveHTML(string html)=====         /// <summary>         /// 过滤html    ...

  9. php 正则过滤style,PHP 过滤常用标签的正则表达式

    $str=preg_replace("/\s+/", " ", $str); //过滤多余回车 $str=preg_replace("/ $str=p ...

  10. 过滤html标签的代码

    public   String html2Text(String inputString) {           String htmlStr  =  inputString;  // 含html标 ...

最新文章

  1. 和tp数据库_CAN / CAN FD传输层(TP)详解
  2. python程序代码大全-调试Python程序代码的几种方法总结
  3. oracle 取系统当前年份_Oracle如何获取系统当前时间等操作实例
  4. hive 临时表 with_Kettle(PDI)转换中输入表输入详解
  5. debug信息关闭 tp6_「Flask实战2」设置debug模式
  6. 乐高ev3搭建图_乐高EV3第一讲,Hello Ev3,搭建机甲战神模型
  7. hadoop最新稳定版本dkhadoop版本选择介绍
  8. ueditor使用小结
  9. java实现https请求单向认证、双向认证
  10. k2 abc 官改固件下载_abc分析,k表示聚类
  11. matlab 2018 adams,关于ADAMS与MATLAB联合仿真的一点经验
  12. 网络 | OSI七层模型各层常见协议
  13. java sof栈泄露_java虚拟机(四)--内存溢出、内存泄漏、SOF
  14. 石墨计算机,石墨文档电脑版
  15. Firefox 地址栏用法三: 搜索引擎
  16. 时间序列-预测:概述【Time Series Forecasting (TSF) 】【时间序列既可以做回归任务,也可以做分类任务】【预测是回归问题,不是分类问题】
  17. OCRunner 第零篇:从零教你写一个 iOS 热修复框架
  18. Linux WiFi 射频开关`rfkill`控制无线网启停与`ifconfig`显示的关系
  19. 阿联酋金融机构举办加密资产及金融科技论坛
  20. Android 9.0默认支持的语言

热门文章

  1. module_param()函数
  2. 第一次冲刺-站立会议02
  3. python自动化--接口请求及封装
  4. Vue-Router 页面正在加载特效
  5. java动态代理模式
  6. Codeforces Round #277 (Div. 2)
  7. jQuery插件实例二:年华时代插件ReturnTop回到首页
  8. cnblog 闪存刷星星,每一条闪存都是星星
  9. 从输入url到页面展现发生了什么?
  10. go语言:函数参数传递详解