需求:获取公司官网数据

question1:部分网站是通过js动态加载的,如果直接只用requests.get(url),就会出现获取信息不全的问题,举个例子:

import requestsdef main():r = requests.get('https://www.tee.com/index')print(r.text)if __name__ == '__main__':main()

运行结果

<!DOCTYPE html>
<html lang="en"><head><meta charset="utf-8"><title>TEE</title></head><body><div id="app"></div><script src="/dist/build.js"></script></body>
</html>

answer1: 解决办法是有很多种的,这里一种介绍个人认为比较简单的方法,使用selenium 的webdriver去请求(这个过程是需要安装selenium和对应版本的chromedriver,自行百度)

直接上代码:

from selenium import webdriverdef main():driver = webdriver.Chrome()driver.get('https://www.tee.com/index')html = driver.page_sourceprint(html)if __name__ == '__main__':main()

运行结果

<!DOCTYPE html><html xmlns="http://www.w3.org/1999/xhtml" lang="en"><head><meta charset="utf-8" /><title>TEE</title><style type="text/css">.el-breadcrumb:after,.el-breadcrumb:before,.el-button-group:after,.el-button-group:before,.el-form-item:after,.el-form-item:before,.el-form-item__content:after,.el-form......(此处省略一万字)<body><div id="app"><div data-v-affeac48="" id="pageheader"><header data-v-affeac48="" class="container"><div data-v-c89fb01a="" data-v-affeac48="" id="pageNav"><nav data-v-c89fb01a=""><div data-v-c89fb01a="" class="nav_logo"><img data-v-c89fb01a="" src="/dist/TEE_logo.png?56cbbf3b79c907ee1c1c25b2cf175639" alt="" class="nav_logo_img" /> <p data-v-c89fb01a="" class="nav_logo_p">Trusted Execution Environment</p></div> <ul data-v-c89fb01a="" class="nav_ul"><li data-v-c89fb01a=""><a data-v-c89fb01a="" href="/index" class="router-link-exact-active router-link-active">首页</a></li> <li data-v-c89fb01a="" class="product"><a data-v-c89fb01a="" href="#">产品中心</a> <div data-v-c89fb01a="" id="product_detail1" class="product_detail"><div data-v-c89fb01a="" class="product_detail_out"><div data-v-c89fb01a="" class="product_detail_check"><h3 data-v-c89fb01a="" class="product_h3">机器视觉</h3> <ul data-v-c89fb01a="" class="check_ul"><li data-v-c89fb01a="" class="check_ul_li2"><a data-v-c89fb01a="" href="/pointsMachine" target="_blank">AI智能分板机</a></li></ul></div> <div data-v-c89fb01a="" class="product_detail_check"><h3 data-v-c89fb01a="" class="product_h3">AI教育应用</h3> <ul data-v-c89fb01a="" class="check_ul"><li data-v-c89fb01a="" class="check_ul_li2"><a data-v-c89fb01a="" href="/logistics" target="_blank">无人物流系统</a></li></ul></div> <div data-v-c89fb01a="" class="solve_detail_trafic"><h3 data-v-c89fb01a="" class="product_h3">交通安全</h3> <ul data-v-c89fb01a=""><li data-v-c89fb01a=""><a data-v-c89fb01a="" href="/DMS" target="_blank" class="headhover_a" style="padding: 0px 3px;">驾驶员状态监测</a></li></ul></div> <div data-v-c89fb01a="" class="product_detail_stick"><h3 data-v-c89fb01a="" class="product_h3">硬件类/服务类</h3> <ul data-v-c89fb01a=""><li data-v-c89fb01a=""><a data-v-c89fb01a="" href="/teeEssential" target="_blank">神经元计算棒</a></li> <li data-v-c89fb01a=""><a data-v-c89fb01a="" href="/greenrouter" target="_blank">绿盾路由器</a></li></ul></div> <div data-v-c89fb01a="" class="product_detail_check"><h3 data-v-c89fb01a="" class="product_h3">内容审核</h3> <ul data-v-c89fb01a="" class="check_ul"><li data-v-c89fb01a=""><a data-v-c89fb01a="" href="/imagesensor" target="_blank">图像审核</a></li> <li data-v-c89fb01a="" class="check_ul_li2"><a data-v-c89fb01a="" href="/videosensor" target="_blank">视频审核</a></li></ul></div> <div data-v-c89fb01a="" class="product_detail_face"><h3 data-v-c89fb01a="" class="product_h3">人脸技术</h3> <ul data-v-c89fb01a=""><li data-v-c89fb01a=""><a data-v-c89fb01a="" href="/faceID" target="_blank">人证合一</a></li> <li data-v-c89fb01a=""><a data-v-c89fb01a="" href="/faceRecnitn" target="_blank">人脸识别</a></li></ul></div> <div data-v-c89fb01a="" class="solve_detail_buy"><h3 data-v-c89fb01a="" class="product_h3">智能导购</h3> <ul data-v-c89fb01a=""><li data-v-c89fb01a=""><a data-v-c89fb01a="" href="/snapshop" target="_blank">拍照导购</a></li></ul></div></div></div></li> <li data-v-c89fb01a=""><a data-v-c89fb01a="" href="/news">新闻</a></li> <li data-v-c89fb01a=""><a data-v-c89fb01a="" href="https://github.com/TEE-AI/SAI" target="_blank">参考文档</a></li> <li data-v-c89fb01a="" class="aboutUs"><a data-v-c89fb01a="" href="/InviteJob" class="">关于TEE</a></li></ul> <div data-v-c89fb01a="" class="comLi langChange"><li data-v-c89fb01a="" style="margin-left: 5px;"><span data-v-c89fb01a="" class="curuntlang langChange_zh">中文</span>/<span data-v-c89fb01a="" class=" langChange_en">English</span></li></div> <div data-v-c89fb01a="" class="liLine"></div> <div data-v-c89fb01a="" class="comLi inTee"><li data-v-c89fb01a="" class="disabled"><a data-v-c89fb01a="" href="#">进入TEE AI</a></li></div></nav></div></header></div> <div id="index"><div data-v-0623738c="" class="pageContent"><div data-v-0623738c="" class="el-carousel" style="margin-top: 60px; overflow: hidden;"><div class="el-carousel__container" style="height: 800px;"><button class="el-carousel__arrow el-carousel__arrow--left" style="display: none;"><i class="el-icon-arrow-left"></i></button><button class="el-carousel__arrow el-carousel__arrow--right" style="display: none;"><i class="el-icon-arrow-right"></i></button><div data-v-0623738c="" class="el-carousel__item is-animating" style="transform: translateX(-1200px) scale(1);"><!----><div data-v-0623738c="" class="background_img"><div data-v-0623738c="" class="logo_img"><div data-v-0623738c="" class="logoAction"><ul data-v-0623738c="" class="logo_icon logoAction_1"><li data-v-0623738c="" class="logo_icon01"><img data-v-0623738c="" src="/dist/logo_icon01.png?59ef6bce591c84cc20625bdc304449b3" alt="人证合一" /></li> <li data-v-0623738c="" class="logo_icon02"><img data-v-0623738c="" src="/dist/logo_icon02.png?ecdda374c36a23afc4b3b698c06ad0a2" alt="人脸识别" /></li> <li data-v-0623738c="" class="logo_icon03"><img data-v-0623738c="" src="/dist/logo_icon03.png?c2048eb41b80f6403404e96658e91a81" alt="图像审核" /></li> <li data-v-0623738c="" class="logo_icon04"><img data-v-0623738c="" src="/dist/logo_icon04.png?3fe01b6e5ac5b39969edc82444e36de5" alt="视频审核" /></li> <li data-v-0623738c="" class="logo_icon05"><img data-v-0623738c="" src="/dist/logo_icon05.png?4f99e211f67530456d41e98fe19355f8" alt="拍照导购" /></li> <li data-v-0623738c="" class="logo_icon06"><img data-v-0623738c="" src="/dist/logo_icon06.png?1f5581046dc604ecc7e1f9787572ef2b" alt="虚拟试装" /></li> <li data-v-0623738c="" class="logo_icon07"><img data-v-0623738c="" src="/dist/logo_icon07.png?66a97997a554e96e34fe39a099a0fae0" alt="美颜美妆" /></li> <li data-v-0623738c="" class="logo_icon08"><img data-v-0623738c="" src="/dist/logo_icon08.png?95ae883cd739593cf34e4d32de624056" alt="驾驶监测" /></li></ul> <img data-v-0623738c="" src="/dist/logoAction02.png?115571a16e9fbb3e2bb694881cea1354" alt="" class="logoAction_2" /> <img data-v-0623738c="" src="/dist/logoAction03.png?76465d5f87c76fe9f5200fac96155589" alt="" class="logoAction_3" /> <img data-v-0623738c="" src="/dist/logoAction04.png?9ab2ac01241d3f48ac428ed450017eda" alt="" class="logoAction_4" /> <img data-v-0623738c="" src="/dist/logoAction05.png?bcafea5ba1eca509d322afd26ebbb220" alt="" class="logoAction_5" /> <img data-v-0623738c="" src="/dist/logoAction06.png?337e2e9fac52bae40f3adbc6a803dec4" alt="" class="logoAction_6" /> <span data-v-0623738c="" class="logoAction_tittle"></span></div></div></div></div> <div data-v-0623738c="" class="el-carousel__item is-active is-animating" style="transform: translateX(0px) scale(1);"><!----><img data-v-0623738c="" src="/dist/sand_back02.jpg?84d6250cb679a87abfee1045c77eb48e" alt="" class="carousel_img" /></div></div><ul class="el-carousel__indicators"><li class="el-carousel__indicator"><button class="el-carousel__button"><!----></button></li><li class="el-carousel__indicator is-active"><button class="el-carousel__button"><!----></button></li></ul><div class="resize-triggers"><div class="expand-trigger"><div style="width: 1201px; height: 801px;"></div></div><div class="contract-trigger"></div></div></div> <div data-v-0623738c="" class="introduce"><h3 data-v-0623738c="" class="introduce_h3">业务内容</h3></div> <div data-v-0623738c="" class="tab_card"><div data-v-0623738c="" class="tab_card_tab"><div data-v-0623738c="" class="tab_card_tab1 tabCardStyle">内容审查</div> <div data-v-0623738c="" class="tab_card_tab1">人脸技术</div> <div data-v-0623738c="" class="tab_card_tab2">拍照导购</div> <div data-v-0623738c="" class="tab_card_tab2">虚拟试装</div> <div data-v-0623738c="" class="tab_card_tab3">美颜美妆</div> <div data-v-0623738c="" class="tab_card_tab4">驾驶安全</div> <div data-v-0623738c="" class="tab_card_tab5">AIoT产品</div></div> <div data-v-0623738c="" class="tab_card_tab1_show inToTree"><div data-v-0623738c="" class="tab_card_tab1_show_1"><h3 data-v-0623738c="" class="tab_card_tab1_show_1_h3">智能鉴黄</h3> <img data-v-0623738c="" src="/dist/identify.png?7aa038c1b1897d217846cb3cdbf8ee53" alt="" class="comImg" /> <p data-v-0623738c="" class="comP">通过深度学习技术神经网络算法和实时更新的亿级图像,视频样本库,可对图片和视频进行涉黄识别以及色情程度量化。</p> <div data-v-0623738c="" class="tb_btn"><a data-v-0623738c="" href="/imagesensor?scroll=tosensor&amp;head_tab=1" target="_blank">在线体验</a></div></div> <div data-v-0623738c="" class="tab_card_tab1_show_2"><h3 data-v-0623738c="" class="tab_card_tab1_show_1_h3">涉政识别</h3> <img data-v-0623738c="" src="/dist/politics.png?e7bc0e6a556d5f26f0e863cf89ee4d13" alt="" class="comImg" /> <p data-v-0623738c="" class="comP">深度学习技术神经网络算法和实时更新的亿级图像,视频样本库,可对图片和视频进行识别政治人物,文字信息,敏感政治事件,政治场景鉴别</p> <div data-v-0623738c="" class="tb_btn"><a data-v-0623738c="" href="/imagesensor?scroll=tosensor&amp;head_tab=2" target="_blank">在线体验</a></div></div> <div data-v-0623738c="" class="tab_card_tab1_show_3"><h3 data-v-0623738c="" class="tab_card_tab1_show_1_h3">暴恐识别</h3> <img data-v-0623738c="" src="/dist/terris.png?ffc6d20ddd3127b8a941b72649239973" alt="" class="comImg" /> <p data-v-0623738c="" class="comP">深度学习技术神经网络算法和实时更新的亿级图像,视频样本库,可对图片和视频进行识别暴力,血腥场景及恐怖组织头目,旗帜等涉嫌违禁鉴别。</p> <div data-v-0623738c="" class="tb_btn"><a data-v-0623738c="" href="/imagesensor?scroll=tosensor&amp;head_tab=3" target="_blank">在线体验</a></div></div></div> <!----> <!----> <!----> <!----> <!----> <!----> <!----></div> <div data-v-0623738c="" id="product" class="virtue"><p data-v-0623738c="" class="virtue_product">产品优势</p> <div data-v-0623738c="" class="virtue_list"><div data-v-0623738c=""><div data-v-0623738c="" class="virtue_list_icon1 virtue_list_com"></div> <p data-v-0623738c="" class="virtue_list_p">时效优势</p> <p data-v-0623738c="" class="virtue_list_p2">在本地对图片、视频等内容进行实时审查,无网络传输延时。</p></div> <div data-v-0623738c=""><div data-v-0623738c="" class="virtue_list_icon2 virtue_list_com"></div> <p data-v-0623738c="" class="virtue_list_p">成本优势</p> <p data-v-0623738c="" class="virtue_list_p2">节省数据二次上传所需要的带宽成本。提供本地服务部署专用的低成本高效率AI算力。</p></div> <div data-v-0623738c=""><div data-v-0623738c="" class="virtue_list_icon3 virtue_list_com"></div> <p data-v-0623738c="" class="virtue_list_p">安全优势</p> <p data-v-0623738c="" class="virtue_list_p2">避免数据泄露,数据不需要外传到第三方的内容审查服务器。</p></div></div></div> <div data-v-0623738c="" id="partner" class="partner"><p data-v-0623738c="">战略合作伙伴</p> <div data-v-0623738c="" class="partner_icon1"><div data-v-0623738c="" style="height: 100%;"><img data-v-0623738c="" src="/dist/yiyat5.png?6ecdc05eb07059ef720d985c40016203" alt="怡亚通" /> <p data-v-0623738c="" style="margin-top: 20px;">深圳市怡亚通供应链股份有限公司(简称“怡亚通”)成立于1997年,是中国第一家上市供应链企业(股票代码002183),构建遍布中国380个主要城市及东南亚、美国等10多个主要国家的服务网络,业务领域覆盖快消、IT、通讯、医疗等20多个领域。</p></div> <div data-v-0623738c="" style="height: 100%;"><img data-v-0623738c="" src="/dist/jishijiao1.png?e67117c6abb0412658e0d59cca0c6601" alt="极视角" /> <p data-v-0623738c="">深圳极视角科技有限公司(Extreme Vision)成立于2015年,总部设于中国深圳,是国内首家视觉算法平台。长期致力于开拓人工智能在不同行业及领域的开发与应用,旨在为企业提供最丰富的人工智能算法及解决方案。</p></div> <div data-v-0623738c="" style="height: 100%;"><img data-v-0623738c="" src="/dist/yuan_family.png?9c2cdd5bc1af72cdf5f505cabb345416" alt="元社区" /> <p data-v-0623738c="">元社区为国内价值互联网分布式治理社区的先行者,在全球拥有186个分社区,目前拥有10万线下高净值会员,以建设人工智能及区块链产业生态为入口,运用人工智能及区块链技术及思维,分布式管理运营学习及投资类社群,构建生态合作式孵化平台,提供可信数据及运营模式解决方案,推动实体流通和商业应用。</p></div></div></div> <div data-v-0623738c="" class="company"><p data-v-0623738c="" class="partner_tittle">合作企业</p> <div data-v-0623738c="" class="partner_icon"><div data-v-0623738c=""><img data-v-0623738c="" src="/dist/logo_top3.png?03d9eec6d28a8a9a624dde87041724ca" alt="INVENA" /></div> <div data-v-0623738c=""><img data-v-0623738c="" src="/dist/weipin4.png?df97df74b20a1ede4056350b55d860a3" alt="唯品会" /></div> <div data-v-0623738c=""><img data-v-0623738c="" src="/dist/caihong2.png?9bc6efc60aa023d5b52d6a7ee7381cd9" alt="彩虹无线" /></div> <div data-v-0623738c=""><img data-v-0623738c="" src="/dist/red7.png?99adadcfa143bc37126b40bc5fc4c394" alt="" /></div> <div data-v-0623738c=""><img data-v-0623738c="" src="/dist/JLQ8.png?0362207a4c87e46c3ec05ee8a9f6e75f" alt="" /></div> <div data-v-0623738c=""><img data-v-0623738c="" src="/dist/didi9.png?311774988060a747715ae2fc7fc2e8b8" alt="" /></div> <div data-v-0623738c=""><img data-v-0623738c="" src="/dist/senguok10.png?c3f130e3692f34eaccec58db7b0966e2" alt="" /></div> <div data-v-0623738c=""><img data-v-0623738c="" src="/dist/shenglu11.png?f828765e5a41bcd45f7c98e96c18eef1" alt="" /></div> <div data-v-0623738c=""><img data-v-0623738c="" src="/dist/landun13.png?1ec4c7252091a5681fbbad7355fd57b3" alt="" /></div> <div data-v-0623738c=""><img data-v-0623738c="" src="/dist/sichuan14.png?619b0627791912d06701b9b1c4605fa0" alt="" /></div> <div data-v-0623738c=""><img data-v-0623738c="" src="/dist/hezheng15.png?f5f20bb2cab40c72f26564887729829c" alt="" /></div> <div data-v-0623738c=""><img data-v-0623738c="" src="/dist/api16.png?2ec3715f5e103f488831a3e3ba89774f" alt="" /></div> <div data-v-0623738c=""><img data-v-0623738c="" src="/dist/wosi.png?da98eedd9c47dd199ca637d037547c63" alt="沃思天地" /></div> <div data-v-0623738c=""><img data-v-0623738c="" src="/dist/youhao.png?96b8edd513eec65baf1a1d768e4c0d53" alt="友浩车联网" /></div></div></div></div> <!----></div> <div><footer class="foot container"><div class="footermain"><div class="footer_state"><p class="footer_state_p1">为你的产品定制人工智能</p> <p class="footer_state_p">公司核心AI算法包括:人脸识别、AI美妆、智能导购、姿态识别、鉴黄识别、物体识别、OCR识别、图像分类、图像分割、疲劳驾驶、智能导购等。广泛应用于互联网、安防、零售、工业、公共场所、网络安全等行业。同时基于自主研发的人工智能芯片和算法软件,集成嵌入式AI系统 。打造低成本、低功耗、高性能的人工智能应用平台,为客户提供开放的平台和应用解决方案。</p></div> <div class="QRcode"><p class="QRcode_p" style="margin-bottom: 20px; font-size: 14px; padding-top: 22px;">关注 TEE AI LAB</p> <img src="/dist/QRcode.png?e37c4c18bf7b690c1cbc0d91ea8cdaf2" alt="" /></div> <div class="address"><p class="address_p">公司地址</p> <p>TEE Group Limited(HK)</p> <p>北京梯易易科技有限公司</p> <p style="margin-bottom: 16px; font-size: 12px;">北京市朝阳区朝阳北路237号复星国际中心17层</p> <p>海南梯易易智能科技有限公司深圳分公司</p> <p style="margin-bottom: 16px; font-size: 12px;">深圳市罗湖区京基100大厦写字楼44层01B单元</p> <p>海南梯易易智能科技有限公司</p> <p style="margin-bottom: 37px; font-size: 12px;">海南省老城高新技术产业示范区海南生态软件园A17幢1层</p></div> <div class="touchUs"><p class="touchUs_p1" style="font-size: 14px;">联系我们</p> <p>求职 HR</p> <p style="margin-bottom: 15px;">hr@tee.com</p> <p>商务 BD</p> <p style="margin-bottom: 15px;">bd@tee.com</p> <p>媒体 PR</p> <p style="margin-bottom: 15px;">pr@tee.com</p> <p style="margin-bottom: 10px;">客服 CS</p> <p style="margin-bottom: 5px;"> · 电话:4008061211</p> <p style="margin-bottom: 5px;"> · 邮箱:service@tee.com</p></div></div> <p class="footer_terms">Copyright © 2018 tee.com All rights reserved. | ICP备案号:浙ICP备18035096号</p></footer></div></div><script src="/dist/build.js"></script>
</body></html>
Process finished with exit code 0

question2: 去除html中的标签,这里先说标签,因为这一步是可以站在巨人的肩膀上的,啥意思,当然是一句话解决啦!

直接上代码:

from selenium import webdriver
from pyquery import PyQuerydef main():driver = webdriver.Chrome()driver.get('https://www.tee.com/index')html = driver.page_sourcedoc = PyQuery(html)print(doc.text())if __name__ == '__main__':main()

见证结果:

TEE
.el-breadcrumb:after,.el-breadcrumb:before,.el-button-group:after,.el-button-group:before(此处省略一万字)
Trusted Execution Environment
首页
产品中心
机器视觉
AI智能分板机
AI教育应用
无人物流系统
交通安全
驾驶员状态监测
硬件类/服务类
神经元计算棒
绿盾路由器
内容审核
图像审核
视频审核
人脸技术
人证合一
人脸识别
智能导购
拍照导购
新闻
参考文档
关于TEE
中文
/
English
进入TEE AI
业务内容
内容审查
人脸技术
拍照导购
虚拟试装
美颜美妆
驾驶安全
AIoT产品
智能鉴黄
通过深度学习技术神经网络算法和实时更新的亿级图像,视频样本库,可对图片和视频进行涉黄识别以及色情程度量化。
在线体验
涉政识别
深度学习技术神经网络算法和实时更新的亿级图像,视频样本库,可对图片和视频进行识别政治人物,文字信息,敏感政治事件,政治场景鉴别
在线体验
暴恐识别
深度学习技术神经网络算法和实时更新的亿级图像,视频样本库,可对图片和视频进行识别暴力,血腥场景及恐怖组织头目,旗帜等涉嫌违禁鉴别。
在线体验
产品优势
时效优势
在本地对图片、视频等内容进行实时审查,无网络传输延时。
成本优势
节省数据二次上传所需要的带宽成本。提供本地服务部署专用的低成本高效率AI算力。
安全优势
避免数据泄露,数据不需要外传到第三方的内容审查服务器。
战略合作伙伴
深圳市怡亚通供应链股份有限公司(简称“怡亚通”)成立于1997年,是中国第一家上市供应链企业(股票代码002183),构建遍布中国380个主要城市及东南亚、美国等10多个主要国家的服务网络,业务领域覆盖快消、IT、通讯、医疗等20多个领域。
深圳极视角科技有限公司(Extreme Vision)成立于2015年,总部设于中国深圳,是国内首家视觉算法平台。长期致力于开拓人工智能在不同行业及领域的开发与应用,旨在为企业提供最丰富的人工智能算法及解决方案。
元社区为国内价值互联网分布式治理社区的先行者,在全球拥有186个分社区,目前拥有10万线下高净值会员,以建设人工智能及区块链产业生态为入口,运用人工智能及区块链技术及思维,分布式管理运营学习及投资类社群,构建生态合作式孵化平台,提供可信数据及运营模式解决方案,推动实体流通和商业应用。
合作企业
为你的产品定制人工智能
公司核心AI算法包括:人脸识别、AI美妆、智能导购、姿态识别、鉴黄识别、物体识别、OCR识别、图像分类、图像分割、疲劳驾驶、智能导购等。广泛应用于互联网、安防、零售、工业、公共场所、网络安全等行业。同时基于自主研发的人工智能芯片和算法软件,集成嵌入式AI系统 。打造低成本、低功耗、高性能的人工智能应用平台,为客户提供开放的平台和应用解决方案。
关注 TEE AI LAB
公司地址
TEE Group Limited(HK)
北京梯易易科技有限公司
北京市朝阳区朝阳北路237号复星国际中心17层
海南梯易易智能科技有限公司深圳分公司
深圳市罗湖区京基100大厦写字楼44层01B单元
海南梯易易智能科技有限公司
海南省老城高新技术产业示范区海南生态软件园A17幢1层
联系我们
求职 HR
hr@tee.com
商务 BD
bd@tee.com
媒体 PR
pr@tee.com
客服 CS
· 电话:4008061211
· 邮箱:service@tee.com
Copyright © 2018 tee.com All rights reserved. | ICP备案号:浙ICP备18035096号
Process finished with exit code 0

**question3:**仔细观察结果你会发现那一大坨(就是此处省略一万字的地方)style样式也进来了,并没有过滤掉,那怎么办呢,还是踩在巨人的肩膀上解决它(文本有巨人肩膀的参考链接)

直接上代码

from selenium import webdriver
import re
from pyquery import PyQuerydef main():driver = webdriver.Chrome()driver.get('https://www.tee.com/index')html = driver.page_sourcereturn html#过滤HTML中的标签
# 将HTML中标签等信息去掉
# @param htmlstr HTML字符串.
def filter_tags(htmlstr):# 先过滤CDATAre_cdata = re.compile('//<!\[CDATA\[[^>]*//\]\]>', re.I)  # 匹配CDATAre_script = re.compile('<\s*script[^>]*>[^<]*<\s*/\s*script\s*>', re.I)  # Scriptre_style = re.compile('<\s*style[^>]*>[^<]*<\s*/\s*style\s*>', re.I)  # stylere_br = re.compile('<br\s*?/?>')  # 处理换行re_h = re.compile('</?\w+[^>]*>')  # HTML标签re_comment = re.compile('<!--[^>]*-->')  # HTML注释s = re_cdata.sub('', htmlstr)  # 去掉CDATAs = re_script.sub('', s)  # 去掉SCRIPTs = re_style.sub('', s)  # 去掉styles = re_br.sub('\n', s)  # 将br转换为换行s = re_h.sub('', s)  # 去掉HTML 标签s = re_comment.sub('', s)  # 去掉HTML注释# 去掉多余的空行blank_line = re.compile('\n+')s = blank_line.sub('\n', s)s = replaceCharEntity(s)  # 替换实体return s##替换常用HTML字符实体.
# 使用正常的字符替换HTML中特殊的字符实体.
# 你可以添加新的实体字符到CHAR_ENTITIES中,处理更多HTML字符实体.
# @param htmlstr HTML字符串.
def replaceCharEntity(htmlstr):CHAR_ENTITIES = {'nbsp': ' ', '160': ' ','lt': '<', '60': '<','gt': '>', '62': '>','amp': '&', '38': '&','quot': '"', '34': '"', }re_charEntity = re.compile(r'&#?(?P<name>\w+);')sz = re_charEntity.search(htmlstr)while sz:entity = sz.group()  # entity全称,如&gt;key = sz.group('name')  # 去除&;后entity,如&gt;为gttry:htmlstr = re_charEntity.sub(CHAR_ENTITIES[key], htmlstr, 1)sz = re_charEntity.search(htmlstr)except KeyError:# 以空串代替htmlstr = re_charEntity.sub('', htmlstr, 1)sz = re_charEntity.search(htmlstr)return htmlstrdef repalce(s, re_exp, repl_string):return re_exp.sub(repl_string, s)if __name__ == '__main__':html = main()news = filter_tags(html)print(news)

再来看看这次的结果

    TEETrusted Execution Environment 首页 产品中心 机器视觉 AI智能分板机 AI教育应用 无人物流系统 交通安全 驾驶员状态监测 硬件类/服务类 神经元计算棒 绿盾路由器 内容审核 图像审核 视频审核 人脸技术 人证合一 人脸识别 智能导购 拍照导购 新闻 参考文档 关于TEE 中文/English  进入TEE AI                业务内容 内容审查 人脸技术 拍照导购 虚拟试装 美颜美妆 驾驶安全 AIoT产品 智能鉴黄  通过深度学习技术神经网络算法和实时更新的亿级图像,视频样本库,可对图片和视频进行涉黄识别以及色情程度量化。 在线体验 涉政识别  深度学习技术神经网络算法和实时更新的亿级图像,视频样本库,可对图片和视频进行识别政治人物,文字信息,敏感政治事件,政治场景鉴别 在线体验 暴恐识别  深度学习技术神经网络算法和实时更新的亿级图像,视频样本库,可对图片和视频进行识别暴力,血腥场景及恐怖组织头目,旗帜等涉嫌违禁鉴别。 在线体验        产品优势  时效优势 在本地对图片、视频等内容进行实时审查,无网络传输延时。  成本优势 节省数据二次上传所需要的带宽成本。提供本地服务部署专用的低成本高效率AI算力。  安全优势 避免数据泄露,数据不需要外传到第三方的内容审查服务器。 战略合作伙伴  深圳市怡亚通供应链股份有限公司(简称“怡亚通”)成立于1997年,是中国第一家上市供应链企业(股票代码002183),构建遍布中国380个主要城市及东南亚、美国等10多个主要国家的服务网络,业务领域覆盖快消、IT、通讯、医疗等20多个领域。  深圳极视角科技有限公司(Extreme Vision)成立于2015年,总部设于中国深圳,是国内首家视觉算法平台。长期致力于开拓人工智能在不同行业及领域的开发与应用,旨在为企业提供最丰富的人工智能算法及解决方案。  元社区为国内价值互联网分布式治理社区的先行者,在全球拥有186个分社区,目前拥有10万线下高净值会员,以建设人工智能及区块链产业生态为入口,运用人工智能及区块链技术及思维,分布式管理运营学习及投资类社群,构建生态合作式孵化平台,提供可信数据及运营模式解决方案,推动实体流通和商业应用。 合作企业                为你的产品定制人工智能 公司核心AI算法包括:人脸识别、AI美妆、智能导购、姿态识别、鉴黄识别、物体识别、OCR识别、图像分类、图像分割、疲劳驾驶、智能导购等。广泛应用于互联网、安防、零售、工业、公共场所、网络安全等行业。同时基于自主研发的人工智能芯片和算法软件,集成嵌入式AI系统 。打造低成本、低功耗、高性能的人工智能应用平台,为客户提供开放的平台和应用解决方案。关注 TEE AI LAB公司地址 TEE Group Limited(HK) 北京梯易易科技有限公司 北京市朝阳区朝阳北路237号复星国际中心17层海南梯易易智能科技有限公司深圳分公司 深圳市罗湖区京基100大厦写字楼44层01B单元 海南梯易易智能科技有限公司 海南省老城高新技术产业示范区海南生态软件园A17幢1层 联系我们 求职 HR hr@tee.com 商务 BD bd@tee.com 媒体 PR pr@tee.com 客服 CS  · 电话:4008061211  · 邮箱:service@tee.com Copyright © 2018 tee.com All rights reserved. | ICP备案号:浙ICP备18035096号

是不是看着清爽多了。完事收工!

附上巨人的肩膀
https://gist.github.com/dervn/859717/15b69ef75a04489f3a517b3d4f70c7e97b39d2ec

Python中去除html中的标签,css(style样式)相关推荐

  1. 在mysql中去除字符串中html标签SQL语句集中方法

    在日常开发中,我们会遇到需要在数据库中对通过web网站中文本编辑器提交上来的内容进行一些特殊处理等,此处是针对mysql数据库中去除字符串中的html标签SQL语句. 直接贴上代码: SET GLOB ...

  2. JS JavaScript中去除数组中重复元素的方法

    JS JavaScript中去除数组中重复元素的方法 感觉比较好理解的3种方法,总结一下,大家共同学习 方法一: Array.prototype.method1 = function(){ var a ...

  3. Java中去除String中空格的多种方法

    问题 首先我们先假设需要对一个字符串"hello world!"做分割,去除中间的空格,获取每一个单词的字符串数组words. 方法1 我们最简单也是最容易的方法是使用split对 ...

  4. JS中去除数组中重复元素的方法

    JS中去除数组中重复元素的方法 第一种方法:使用数组中的splice方法 splice():删除元素,并向数组添加新元素,并返回被删除的元素 function f1(){var _arr=[8,5,0 ...

  5. JavaScript正则表达式给html字符串的img标签增加style样式

    平时我们使用正则表达式更多的是提取.过滤等,比如提取html字符串中的图片呀等等,而最近遇到的一个问题是要给html字符串中的img标签增加style样式,就想到了使用正则表达式,主要是对正则表达式的 ...

  6. JS DOM获取标签/元素style样式

    JS DOM获取标签/元素style样式 文章目录 JS DOM获取标签/元素style样式 .style getComputedStyle() .style 只能获取行内样式,不能获取style标签 ...

  7. html字符串img添加style,js 匹配 img标签 增加 style样式

    给img标签增加 style样式: 1.如果img 标签没有style 就先添加style标签 2.添加标签后统一再添加style样式 function imgTagAddStyle (htmlstr ...

  8. Python中去除字符串中空格的四种方法

    一.需求说明 业务需要对Pyhon中的一些字符串内容去除空格,方便后续处理. 二.思路分析 去除空格内容,可以使用去除字符串空格的函数或者直接使用替换函数即可. 三.实现方法 3.1.去除字符串头尾的 ...

  9. php中去除数组中空值,php如何去除数组中空值

    在php中可以使用系统函数"array_filter"去除空值,其语法是"array_filter (参数1,参数2);",此函数是依次将 "参数1& ...

最新文章

  1. 为什么我的电脑上安装不上python-python安装不上
  2. 后盾网lavarel视频项目---lavarel多表关联一对多操作实例
  3. 短视频时代不可忽视的幕后功臣竟然是它!
  4. 关于Eclipse中复制粘贴一个项目后的操作
  5. javascript是一门多线程的语言_Javascript:10天设计一门语言
  6. 2017计算机考试题上机,2017年计算机二级上机考试试题及答案
  7. hash和一致性hash
  8. python 窗口最小化_有没有办法通过Python 3最小化Windows 7中的窗口?
  9. logstash 启动方式
  10. 火线精英显示服务器一断,火线精英bug大全解析
  11. % 取余运算 取模运算
  12. STM8S与IAR程序常用错误
  13. 支付接口对接技术通用方法 第三方四方支付接口对接开发教程API集成服务
  14. 计算机亮度快捷键,调节电脑亮度的快捷键是什么
  15. 关于对游戏帧率的学习
  16. Python将数据写入excel表格中保存
  17. MVC5 + EF6 + Bootstrap3 (14) 分部视图PartialView
  18. oracle16c,Oracle兵器谱上古神器之-KFED-Oracle
  19. mt4怎么样修改服务器,mt4怎样修改服务器地址
  20. 南昌大学数据库实训大作业_南昌大学工程训练实习报告范文

热门文章

  1. notion使用技巧
  2. TimesTen官方博客-中文版和英文版
  3. Matlab镜像建模产生啸叫信号,基于MATLAB有噪声语音信号的处理最终稿(样例3)...
  4. c语言输出问句接受一个答案,浅谈学习C语言的经过
  5. 【Axure高保真原型】刮奖原型
  6. 简谱打谱软件音乐梦想家与作曲大师有什么不同
  7. 微信小程序开发工具模拟器不显示鼠标问题【推荐两方案】
  8. OAuth2.0协议(一) - 授权码许可流程
  9. 苹果计算机系统是什么情况,苹果电脑自动重启是什么原因
  10. matlab第8章,第8章++MATLAB数值积分与微分.ppt