简述

在看书的时候,看到有soup.find_all中text可以传进去一个正则表达式对应的来筛选。然后,就试试了下还能不能用其他的方法。

除了上面的,可以通过传参数到text,来实现对于文本内容进行筛选,还有下面的这些操作

先用下面的代码,然后有一个输出
代码

from bs4 import BeautifulSoup
import redef gethtml():with open('data.html', 'r') as f:return f.read()if __name__ == '__main__':html = gethtml()soup = BeautifulSoup(html, 'lxml')print(soup.find_all(name='a'))# print(soup.find_all(attrs={'data-src': re.compile('http.*?')}))

输出

[<a class="logo" data-act="icon-click" href="/"></a>, <a class="js-geo-city">广州</a>, <a data-act="home-click" href="/">首页</a>, <a data-act="movies-click" href="/films">电影</a>, <a data-act="cinemas-click" href="/cinemas">影院</a>, <a class="active" data-act="board-click" href="/board">榜单</a>, <a data-act="hotNews-click" href="/news">热点</a>, <a href="javascript:void 0">登录</a>, <a href="/app" target="_blank">
<span class="iphone-icon"></span>
<span class="apptext">APP下载</span>
<span class="caret"></span>
<div class="download-icon">
<p class="down-title">扫码下载APP</p>
<p class="down-content">选座更优惠</p>
</div>
</a>, <a data-act="subnav-click" data-val="{subnavClick:7}" href="/board/7">热映口碑榜</a>, <a data-act="subnav-click" data-val="{subnavClick:6}" href="/board/6">最受期待榜</a>, <a data-act="subnav-click" data-val="{subnavClick:1}" href="/board/1">国内票房榜</a>, <a data-act="subnav-click" data-val="{subnavClick:2}" href="/board/2">北美票房榜</a>, <a class="active" data-act="subnav-click" data-state-val="{subnavId:4}" data-val="{subnavClick:4}" href="javascript:void(0);">TOP100榜</a>, <a class="image-link" data-act="boarditem-click" data-val="{movieId:1203}" href="/films/1203" title="霸王别姬">
<img alt="" class="poster-default" src="//ms0.meituan.net/mywww/image/loading_2.e3d934bf.png"/>
<img alt="霸王别姬" class="board-img" data-src="http://p1.meituan.net/movie/20803f59291c47e1e116c11963ce019e68711.jpg@160w_220h_1e_1c"/>
</a>, <a data-act="boarditem-click" data-val="{movieId:1203}" href="/films/1203" title="霸王别姬">霸王别姬</a>, <a class="image-link" data-act="boarditem-click" data-val="{movieId:1297}" href="/films/1297" title="肖申克的救赎">
<img alt="" class="poster-default" src="//ms0.meituan.net/mywww/image/loading_2.e3d934bf.png"/>
<img alt="肖申克的救赎" class="board-img" data-src="http://p0.meituan.net/movie/__40191813__4767047.jpg@160w_220h_1e_1c"/>
</a>, <a data-act="boarditem-click" data-val="{movieId:1297}" href="/films/1297" title="肖申克的救赎">肖申克的救赎</a>, <a class="image-link" data-act="boarditem-click" data-val="{movieId:2641}" href="/films/2641" title="罗马假日">
<img alt="" class="poster-default" src="//ms0.meituan.net/mywww/image/loading_2.e3d934bf.png"/>
<img alt="罗马假日" class="board-img" data-src="http://p0.meituan.net/movie/23/6009725.jpg@160w_220h_1e_1c"/>
</a>, <a data-act="boarditem-click" data-val="{movieId:2641}" href="/films/2641" title="罗马假日">罗马假日</a>, <a class="image-link" data-act="boarditem-click" data-val="{movieId:4055}" href="/films/4055" title="这个杀手不太冷">
<img alt="" class="poster-default" src="//ms0.meituan.net/mywww/image/loading_2.e3d934bf.png"/>
<img alt="这个杀手不太冷" class="board-img" data-src="http://p0.meituan.net/movie/fc9d78dd2ce84d20e53b6d1ae2eea4fb1515304.jpg@160w_220h_1e_1c"/>
</a>, <a data-act="boarditem-click" data-val="{movieId:4055}" href="/films/4055" title="这个杀手不太冷">这个杀手不太冷</a>, <a class="image-link" data-act="boarditem-click" data-val="{movieId:1247}" href="/films/1247" title="教父">
<img alt="" class="poster-default" src="//ms0.meituan.net/mywww/image/loading_2.e3d934bf.png"/>
<img alt="教父" class="board-img" data-src="http://p0.meituan.net/movie/92/8212889.jpg@160w_220h_1e_1c"/>
</a>, <a data-act="boarditem-click" data-val="{movieId:1247}" href="/films/1247" title="教父">教父</a>, <a class="image-link" data-act="boarditem-click" data-val="{movieId:267}" href="/films/267" title="泰坦尼克号">
<img alt="" class="poster-default" src="//ms0.meituan.net/mywww/image/loading_2.e3d934bf.png"/>
<img alt="泰坦尼克号" class="board-img" data-src="http://p0.meituan.net/movie/11/324629.jpg@160w_220h_1e_1c"/>
</a>, <a data-act="boarditem-click" data-val="{movieId:267}" href="/films/267" title="泰坦尼克号">泰坦尼克号</a>, <a class="image-link" data-act="boarditem-click" data-val="{movieId:123}" href="/films/123" title="龙猫">
<img alt="" class="poster-default" src="//ms0.meituan.net/mywww/image/loading_2.e3d934bf.png"/>
<img alt="龙猫" class="board-img" data-src="http://p0.meituan.net/movie/c8f224ca9939cd9dd58f709c9c4deb0924422.jpg@160w_220h_1e_1c"/>
</a>, <a data-act="boarditem-click" data-val="{movieId:123}" href="/films/123" title="龙猫">龙猫</a>, <a class="image-link" data-act="boarditem-click" data-val="{movieId:837}" href="/films/837" title="唐伯虎点秋香">
<img alt="" class="poster-default" src="//ms0.meituan.net/mywww/image/loading_2.e3d934bf.png"/>
<img alt="唐伯虎点秋香" class="board-img" data-src="http://p0.meituan.net/movie/62/109878.jpg@160w_220h_1e_1c"/>
</a>, <a data-act="boarditem-click" data-val="{movieId:837}" href="/films/837" title="唐伯虎点秋香">唐伯虎点秋香</a>, <a class="image-link" data-act="boarditem-click" data-val="{movieId:2760}" href="/films/2760" title="魂断蓝桥">
<img alt="" class="poster-default" src="//ms0.meituan.net/mywww/image/loading_2.e3d934bf.png"/>
<img alt="魂断蓝桥" class="board-img" data-src="http://p1.meituan.net/movie/94c3a84626fd7650d6891088c4b88e5c27012.jpg@160w_220h_1e_1c"/>
</a>, <a data-act="boarditem-click" data-val="{movieId:2760}" href="/films/2760" title="魂断蓝桥">魂断蓝桥</a>, <a class="image-link" data-act="boarditem-click" data-val="{movieId:1212}" href="/films/1212" title="千与千寻">
<img alt="" class="poster-default" src="//ms0.meituan.net/mywww/image/loading_2.e3d934bf.png"/>
<img alt="千与千寻" class="board-img" data-src="http://p0.meituan.net/movie/b076ce63e9860ecf1ee9839badee5228329384.jpg@160w_220h_1e_1c"/>
</a>, <a data-act="boarditem-click" data-val="{movieId:1212}" href="/films/1212" title="千与千寻">千与千寻</a>, <a class="page_1" href="javascript:void(0);" style="cursor: default">1</a>, <a class="page_2" href="?offset=10">2</a>, <a class="page_3" href="?offset=20">3</a>, <a class="page_4" href="?offset=30">4</a>, <a class="page_5" href="?offset=40">5</a>, <a class="page_10" href="?offset=90">10</a>, <a class="page_2" href="?offset=10">下一页</a>, <a data-query="utm_source=wwwmaoyan" href="http://www.meituan.com" target="_blank">美团网</a>, <a data-query="utm_source=wwwmaoyan" href="http://i.meituan.com/client" target="_blank">美团下载</a>, <a href="https://tsm.miit.gov.cn/pages/EnterpriseSearchList_Portal.aspx?type=0&amp;keyword=京ICP证160733号&amp;pageNo=1" target="_blank">京ICP证160733</a>, <a href="http://www.miibeian.gov.cn" target="_blank">京ICP备16022489-1</a>, <a href="/about/licence" target="_blank">网络文化经营许可证</a>, <a href="http://www.meituan.com/about/rules" target="_blank">电子公告服务规则</a>]

为了提取到img相关的那个有http的链接,有下面的这个操作
代码

from bs4 import BeautifulSoup
import redef gethtml():with open('data.html', 'r') as f:return f.read()if __name__ == '__main__':html = gethtml()soup = BeautifulSoup(html, 'lxml')# print(soup.find_all(name='a'))print(soup.find_all(attrs={'data-src': re.compile('http.*?')}))

输出

[<img alt="霸王别姬" class="board-img" data-src="http://p1.meituan.net/movie/20803f59291c47e1e116c11963ce019e68711.jpg@160w_220h_1e_1c"/>, <img alt="肖申克的救赎" class="board-img" data-src="http://p0.meituan.net/movie/__40191813__4767047.jpg@160w_220h_1e_1c"/>, <img alt="罗马假日" class="board-img" data-src="http://p0.meituan.net/movie/23/6009725.jpg@160w_220h_1e_1c"/>, <img alt="这个杀手不太冷" class="board-img" data-src="http://p0.meituan.net/movie/fc9d78dd2ce84d20e53b6d1ae2eea4fb1515304.jpg@160w_220h_1e_1c"/>, <img alt="教父" class="board-img" data-src="http://p0.meituan.net/movie/92/8212889.jpg@160w_220h_1e_1c"/>, <img alt="泰坦尼克号" class="board-img" data-src="http://p0.meituan.net/movie/11/324629.jpg@160w_220h_1e_1c"/>, <img alt="龙猫" class="board-img" data-src="http://p0.meituan.net/movie/c8f224ca9939cd9dd58f709c9c4deb0924422.jpg@160w_220h_1e_1c"/>, <img alt="唐伯虎点秋香" class="board-img" data-src="http://p0.meituan.net/movie/62/109878.jpg@160w_220h_1e_1c"/>, <img alt="魂断蓝桥" class="board-img" data-src="http://p1.meituan.net/movie/94c3a84626fd7650d6891088c4b88e5c27012.jpg@160w_220h_1e_1c"/>, <img alt="千与千寻" class="board-img" data-src="http://p0.meituan.net/movie/b076ce63e9860ecf1ee9839badee5228329384.jpg@160w_220h_1e_1c"/>]

当然,之前说到的,可以放到筛选text,这里也可以用到。

from bs4 import BeautifulSoup
import redef gethtml():with open('data.html', 'r') as f:return f.read()if __name__ == '__main__':html = gethtml()soup = BeautifulSoup(html, 'lxml')print(soup.find_all(text=re.compile('.*?王.*?')))# print(soup.find_all(attrs={'data-src': re.compile('http.*?')}))

输出是:

['霸王别姬']

数据描述

下面是我爬取到的一个网页的源码(虽然会有js渲染,然后这里其实是不全的)
我把下面的代码存为 data.html 文件

<!DOCTYPE html><!--[if IE 8]><html class="ie8"><![endif]-->
<!--[if IE 9]><html class="ie9"><![endif]-->
<!--[if gt IE 9]><!--><html><!--<![endif]-->
<head><title>TOP100榜 - 猫眼电影 - 一网打尽好电影</title><link rel="dns-prefetch" href="//p0.meituan.net"  /><link rel="dns-prefetch" href="//p1.meituan.net"  /><link rel="dns-prefetch" href="//ms0.meituan.net" /><link rel="dns-prefetch" href="//ms1.meituan.net" /><link rel="dns-prefetch" href="//analytics.meituan.com" /><link rel="dns-prefetch" href="//report.meituan.com" /><link rel="dns-prefetch" href="//frep.meituan.com" /><meta charset="utf-8"><meta name="keywords" content="猫眼电影,电影排行榜,热映口碑榜,最受期待榜,国内票房榜,北美票房榜,猫眼TOP100"><meta name="description" content="猫眼电影热门榜单,包括热映口碑榜,最受期待榜,国内票房榜,北美票房榜,猫眼TOP100,多维度为用户进行选片决策"><meta http-equiv="cleartype" content="yes" /><meta http-equiv="X-UA-Compatible" content="IE=edge" /><meta name="renderer" content="webkit" /><meta name="HandheldFriendly" content="true" /><meta name="format-detection" content="email=no" /><meta name="format-detection" content="telephone=no" /><meta name="viewport" content="width=device-width, initial-scale=1"><script>cid = "c_wx6zb55";ci = 20;
val = {"subnavId":4};    window.system = {};window.openPlatform = '';</script><link rel="stylesheet" href="//ms0.meituan.net/mywww/common.4b838ec3.css"/>
<link rel="stylesheet" href="//ms0.meituan.net/mywww/board-index.92a06072.css"/><script src="//ms0.meituan.net/mywww/stat.791ffac0.js"></script><script>if(window.devicePixelRatio >= 2) { document.write('<link rel="stylesheet" href="//ms0.meituan.net/mywww/image-2x.8ba7074d.css"/>') }</script><style>@font-face {font-family:stonefont;src:url('//vfile.meituan.net/colorstone/e75552d5e461df0a901c69c46fb7b04a3168.eot');src:url('//vfile.meituan.net/colorstone/e75552d5e461df0a901c69c46fb7b04a3168.eot?#iefix') format('embedded-opentype'),url('//vfile.meituan.net/colorstone/5bbe83ddc13f62f9ef58c3a11cca4ad62084.woff') format('woff');}.stonefont {font-family:stonefont;}</style>
</head>
<body><div class="header"><div class="header-inner"><a href="/" class="logo" data-act="icon-click"></a><div class="city-container" data-val="{currentcityid:20 }"><div class="city-selected"><div class="city-name">广州<span class="caret"></span></div></div><div class="city-list" data-val="{ localcityid: 20 }"><div class="city-list-header">定位城市:<a class="js-geo-city">广州</a></div></div></div><div class="nav"><ul class="navbar"><li><a href="/" data-act="home-click"  >首页</a></li><li><a href="/films" data-act="movies-click" >电影</a></li><li><a href="/cinemas" data-act="cinemas-click" >影院</a></li> <li><a href="/board" data-act="board-click"  class="active" >榜单</a></li><li><a href="/news" data-act="hotNews-click" >热点</a></li></ul></div><div class="user-info"><div class="user-avatar J-login"><img src="http://p0.meituan.net/movie/7dd82a16316ab32c8359debdb04396ef2897.png"><span class="caret"></span><ul class="user-menu"><li><a href="javascript:void 0">登录</a></li></ul></div></div><form action="/query" target="_blank" class="search-form" data-actform="search-click"><input name="kw" class="search" type="search" maxlength="32" placeholder="找影视剧、影人、影院" autocomplete="off"><input class="submit" type="submit" value=""></form><div class="app-download"><a href="/app" target="_blank"><span class="iphone-icon"></span><span class="apptext">APP下载</span><span class="caret"></span><div class="download-icon"><p class="down-title">扫码下载APP</p><p class='down-content'>选座更优惠</p></div></a></div></div>
</div>
<div class="header-placeholder"></div><div class="subnav"><ul class="navbar"><li><a data-act="subnav-click" data-val="{subnavClick:7}"href="/board/7">热映口碑榜</a></li><li><a data-act="subnav-click" data-val="{subnavClick:6}"href="/board/6">最受期待榜</a></li><li><a data-act="subnav-click" data-val="{subnavClick:1}"href="/board/1">国内票房榜</a></li><li><a data-act="subnav-click" data-val="{subnavClick:2}"href="/board/2">北美票房榜</a></li><li><a data-act="subnav-click" data-val="{subnavClick:4}"data-state-val="{subnavId:4}"class="active" href="javascript:void(0);">TOP100榜</a></li></ul>
</div><div class="container" id="app" class="page-board/index" ><div class="content"><div class="wrapper"><div class="main"><p class="update-time">2018-06-14<span class="has-fresh-text">已更新</span></p><p class="board-content">榜单规则:将猫眼电影库中的经典影片,按照评分和评分人数从高到低综合排序取前100名,每天上午10点更新。相关数据来源于“猫眼电影库”。</p><dl class="board-wrapper"><dd><i class="board-index board-index-1">1</i><a href="/films/1203" title="霸王别姬" class="image-link" data-act="boarditem-click" data-val="{movieId:1203}"><img src="//ms0.meituan.net/mywww/image/loading_2.e3d934bf.png" alt="" class="poster-default" /><img data-src="http://p1.meituan.net/movie/20803f59291c47e1e116c11963ce019e68711.jpg@160w_220h_1e_1c" alt="霸王别姬" class="board-img" /></a><div class="board-item-main"><div class="board-item-content"><div class="movie-item-info"><p class="name"><a href="/films/1203" title="霸王别姬" data-act="boarditem-click" data-val="{movieId:1203}">霸王别姬</a></p><p class="star">主演:张国荣,张丰毅,巩俐</p>
<p class="releasetime">上映时间:1993-01-01(中国香港)</p>    </div><div class="movie-item-number score-num">
<p class="score"><i class="integer">9.</i><i class="fraction">6</i></p>        </div></div></div></dd><dd><i class="board-index board-index-2">2</i><a href="/films/1297" title="肖申克的救赎" class="image-link" data-act="boarditem-click" data-val="{movieId:1297}"><img src="//ms0.meituan.net/mywww/image/loading_2.e3d934bf.png" alt="" class="poster-default" /><img data-src="http://p0.meituan.net/movie/__40191813__4767047.jpg@160w_220h_1e_1c" alt="肖申克的救赎" class="board-img" /></a><div class="board-item-main"><div class="board-item-content"><div class="movie-item-info"><p class="name"><a href="/films/1297" title="肖申克的救赎" data-act="boarditem-click" data-val="{movieId:1297}">肖申克的救赎</a></p><p class="star">主演:蒂姆·罗宾斯,摩根·弗里曼,鲍勃·冈顿</p>
<p class="releasetime">上映时间:1994-10-14(美国)</p>    </div><div class="movie-item-number score-num">
<p class="score"><i class="integer">9.</i><i class="fraction">5</i></p>        </div></div></div></dd><dd><i class="board-index board-index-3">3</i><a href="/films/2641" title="罗马假日" class="image-link" data-act="boarditem-click" data-val="{movieId:2641}"><img src="//ms0.meituan.net/mywww/image/loading_2.e3d934bf.png" alt="" class="poster-default" /><img data-src="http://p0.meituan.net/movie/23/6009725.jpg@160w_220h_1e_1c" alt="罗马假日" class="board-img" /></a><div class="board-item-main"><div class="board-item-content"><div class="movie-item-info"><p class="name"><a href="/films/2641" title="罗马假日" data-act="boarditem-click" data-val="{movieId:2641}">罗马假日</a></p><p class="star">主演:格利高利·派克,奥黛丽·赫本,埃迪·艾伯特</p>
<p class="releasetime">上映时间:1953-09-02(美国)</p>    </div><div class="movie-item-number score-num">
<p class="score"><i class="integer">9.</i><i class="fraction">1</i></p>        </div></div></div></dd><dd><i class="board-index board-index-4">4</i><a href="/films/4055" title="这个杀手不太冷" class="image-link" data-act="boarditem-click" data-val="{movieId:4055}"><img src="//ms0.meituan.net/mywww/image/loading_2.e3d934bf.png" alt="" class="poster-default" /><img data-src="http://p0.meituan.net/movie/fc9d78dd2ce84d20e53b6d1ae2eea4fb1515304.jpg@160w_220h_1e_1c" alt="这个杀手不太冷" class="board-img" /></a><div class="board-item-main"><div class="board-item-content"><div class="movie-item-info"><p class="name"><a href="/films/4055" title="这个杀手不太冷" data-act="boarditem-click" data-val="{movieId:4055}">这个杀手不太冷</a></p><p class="star">主演:让·雷诺,加里·奥德曼,娜塔莉·波特曼</p>
<p class="releasetime">上映时间:1994-09-14(法国)</p>    </div><div class="movie-item-number score-num">
<p class="score"><i class="integer">9.</i><i class="fraction">5</i></p>        </div></div></div></dd><dd><i class="board-index board-index-5">5</i><a href="/films/1247" title="教父" class="image-link" data-act="boarditem-click" data-val="{movieId:1247}"><img src="//ms0.meituan.net/mywww/image/loading_2.e3d934bf.png" alt="" class="poster-default" /><img data-src="http://p0.meituan.net/movie/92/8212889.jpg@160w_220h_1e_1c" alt="教父" class="board-img" /></a><div class="board-item-main"><div class="board-item-content"><div class="movie-item-info"><p class="name"><a href="/films/1247" title="教父" data-act="boarditem-click" data-val="{movieId:1247}">教父</a></p><p class="star">主演:马龙·白兰度,阿尔·帕西诺,詹姆斯·肯恩</p>
<p class="releasetime">上映时间:1972-03-24(美国)</p>    </div><div class="movie-item-number score-num">
<p class="score"><i class="integer">9.</i><i class="fraction">3</i></p>        </div></div></div></dd><dd><i class="board-index board-index-6">6</i><a href="/films/267" title="泰坦尼克号" class="image-link" data-act="boarditem-click" data-val="{movieId:267}"><img src="//ms0.meituan.net/mywww/image/loading_2.e3d934bf.png" alt="" class="poster-default" /><img data-src="http://p0.meituan.net/movie/11/324629.jpg@160w_220h_1e_1c" alt="泰坦尼克号" class="board-img" /></a><div class="board-item-main"><div class="board-item-content"><div class="movie-item-info"><p class="name"><a href="/films/267" title="泰坦尼克号" data-act="boarditem-click" data-val="{movieId:267}">泰坦尼克号</a></p><p class="star">主演:莱昂纳多·迪卡普里奥,凯特·温丝莱特,比利·赞恩</p>
<p class="releasetime">上映时间:1998-04-03</p>    </div><div class="movie-item-number score-num">
<p class="score"><i class="integer">9.</i><i class="fraction">5</i></p>        </div></div></div></dd><dd><i class="board-index board-index-7">7</i><a href="/films/123" title="龙猫" class="image-link" data-act="boarditem-click" data-val="{movieId:123}"><img src="//ms0.meituan.net/mywww/image/loading_2.e3d934bf.png" alt="" class="poster-default" /><img data-src="http://p0.meituan.net/movie/c8f224ca9939cd9dd58f709c9c4deb0924422.jpg@160w_220h_1e_1c" alt="龙猫" class="board-img" /></a><div class="board-item-main"><div class="board-item-content"><div class="movie-item-info"><p class="name"><a href="/films/123" title="龙猫" data-act="boarditem-click" data-val="{movieId:123}">龙猫</a></p><p class="star">主演:日高法子,坂本千夏,糸井重里</p>
<p class="releasetime">上映时间:1988-04-16(日本)</p>    </div><div class="movie-item-number score-num">
<p class="score"><i class="integer">9.</i><i class="fraction">2</i></p>        </div></div></div></dd><dd><i class="board-index board-index-8">8</i><a href="/films/837" title="唐伯虎点秋香" class="image-link" data-act="boarditem-click" data-val="{movieId:837}"><img src="//ms0.meituan.net/mywww/image/loading_2.e3d934bf.png" alt="" class="poster-default" /><img data-src="http://p0.meituan.net/movie/62/109878.jpg@160w_220h_1e_1c" alt="唐伯虎点秋香" class="board-img" /></a><div class="board-item-main"><div class="board-item-content"><div class="movie-item-info"><p class="name"><a href="/films/837" title="唐伯虎点秋香" data-act="boarditem-click" data-val="{movieId:837}">唐伯虎点秋香</a></p><p class="star">主演:周星驰,巩俐,郑佩佩</p>
<p class="releasetime">上映时间:1993-07-01(中国香港)</p>    </div><div class="movie-item-number score-num">
<p class="score"><i class="integer">9.</i><i class="fraction">2</i></p>        </div></div></div></dd><dd><i class="board-index board-index-9">9</i><a href="/films/2760" title="魂断蓝桥" class="image-link" data-act="boarditem-click" data-val="{movieId:2760}"><img src="//ms0.meituan.net/mywww/image/loading_2.e3d934bf.png" alt="" class="poster-default" /><img data-src="http://p1.meituan.net/movie/94c3a84626fd7650d6891088c4b88e5c27012.jpg@160w_220h_1e_1c" alt="魂断蓝桥" class="board-img" /></a><div class="board-item-main"><div class="board-item-content"><div class="movie-item-info"><p class="name"><a href="/films/2760" title="魂断蓝桥" data-act="boarditem-click" data-val="{movieId:2760}">魂断蓝桥</a></p><p class="star">主演:费雯·丽,罗伯特·泰勒,露塞尔·沃特森</p>
<p class="releasetime">上映时间:1940-05-17(美国)</p>    </div><div class="movie-item-number score-num">
<p class="score"><i class="integer">9.</i><i class="fraction">2</i></p>        </div></div></div></dd><dd><i class="board-index board-index-10">10</i><a href="/films/1212" title="千与千寻" class="image-link" data-act="boarditem-click" data-val="{movieId:1212}"><img src="//ms0.meituan.net/mywww/image/loading_2.e3d934bf.png" alt="" class="poster-default" /><img data-src="http://p0.meituan.net/movie/b076ce63e9860ecf1ee9839badee5228329384.jpg@160w_220h_1e_1c" alt="千与千寻" class="board-img" /></a><div class="board-item-main"><div class="board-item-content"><div class="movie-item-info"><p class="name"><a href="/films/1212" title="千与千寻" data-act="boarditem-click" data-val="{movieId:1212}">千与千寻</a></p><p class="star">主演:柊瑠美,入野自由,夏木真理</p>
<p class="releasetime">上映时间:2001-07-20(日本)</p>    </div><div class="movie-item-number score-num">
<p class="score"><i class="integer">9.</i><i class="fraction">3</i></p>        </div></div></div></dd></dl></div><div class="pager-main"><ul class="list-pager"><li class="active"><a class="page_1"href="javascript:void(0);" style="cursor: default">1</a></li><li ><a class="page_2"href="?offset=10">2</a></li><li ><a class="page_3"href="?offset=20">3</a></li><li ><a class="page_4"href="?offset=30">4</a></li><li ><a class="page_5"href="?offset=40">5</a></li><li class="sep">...</li><li ><a class="page_10"href="?offset=90">10</a></li><li>  <a class="page_2"href="?offset=10">下一页</a>
</li>
</ul></div></div>
</div></div>
<div class="footer"><p class="friendly-links">商务合作邮箱:v@maoyan.com客服电话:10105335违法和不良信息举报电话:4006018900<br/>投诉举报邮箱:tousujubao@meituan.com舞弊线索举报邮箱:wubijubao@maoyan.com</p><p class="friendly-links">友情链接 :<a href="http://www.meituan.com" data-query="utm_source=wwwmaoyan" target="_blank">美团网</a><span></span><a href="http://i.meituan.com/client" data-query="utm_source=wwwmaoyan" target="_blank">美团下载</a></p><p>&copy;2016猫眼电影 maoyan.com<a href="https://tsm.miit.gov.cn/pages/EnterpriseSearchList_Portal.aspx?type=0&keyword=京ICP证160733号&pageNo=1" target="_blank">京ICP证160733号</a><a href="http://www.miibeian.gov.cn" target="_blank">京ICP备16022489号-1</a>京公网安备 11010502030881号<a href="/about/licence" target="_blank">网络文化经营许可证</a><a href="http://www.meituan.com/about/rules" target="_blank">电子公告服务规则</a></p><p>北京猫眼文化传媒有限公司</p>
</div><!--[if IE 8]><script src="//ms0.meituan.net/mywww/es5-shim.bbad933f.js"></script><![endif]--><!--[if IE 8]><script src="//ms0.meituan.net/mywww/es5-sham.d6ea26f4.js"></script><![endif]--><script src="//ms0.meituan.net/mywww/common.dc33ab40.js"></script>
<script src="//ms0.meituan.net/mywww/board-index.4aa00764.js"></script>
</body>
</html>

bs4配合上re正则表达式相关推荐

  1. Datawhale--组队学习第12期--python爬虫基础学习---Task02:bs4、xpath和正则表达式(2天)

    二.学习内容 Python网络爬虫四大选择器(正则表达式.BS4.Xpath.CSS)总结 一.正则表达式 正则表达式为我们提供了抓取数据的快捷方式.虽然该正则表达式更容易适应未来变化,但又存在难以构 ...

  2. python3 工作上一些正则表达式

    Python3 replace()方法 实例1 def main():text = 'python3, word!'text1 = text.replace('python3', 'Hello')pr ...

  3. Unity协程截图,WWWForm、WWW配合上传

    先说一下原理.. 截图有两种方法,第一种: Application.CaptureScreenshot(url); 这个API可以截全屏并保存到指定路径 这里我们不采用此方法 下面的代码采用第二种方法 ...

  4. druid 连接池的释放 配合上spring bean销毁_spring boot基于DRUID数据源密码加密及数据源监控实现...

    项目源码路径:https://github.com/Syske/learning-dome-code.git 前言 随着需求和技术的日益革新,spring boot框架是越来越流行,也越来越多地出现在 ...

  5. CloseableHttpClient 和 MultipartFile 配合上传文件

    1 后台 (1)java @RequestMapping(value = "/showapi", method = RequestMethod.POST) public Respo ...

  6. python字典--在key上使用正则表达式

    首先感谢 https://www.icode9.com/content-1-290270.html 最近在做爬虫的时候遇到一个问题: 抓取到的网页源码部分数据如下: <td width=&quo ...

  7. python爬虫-利用requests,bs4获取天天书屋的在线阅读内容并存为txt文档

    大致思路是从该书籍的阅读首页开始,利用request访问网页(利用了代理ip,用户代理伪装),然后将解码获得的文件bs4搜索得到每一章的链接,并且访问他. 这是首页 查看源代码,不难找到存放章节链接的 ...

  8. Hadoop源代码分析之Configuration

    最近也觉得应该仔细的看一下Hadoop的源代码了,以前只是懂得基本的架构了使用,最近在做一个系统,觉得很多东西可以借鉴MapReduce的可扩展性.但是当我们的系统的0.1版本出现的时候才发现我们的配 ...

  9. python中的正则表达式是干嘛的_操作python中的正则表达式(上)

    上次的爬虫最终获取了马蜂窝旅行评论页面的全部内容,其实很多都是无用信息,我们要进行筛选清洗,这就用到了正则表达式,在写爬虫后续之前先大概搞一下正则-- 先上代码吧,今天先搞一小部分: import r ...

最新文章

  1. 深思:如何堂堂正正的做事
  2. python地图 两点距离_使用Python调用百度地图Api获取两地距离
  3. 在CesiumVR基础上实现3D左右立体视觉
  4. 摩拜大数据杀熟?官方:老用户押金的确退款延迟
  5. 爬虫-实现登陆功能-思路-RR网的例子
  6. (56)UART外设驱动协议(一)(第12天)
  7. VMware 发布的版本 Build 与个版本对应关系
  8. sql t-sql_增强的PolyBase SQL 2019-使用t-SQL的外部表
  9. 圆变成长方形什么变了_中班数学教案详案图形变变变含PPT课件
  10. Android 快捷键
  11. OpenCV——SURF特征检测、匹配与对象查找
  12. Web基础知识之Web组件
  13. c语言partition头文件,c – dxvahd.h中的#if WINAPI_FAMILY_PARTITION(WINAPI_PARTITION_DESKTOP)何时成为true头文件...
  14. LeetCode 643. 子数组最大平均数 I(简单)
  15. 京东订单自动评价方法
  16. 深度学习数据增强方法总结
  17. 离散数学第二版计算机系,离散数学 第2版
  18. 用JS解决那些有趣的数学题!
  19. kafka实践(十七): Logi-KafkaManager研究
  20. 正则表达式re之模块函数和编译标志

热门文章

  1. SQL数据库学习之路(五)
  2. Flutter实现动画卡片式Tab导航 | 掘金技术征文
  3. 如何使用visual studio 2017创建C语言项目
  4. 解析:一种合适的数据中心建造方式有多重要?
  5. 【剑指offer】反转链表,C++实现(链表)
  6. Unity3D项目实战笔记(10):Unity3D编译IPA的PostEvents–节约时间利器
  7. Trigger4Orchard
  8. O太多,具体都代表什么呢?
  9. 剑指Offer(Java实现)把二叉树打印成多行
  10. Ubuntu下利用JDK的Keytool配置Tomcat7.0的SSL协议