python爬取BT之家特定频道前5页电影信息(小白操作)
python爬取BT之家特定频道前5页电影信息(小白操作)
想要爬的网页如下,希望得到BT之家恐怖频道的电影信息,并存档xls
代码如下
import requests,openpyxl
wb=openpyxl.Workbook()
#创建工作薄
sheet=wb.active
#获取工作薄的活动表
sheet.title='horror'
#工作表重命名sheet['A1'] ='电影信息' #加表头,给A1单元格赋值from bs4 import BeautifulSoup
#引入request和bsfor x in range(5):url='http://www.7btjia.com/forum-index-fid-1-typeid1-0-typeid2-164-typeid3-0-typeid4-0-page-'+str(x+1)+'.htm'#观察网站翻页结构(此处在Elements用网页的底部页码导航定位代码处,观察不同页码的网址规律)headers={'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'}res=requests.get(url,headers=headers)#发起请求,将响应的结果赋值给变量res。bstitle=BeautifulSoup(res.text,'html.parser')#用bs进行解析films_1=bstitle.findAll(class_='subject_link thread-new')films_2=bstitle.findAll(class_='subject_link thread-old read')films_3=bstitle.findAll(class_='subject_link thread-digest-1 read')films_4=bstitle.findAll(class_='subject_link thread-digest-1')films_5=bstitle.findAll(class_='subject_link thread-old')films=films_1+films_2+films_3+films_4+films_5#提取我们想要的标签和里面的内容for film in films:film_1=str(film)film_2=film_1.split('[BT下载]')film_3=film_2[-1]film_4=film_3.split('</a>')film_5=film_4[0]sheet.append([film_5])#用split分离列表中元素的代码部分(split括号里内容会被删除),再用列表索引定位要提取的文本,重复操作直到删除所有代码wb.save(r'D:\python项目库\horror2.xlsx')
本人新手,且为路人兴趣入坑,写码逻辑非常白痴且冗长,希望下一版能优化。仅此记录爬坑史,欢迎大佬指点/碾压哈哈。
python爬取BT之家特定频道前5页电影信息(小白操作)相关推荐
- PYTHON爬取汽车之家数据
PYTHON爬取汽车之家数据 使用知识 使用BeautifulSoup模块 使用正则表达式 使用到多线程爬取 使用说明 使用前请安装BeauifulSoup 起始页面: https://www.aut ...
- python爬取网站时,一键获取headers、url等信息(真的是让我爬取网站时,省了不少力气,作为小秘密分享给大家喽)
python爬取网站时,一键获取headers.url等信息 (真的是让我爬取网站时,省了不少力气,作为小秘密分享给大家喽) 作为Python的使用者,我今天就和大家来分享分享我学习python的经验 ...
- python爬取汽车之家_python爬虫实战之爬取汽车之家网站上的图片
随着生活水平的提高和快节奏生活的发展.汽车开始慢慢成为人们的必需品,浏览各种汽车网站便成为购买合适.喜欢车辆的前提.例如汽车之家网站中就有最新的报价和图片以及汽车的相关内容,是提供信息最快最全的中国汽 ...
- 用Python爬取2020链家杭州二手房数据
起源于数据挖掘课程设计的需求,参考着17年这位老兄写的代码:https://blog.csdn.net/sinat_36772813/article/details/73497956?utm_medi ...
- Python爬取汽车之家所有车型数据,以后买车就用这个参考了
欢迎点击右上角关注小编,除了分享技术文章之外还有很多福利,私信学习资料可以领取包括不限于Python实战演练.大航海计划.BAT内推.学习资料等. 前言 2018年马上就要过去了,经过一年的奋斗,我相 ...
- python爬取携程机票并发送过滤后的机票信息到指定邮箱
0x0 前言 在疫情发生之前,在知乎上刷到一个回答,说是用服务器实现一个自动爬取机票并将过滤后的机票信息发送到自己的邮箱中,感觉十分有趣.由于疫情原因无法返校,加上家和学校相隔接近3000公里,再加上 ...
- Python爬虫爬取BT之家找电影资源
一.写在前面 圣城家园(SCG)倒了BT天堂倒了,暴风影音也不行了,可以说看个电影越来越费力,国内大厂如企鹅和爱奇艺最近也出现一些幺蛾子,虽然目前版权意识虽然越来越强,但是很多资源在这些主流视频网站上 ...
- python找电影资源_Python爬虫爬取BT之家找电影资源
head.jpg 一.写在前面 最近看新闻说圣城家园(SCG)倒了,之前BT天堂倒了,暴风影音也不行了,可以说看个电影越来越费力,国内大厂如企鹅和爱奇艺最近也出现一些幺蛾子,虽然目前版权意识虽然越来越 ...
- python爬电影资源_Python爬虫爬取BT之家找电影资源
一.写在前面 最近看新闻说圣城家园(SCG)倒了,之前BT天堂倒了,暴风影音也不行了,可以说看个电影越来越费力,国内大厂如企鹅和爱奇艺最近也出现一些幺蛾子,虽然目前版权意识虽然越来越强,但是很多资源在 ...
最新文章
- 用AI变身16岁女孩,抓住40岁违法警察!20岁男大学生钓鱼执法秀翻美国!
- DIY机器人?硬件创新也是潮流
- java jdbc 链接pg_Java零基础教程
- Cambridge eap essay 1
- docker安装nexus3命令
- java中mq组建是什么_Java教程之RabbitMQ介绍
- 函数计算机按键没反应,关于waitKey()函数按键无反应情况
- 车间生产能耗管控方案_SAREN三仁净化工程:锂电池生产车间的设计规范及方案...
- 【软件开发底层知识修炼】二十二 ABI-应用程序二进制接口 二
- 小米POCO X3今日亮相:首发骁龙732G后置6400万四摄
- Could not load file or assembly (Exception from HRESULT: 0x80131047)-解决办法
- RouteDebug.dll
- HDU 2604 Queuing( 递推关系 + 矩阵快速幂 )
- 四平方和蓝桥杯Java_蓝桥杯-四平方和问题
- Java开发技术总结!java实现简单工作流
- java 面试 英语自我介绍
- CrownCAD 注册/登录
- ImportError: Could not import
- 公式编辑器mathType中的公式在word中显示乱码的问题
- IEEE论文检测的字体未嵌入问题Times New Roman,Bold, Times New Roman,Italic is not embedded解决方法