一、写在前面

最近看新闻说圣城家园(SCG)倒了,之前BT天堂倒了,暴风影音也不行了,可以说看个电影越来越费力,国内大厂如企鹅和爱奇艺最近也出现一些幺蛾子,虽然目前版权意识虽然越来越强,但是很多资源在这些主流视频网站上面依然没有,我平时看电影又习惯下载下来再看,所以每次看电影找资源就很麻烦,花了点时间,于是就有了这个程序。

二、目的

输入一部电影的名字,帮我到BT之家上面看看有没有,如果有就把下载链接复制给我。

三、设计思路

入门Python其实很容易,但是我们要去坚持学习,每一天坚持很困难,我相信很多人学了一个星期就放弃了,为什么呢?其实没有好的学习资料给你去学习,你们是很难坚持的,这是小编收集的Python入门学习资料关注,转发,私信小编“01”,即可免费领取!希望对你们有帮助

本来想的是直接爬取首页最近发布的电影,然后取判断有没有,后来想了一下,为什么不直接使用网站的搜索功能呢?

四、开始爬虫

4.1.分析网站

打开网站搜索一个结果,发现在网址里面直接修改链接的内容就能到达搜索页面,那这样就更简单。

先让用户输入一部电影的名字,直接生成链接。

# 要求输入电影名inputname = input('' + '请输入您要搜索的电影:')# 链接是用网站的搜索功能url = "http://www.6btbtt.com/search-index-keyword-" + inputname + ".htm"

接下来再看搜索结果是什么样的,使用审查元素看看,就会看到搜索结果里面电影名字和链接会在一个a标签里面,类型为subject_link thread-old read

至此网站就分析完成了

4.2.开始爬取过程

刚才已经得到了电影名和网站,那么下面直接获得搜索结果页面的内容就行,用requests获取内容,获取后顺便用beautifulsoup解析一下,解析后的东西就是有格式的,这样才能进行下一步操作。

# 获取网页内容并用beautifulsoup解析一下soup = BeautifulSoup(requests.get(url).text,'lxml')# 给出找到第一个结果,网站搜索结果就是把最新的排在前面,所以一个结果就够了movies = soup.find('a','subject_link thread-old')

然而现在我们是得到一段内容,它不光包含电影标题和链接,还包含其他的东西,我们要做的就是把电影标题和链接分别提取出来。

# 直接输出电影和链接try:    link = movies.get('href')    name = movies.text  ####这里用的是text,因为标签下面还有标签,是string无法获取文本内容    print('' + name)    print(link + '')except:    print("没有找到这部电影或程序发生未知错误")

这里用try和except来捕捉程序反馈,就是说假如获取的内容有问题,那程序不崩溃,就执行其他的或者进行下一步操作

至此,我们已经得到了电影和链接了,爬虫过程也算结束了。

4.3判断爬取结果和用户输入

由于电影标题出来包含真正的电影名还包含清晰度、年代、格式等等这些信息,通常是这样的

[BT下载][小丑][BD- MKV/2.12GB][英语中英字幕][1080P][DC年度精彩大片蓝光版]

这些我们都不要,在把它分割出来,单独取出电影名字,分割方法就是前面是 “下载][” 后面是“][”,取中间文本就可以。

# 这是用于从网页的电影标题里面分割出真正的电影名def get_str_btw(s,f,b):    par = s.partition(f)    return (par[2].partition(b))[0][:]try:    mname = (get_str_btw(name,"下载][","]["))except:    print("无法匹配搜索结果")

单独取出电影名字后进行比对,这里只是简单地进行文字匹配,本来应该可以多爬取几个结果,然后模糊搜索进行匹配的。

# 判断输入的和获取到的电影名字是否匹配if mname == inputname:    print("电影有啦!链接已复制!祝您观影愉快!" + '')    pyperclip.copy(link)else:    print("我给您找到了这个!")

最后再加上一个让程序运行完等一下的命令

# 程序执行完不要马上关闭窗口os.system("pause")

至此,这个程序就完成了。

运行截图

五:注意事项

5.1.导入模块的时候如果发现不能导入,可能是缺少c++运行库,去下载官方工具安装就行;

5.2网站里面看似相同的元素标签可能不同,比如那个热门电影和新电影标签不一样,一开始遍历爬取的时候发现总是报错;

5.3一定要用tryexcept来避免出现意外;

程序可能没有意义,但生命不息,折腾不止。

beautifulsoup爬取网页中的表格_Python爬虫爬取BT之家找电影资源相关推荐

  1. beautifulsoup爬取网页中的表格_PYTHON爬取数据储存到excel

    PYTHON爬取数据储存到excel 大家周末好呀,我是滑稽君.前两天上网课时朋友发来消息说需要爬取一些数据,然后储存到excel里.记得我公众号里发过关于爬虫的文章,所以找我帮个忙.于是滑稽君花时间 ...

  2. python爬虫网页中的图片_Python爬虫爬取一个网页上的图片地址实例代码

    本文实例主要是实现爬取一个网页上的图片地址,具体如下. 读取一个网页的源代码: import urllib.request def getHtml(url): html=urllib.request. ...

  3. python找电影资源_Python爬虫爬取BT之家找电影资源

    head.jpg 一.写在前面 最近看新闻说圣城家园(SCG)倒了,之前BT天堂倒了,暴风影音也不行了,可以说看个电影越来越费力,国内大厂如企鹅和爱奇艺最近也出现一些幺蛾子,虽然目前版权意识虽然越来越 ...

  4. python爬电影资源_Python爬虫爬取BT之家找电影资源

    一.写在前面 最近看新闻说圣城家园(SCG)倒了,之前BT天堂倒了,暴风影音也不行了,可以说看个电影越来越费力,国内大厂如企鹅和爱奇艺最近也出现一些幺蛾子,虽然目前版权意识虽然越来越强,但是很多资源在 ...

  5. Python爬虫爬取BT之家找电影资源

    一.写在前面 圣城家园(SCG)倒了BT天堂倒了,暴风影音也不行了,可以说看个电影越来越费力,国内大厂如企鹅和爱奇艺最近也出现一些幺蛾子,虽然目前版权意识虽然越来越强,但是很多资源在这些主流视频网站上 ...

  6. beautifulsoup爬取网页中的表格_python爬取哔哩哔哩网页弹幕内容,并将爬取的内容以五角星的形式显示出来...

    转载:03 爬虫实例-获取网页弹幕内容 思路: 向哔哩哔哩网站发送请求 请求成功后,解析爬取的弹幕内容保存到一个文件中 读取文件并分析弹幕内容中词组或文字出现的频率 将这些词组或文字组成五角星图形 组 ...

  7. r语言html爬虫,如何用R语言爬取网页中的表格

    今天我们要讲怎么样用R写一个小的爬虫,来爬取网页中的表格.这里的网页指html页面.稍微百度一下大家就可以知道,html是一种高度结构化的文本标记语言.html表格所用的标签是 . 所以我们的思路大概 ...

  8. java抓取页面表格_用java实现爬虫抓取网页中的表格数据功能源码

    [实例简介] 使用java代码基于MyEclipse开发环境实现爬虫抓取网页中的表格数据,将抓取到的数据在控制台打印出来,需要后续处理的话可以在打印的地方对数据进行操作.包解压后导入MyEclipse ...

  9. beautifulsoup爬取网页中的表格_用 Python 爬取网页

    来自公众号:优达学城Udacity 作者:Kerry Parker 编译:欧剃 作为数据科学家的第一个任务,就是做网页爬取.那时候,我对使用代码从网站上获取数据这项技术完全一无所知,它偏偏又是最有逻辑 ...

最新文章

  1. linux 查找清理大文件
  2. Linux Rootkit 系列二:基于修改 sys_call_table 的系统调用挂钩
  3. bminfowindow是什么_三步实现地图自定义InfoWindow
  4. C/C 宏替换详解
  5. 语言nomogram校准曲线图_R语言实现Cox模型校准度曲线绘制
  6. Mac AndroidStudio常用快捷键
  7. procreate 笔刷_插画学习必备:2000款Procreate大师级笔刷,超级强大,免费领取
  8. redis-shake简介
  9. python立即关机_“python怎么控制计算机关机“python自动关机教程
  10. Oracle BIEE 链接oracle 数据库的问题,报:Check if 'Oracle OCI 10G' database client is installed
  11. Swift开发:使用SwiftyJSON解析JSON数据
  12. 金蝶K3案例教程目录2022
  13. 【事件相机整理】信号处理、噪声与滤波
  14. html盒子背景图,CSS盒子模型以及背景图
  15. 计算机图形学:光线追踪原理(ray tracing)
  16. win7系统ftp服务器密码修改,win7ftp服务器设置用户名密码设置
  17. centos7 安装 nextcloud 教程
  18. html5如何快速选择工具,Photoshop教程:在PS中如何使用快速选择工具建立有效选区...
  19. Tikz作图教程:两个漂亮的示意图,兼谈 Tikz 中的文本框——node 的高级用法
  20. 计算机二级电子商务考试内容,电子商务师考试内容

热门文章

  1. MQTT Version 3.1.1——OASIS Standard
  2. matlab 不规则三角网,不规则三角网(TIN)
  3. 2021年陕西省安全员C证及陕西省安全员C证证考试
  4. 程序人生----- hello的生命历程
  5. Unity Shader - 实现类似镜面反射、水面扰动效果
  6. 儿时的动画,你看过那些?-起步时期
  7. watch2e升级鸿蒙,华为Watch GT 2e全新升级,长达两周的续航可有点秀?
  8. Block VC陈九:做区块链行业的“寿星”而不是“明星”
  9. Flutter web加载慢问题优化和解决方案
  10. 2023计算机毕业设计SSM最新选题之java企业员工培训管理系统2q63c