在家闲着,想找点评书听,但找了很久都没找到方便打包下载的地方。于是就拿起自学的python爬虫,自己动手丰衣足食。

运行环境:Windows7,python3.7

操作步骤:

1.打开选好的评书主页面(https://www.5tps.com/html/23602.html),并调出chrome控制台,找到目录列表对应的元素。

2.点开具体回目,筛选具体的音频链接。

可以看到链接:http://psf.tt56w.com:8000/%E5%8D%95%E7%94%B0%E8%8A%B3/%E5%8D%95%E7%94%B0%E8%8A%B3_%E7%A0%B4%E6%99%93%E8%AE%B0(37%E5%9B%9E)/001_A.mp3

是乱码,具体情况是连接中中文转码造成的,可以百度在线的网址进行转码,结果为:

http://psf.tt56w.com:8000/单田芳/单田芳_破晓记(37回)/001_A.mp3

利用相同的原理,再点几个页面,我们可以找到一个规律,这个评书的音频链接命名规则是【http://psf.tt56w.com:8000/单田芳/单田芳_破晓记(37回)/】+【章节的对应元素代码】。

因此只需要爬取主页面目录的元素即可。

代码如下:

from lxml importetreeimportrequests

headers= {"User-Agent" : "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1 Trident/5.0;"}

url=‘https://www.5tps.com/html/23602.html‘html=etree.HTML(requests.get(url,headers=headers).content)

results=html.xpath(‘‘) #音频链接

resultst=html.xpath(‘//ul/li/a/text()‘) #章节名字

for i inrange(len(results)):

results[i]=‘http://psf.tt56w.com:8000/单田芳/单田芳_破晓记(37回)/‘+results[i]

resultst[i]=resultst[i].replace(‘\xa0‘,‘‘)

with open(‘G:\dota\pingshu2\{}.mp3‘.format(resultst[i][1:-1]),‘wb‘) as f:

f.write(requests.get(results[i]).content)#下载并保存,具体保存路径根据需要修改

print(resultst[i][1:-1])print(‘爬取完成!‘)

参考链接:

原文:https://www.cnblogs.com/0n-the-way/p/12317713.html

爬虫爬评书吧_爬虫学习:xpath爬取评书网相关推荐

  1. 爬虫爬评书吧_爬虫 + 小程序 自定义开发一个听书程序

    最近工作之余会听听评书,但主流门户收费加广告着实让人烦躁.作为IT人,怎能如此顺应别人家的产品规则. 下面以 python + taro 为例,写一个爬虫 + 小程序的播放应用: 最终实现的效果如下: ...

  2. 003.[python学习] 简单抓取豆瓣网电影信息程序

    003.[python学习] 简单抓取豆瓣网电影信息程序 声明:本程序仅用于学习爬网页数据,不可用于其它用途. 本程序仍有很多不足之处,请读者不吝赐教. 依赖:本程序依赖BeautifulSoup4和 ...

  3. 爬虫技术python流程图_爬虫学多久能爬取大规模数据!神级程序员:这篇够你学一个月!...

    利用爬虫我们可以获取大量的价值数据,从而获得感性认识中不能得到的信息,比如: 在目标的驱动下,你的学习才会更加精准和高效.那些所有你认为必须的前置知识,都是可以在完成目标的过程中学到的.这里给你一条平 ...

  4. python爬虫大作业爬多少数据_爬虫大作业

    1.选一个自己感兴趣的主题(所有人不能雷同). 2.用python 编写爬虫程序,从网络上爬取相关主题的数据. 3.对爬了的数据进行文本分析,生成词云. 4.对文本分析结果进行解释说明. 5.写一篇完 ...

  5. python爬虫携程酒店_携程酒店爬取分享

    该楼层疑似违规已被系统折叠 隐藏此楼查看此楼 import urllib.request from bs4 import BeautifulSoup import csv import re def ...

  6. python爬虫抖音音浪_爬虫抖音_抖音淘宝联盟入驻条件

    如果你刚开始操作抖音,运营抖音还不懂平台的操作技巧,可以加我的微信:422591055 带你玩转抖音自媒体平台,我还联合了抖音运营的几位大佬,每日分享免费的抖音运营的实操讲解,还可以免费获取到抖音运营 ...

  7. python爬虫实时更新数据_爬虫的增量式抓取和数据更新

    一些想法 页面爬的多了,量上去了之后,就会遇到其他的问题,其实不管做什么技术量大了都会有问题.一般情况下,我认为解决"大量"问题的思路有两个:一种是着力于优化系统的能力,让原本只能 ...

  8. python爬虫工程师工作内容_爬虫岗位职责

    岗位职责: *针对复杂的网站架构主动获取相关数据信息: *负责数据获取.清洗和分析工作. 任职要求: *计算机科学.应用数学.统计学.物理学.天文学.商业分析.信息系统.数据科学或相关专业本科或以上学 ...

  9. python开源爬虫项目违法吗_爬虫究竟是合法还是违法的?

    法律没有对爬虫行为有司法解释,从已有判决案例来看主要是看你数据用途/是否有商业竞争/商业侵权/扰乱破坏对方软件正常经营,而且必须是对方有证据来举证你. 现在已有案例对爬虫的判决依据是<刑法> ...

最新文章

  1. linux关机 hibernate,Linux关机命令
  2. xshell无法连接linux虚拟机问题的解决办法
  3. Windows 8操作技巧之快捷键大全
  4. vertica 数据库 linux,配置访问列式数据库vertica的php环境
  5. IPMP 认证考试知识点
  6. JavaScript综述
  7. [asp.net]自定义控件(数据绑定)
  8. 机器学习入门 | 吴恩达机器学习视频总结01
  9. ArcGIS 软件中路网数据的制作,手把手教学
  10. win10主机远程登录树莓派
  11. 磁盘分区误删怎样恢复?
  12. androidFD泄露问题总结
  13. 中柏平板u盘启动_中柏笔记本一键U盘重装系统教程图解
  14. 2020启智开发者大会精彩来袭,这些公开课不容错过!
  15. 洛谷----P2689 东南西北
  16. Oracle建表语句及日期处理(oracle)
  17. JavaSE编码实操
  18. 戴尔笔记本把计算机弄到桌面,戴尔笔记本电脑可不可以把程序放在桌面上-戴尔笔记本电脑怎么样...
  19. kettle优化之提高MySQL读写速度
  20. iOS中assign和weak修饰符的区别

热门文章

  1. 火绒安全软件(安全防护软件)官方中文版V5.0.59.0 | 火绒安全软件好用吗
  2. 【微课制作软件】Focusky教程 | 设置鼠标单击不进入下一页面
  3. c盘文件被删除怎么可以恢复?找回c盘删除的文件
  4. 微信小程序之 Tabbar(底部选项卡)
  5. 数据库中的escape是什么意思,怎么用的?
  6. 关于时序InSAR的一些总结
  7. nuxt修改启动端口号3000
  8. 50道简单易学的家常菜谱(附图) - 生活至上,美容至尚!
  9. 链接:https://ac.nowcoder.com/acm/problem/22228来源:牛客网题目描述 在给定的数组中删除一个数。输入描述:多组测试。每组第一行输入1个整数n(n
  10. 华为深度学习(第四周)