querybook.py

from bs4 import BeautifulSoup

from lxml import html

import xml

import requests

import splider

class QuName:

def __init__(self,number):

self.number = number

def getPageNum(self,url):

f = requests.get(url) # Get该网页从而获取该html内容

soup = BeautifulSoup(f.content, "lxml")

try:

pageNum = soup.find('div', class_="pagesnums").find('span').text

print('getPageNum执行成功')

return int(pageNum[3:5])

except:

print('getPageNum执行失败')

finally:

print('___________________________')

def getBookList(self):

for num in range(1,self.number):

pageNum = self.getPageNum('http://www.ting89.com/booklist/'+str(num)+'.html')

self.getBookInfo('http://www.ting89.com/booklist/'+str(num)+'.html')

print('http://www.ting89.com/booklist/'+str(num)+'.html')

for num1 in range(2,pageNum):

self.getBookInfo('http://www.ting89.com/booklist/'+str(num)+'_'+str(num1)+'.html')

print('http://www.ting89.com/booklist/'+str(num)+'_'+str(num1)+'.html')

def getBookInfo(self,url):

f = requests.get(url) # Get该网页从而获取该html内容

soup = BeautifulSoup(f.content, "lxml")

try:

bookList = soup.find('div', class_="clist").findAll('li')

for i in bookList:

imgUrl = i.find('img')

print('书籍封面',imgUrl['src'])

# print('书名:',i.find('b').text)

pList = i.findAll('p')

for j in pList:

print(j.text)

#下载文件

splider.YsSpider(i.find('b').text).download_files()

except:

print('getBookInfo执行失败')

finally:

print('___________________________')

qn = QuName(13) #这里是网站的类别数量(偷了个懒,直接写了个数字)

qn.getBookList()

splider.py

import requests

import urllib

import re

import os

import time

class YsSpider:

def __init__(self, name):

self.search_name = name

self.search_url = "http://www.ting89.com/search.asp?searchword="

self.home_url = "http://www.ting89.com/books/"

self.index_pattern = r""""""

self.chapter_pattern=r"""(.+?)"""

self.down_pattern=r"""url=(.*)/(.+?)\.mp3"""

self.book_id = ''

self.book_name = ''

self.Chapter_list = []

# 返回搜索书目的id

def searchbook(self):

file = requests.get(self.search_url + urllib.parse.quote(self.search_name, encoding='gb2312'))

data = file.content.decode('gbk')

result = re.findall(self.index_pattern, data)

if len(result):

for index, i in enumerate(result):

print('%d.%s'%(index+1,i[1]))

# str = input("输入你要下载的书目名称序号: ")

str = '1'

self.book_name = result[int(str)-1][1]

self.book_id = result[int(str)-1][0]

return self.book_id

else:

print('*******没有找到你输入的相关书籍,请更换后重新运行程序*******')

exit()

def get_chapter_list(self):#获取各章节list和url

data = requests.get(self.home_url+self.searchbook()+'.html').content.decode('gbk')

result = re.findall(self.chapter_pattern, data)

return result

def _getAllUrl(self):# 获得所有的章节的下载地址

chapter_list = self.get_chapter_list()

chapter = [x[0] for x in chapter_list]

self.Chapter_list= [x[1] for x in chapter_list]

_list = [x[1] for x in chapter_list]

data = requests.get("http://www.ting89.com" + chapter[0]).content.decode('gbk')

result = re.findall(self.down_pattern, data)

# return result

return self.sub_get_url(result[0][0],_list, re.search("^0.*1$", result[0][1]))

def sub_get_url(self, down_url, _list, down_url_flag):

url = []

if down_url_flag:

xulie = list(range(len(_list)))

weishu = len(str(xulie[-1]))

for i in xulie:

i1 = i + 1

tmp_url = down_url+'/' + str(i1).zfill(weishu) + '.mp3'

url.append(urllib.request.quote(tmp_url, safe='/:?='))

else:

for item in _list:

tmp_url = down_url + '/'+item + ".mp3"

url.append(urllib.request.quote(tmp_url, safe='/:?='))

return url

# 保存指定URL的文件

def save_a_file(self, url, path, chapter):

try:

print('尝试下载',chapter)

if not os.path.exists(path):

response = requests.get(url)

with open(path, 'wb') as f:

f.write(response.content)

f.close

print(chapter,'保存成功')

response.close()

time.sleep(1)

else:

print('文件已经存在')

except:

print('爬取失败,已下载至',chapter,'即将重新尝试下载')

self.save_a_file(url, path, chapter)

def download_files(self):

result = self._getAllUrl()# 所有的章节对应的下载地址

root = os.path.join(os.getcwd(), self.book_name)

if not os.path.exists(root):

os.mkdir(root)

for index,i in enumerate(result):

path = os.path.join(root, self.Chapter_list[index])+'.mp3'

self.save_a_file(i, path, self.Chapter_list[index])

python爬取有声小说_python写的有声小说爬虫相关推荐

  1. python爬取ppt代码_Python爬取PPT模板小工具

    由于很多PPT抓取工具都会因为版本问题无法使用,所以论坛大神就自己写了这款Python爬取PPT模板小工具,可以帮助用户轻松获取各种PPT模板,使用的时候注意一次只能下载一种类型.软件仅供交流学习,下 ...

  2. python爬取虾米音乐_Python 爬取 620 首虾米歌曲,揭秘五月天为什么狂吸粉?!

    原标题:Python 爬取 620 首虾米歌曲,揭秘五月天为什么狂吸粉?! 来源:Yura不说数据说 作者 :Yura 最近两天,我被朋友圈的五月天粉丝(五迷)疯狂刷屏,"五月天永远陪你到2 ...

  3. python爬取贴吧_python爬取

    python爬取百度贴吧源码,由吾爱大神原创制作,通过python爬虫程序来实现对百度贴吧的回复爬取,可以自动生成excel文件,让你能更加清晰地查看贴吧的回复与帖子信息.本次放出python爬取百度 ...

  4. python爬取房源数据_python爬取安居客二手房网站数据(实例讲解)

    是小打小闹 哈哈,现在开始正式进行爬虫书写首先,需要分析一下要爬取的网站的结构:作为一名河南的学生,那就看看郑州的二手房信息吧! 在上面这个页面中,我们可以看到一条条的房源信息,从中我们发现了什么,发 ...

  5. python爬取豆瓣小组_Python 爬虫实例+爬取豆瓣小组 + wordcloud 制作词云图

    目标 利用PYTHON爬取如下图中所有回答的内容,并且制作词云图. 用到的库 import requests # import json from PIL import Image from pyqu ...

  6. python爬取数据步骤_Python爬虫爬取数据的步骤

    爬虫: 网络爬虫是捜索引擎抓取系统(Baidu.Google等)的重要组成部分.主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份. 步骤: 第一步:获取网页链接 1.观察需要爬取的多 ...

  7. python爬取mysql数据_Python爬取数据并写入MySQL数据库的实例

    Python爬取数据并写入MySQL数据库的实例 来源:中文源码网    浏览: 次    日期:2018年9月2日 [下载文档:  Python爬取数据并写入MySQL数据库的实例.txt ] (友 ...

  8. python爬取歌曲评论_python 爬取歌曲评论的简单示例

    这篇文章主要为大家详细介绍了python 爬取歌曲评论的简单示例,具有一定的参考价值,可以用来参考一下. 感兴趣python 爬取歌曲评论的简单示例的小伙伴,下面一起跟随512笔记的小编罗X来看看吧. ...

  9. python爬取文件归类_python爬取各类文档方法归类汇总

    HTML文档是互联网上的主要文档类型,但还存在如TXT.WORD.excel.PDF.csv等多种类型的文档.网络爬虫不仅需要能够抓取HTML中的敏感信息,也需要有抓取其他类型文档的能力.下面简要记录 ...

  10. python爬取网上文章_python 爬取微信文章

    本人想搞个采集微信文章的网站,无奈实在从微信本生无法找到入口链接,网上翻看了大量的资料,发现大家的做法总体来说大同小异,都是以搜狗为入口.下文是笔者整理的一份python爬取微信文章的代码,有兴趣的欢 ...

最新文章

  1. angularjs源码笔记(3)--injector
  2. 学用 TStringGrid [7] - ColWidths[0]、RowHeights[0]、GridLineWidth
  3. SqlServer2012清除日志文件
  4. 怎么让html 整体加大,让一个Html元素撑满整个屏幕可以这样玩
  5. Servlet与缓存
  6. js遮罩层以及移动端的上拉框
  7. HashMap两种遍历数据的方式
  8. 在线js拼接html代码,关于js拼接html元素?
  9. Mac Nginx 配置 Tomcat 配置 jdk环境变量 Nginx部署服务遇到的坑(3)
  10. mysql 城市二级联动_MYSQL二级联动
  11. 基于二叉链表的二叉树最长路径的求解
  12. 软件开发生命周期的四个阶段
  13. png能转换成html吗,png转化成pdf
  14. 惠普笔记本触摸板失灵
  15. 基于vue+spring的博客系统
  16. 哈勃(Hubble)太空望远镜:人类的大眼睛
  17. C++模拟与高精度——乒乓球
  18. ZYNQ RFSoc开发板-usrp软件无线电X410mini开发板-5G评估板
  19. AppStore的渠道推⼴数据统计问题
  20. ubuntu中安装搜狗拼音输入法

热门文章

  1. 制作表情包(python)
  2. esp8266+arduino+网页配网+温湿度上传+温度控制开关+eeprom永久保存+微信小程序控制
  3. 运营必备九大互联网思维
  4. 小程序源码:笑话段子手-多玩法安装简单
  5. 【线代】线性方程组求解概念:齐次/非齐次方程的解?非零解、无穷多解、求解、求通解、方程有解时求全部解,是什么意思?
  6. GitHub 官宣:弃用 trending 热榜,开发者炸锅了
  7. golang实现微信公众号发红包功能
  8. 《牛奶可乐经济学》读书笔记
  9. 图片怎么识别文字?这几个方法很实用
  10. 大众点评字体_大众点评字体加密