python图书搜索与书籍封面下载
自己平日喜欢读书,因此做了一个图书的目录,记录了自己看过的图书的名录如图:
这是一个xslx的文件
下面的代码,查询上面的每一本书,并且下载书籍的封面。需要说明的有:
1. 查询书籍的平台是豆瓣读书
2. 书籍中文名直接嵌入到请求链接时,因为是汉语有浏览器专属的编码问题,因此这里使用了urllib的quote
效果如图:
#!/usr/bin/env python
# -*- coding: UTF-8 -*-
#--author:XiangguoSun
#--2016.12.10from urllib.request import urlopen
from urllib.error import HTTPError
from urllib.request import urlretrieve
from urllib.parse import quote
from bs4 import BeautifulSoup
import redef getTitle(url):try:html=urlopen(url)except HTTPError as e:return Nonetry:bsObj=BeautifulSoup(html.read(),"lxml")title=bsObj.findAll("img",{"src":re.compile(r"https://img3\.doubanio\.com/lpic/.*")})except AttributeError as e:return Nonereturn titledef get_book_picture(bookname):raw_bookname=[]raw_bookname.append(bookname)seed_url = u"https://m.douban.com/search/?query="book=quote(bookname)url=seed_url+book+u"&type=book"print(url)titlelist= getTitle(url)img_url = titlelist[0]["src"]urlretrieve(img_url, 'E:/books/'+'%s'%raw_bookname[0]+'.jpg')print(raw_bookname[0]," save done!")import pandas as pddata= pd.read_excel("./books.xlsx")import time
for bookname in data["bookname"]:print("start to search book: ",bookname)try:get_book_picture(bookname)time.sleep(5)except:with open("./photos.txt",'a') as f:f.write(bookname+'\n')time.sleep(5)
python图书搜索与书籍封面下载相关推荐
- GOOGLE图书搜索
进入地址:http://books.google.com/ Google 图书搜索的前景 我们与作者和出版者签订的开创性协议. 三年前,美国作家协会和美国出版商协会以及少数作家和出版者针对 Googl ...
- kindle操作:传输下载的书籍、更改书籍封面
kindle 可以使用 calibre 软件进行电子书的管理,官网下载地址为: https://calibre-ebook.com/download calibre 是一款电子书管理的开源软件,支持W ...
- python爬取豆瓣书籍、电影等搜索结果,并解析html转成json格式
本文以豆瓣首页搜索图书.电影等结果页面为例,使用python的BeautifulSoup解析页面内标题.作者.出版社.评分.简介.缩略图等内容,并转成json格式进行存储. 声明:本文仅作学习pyth ...
- 用python编写一个简易图书搜索系统
自从买了阅读器以后屯了好多书,为了省地方都打包成一个一个压缩文件,但是这样找起来有点麻烦,所以准备写一个找书用的小jio本. 参考: 1.面对对象编程--用Python写一个图书管理系统https:/ ...
- python学习手册视频教程-Python学习精品教程,视频书籍打包下载
这是Python书籍打包下载的地址,在下载之前,我首先要感谢分享资源的一位朋友(QQ的网名叫:破斧盛粥,非常感谢)链接:https://pan.baidu.com/s/1jMLa3mDcMfX9KaV ...
- python教程视频下载-Python学习精品教程,视频书籍打包下载
这是Python书籍打包下载的地址,在下载之前,我首先要感谢分享资源的一位朋友(QQ的网名叫:破斧盛粥,非常感谢)链接:https://pan.baidu.com/s/1jMLa3mDcMfX9KaV ...
- python B站UP主所有视频封面下载
python B站UP主所有视频封面下载 仅用于个人学习 ''' B站视频封面下载,仅用于个人学习 ''' import requests, math, time, random, re, ossta ...
- python西瓜视频UP主所有视频封面下载
python西瓜视频UP主所有视频封面下载 仅用于个人学习 ''' 西瓜视频封面下载 ''' import requests, time, random, re, osstart = time.tim ...
- 【python爬虫专项(7)】爬虫实战项目一( 豆瓣图书类别的书籍信息数据获取——爬虫逻辑1)
任意一图书类别的书籍信息数据 参考网址:豆瓣读书网 爬虫逻辑:[分页网页url采集]-[数据信息网页url采集]-[数据采集] 针对爬虫逻辑的三步走,采用函数式编程的方式进行数据爬取 函数1: get ...
最新文章
- LeetCode 78 子集 中等难度
- 云炬随笔20171202
- 删除sql下注册服务器
- 广告投手_测量投手隐藏自己的音高的程度
- mysql-初识MySQL
- python 参数_python脚本命令行参数解析
- 史上最大最贵 iPhone 发布,支持双卡双待,附发布会完整视频!
- Python:代码规范和命名规范
- 查看SAP CRM和C4C的UI technical信息 1
- 一起谈.NET技术,Microsoft NLayerApp案例理论与实践 - 项目简介与环境搭建
- Duet Display在PC端无法连接怎么办?
- 《MLB棒球创造营》:走近棒球运动·洛杉矶天使队
- (五)Guarded Suspension模式
- 2021-09-27 网安实验-文件恢复-DiskGenius恢复已删除文件
- 清华计算机专业考研经验谈
- ASP.NET常见命名空间及其功能描述
- 常规神经胶质瘤标志物:ATRX
- 跟着团子学SAP PS: PS模块相关底表 PROJ/PRPS/RPSCO
- 我部门当前的岗位说明书
- eNSP模拟器中NE40E与AR通过Eth-Tunk对接由于hash算法不同导致业务不通问题记录