记得上次分享了一个抓取豆瓣妹子美女图片的脚本,今天给大家分享一个爬取豆瓣读书的源码,也算是做个记录吧,目前已经在学习编程的路上,以后要是想写什么爬虫也可以参考参考自己收藏的一些代码,嗯,虽然我还是个代码小白,不过相信有一天我也能很轻松的写出这样的代码,加油!我不是作者,我只是勤劳的搬运工!

贴出部分代码,源码到文章底部下载:

#!/usr/bin/env python
# encoding: utf-8# 把str编码由ascii改为utf8(或gb18030)
import sys
reload(sys)
sys.setdefaultencoding('utf8')import time
import requests
from bs4 import BeautifulSoupfile_name = 'book_list.txt'
file_content = '' # 最终要写到文件里的内容
file_content += '生成时间:' + time.asctime()def book_spider(book_tag):global file_contenturl = "http://www.douban.com/tag/%s/book" % book_tag
source_code = requests.get(url)# just get the code, no headers or anything
plain_text = source_code.text# BeautifulSoup objects can be sorted through easy
soup = BeautifulSoup(plain_text)title_divide = '\n' + '--' * 30 + '\n' + '--' * 30 + '\n'
file_content += title_divide + '\t' * 4 + \
book_tag + ':' + title_divide
count = 1# 得到书籍列表的soup对象
list_soup = soup.find('div', {'class': 'mod book-list'})for book_info in list_soup.findAll('dd'):
title = book_info.find('a', {'class':'title'}).string.strip()desc = book_info.find('div', {'class':'desc'}).string.strip()
desc_list = desc.split('/')
author_info = '作者/译者: ' + '/'.join(desc_list[0:-3])
pub_info = '出版信息: ' + '/'.join(desc_list[-3:])
rating = book_info.find('span', {'class':'rating_nums'}).string.strip()
file_content += "*%d\t《%s》\t评分:%s\n\t%s\n\t%s\n\n" % (
count, title, rating, author_info, pub_info)
count += 1def do_spider(book_lists):for book_tag in book_lists:
book_spider(book_tag)book_lists = ['心理学','人物传记','中国历史','旅行','生活','科普']
do_spider(book_lists)# 将最终结果写入文件
f = open(file_name, 'w')
f.write(file_content)
f.close()

源码文件说明:

doubanBook:爬取豆瓣读书。只爬取了每个标签类别的首页的图书信息,若稍加修改,可以爬取任意页数的信息。

bookCrawler2:爬取每个热门标签下的书籍基本信息,存储到MySQL中。因为有些数据的格式不符合要求,实际爬取数量为60000+。稍作修改,可以拓展功能,或者做些其他有趣的事情。

bookCrawler3:上一个爬虫的全面升级。只爬取“编程”标签下的书籍,但这次爬取了书籍详情页面和书籍图片,并且使用了多线程,速度提高很多。

bookSearch:另外,在尝试用wxPython做一个图形化的书籍检索页面,更好地利用爬取成果。目前只做了最简单的实现。

getWebpage:保存指定URL的页面到本地。

qiushibaike:爬取糗事百科的内容,输出到命令行。

proxyInfo:爬取某个代理页面的信息,输出到控制台。

基于Python,爬取豆瓣读书源码相关推荐

  1. python爬取豆瓣读书top250并保存xls(含源码)

    python爬取豆瓣读书top250并保存xls(含源码) 又是霍霍豆瓣的一天O(∩_∩)O哈哈~. 目标网站:http://book.douban.com/top250/ 全军出击!!! 首先,按下 ...

  2. python爬取豆瓣读书并进行图形化分析

    python爬取豆瓣读书并进行图形化分析 豆瓣读书网页数据爬取并保存至csv 对数据进行分析并汇成图形 绘制散点图 图形效果展示 以下代码内容大多是团队小伙伴的杰作,而本人只是为了能让更多的人学习到知 ...

  3. python爬取豆瓣读书top250

    python爬取豆瓣读书top250,并保存在本地. 分别用requests+re.requests+xpath 完成 1.requests + re import requests import r ...

  4. python爬取豆瓣读书的书名与简介

    最近写了一个python爬取豆瓣读书的书名与简介的程序,一开始是要爬取当当书名与简介的,由于涉及动态的一些问题,运用了selenium库,也实现了但是爬取速度慢,而且不稳定,出现被目标计算机积极拒绝访 ...

  5. python爬取豆瓣读书简单_Python用16行代码就搞定了爬取豆瓣读书页面

    点击蓝字"python教程"关注我们哟! 我们一直说Python比较简单,代码体量没有别的程序那么大,对于初学者,尤其是零编程基础的初学者来说,感触没有那么明显,那么今天就让你见识 ...

  6. python爬取豆瓣读书简单_Python用16行代码就搞定了爬取豆瓣读书页面!

    我们一直说Python比较简单,代码体量没有别的程序那么大,对于初学者,尤其是零编程基础的初学者来说,感触没有那么明显,那么今天就让你见识一下:爬取豆瓣读书页面,Python用16行代码就搞定了! p ...

  7. python爬取豆瓣读书_用python+selenium抓取豆瓣读书中最受关注图书并按照评分排序...

    抓取豆瓣读书中的(http://book.douban.com/)最受关注图书,按照评分排序,并保存至txt文件中,需要抓取书籍的名称,作者,评分,体裁和一句话评论 方法一:#coding=utf-8 ...

  8. Python爬取豆瓣读书Top250(正则表达式)

    # -*- coding = utf-8 -*- #导入所需库 from bs4 import BeautifulSoup import re import xlwt import urllib.re ...

  9. 源码大公开!Python爬取豆瓣电影Top250源代码,赶紧收藏!

    哈喽~大家好,我是恰恰.不知道是不是有很多小伙伴跟我一样,很喜欢看电影,尤其是那种别人推荐的豆瓣高分电影,所以学Python就有一个好处,用Python爬取豆瓣电影那是分分钟的事,再也不用因为有些电影 ...

最新文章

  1. mysql repair 索引_mysql 创建索引、重建索引、查询索引、删除索引 转自:http://www.phpernote.com/mysql/942.html...
  2. CentOS 阿里云硬盘扩容
  3. Keras之MLPR:利用MLPR算法(1to1+【Input(1)→8(relu)→O(mse)】)实现根据历史航空旅客数量数据集(时间序列数据)预测下月乘客数量问题
  4. [html] 如何实现多行文字梯形排版?
  5. 函数库属于计算机的,API库函数
  6. kendo treeview 修改节点显示值_VBA学习笔记60-1: Treeview控件
  7. Android进阶:自定义视频播放器开发(下)
  8. Redis 的 Sentinel哨兵介绍与源码分析(1):初始化部分
  9. html csv 中文乱码,csv 中文乱码
  10. 初识视觉SLAM:用相机解决定位和建图问题
  11. 希尔密码C语言源代码,希尔密码加密解密(示例代码)
  12. 应届毕业生的户口、档案、三方协议、报到证、见习期、工龄计算、转正定级等重要知识普及!
  13. Linux常用基本命令详解(三)
  14. FPGA源同步时钟输出
  15. 网站徽章shields制作教程
  16. 字节跳动面试题汇总 -- C++后端(含答案)
  17. error2448C语言,VS 报错 error C2448: “main”: 函数样式初始值设定项类似函数定义 问题的解决方法...
  18. java c 转换_由javac完成的任何类型的转换?
  19. 卫星图在线浏览地址大全
  20. 指纹识别所运用的计算机技术,门禁系统的指纹识别功能所运用的计算机技术有哪些...

热门文章

  1. Window Ghosting
  2. keil中解决 ERROR L121: IMPROPER FIXUP问题
  3. 如何拯救你的写作拖延症?
  4. 播放器实战19 Xaudio打开音频
  5. HJ80 整型数组合并(unique)
  6. Downcast for Mac(视频播客软件)教程
  7. IP、TCP和HTTP
  8. 偷偷爆料下各公司年终奖!(30日最新版)
  9. 2022年中国高性能计算机发展现状分析与展望
  10. 把Qos扯到排队论上去