第一步,爬取所有图书标签及分类

到达图书标签页,分类浏览,第一步需要爬取所有分类及其分类下的所有标签
并用dict存储

豆瓣图书标签的链接

需要解析的内容

1.bs4解析

import requests
from bs4 import BeautifulSoupurl = 'https://book.douban.com/tag/?view=type'
tag_dict = {}def get_dict():             #接口,提供这个标签字典return tag_dictr = requests.get(url)
soup = BeautifulSoup(r.text,'lxml')
title = soup.select('div div a h2')     #第一步找到h2标签,因为更细致,a标签就找不到
#然后通过h2标签找到爷爷级标签,就是div盒子了
for i in title:a = i.find_parent()     #找到父亲a标签div = a.find_parent()   #找到父亲divtag_title = a.select('h2')[0].get_text()[:2]    #找到h2标签取出内容并切片取出前两个字tags = div.select('tr td a')    #找到td中的a标签tag_list = []for j in tags:tag_list.append(j.get_text())   #循环取出a标签中的内容tag_dict[tag_title] = tag_listfor i in tag_dict:print(i+':',end='')print(tag_dict[i])
-------------------------------------------------------------------------------
文学 ['小说', '外国文学', '文学', '随笔', '中国文学', '经典', '日本文学', '散文', '村上春树', '诗歌', '童话', '儿童文学', '古典文学', '王小波', '名著', '杂文', '余华', '张爱玲', '当代文学', '钱钟书', '外国名著', '鲁迅', '诗词', '茨威格', '米兰·昆德拉', '杜拉斯', '港台']
流行 ['漫画', '推理', '绘本', '青春', '东野圭吾', '科幻', '言情', '悬疑', '奇幻', '武侠', '日本漫画', '韩寒', '耽美', '推理小说', '亦舒', '网络小说', '三毛', '安妮宝贝', '郭敬明', '穿越', '阿加莎·克里斯蒂', '金庸', '轻小说', '科幻小说', '青春文学', '几米', '魔幻', '幾米', '张小娴', 'J.K.罗琳', '古龙', '高木直子', '沧月', '校园', '落落', '张悦然']
文化 ['历史', '心理学', '哲学', '传记', '文化', '社会学', '艺术', '设计', '社会', '政治', '建筑', '宗教', '电影', '政治学', '数学', '中国历史', '回忆录', '思想', '国学', '人文', '人物传记', '音乐', '艺术史', '绘画', '戏剧', '西方哲学', '二战', '军事', '佛教', '近代史', '考古', '自由主义', '美术']
生活 ['爱情', '旅行', '生活', '成长', '心理', '励志', '女性', '摄影', '职场', '教育', '美食', '游记', '灵修', '健康', '情感', '两性', '人际关系', '手工', '养生', '家居', '自助游']
经管 ['经济学', '管理', '经济', '商业', '金融', '投资', '营销', '创业', '理财', '广告', '股票', '企业史', '策划']
科技 ['科普', '互联网', '编程', '科学', '交互设计', '用户体验', '算法', '科技', 'web', 'UE', '交互', '通信', 'UCD', '神经网络', '程序']

2.re解析

import requests
import reurl = 'https://book.douban.com/tag/?view=type'
tag_dict = {}def get_dict():             #接口,提供这个标签字典return tag_dictr = requests.get(url).text
tag_title = re.findall('<a name="(.*?)".*?tag-title-wrapper', r, re.S)  #直接找到类别
tags = re.findall('table.*?tbody>(.*?)</tbody',r,re.S)  #找到每个div里tbody的内容
tags.remove(tags[0])
for n,i in enumerate(tags):tag_list = re.findall('">(.*?)</a><b',i,re.S)   #在tbody里找到每个a标签的内容tag_dict[tag_title[n]] = tag_listfor i in tag_dict:print(i,tag_dict[i])
-------------------------------------------------------------------------------------------
文学:['小说', '外国文学', '文学', '随笔', '中国文学', '经典', '日本文学', '散文', '村上春树', '诗歌', '童话', '儿童文学', '古典文学', '王小波', '名著', '杂文', '余华', '张爱玲', '当代文学', '钱钟书', '外国名著', '鲁迅', '诗词', '茨威格', '米兰·昆德拉', '杜拉斯', '港台']
流行:['漫画', '推理', '绘本', '青春', '东野圭吾', '科幻', '言情', '悬疑', '奇幻', '武侠', '日本漫画', '韩寒', '耽美', '推理小说', '亦舒', '网络小说', '三毛', '安妮宝贝', '郭敬明', '穿越', '阿加莎·克里斯蒂', '金庸', '轻小说', '科幻小说', '青春文学', '几米', '魔幻', '幾米', '张小娴', 'J.K.罗琳', '古龙', '高木直子', '沧月', '校园', '落落', '张悦然']
文化:['历史', '心理学', '哲学', '传记', '文化', '社会学', '艺术', '设计', '社会', '政治', '建筑', '宗教', '电影', '政治学', '数学', '中国历史', '回忆录', '思想', '国学', '人文', '人物传记', '音乐', '艺术史', '绘画', '戏剧', '西方哲学', '二战', '军事', '佛教', '近代史', '考古', '自由主义', '美术']
生活:['爱情', '旅行', '生活', '成长', '心理', '励志', '女性', '摄影', '职场', '教育', '美食', '游记', '灵修', '健康', '情感', '两性', '人际关系', '手工', '养生', '家居', '自助游']
经管:['经济学', '管理', '经济', '商业', '金融', '投资', '营销', '创业', '理财', '广告', '股票', '企业史', '策划']
科技:['科普', '互联网', '编程', '科学', '交互设计', '用户体验', '算法', '科技', 'web', 'UE', '交互', '通信', 'UCD', '神经网络', '程序']

2.未完待续

python爬虫练习之爬取豆瓣读书所有标签下的书籍信息相关推荐

  1. Python爬虫入门(爬取豆瓣电影信息小结)

    Python爬虫入门(爬取豆瓣电影信息小结) 1.爬虫概念 网络爬虫,是一种按照一定规则,自动抓取互联网信息的程序或脚本.爬虫的本质是模拟浏览器打开网页,获取网页中我们想要的那部分数据. 2.基本流程 ...

  2. Python爬虫入门 | 4 爬取豆瓣TOP250图书信息

      先来看看页面长啥样的:https://book.douban.com/top250   我们将要爬取哪些信息:书名.链接.评分.一句话评价--   1. 爬取单个信息 我们先来尝试爬取书名,利用之 ...

  3. Python爬虫实战(1) | 爬取豆瓣网排名前250的电影(下)

    在Python爬虫实战(1) | 爬取豆瓣网排名前250的电影(上)中,我们最后爬出来的结果不是很完美,这对于"精益求精.追求完美的"程序猿来说怎么能够甘心 所以,今天,用pyth ...

  4. python爬虫——Cookie登录爬取豆瓣短评和影评及常见问题

    python爬虫--Cookie登录爬取豆瓣短评和影评 常见问题(本文已解决) 具体步骤 一.获取网页源码 短评.影评 二.解析网页源码及爬取评论 1.短评网页解析 ①确定位置 2.短评爬取 ①名称爬 ...

  5. Python-爬虫(Scrapy爬虫框架,爬取豆瓣读书和评分)

    文章目录 1.Scrapy注意点 2. Scrapy爬取豆瓣读书和评分 代码部分 数据定义items.py 爬虫部分spiders/book.py 数据存储部分pipelines.py 启动爬虫执行c ...

  6. Python爬虫实战(爬取豆瓣电影)

    首先介绍一下python的几个库,python之所以在实现爬虫方面有独特的优势,在于其类库非常的丰富,基本涵盖了所有的需求,只要找到对应的库进行import,这就类似于Java中导入类库或者jar包那 ...

  7. python爬虫实践之爬取豆瓣高评分电影

    目录 概述 准备 所需模块 涉及知识点 运行效果 完成爬虫 1. 分析网页 2. 爬虫代码 3. 整理总结 概述 爬取豆瓣的高评分的电影. 准备 所需模块 re模块 requests模块 涉及知识点 ...

  8. python爬虫,Scrapy爬取豆瓣电影《芳华》电影短评,分词生成词云图。

    项目github地址:https://github.com/kocor01/scrapy_cloud Python版本为3.6 自己写的简单架构<python爬虫,爬取豆瓣电影<芳华> ...

  9. 笨方法学 python3 豆瓣_python3 爬虫学习:爬取豆瓣读书Top250(一)

    本节课,我们试着来写一个基础的爬虫,来爬取一下豆瓣读书top250的内容:主要涉及的知识就是我们之前讲过的requests库. 网页分析 我们先选取一个待会准备爬取的网站,咱们选个较好爬的网页,豆瓣读 ...

  10. Python爬虫实战 | (3) 爬取豆瓣电影Top250

    在本篇博客中,我们将使用requests+正则表达式来爬取豆瓣电影TOP250电影榜单,获取每部电影的序号.片名.导演.编剧.主演.类型.制作国家/地区.语言.上映日期.片长.又名.豆瓣评分和剧情简介 ...

最新文章

  1. linux shell编程(三) if 和 for
  2. 《和平饭店》藏玄机,如何做用户行为分析专家?
  3. 异步服务_微服务全链路异步化实践
  4. Java中发邮件的6种方法
  5. DataGrip使用入门
  6. mysql手动同步_MySql数据库主从手动同步
  7. 火币辟谣:警惕假冒火币生态链网站
  8. B站,N站,汤站,爬虫下载资源总结与技巧(一)
  9. CSS实现文字竖排效果
  10. Eureka 控制台参数说明
  11. MySQL的jar包下载
  12. 显示器尺寸对照表_常见像素和显示屏大小对照表
  13. 计算机如何引用表格,(Excel如何实现跨文件表引用数据)excel引用其他表格数据路径...
  14. 某策略游戏(SLG)数据分析:新增、付费和活动效果评估
  15. 核磁共振测井设备市场现状及未来发展趋势分析
  16. 5W2H分析法的学习笔记
  17. 网上邻居,详细教您如何打开win7网上邻居
  18. 如何快速通过信息系统管理工程师考试
  19. 苹果手机设置邮箱服务器端口设置,苹果手机邮箱怎样设置
  20. 窦唯与女儿【节选】揭秘男星与女儿之间的奇闻

热门文章

  1. BTA 常问的 Java基础39道常见面试题
  2. 西安电子科技大学计算机考博,西安电子科技大学2017年拟录取申请考核博士生名.PDF...
  3. 使用Sentencepiece +CNN进行文本分类
  4. Spring Boot整合Admin
  5. 智能存储 | 版权保护解决方案
  6. 方正飞鸿:构建中小企业“两化融合”新模式
  7. 1.Spring注解01、组件注册-@Configuration@Bean给容器中注册组件
  8. 陕西副市长猝死,其“豪宅”爆光震惊国人
  9. Linux虚拟网络基础 — Bridge
  10. DDE实现动态数据交换