爬取豆瓣图书Top250书籍信息

小白一个，接触Python一个多月了，自己感觉最有趣的莫过于利用Python进行网络爬虫，原来都是看着别人的博客把代码抄一遍，今天时间稍微多一些，自己写了一个小爬虫，从分析网页源代码开始，一步步对代码进行设计与完善，捣腾了一中午，终于算是成功了，心情还是蛮激动。下面把代码跟大家分享一下。

豆瓣图书Top250网址：https://book.douban.com/top250

1、首先打开Google浏览器开发者模式（F12或者右键点击检查）

2、浏览网页，发现250本图书一共分成了10页，利用开发者工具找到每一页的url

利用Beautifulsoup跟requests获取每一页的url

import requests
import re
from bs4 import BeautifulSoupcontent = requests.get('https://book.douban.com/top250').text
Soup = BeautifulSoup(content,'lxml')
all_url = Soup.find('div',class_='paginator').find_all('a')
list = []
for url in all_url:url = url['href']list.append(url)
use_url = ['https://book.douban.com/top250']
ext_url = list[0:-1]#舍弃最后一个url
use_url.extend(ext_url)#将两个列表合并

3、利用开发者工具查看网页格式

我只抓取了图书的链接、书名以及作者，通过开发者工具发现图书的信息都在table标签里面。

通过正则表达式将信息提取出来

import requests
import re
from bs4 import BeautifulSoupcontent = requests.get('https://book.douban.com/top250').text
Soup = BeautifulSoup(content,'lxml')
all_url = Soup.find('div',class_='paginator').find_all('a')
list = []
for url in all_url:url = url['href']list.append(url)
use_url = ['https://book.douban.com/top250']
ext_url = list[0:-1]#舍弃最后一个url
use_url.extend(ext_url)#将两个列表合并
for i in use_url:response = requests.get(i,'lxml')pattern = re.compile('<table.*?pl2.*?href="(.*?)".*?title="(.*?)".*?pl">(.*?)/.*?</table>',re.S)results = re.findall(pattern,content)for result in results:href,name,author = result#分别对href、name、author进行赋值print(href,name,author.strip())

4、运行程序

注：博主只是个小白，想通过博客记录一下自己学习Python的过程，代码可能有很多不完善的地方，希望能与大家多多交流学习。

爬取豆瓣图书Top250书籍信息相关推荐

利用正则表达式爬取豆瓣读书top250书籍信息附有详细分析
import csv from lxml import etree import requestsfp=open('C:\\Users\我的电脑\Desktop\doubanbook.csv','wt ...
requests 获取div_爬虫系列第五篇使用requests与BeautifulSoup爬取豆瓣图书Top250
上一篇我们学习了BeautifulSoup的基本用法,本节我们使用它来爬取豆瓣图书Top250. 一.网页分析我们爬取的网页的url是https://book.douban.com/top250?i ...
R语言爬取豆瓣图书Top250
新手爬虫,使用R中最简单的读取网页,然后获取所需内容所在行进行解析.下面介绍爬取豆瓣图书Top250的案例. 1.首先,我们知道网页规律为:"http://book.douban.com/t ...
爬取豆瓣电影Top250影片信息
爬取豆瓣电影Top250影片信息查看影片的详细信息爬取过程需安装的包确定爬取地址发送请求头解析数据保存数据完整代码查看影片的详细信息进入豆瓣电影Top250,选择某一影片,右击,选 ...
爬取豆瓣图书top250
爬取豆瓣图书top250 豆瓣网址:https://book.douban.com/top250 豆瓣图书第一页:https://book.douban.com/top250?start=0 豆瓣图书 ...
Python3爬取豆瓣图书Top250并写入txt文件当中
首先简单介绍一下过程 1.解析url 2.获得html文件 3.解析数据 4.写入txt文本(按页写入) 5.上传代码转载前可以备注一下ytouch的名字 '''爬取豆瓣图书前250名''' #au ...
Python3爬取豆瓣图书Top250并存入csv文件中
本文抓取豆瓣图书Top250中的相关资讯,可以练习对于网页结构的分析及提取. 下面先导入相关的包,并伪装成浏览器访问: import requests from lxml import etree i ...
Scrapy爬取豆瓣图书Top250数据，在PowerBI中可视化分析
文章目录项目说明 Scrapy框架网页分析爬虫代码 items spiders pipelines main 爬取结果 PowerBI分析分析结果项目说明近期在学习Python爬虫,看了很 ...
xpath解析爬虫爬取豆瓣图书Top250的数据
这是在学习阶段写的爬虫,爬取的是豆瓣图书Top250榜的名称,作者,评分等数据第一次写文章,如果有什么问题,欢迎各位大佬进行指正,谢谢来踩. 1.首先需要明确自己想要爬取的内容,并在网页中查看数据是 ...

爬取豆瓣图书Top250书籍信息

爬取豆瓣图书Top250书籍信息相关推荐

最新文章

热门文章