豆瓣读书TOP250书籍信息爬虫脚本

文章目录

一、程序说明
二、程序源码
三、执行结果截图

一、程序说明

本程序可用于爬取豆瓣读书的书籍信息，包括书名、出版社、作者、出版时间及精选评论等。使用时只需修改path参数对应的目录，该路径是用于将爬取结果保存在本地的txt文件中。

二、程序源码

import requests
from bs4 import BeautifulSoup
from time import sleepheaders={'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36'
}
path=r"G:\python_practice\1118\book_infos.txt"def get_one_page(url):res=requests.get(url=url,headers=headers)soup=BeautifulSoup(res.text,'html.parser')#将书名所在的a标签提取出来，存在一个列表里book_name_tags=soup.select('div.pl2 > a')#将书籍其他的信息提取出来，放在一个列表里book_info_tags=soup.select('p.pl')book_comments=soup.select('span.inq')with open(path,'a',encoding='utf-8') as file:for i in range(len(book_name_tags)):print(f'正在提取{url}中的书籍信息。。。')book_name=book_name_tags[i]['title']book_url=book_name_tags[i]['href']book_info_list=book_info_tags[i].text.split('/')book_publisher=book_info_list[-3].strip()book_author=book_info_list[0].strip()try:book_comment=book_comments[i].text.strip()except:book_comment='无'book_published_time=book_info_list[-2]file.write('\n')text=f'书名:《{book_name}》\n链接：{book_url}\n出版社：{book_publisher}\n出版时间：{book_published_time}\n精选评论：{book_comment}\n'file.write(text)def run():for i in range(10):number=i*25url=f'https://book.douban.com/top250?start={number}'get_one_page(url)sleep(0.5)run()
print('执行完毕!')

三、执行结果截图

豆瓣读书TOP250书籍信息爬虫脚本相关推荐

利用正则表达式爬取豆瓣读书top250书籍信息附有详细分析
import csv from lxml import etree import requestsfp=open('C:\\Users\我的电脑\Desktop\doubanbook.csv','wt ...
爬取豆瓣图书Top250书籍信息
小白一个,接触Python一个多月了,自己感觉最有趣的莫过于利用Python进行网络爬虫,原来都是看着别人的博客把代码抄一遍,今天时间稍微多一些,自己写了一个小爬虫,从分析网页源代码开始,一步步对代码 ...
爬虫项目实操三、用scrapy框架爬取豆瓣读书Top250的书名,出版信息和评分
安装方法:Windows:在终端输入命令:pip install scrapy:mac:在终端输入命令:pip3 install scrapy,按下enter键,再输入cd Python,就能跳转到P ...
Java网络爬虫--一步步使用Java网络爬虫技术实现豆瓣读书Top250数据的爬取，并插入数据库
一步步使用Java网络爬虫技术实现豆瓣读书Top250数据的爬取,并插入数据库目录一步步使用Java网络爬虫技术实现豆瓣读书Top250数据的爬取,并插入数据库第一步:创建项目,搭建项目结构 p ...
Requests爬虫实践：豆瓣读书Top250数据
Requests爬虫实践:豆瓣读书Top250数据本次的实践项目是爬取豆瓣读书Top250的书籍名称和网页地址参考书籍:<Python网络爬虫从入门到实践> 书中爬的是电影数据,自己想 ...
python爬虫豆瓣读书top250+数据清洗+数据库+Java后端开发+Echarts数据可视化(一)
由于刚上完了商业智能实训的课程,根据老师的要求我们做了一个完整的项目. 1. 项目要求与内容项目具体要求:利用python爬取数据并进行清洗和预处理,将清洗后的数据存到数据库中,后端利用Java或是 ...
python爬虫豆瓣读书top250+数据清洗+数据库+Java后端开发+Echarts数据可视化(二)
之前的博客已经写了python爬取豆瓣读书top250的相关信息,接下来继续看如何清洗数据. 如果有没看懂的或是不了解上一部分说的是什么内容的,请看https://blog.csdn.net/qq_4 ...
[爬虫系列(二)]爬取豆瓣读书Top250,并保存每本书
这里我们要爬起豆瓣读书Top250,并保存每本书的书名,信息,简要介绍和作者信息. 这里,仍然分为三步: 1.url分析 2.数据分析 3.爬取数据 1.url分析豆瓣读书Top250的ur ...
python爬虫豆瓣读书top250+数据清洗+数据库+Java后端开发+Echarts数据可视化(四)
之前的博客已经写了python爬取豆瓣读书top250的相关信息和清洗数据.将数据导入数据库并创建相应的数据表,以及进行项目准备工作,接下来开始正式编写后台代码. 如果有没看懂的或是不了解上一部分说的 ...
爬虫豆瓣读书top250，保存为本地csv文件
爬虫豆瓣读书top250,保存为本地csv文件目的将豆瓣读书top250排名保存到本地excel,包括书名,作者,评分,评论数,简评,网址.用到了requests,res,BeautifulSou ...

豆瓣读书TOP250书籍信息爬虫脚本

文章目录

一、程序说明

二、程序源码

三、执行结果截图

豆瓣读书TOP250书籍信息爬虫脚本相关推荐

最新文章

热门文章