文章目录

  • 一、程序说明
  • 二、程序源码
  • 三、执行结果截图

一、程序说明

本程序可用于爬取豆瓣读书的书籍信息,包括书名、出版社、作者、出版时间及精选评论等。使用时只需修改path参数对应的目录,该路径是用于将爬取结果保存在本地的txt文件中。


二、程序源码

import requests
from bs4 import BeautifulSoup
from time import sleepheaders={'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36'
}
path=r"G:\python_practice\1118\book_infos.txt"def get_one_page(url):res=requests.get(url=url,headers=headers)soup=BeautifulSoup(res.text,'html.parser')#将书名所在的a标签提取出来,存在一个列表里book_name_tags=soup.select('div.pl2 > a')#将书籍其他的信息提取出来,放在一个列表里book_info_tags=soup.select('p.pl')book_comments=soup.select('span.inq')with open(path,'a',encoding='utf-8') as file:for i in range(len(book_name_tags)):print(f'正在提取{url}中的书籍信息。。。')book_name=book_name_tags[i]['title']book_url=book_name_tags[i]['href']book_info_list=book_info_tags[i].text.split('/')book_publisher=book_info_list[-3].strip()book_author=book_info_list[0].strip()try:book_comment=book_comments[i].text.strip()except:book_comment='无'book_published_time=book_info_list[-2]file.write('\n')text=f'书名:《{book_name}》\n链接:{book_url}\n出版社:{book_publisher}\n出版时间:{book_published_time}\n精选评论:{book_comment}\n'file.write(text)def run():for i in range(10):number=i*25url=f'https://book.douban.com/top250?start={number}'get_one_page(url)sleep(0.5)run()
print('执行完毕!')

三、执行结果截图

豆瓣读书TOP250书籍信息爬虫脚本相关推荐

  1. 利用正则表达式爬取豆瓣读书top250书籍信息 附有详细分析

    import csv from lxml import etree import requestsfp=open('C:\\Users\我的电脑\Desktop\doubanbook.csv','wt ...

  2. 爬取豆瓣图书Top250书籍信息

    小白一个,接触Python一个多月了,自己感觉最有趣的莫过于利用Python进行网络爬虫,原来都是看着别人的博客把代码抄一遍,今天时间稍微多一些,自己写了一个小爬虫,从分析网页源代码开始,一步步对代码 ...

  3. 爬虫项目实操三、用scrapy框架爬取豆瓣读书Top250的书名,出版信息和评分

    安装方法:Windows:在终端输入命令:pip install scrapy:mac:在终端输入命令:pip3 install scrapy,按下enter键,再输入cd Python,就能跳转到P ...

  4. Java网络爬虫--一步步使用Java网络爬虫技术实现豆瓣读书Top250数据的爬取,并插入数据库

    一步步使用Java网络爬虫技术实现豆瓣读书Top250数据的爬取,并插入数据库 目录 一步步使用Java网络爬虫技术实现豆瓣读书Top250数据的爬取,并插入数据库 第一步:创建项目,搭建项目结构 p ...

  5. Requests爬虫实践:豆瓣读书Top250数据

    Requests爬虫实践:豆瓣读书Top250数据 本次的实践项目是爬取豆瓣读书Top250的书籍名称和网页地址 参考书籍:<Python网络爬虫从入门到实践> 书中爬的是电影数据,自己想 ...

  6. python爬虫豆瓣读书top250+数据清洗+数据库+Java后端开发+Echarts数据可视化(一)

    由于刚上完了商业智能实训的课程,根据老师的要求我们做了一个完整的项目. 1. 项目要求与内容 项目具体要求:利用python爬取数据并进行清洗和预处理,将清洗后的数据存到数据库中,后端利用Java或是 ...

  7. python爬虫豆瓣读书top250+数据清洗+数据库+Java后端开发+Echarts数据可视化(二)

    之前的博客已经写了python爬取豆瓣读书top250的相关信息,接下来继续看如何清洗数据. 如果有没看懂的或是不了解上一部分说的是什么内容的,请看https://blog.csdn.net/qq_4 ...

  8. [爬虫系列(二)]爬取豆瓣读书Top250,并保存每本书

    这里我们要爬起豆瓣读书Top250,并保存每本书的书名,信息,简要介绍和作者信息.  这里,仍然分为三步:  1.url分析  2.数据分析  3.爬取数据 1.url分析 豆瓣读书Top250的ur ...

  9. python爬虫豆瓣读书top250+数据清洗+数据库+Java后端开发+Echarts数据可视化(四)

    之前的博客已经写了python爬取豆瓣读书top250的相关信息和清洗数据.将数据导入数据库并创建相应的数据表,以及进行项目准备工作,接下来开始正式编写后台代码. 如果有没看懂的或是不了解上一部分说的 ...

  10. 爬虫豆瓣读书top250,保存为本地csv文件

    爬虫豆瓣读书top250,保存为本地csv文件 目的 将豆瓣读书top250排名保存到本地excel,包括书名,作者,评分,评论数,简评,网址.用到了requests,res,BeautifulSou ...

最新文章

  1. php putcontent,PHP函数file_get_content及file_put_content介绍
  2. 如何将C#nullable int转换为int
  3. Hadoop系列六:Hadoop之HBase篇
  4. android android studio单元测试实例
  5. 有关“双重检查锁定失效”的说明
  6. 机房日常技术总结——Windows篇
  7. REVERSE-PRACTICE-BUUCTF-20
  8. 数据结构树4-二叉搜索树2
  9. java常用设计模式七:装饰模式
  10. 基于JAVA+SpringMVC+Mybatis+MYSQL的快递预取件查询系统
  11. LeetCode(136)——只出现一次的数字(JavaScript)
  12. 组建一个局域网一般会用到哪些设备_朋友私信一个简单的问题:端口和网关到底有什么区别?...
  13. c 语言dll源码查看,易语言DLL函数查看器源码
  14. 对称密钥算法与非对称密钥算法
  15. android中pdf转换成图片格式,Android-PDF转图片
  16. unity地图路径编辑器
  17. 数论 | 秦九韶算法(Horner法则)
  18. js连接蓝牙打印机打印一维码和二维码
  19. 思科三层交换机不同vlan互通_cisco(三层交换和动态路由,不同vlan间的通信,静态路由实现全网互通)...
  20. umi+dva dva全局的dispatch方法

热门文章

  1. 公交线路换乘代码PHP,北京公共交通集团-|线路查询|公交换乘|商务班车|定制公交|公交e路通|实时公交...
  2. 126邮箱stmp服务器,网易邮箱开启13周年庆 与3.2亿用户共享快乐
  3. WireShark和Fidder进行网络抓包并对协议进行验证
  4. 服务器数据抓包(原来微信图片真的可以抓包看的)
  5. TJUPT 无法与服务器建立连接问题的解决方法
  6. 鸿蒙判后而成意思,花果山就藏有长生不老之物,老猴王咋不说实情反让悟空出海求仙?...
  7. 15PB三周年创业感悟及献礼
  8. 在Apple Watch上了解时间旅行
  9. 做项目管理有pmp证书了,到底有没有必要再考个prince2?
  10. ott运营商的盈利模式