爬虫爬取豆瓣top250书籍并保存进.txt文件

使用的工具:pycharm

使用的包:requests,bs4,time

以下是本次爬取的代码

import requests
from bs4 import BeautifulSoup
import time

#发送请求
def request_dangdang(url,headers):
try:
response = requests.get (url,headers=headers)
if response.status_code==200:
return response.text
except requests.RequestException:
return None

#解析文件
def parse_result(soup):
contents=soup.find(class_=‘article’).find_all(name=‘table’,width=‘100%’)#.get_text().replace(’ ‘, ‘’).replace(’\n’,’ ').strip()

for item in contents:item_bookname=item.find(name='div',class_='pl2').find(name='a').get_text().replace('\n','').replace(' ','')item_author=item.find(name='p',class_='pl').get_text()item_pl=item.find(name='span',class_='pl').get_text().replace('\n',' ').replace(' ','')try:item_inq=item.find(name='span',class_='inq').get_text()except:item_inq=str(None)write_file(item_bookname+' '+item_author+' '+item_pl+' '+item_inq)

写入文件

def write_file(file):
print (‘正在写入数据===>’ +file)
with open(‘book.txt’,‘a’,encoding=‘utf-8’) as f:
f.write(file+’\n’)
def main(page):
url=‘https://book.douban.com/top250?start=’+str(page*25)
headers={‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36’}
html=request_dangdang(url,headers)
soup=BeautifulSoup(html,‘lxml’)
parse_result(soup)

if name==‘main’:
for i in range(0,11):
main(i)
time.sleep(0.2)

如想要源代码的话自行下载
链接:https://pan.baidu.com/s/1443K-Ot6PQ_VSgZRyfZa-A
提取码:9y6z

爬取豆瓣250本书籍相关推荐

  1. 使用request和re爬取豆瓣250排行榜信息

    1.1 请求 请求,也就是由客户端发出,可以分成4部分:请求方法.请求的网址.请求头.请求体. 常见的请求方法有两种:GET和POST. 在浏览器里直接输入URL然后回车,这就发起了一个GET请求,请 ...

  2. Python 爬取豆瓣电影、书籍、音乐Top250

    成果 源码 import requests from bs4 import BeautifulSoupfrom WebWorm.RandomHeader import getRandomHeader ...

  3. python爬取豆瓣250排行榜数据

    学习python之余,想列一个观影清单,每次上豆瓣搜太麻烦了,就爬取一个清单自己使用吧. 直接上代码: coding:"utf-8" import requests import ...

  4. 基于xpath,多线程,爬取豆瓣250电影的海报

    完成过程 准备阶段 python 3.7编译环境 操作过程 通过requests获取网页源代码 通过xpath对网页关键信息进行提取 通过concurrent.futures模块增加多线程 对比单线程 ...

  5. Python爬虫爬取豆瓣不同分类书籍详细信息

    文章目录 1.问题来源 2.爬虫代码的组成 3.代码实现 4.运行结果 1.问题来源 这学期有一门软件开发实战的课程,我们组在做一个书籍交易平台.既然是书籍交易平台重要的图书的获取肯定必不可少,而豆瓣 ...

  6. 利用正则表达式爬取豆瓣读书top250书籍信息 附有详细分析

    import csv from lxml import etree import requestsfp=open('C:\\Users\我的电脑\Desktop\doubanbook.csv','wt ...

  7. 爬取豆瓣图书Top250书籍信息

    小白一个,接触Python一个多月了,自己感觉最有趣的莫过于利用Python进行网络爬虫,原来都是看着别人的博客把代码抄一遍,今天时间稍微多一些,自己写了一个小爬虫,从分析网页源代码开始,一步步对代码 ...

  8. 爬取豆瓣短评并输出词云

    说明: 爬取豆瓣电影,书籍,音乐(可选择)的所有短评信息,最终筛选出现频率最高的100词生成词云.但是我这个写的有点问题是,在挂代理ip测试时把豆瓣账号永久封禁,造成了电影短评无法全部获取,但书籍,和 ...

  9. 爬虫实战-爬取豆瓣读书书籍信息

    1. 豆瓣读书书籍种类列表 在下面这个URL, 我们可以获得所有的种类链接 https://book.douban.com/tag/ 如下图: 可以通过bs4和re库进行筛选, 得到所有图书种类, 结 ...

  10. python爬取豆瓣图书top250_「豆瓣读书250」爬取豆瓣TOP250书单 - seo实验室

    豆瓣读书250 小白学习爬虫 爬取豆瓣TOP250的书,正好本人也喜欢看书 思路分析: https://book.douban.com/top250这是TOP250第一页的链接 https://boo ...

最新文章

  1. 私有5g网络_欧洲通过FUDGE5G的启动来支持工业4.0的云原生私有5G
  2. 在哪里学python比较好-学Python从哪里开始?
  3. 五个举措:现代化Jenkins 和终结“Jenkinsteins”
  4. EJB3.0开发环境的搭建
  5. python 没找到库_这十个Python常用库,学习Python的你必须要知道!
  6. 对永磁无刷电机的调速过程
  7. BZOJ[1051]受欢迎的牛
  8. sql中的遇到的有问题的
  9. onbeforeunload与onunlond的区别
  10. gensim读取已训练模型LDA模型的模型与dictionary
  11. 【Warning】Unity2021.1将不兼容之前版本ECS
  12. Google 今天抽风了!
  13. python csv写入 不以科学计数法_【Python与GIS】聊聊Python与数据——上(三)
  14. 倾斜摄影测量三维实景建模
  15. Python穷举法破解密码
  16. 【华为OD机试真题 JAVA】竖直四子棋
  17. Android开发俄罗斯方块
  18. websocket+cdn架构部署
  19. Design Compiler知识点汇总
  20. 【博学谷学习记录】超强总结,用心分享 | 产品经理之AAARR模型和RFM模型

热门文章

  1. unity中旋转的总结
  2. 制作u盘winpe启动盘_绿色、无捆绑的优启通U盘启动盘制作工具
  3. jQuery仿百度商桥在线客服代码
  4. 6U VPX数据存储板学习资料保存:基于6U VPX 的mSATA高性能数据存储板
  5. python NLP英式英语和美式英语的转换
  6. Linux内核子系统---内存管理子系统、进程管理子系统
  7. 安全需求可划分为物理安全、网络安全、系统安全和应用安全,下面的安全需求中属于系统安全的是(67),属于应用安全的是(68)。...
  8. jsx怎么往js里传参数_JSX详解
  9. 试验设计[实验设计]
  10. 【整理】【原创】 什么是一维表,什么是二维表?----不同于 1维数组,2维数组