爬取豆瓣250本书籍
爬虫爬取豆瓣top250书籍并保存进.txt文件
使用的工具:pycharm
使用的包:requests,bs4,time
以下是本次爬取的代码
import requests
from bs4 import BeautifulSoup
import time
#发送请求
def request_dangdang(url,headers):
try:
response = requests.get (url,headers=headers)
if response.status_code==200:
return response.text
except requests.RequestException:
return None
#解析文件
def parse_result(soup):
contents=soup.find(class_=‘article’).find_all(name=‘table’,width=‘100%’)#.get_text().replace(’ ‘, ‘’).replace(’\n’,’ ').strip()
for item in contents:item_bookname=item.find(name='div',class_='pl2').find(name='a').get_text().replace('\n','').replace(' ','')item_author=item.find(name='p',class_='pl').get_text()item_pl=item.find(name='span',class_='pl').get_text().replace('\n',' ').replace(' ','')try:item_inq=item.find(name='span',class_='inq').get_text()except:item_inq=str(None)write_file(item_bookname+' '+item_author+' '+item_pl+' '+item_inq)
写入文件
def write_file(file):
print (‘正在写入数据===>’ +file)
with open(‘book.txt’,‘a’,encoding=‘utf-8’) as f:
f.write(file+’\n’)
def main(page):
url=‘https://book.douban.com/top250?start=’+str(page*25)
headers={‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36’}
html=request_dangdang(url,headers)
soup=BeautifulSoup(html,‘lxml’)
parse_result(soup)
if name==‘main’:
for i in range(0,11):
main(i)
time.sleep(0.2)
如想要源代码的话自行下载
链接:https://pan.baidu.com/s/1443K-Ot6PQ_VSgZRyfZa-A
提取码:9y6z
爬取豆瓣250本书籍相关推荐
- 使用request和re爬取豆瓣250排行榜信息
1.1 请求 请求,也就是由客户端发出,可以分成4部分:请求方法.请求的网址.请求头.请求体. 常见的请求方法有两种:GET和POST. 在浏览器里直接输入URL然后回车,这就发起了一个GET请求,请 ...
- Python 爬取豆瓣电影、书籍、音乐Top250
成果 源码 import requests from bs4 import BeautifulSoupfrom WebWorm.RandomHeader import getRandomHeader ...
- python爬取豆瓣250排行榜数据
学习python之余,想列一个观影清单,每次上豆瓣搜太麻烦了,就爬取一个清单自己使用吧. 直接上代码: coding:"utf-8" import requests import ...
- 基于xpath,多线程,爬取豆瓣250电影的海报
完成过程 准备阶段 python 3.7编译环境 操作过程 通过requests获取网页源代码 通过xpath对网页关键信息进行提取 通过concurrent.futures模块增加多线程 对比单线程 ...
- Python爬虫爬取豆瓣不同分类书籍详细信息
文章目录 1.问题来源 2.爬虫代码的组成 3.代码实现 4.运行结果 1.问题来源 这学期有一门软件开发实战的课程,我们组在做一个书籍交易平台.既然是书籍交易平台重要的图书的获取肯定必不可少,而豆瓣 ...
- 利用正则表达式爬取豆瓣读书top250书籍信息 附有详细分析
import csv from lxml import etree import requestsfp=open('C:\\Users\我的电脑\Desktop\doubanbook.csv','wt ...
- 爬取豆瓣图书Top250书籍信息
小白一个,接触Python一个多月了,自己感觉最有趣的莫过于利用Python进行网络爬虫,原来都是看着别人的博客把代码抄一遍,今天时间稍微多一些,自己写了一个小爬虫,从分析网页源代码开始,一步步对代码 ...
- 爬取豆瓣短评并输出词云
说明: 爬取豆瓣电影,书籍,音乐(可选择)的所有短评信息,最终筛选出现频率最高的100词生成词云.但是我这个写的有点问题是,在挂代理ip测试时把豆瓣账号永久封禁,造成了电影短评无法全部获取,但书籍,和 ...
- 爬虫实战-爬取豆瓣读书书籍信息
1. 豆瓣读书书籍种类列表 在下面这个URL, 我们可以获得所有的种类链接 https://book.douban.com/tag/ 如下图: 可以通过bs4和re库进行筛选, 得到所有图书种类, 结 ...
- python爬取豆瓣图书top250_「豆瓣读书250」爬取豆瓣TOP250书单 - seo实验室
豆瓣读书250 小白学习爬虫 爬取豆瓣TOP250的书,正好本人也喜欢看书 思路分析: https://book.douban.com/top250这是TOP250第一页的链接 https://boo ...
最新文章
- 私有5g网络_欧洲通过FUDGE5G的启动来支持工业4.0的云原生私有5G
- 在哪里学python比较好-学Python从哪里开始?
- 五个举措:现代化Jenkins 和终结“Jenkinsteins”
- EJB3.0开发环境的搭建
- python 没找到库_这十个Python常用库,学习Python的你必须要知道!
- 对永磁无刷电机的调速过程
- BZOJ[1051]受欢迎的牛
- sql中的遇到的有问题的
- onbeforeunload与onunlond的区别
- gensim读取已训练模型LDA模型的模型与dictionary
- 【Warning】Unity2021.1将不兼容之前版本ECS
- Google 今天抽风了!
- python csv写入 不以科学计数法_【Python与GIS】聊聊Python与数据——上(三)
- 倾斜摄影测量三维实景建模
- Python穷举法破解密码
- 【华为OD机试真题 JAVA】竖直四子棋
- Android开发俄罗斯方块
- websocket+cdn架构部署
- Design Compiler知识点汇总
- 【博学谷学习记录】超强总结,用心分享 | 产品经理之AAARR模型和RFM模型
热门文章
- unity中旋转的总结
- 制作u盘winpe启动盘_绿色、无捆绑的优启通U盘启动盘制作工具
- jQuery仿百度商桥在线客服代码
- 6U VPX数据存储板学习资料保存:基于6U VPX 的mSATA高性能数据存储板
- python NLP英式英语和美式英语的转换
- Linux内核子系统---内存管理子系统、进程管理子系统
- 安全需求可划分为物理安全、网络安全、系统安全和应用安全,下面的安全需求中属于系统安全的是(67),属于应用安全的是(68)。...
- jsx怎么往js里传参数_JSX详解
- 试验设计[实验设计]
- 【整理】【原创】 什么是一维表,什么是二维表?----不同于 1维数组,2维数组