爬虫爬取豆瓣top250书籍并保存进.txt文件

使用的工具：pycharm

使用的包:requests,bs4，time

以下是本次爬取的代码

import requests
from bs4 import BeautifulSoup
import time

#发送请求
def request_dangdang(url,headers):
try:
response = requests.get (url,headers=headers)
if response.status_code==200:
return response.text
except requests.RequestException:
return None

#解析文件
def parse_result(soup):
contents=soup.find(class_=‘article’).find_all(name=‘table’,width=‘100%’)#.get_text().replace(’ ‘, ‘’).replace(’\n’,’ ').strip()

for item in contents:item_bookname=item.find(name='div',class_='pl2').find(name='a').get_text().replace('\n','').replace(' ','')item_author=item.find(name='p',class_='pl').get_text()item_pl=item.find(name='span',class_='pl').get_text().replace('\n',' ').replace(' ','')try:item_inq=item.find(name='span',class_='inq').get_text()except:item_inq=str(None)write_file(item_bookname+' '+item_author+' '+item_pl+' '+item_inq)

写入文件

def write_file(file):
print (‘正在写入数据===>’ +file)
with open(‘book.txt’,‘a’,encoding=‘utf-8’) as f:
f.write(file+’\n’)
def main(page):
url=‘https://book.douban.com/top250?start=’+str(page*25)
headers={‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36’}
html=request_dangdang(url,headers)
soup=BeautifulSoup(html,‘lxml’)
parse_result(soup)

if name==‘main’:
for i in range(0,11):
main(i)
time.sleep(0.2)

如想要源代码的话自行下载
链接：https://pan.baidu.com/s/1443K-Ot6PQ_VSgZRyfZa-A
提取码：9y6z

爬取豆瓣250本书籍相关推荐

使用request和re爬取豆瓣250排行榜信息
1.1 请求请求,也就是由客户端发出,可以分成4部分:请求方法.请求的网址.请求头.请求体. 常见的请求方法有两种:GET和POST. 在浏览器里直接输入URL然后回车,这就发起了一个GET请求,请 ...
Python 爬取豆瓣电影、书籍、音乐Top250
成果源码 import requests from bs4 import BeautifulSoupfrom WebWorm.RandomHeader import getRandomHeader ...
python爬取豆瓣250排行榜数据
学习python之余,想列一个观影清单,每次上豆瓣搜太麻烦了,就爬取一个清单自己使用吧. 直接上代码: coding:"utf-8" import requests import ...
基于xpath，多线程，爬取豆瓣250电影的海报
完成过程准备阶段 python 3.7编译环境操作过程通过requests获取网页源代码通过xpath对网页关键信息进行提取通过concurrent.futures模块增加多线程对比单线程 ...
Python爬虫爬取豆瓣不同分类书籍详细信息
文章目录 1.问题来源 2.爬虫代码的组成 3.代码实现 4.运行结果 1.问题来源这学期有一门软件开发实战的课程,我们组在做一个书籍交易平台.既然是书籍交易平台重要的图书的获取肯定必不可少,而豆瓣 ...
利用正则表达式爬取豆瓣读书top250书籍信息附有详细分析
import csv from lxml import etree import requestsfp=open('C:\\Users\我的电脑\Desktop\doubanbook.csv','wt ...
爬取豆瓣图书Top250书籍信息
小白一个,接触Python一个多月了,自己感觉最有趣的莫过于利用Python进行网络爬虫,原来都是看着别人的博客把代码抄一遍,今天时间稍微多一些,自己写了一个小爬虫,从分析网页源代码开始,一步步对代码 ...
爬取豆瓣短评并输出词云
说明: 爬取豆瓣电影,书籍,音乐(可选择)的所有短评信息,最终筛选出现频率最高的100词生成词云.但是我这个写的有点问题是,在挂代理ip测试时把豆瓣账号永久封禁,造成了电影短评无法全部获取,但书籍,和 ...
爬虫实战-爬取豆瓣读书书籍信息
1. 豆瓣读书书籍种类列表在下面这个URL, 我们可以获得所有的种类链接 https://book.douban.com/tag/ 如下图: 可以通过bs4和re库进行筛选, 得到所有图书种类, 结 ...
python爬取豆瓣图书top250_「豆瓣读书250」爬取豆瓣TOP250书单 - seo实验室
豆瓣读书250 小白学习爬虫爬取豆瓣TOP250的书,正好本人也喜欢看书思路分析: https://book.douban.com/top250这是TOP250第一页的链接 https://boo ...

爬取豆瓣250本书籍

写入文件

爬取豆瓣250本书籍相关推荐

最新文章

热门文章