Python3爬取豆瓣图书Top250并写入txt文件当中

首先简单介绍一下过程

1.解析url

2.获得html文件

3.解析数据

4.写入txt文本（按页写入）

5.上传代码

转载前可以备注一下ytouch的名字

'''爬取豆瓣图书前250名'''
#author :ytouch
#date:2019/4/29import requests
import random
from lxml import etree'''Func:爬取豆瓣信息'''
def getBookInfo(i):#param1:页数url = 'https://book.douban.com/top250?start={}'.format(i*25) #输入对应的urldata = requests.get(url).text #获取页面html信息info = etree.HTML(data) #解析Htmlcur_books = info.xpath('/html/body/div[3]/div[1]/div/div[1]/div/table')record_file = open('E:/record{}.txt'.format(i + 1), 'w',encoding='utf-8') #新建txt文件，用于写入爬虫信息for div in cur_books:name = div.xpath('./tr/td[2]/div[1]/a/@title')[0]     #图书名book_name = str(name) #得到图书名author_info = div.xpath('./tr/td[2]/p[1]/text()')[0]        #作者信息author_info_msg = str(author_info) #强制类型转换str：用于方便写入到txt文件当中info_list = author_info_msg.split('/')cur_count = len(info_list) #获得count长度cur_price = info_list[cur_count-1] #获得当前价格publish_date = info_list[cur_count-2] #获得出版时间publish_type = info_list[cur_count-3] #获得出版社信息writer_name = '' #作者姓名nums_book = random.randint(3,10)#产生册数（利用随机数）book_num_str = str(nums_book)for j in range(0,cur_count-3): #由于前面作者数量不确定，故采取遍历形式writer_name += info_list[j]#写入信息到txt文本record_file.write('图书名:'+ book_name +' 作者:'+ writer_name + ' 出版社:'+publish_type +' 出版日期:'+publish_date + ' 册数：'+book_num_str+' 价格:'+cur_price) #记录信息record_file.write('\n') #换行输入record_file.close() #使用后一定要关闭文件if __name__ == '__main__':for j in range(0,10): #遍历 因为有10页getBookInfo(j)

解析结果如下格式：

人生苦短，我用Python!

Python3爬取豆瓣图书Top250并写入txt文件当中相关推荐

Python3爬取豆瓣图书Top250并存入csv文件中
本文抓取豆瓣图书Top250中的相关资讯,可以练习对于网页结构的分析及提取. 下面先导入相关的包,并伪装成浏览器访问: import requests from lxml import etree i ...
爬取豆瓣图书top250
爬取豆瓣图书top250 豆瓣网址:https://book.douban.com/top250 豆瓣图书第一页:https://book.douban.com/top250?start=0 豆瓣图书 ...
requests 获取div_爬虫系列第五篇使用requests与BeautifulSoup爬取豆瓣图书Top250
上一篇我们学习了BeautifulSoup的基本用法,本节我们使用它来爬取豆瓣图书Top250. 一.网页分析我们爬取的网页的url是https://book.douban.com/top250?i ...
R语言爬取豆瓣图书Top250
新手爬虫,使用R中最简单的读取网页,然后获取所需内容所在行进行解析.下面介绍爬取豆瓣图书Top250的案例. 1.首先,我们知道网页规律为:"http://book.douban.com/t ...
使用python3爬取豆瓣电影top250
经过一个多星期的学习,对python3的语法有了一定了解,马上动手做了一个爬虫,检验学习效果目标爬取豆瓣电影top250中每一部电影的名称.排名.链接.名言.评分准备工作运行平台:window ...
python xpath爬取豆瓣图书Top 250存入csv文件并解决csv乱码问题
我上次分享过关于爬取豆瓣电影top250的实战:BeautifulSoup爬取豆瓣电影top250信息和 python BeautifulSoup爬取豆瓣电影top250信息并写入Excel表格 , ...
xpath解析爬虫爬取豆瓣图书Top250的数据
这是在学习阶段写的爬虫,爬取的是豆瓣图书Top250榜的名称,作者,评分等数据第一次写文章,如果有什么问题,欢迎各位大佬进行指正,谢谢来踩. 1.首先需要明确自己想要爬取的内容,并在网页中查看数据是 ...
爬取豆瓣音乐TOP250并写入Excel
爬取豆瓣音乐写入Excel from urllib.request import Request, urlopen import bs4 import requests import re impor ...
Scrapy爬取豆瓣图书Top250数据，在PowerBI中可视化分析
文章目录项目说明 Scrapy框架网页分析爬虫代码 items spiders pipelines main 爬取结果 PowerBI分析分析结果项目说明近期在学习Python爬虫,看了很 ...

Python3爬取豆瓣图书Top250并写入txt文件当中

Python3爬取豆瓣图书Top250并写入txt文件当中相关推荐

最新文章

热门文章