Python3爬取豆瓣图书Top250并写入txt文件当中
首先简单介绍一下过程
1.解析url
2.获得html文件
3.解析数据
4.写入txt文本(按页写入)
5.上传代码
转载前可以备注一下ytouch的名字
'''爬取豆瓣图书前250名'''
#author :ytouch
#date:2019/4/29import requests
import random
from lxml import etree'''Func:爬取豆瓣信息'''
def getBookInfo(i):#param1:页数url = 'https://book.douban.com/top250?start={}'.format(i*25) #输入对应的urldata = requests.get(url).text #获取页面html信息info = etree.HTML(data) #解析Htmlcur_books = info.xpath('/html/body/div[3]/div[1]/div/div[1]/div/table')record_file = open('E:/record{}.txt'.format(i + 1), 'w',encoding='utf-8') #新建txt文件,用于写入爬虫信息for div in cur_books:name = div.xpath('./tr/td[2]/div[1]/a/@title')[0] #图书名book_name = str(name) #得到图书名author_info = div.xpath('./tr/td[2]/p[1]/text()')[0] #作者信息author_info_msg = str(author_info) #强制类型转换str:用于方便写入到txt文件当中info_list = author_info_msg.split('/')cur_count = len(info_list) #获得count长度cur_price = info_list[cur_count-1] #获得当前价格publish_date = info_list[cur_count-2] #获得出版时间publish_type = info_list[cur_count-3] #获得出版社信息writer_name = '' #作者姓名nums_book = random.randint(3,10)#产生册数(利用随机数)book_num_str = str(nums_book)for j in range(0,cur_count-3): #由于前面作者数量不确定,故采取遍历形式writer_name += info_list[j]#写入信息到txt文本record_file.write('图书名:'+ book_name +' 作者:'+ writer_name + ' 出版社:'+publish_type +' 出版日期:'+publish_date + ' 册数:'+book_num_str+' 价格:'+cur_price) #记录信息record_file.write('\n') #换行输入record_file.close() #使用后一定要关闭文件if __name__ == '__main__':for j in range(0,10): #遍历 因为有10页getBookInfo(j)
解析结果如下格式:
人生苦短,我用Python!
Python3爬取豆瓣图书Top250并写入txt文件当中相关推荐
- Python3爬取豆瓣图书Top250并存入csv文件中
本文抓取豆瓣图书Top250中的相关资讯,可以练习对于网页结构的分析及提取. 下面先导入相关的包,并伪装成浏览器访问: import requests from lxml import etree i ...
- 爬取豆瓣图书top250
爬取豆瓣图书top250 豆瓣网址:https://book.douban.com/top250 豆瓣图书第一页:https://book.douban.com/top250?start=0 豆瓣图书 ...
- requests 获取div_爬虫系列第五篇 使用requests与BeautifulSoup爬取豆瓣图书Top250
上一篇我们学习了BeautifulSoup的基本用法,本节我们使用它来爬取豆瓣图书Top250. 一.网页分析 我们爬取的网页的url是https://book.douban.com/top250?i ...
- R语言爬取豆瓣图书Top250
新手爬虫,使用R中最简单的读取网页,然后获取所需内容所在行进行解析.下面介绍爬取豆瓣图书Top250的案例. 1.首先,我们知道网页规律为:"http://book.douban.com/t ...
- 使用python3爬取豆瓣电影top250
经过一个多星期的学习,对python3的语法有了一定了解,马上动手做了一个爬虫,检验学习效果 目标 爬取豆瓣电影top250中每一部电影的名称.排名.链接.名言.评分 准备工作 运行平台:window ...
- python xpath爬取豆瓣图书Top 250存入csv文件并解决csv乱码问题
我上次分享过关于爬取豆瓣电影top250的实战:BeautifulSoup爬取豆瓣电影top250信息 和 python BeautifulSoup爬取豆瓣电影top250信息并写入Excel表格 , ...
- xpath解析爬虫爬取豆瓣图书Top250的数据
这是在学习阶段写的爬虫,爬取的是豆瓣图书Top250榜的名称,作者,评分等数据 第一次写文章,如果有什么问题,欢迎各位大佬进行指正,谢谢来踩. 1.首先需要明确自己想要爬取的内容,并在网页中查看数据是 ...
- 爬取豆瓣音乐TOP250并写入Excel
爬取豆瓣音乐写入Excel from urllib.request import Request, urlopen import bs4 import requests import re impor ...
- Scrapy爬取豆瓣图书Top250数据,在PowerBI中可视化分析
文章目录 项目说明 Scrapy框架 网页分析 爬虫代码 items spiders pipelines main 爬取结果 PowerBI分析 分析结果 项目说明 近期在学习Python爬虫,看了很 ...
最新文章
- list子类使用toarray方法实现集合向数组转换,下列哪些说法是正确的
- windows 下frp服务启动_内网穿透frp linux服务端搭建和windows客户端使用
- jquery判断多选框是否选中
- 深入浅出下一代互联网基础IPFS
- java 百度贴吧 爬虫_JAVA爬虫入门
- DevOps和SRE有什么不同,每个意味着什么
- iOS 证书错误 Certificates下面的 App Store and Ad Hoc是灰的?? 点不了
- (How to)Windows Live Writer插入Latex公式(补充)
- Android Bitmap 加载与像素操作
- LCD屏幕调试 ~ 字模提取工具和图片转码工具
- 数据成功插入数据库,前端页面却实现404错误 POST http://127.0.0.1:8080/user/register 404 ()
- 怎么在PPT里面添加表格
- 每日学习笔记(12)
- java为纯图PDF添加图片水印
- python视频补帧_我花了三天写了手机补帧神器
- SQL手工注入笔记1
- 手机wifi延迟测试软件,测网速延迟(如何测试wifi延迟)
- 关于印发《2000国家大地坐标系推广使用技术指南》和《大地测量控制点坐标转换技术规程》的函
- 集线器Hub、交换机Switch 和 路由器Router 的区别
- 221900437方彬彬
热门文章
- Redis存储结构体信息,选hash还是string?
- Java如何实现后端分页
- SpringGateway与Zookeeper的Maven冲突
- Djang drf:APIView源码分析
- Java修炼之道--集合框架
- BZOJ:4820: [Sdoi2017]硬币游戏BZOJ:1444: [Jsoi2009]有趣的游戏(高斯消元求概率)
- [org.hibernate.util.JDBCExceptionReporter] - Cannot load JDBC driver class 'net.
- [转]PHP或ASP 中Cookie禁用了,Session还能用吗?
- hdu2026.java字符
- jsp、css中引入外部资源相对路径的问题