首先简单介绍一下过程

1.解析url

2.获得html文件

3.解析数据

4.写入txt文本(按页写入)

5.上传代码

转载前可以备注一下ytouch的名字

'''爬取豆瓣图书前250名'''
#author :ytouch
#date:2019/4/29import requests
import random
from lxml import etree'''Func:爬取豆瓣信息'''
def getBookInfo(i):#param1:页数url = 'https://book.douban.com/top250?start={}'.format(i*25) #输入对应的urldata = requests.get(url).text #获取页面html信息info = etree.HTML(data) #解析Htmlcur_books = info.xpath('/html/body/div[3]/div[1]/div/div[1]/div/table')record_file = open('E:/record{}.txt'.format(i + 1), 'w',encoding='utf-8') #新建txt文件,用于写入爬虫信息for div in cur_books:name = div.xpath('./tr/td[2]/div[1]/a/@title')[0]     #图书名book_name = str(name) #得到图书名author_info = div.xpath('./tr/td[2]/p[1]/text()')[0]        #作者信息author_info_msg = str(author_info) #强制类型转换str:用于方便写入到txt文件当中info_list = author_info_msg.split('/')cur_count = len(info_list) #获得count长度cur_price = info_list[cur_count-1] #获得当前价格publish_date = info_list[cur_count-2] #获得出版时间publish_type = info_list[cur_count-3] #获得出版社信息writer_name = '' #作者姓名nums_book = random.randint(3,10)#产生册数(利用随机数)book_num_str = str(nums_book)for j in range(0,cur_count-3): #由于前面作者数量不确定,故采取遍历形式writer_name += info_list[j]#写入信息到txt文本record_file.write('图书名:'+ book_name +' 作者:'+ writer_name + ' 出版社:'+publish_type +' 出版日期:'+publish_date + ' 册数:'+book_num_str+' 价格:'+cur_price) #记录信息record_file.write('\n') #换行输入record_file.close() #使用后一定要关闭文件if __name__ == '__main__':for j in range(0,10): #遍历 因为有10页getBookInfo(j)

解析结果如下格式:

人生苦短,我用Python!

Python3爬取豆瓣图书Top250并写入txt文件当中相关推荐

  1. Python3爬取豆瓣图书Top250并存入csv文件中

    本文抓取豆瓣图书Top250中的相关资讯,可以练习对于网页结构的分析及提取. 下面先导入相关的包,并伪装成浏览器访问: import requests from lxml import etree i ...

  2. 爬取豆瓣图书top250

    爬取豆瓣图书top250 豆瓣网址:https://book.douban.com/top250 豆瓣图书第一页:https://book.douban.com/top250?start=0 豆瓣图书 ...

  3. requests 获取div_爬虫系列第五篇 使用requests与BeautifulSoup爬取豆瓣图书Top250

    上一篇我们学习了BeautifulSoup的基本用法,本节我们使用它来爬取豆瓣图书Top250. 一.网页分析 我们爬取的网页的url是https://book.douban.com/top250?i ...

  4. R语言爬取豆瓣图书Top250

    新手爬虫,使用R中最简单的读取网页,然后获取所需内容所在行进行解析.下面介绍爬取豆瓣图书Top250的案例. 1.首先,我们知道网页规律为:"http://book.douban.com/t ...

  5. 使用python3爬取豆瓣电影top250

    经过一个多星期的学习,对python3的语法有了一定了解,马上动手做了一个爬虫,检验学习效果 目标 爬取豆瓣电影top250中每一部电影的名称.排名.链接.名言.评分 准备工作 运行平台:window ...

  6. python xpath爬取豆瓣图书Top 250存入csv文件并解决csv乱码问题

    我上次分享过关于爬取豆瓣电影top250的实战:BeautifulSoup爬取豆瓣电影top250信息 和 python BeautifulSoup爬取豆瓣电影top250信息并写入Excel表格 , ...

  7. xpath解析爬虫爬取豆瓣图书Top250的数据

    这是在学习阶段写的爬虫,爬取的是豆瓣图书Top250榜的名称,作者,评分等数据 第一次写文章,如果有什么问题,欢迎各位大佬进行指正,谢谢来踩. 1.首先需要明确自己想要爬取的内容,并在网页中查看数据是 ...

  8. 爬取豆瓣音乐TOP250并写入Excel

    爬取豆瓣音乐写入Excel from urllib.request import Request, urlopen import bs4 import requests import re impor ...

  9. Scrapy爬取豆瓣图书Top250数据,在PowerBI中可视化分析

    文章目录 项目说明 Scrapy框架 网页分析 爬虫代码 items spiders pipelines main 爬取结果 PowerBI分析 分析结果 项目说明 近期在学习Python爬虫,看了很 ...

最新文章

  1. list子类使用toarray方法实现集合向数组转换,下列哪些说法是正确的
  2. windows 下frp服务启动_内网穿透frp linux服务端搭建和windows客户端使用
  3. jquery判断多选框是否选中
  4. 深入浅出下一代互联网基础IPFS
  5. java 百度贴吧 爬虫_JAVA爬虫入门
  6. DevOps和SRE有什么不同,每个意味着什么
  7. iOS 证书错误 Certificates下面的 App Store and Ad Hoc是灰的?? 点不了
  8. (How to)Windows Live Writer插入Latex公式(补充)
  9. Android Bitmap 加载与像素操作
  10. LCD屏幕调试 ~ 字模提取工具和图片转码工具
  11. 数据成功插入数据库,前端页面却实现404错误 POST http://127.0.0.1:8080/user/register 404 ()
  12. 怎么在PPT里面添加表格
  13. 每日学习笔记(12)
  14. java为纯图PDF添加图片水印
  15. python视频补帧_我花了三天写了手机补帧神器
  16. SQL手工注入笔记1
  17. 手机wifi延迟测试软件,测网速延迟(如何测试wifi延迟)
  18. 关于印发《2000国家大地坐标系推广使用技术指南》和《大地测量控制点坐标转换技术规程》的函
  19. 集线器Hub、交换机Switch 和 路由器Router 的区别
  20. 221900437方彬彬

热门文章

  1. Redis存储结构体信息,选hash还是string?
  2. Java如何实现后端分页
  3. SpringGateway与Zookeeper的Maven冲突
  4. Djang drf:APIView源码分析
  5. Java修炼之道--集合框架
  6. BZOJ:4820: [Sdoi2017]硬币游戏BZOJ:1444: [Jsoi2009]有趣的游戏(高斯消元求概率)
  7. [org.hibernate.util.JDBCExceptionReporter] - Cannot load JDBC driver class 'net.
  8. [转]PHP或ASP   中Cookie禁用了,Session还能用吗?
  9. hdu2026.java字符
  10. jsp、css中引入外部资源相对路径的问题