起点的爬虫没有什么特殊的难点,就以基本的爬虫步骤简单的看一下,不说上代码
// A code block
import csv
import json

from lxml import etree

import requests

class QiDianSpider(object):

def __init__(self):self.base_url="https://www.qidian.com/all?orderId=&style=1&pageSize=20&siteid=1&pubflag=0&hiddenField=0&page={}"self.headers={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36"}self.items=[]def get_url_list(self):return [self.base_url.format(start)for start in range(0,201)]def save_item(self,item):self.items.append(item)def run(self):url_list=self.get_url_list()for url in url_list:response = requests.get(url,headers=self.headers)html = response.content.decode("utf-8")eroot = etree.HTML(html)rows= eroot.xpath('//ul[@class="all-img-list cf"]/li')print(rows)for row in rows:item={}item["title"]=row.xpath('.//h4/a')[0].xpath('./text()')[0]item["author"] = row.xpath('./div[@class="book-mid-info"]/p[@class="author"]//a[@class="name"]')[0].xpath('./text()')[0]print(item)self.save_item(item)with open('起点.json', 'w', encoding='utf-8') as f:json.dump(self.items, f, ensure_ascii=False, indent=2)# 实现保存 csv 格式文件# 1. 创建一个写入文件对象out_file = open('起点.csv', 'w', encoding='utf-8')# 2. 创建 csv 写入对象writer = csv.writer(out_file)# 写入标题writer.writerow(self.items[0].keys())# 写入内容for item in self.items:writer.writerow(item.values())out_file.close()pass

if name == ‘main’:
spider=QiDianSpider()
spider.run()

爬虫面向对象的思想

起点爬虫爬取全部书籍相关推荐

  1. Python爬虫爬取豆瓣书籍数据

    "   阅读文本大概需要 5 分钟 此文首发于「brucepk」公众号,欢迎大家去关注. 炎热的夏天,酷暑难挡,难免会心烦意燥,睡前随手拿起枕边看过很多遍的「平凡的世界」.看书,会让躁动的心 ...

  2. python爬虫教材推荐 豆瓣_Python爬虫爬取豆瓣书籍数据

    炎热的夏天,酷暑难挡,难免会心烦意燥,睡前随手拿起枕边看过很多遍的「平凡的世界」.看书,会让躁动的心瞬间安静下来. 生活不能等待别人来安排,要自己去争取和奋斗:而不论其结果是喜是悲,但可以慰藉的是,你 ...

  3. python爬虫——爬取起点中文网作品信息

    首先打开起点中文网 点开红圈内的全部作品选项,本博客爬取这里面的作品信息. 接下来爬取所有作品信息,注意,不仅仅只是该面的所有作品信息,而是全部作品信息. 网页下面有跳转其他页的选项. 我们需要找到网 ...

  4. 爬虫初体验-- 爬取当当书籍

    爬虫初体验-- 爬取当当书籍 这是我从学习Python 开始,第4天写的爬虫,所以有很多地方写的不太好,还希望各位多多包涵,欢迎指正,互相学习. 我学习python就是为了玩爬虫的.第一次听说爬虫这个 ...

  5. 爬虫再体验--爬取当当书籍--进阶篇

    爬取当当书籍–进阶篇 在上一篇爬虫初体验中, 叙述了我的小爬虫的整体构架以及中心思想,并且在小伙伴的反馈下,进行了改良,加入了许多的注释,方便大家学习与交流. 在基础篇中,只是简单的爬取了3个字段,小 ...

  6. python爬电影_使用Python多线程爬虫爬取电影天堂资源

    最近花些时间学习了一下Python,并写了一个多线程的爬虫程序来获取电影天堂上资源的迅雷下载地址,代码已经上传到GitHub上了,需要的同学可以自行下载.刚开始学习python希望可以获得宝贵的意见. ...

  7. Python爬虫爬取纵横中文网小说

    Python爬虫爬取纵横中文网小说 学了一周的爬虫,搞了这个东西,自己感觉还不错,有什么问题可以提一提哈 目标:纵横中文网-完本-免费小说 网址:http://book.zongheng.com/st ...

  8. python爬虫爬取当当网的商品信息

    python爬虫爬取当当网的商品信息 一.环境搭建 二.简介 三.当当网网页分析 1.分析网页的url规律 2.解析网页html页面 书籍商品html页面解析 其他商品html页面解析 四.代码实现 ...

  9. 利用Python爬虫爬取网页福利图片

    最近几天,学习了爬虫算法,通过参考书籍,写下自己简单爬虫项目: 爬取某福利网站的影片海报图片 环境:anaconda3.5+spyder3.2.6 目录 1.本节目标 2.准备工作 3.抓取分析 4. ...

最新文章

  1. 详解协方差与协方差矩阵
  2. 【云中沙箱】如何快速使用阿里云快速搭建论坛网站?
  3. 使用OpenVINO遇到No name 'IENetwork' in module 'openvino.inference_engine'解决
  4. 100%你没见过的魔兽表情包,拿去!再扯情怀已俗!
  5. VTK:Texture之TexturePlane
  6. MySQL + Atlas 部署读写分离
  7. windows下, nginx 提示错误 No input file specified
  8. Flask笔记-构建mvc分层结构及优化
  9. Java中选择排序,冒泡排序,插入排序,快速排序
  10. 魅族17系列正式发布:17年梦想之作,3699元起
  11. python文件是否存在_Python判断文件是否存在的三种方法
  12. C# Winform编程ListBox之DrawItem事件
  13. Mac上Go环境配置
  14. nginx 负载均衡的五中不同配置方式
  15. webstorm+node之debug
  16. 《论文阅读》PV-RCNN: Point-Voxel Feature Set Abstraction for 3D Object Detection
  17. Android手机中取得当前时区(以GMT形式)
  18. node 小程序 php,基于Node.js+MySQL开发的开源微信小程序B2C商城(页面高仿网易严选)...
  19. 30M DEM数据处理成图
  20. strcmp函数的C语言实现

热门文章

  1. linux网络配置出现E325,Linux启动vi编辑器时提示E325: ATTENTION怎么办?
  2. totalcmd简单教程--help详解
  3. Linux操作系统使用及C高级编程
  4. 公共计算机课程教学情况调查问卷,信息技术课程标准实施情况调查问卷.doc
  5. 这所位于南京的大学,新成立了计算机学院!
  6. 港科百创|极目生物宣布完成超1亿美元B轮融资,继续加快推动产品管线拓展、临床开发及商业化...
  7. 部署Kettle7.1到linux后执行./kitchen.sh报错No libwebkitgtk1.0 detected
  8. 深度学习系列9:基础网络结构(更新中)
  9. allocate与allocateDirect的性能测试
  10. 【DOTA】制作Efficientdet训练数据