起点爬虫爬取全部书籍

起点的爬虫没有什么特殊的难点，就以基本的爬虫步骤简单的看一下，不说上代码
// A code block
import csv
import json

from lxml import etree

import requests

class QiDianSpider(object):

def __init__(self):self.base_url="https://www.qidian.com/all?orderId=&style=1&pageSize=20&siteid=1&pubflag=0&hiddenField=0&page={}"self.headers={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36"}self.items=[]def get_url_list(self):return [self.base_url.format(start)for start in range(0,201)]def save_item(self,item):self.items.append(item)def run(self):url_list=self.get_url_list()for url in url_list:response = requests.get(url,headers=self.headers)html = response.content.decode("utf-8")eroot = etree.HTML(html)rows= eroot.xpath('//ul[@class="all-img-list cf"]/li')print(rows)for row in rows:item={}item["title"]=row.xpath('.//h4/a')[0].xpath('./text()')[0]item["author"] = row.xpath('./div[@class="book-mid-info"]/p[@class="author"]//a[@class="name"]')[0].xpath('./text()')[0]print(item)self.save_item(item)with open('起点.json', 'w', encoding='utf-8') as f:json.dump(self.items, f, ensure_ascii=False, indent=2)# 实现保存 csv 格式文件# 1. 创建一个写入文件对象out_file = open('起点.csv', 'w', encoding='utf-8')# 2. 创建 csv 写入对象writer = csv.writer(out_file)# 写入标题writer.writerow(self.items[0].keys())# 写入内容for item in self.items:writer.writerow(item.values())out_file.close()pass

if name == ‘main’:
spider=QiDianSpider()
spider.run()

爬虫面向对象的思想

起点爬虫爬取全部书籍相关推荐

Python爬虫爬取豆瓣书籍数据
" 阅读文本大概需要 5 分钟此文首发于「brucepk」公众号,欢迎大家去关注. 炎热的夏天,酷暑难挡,难免会心烦意燥,睡前随手拿起枕边看过很多遍的「平凡的世界」.看书,会让躁动的心 ...
python爬虫教材推荐豆瓣_Python爬虫爬取豆瓣书籍数据
炎热的夏天,酷暑难挡,难免会心烦意燥,睡前随手拿起枕边看过很多遍的「平凡的世界」.看书,会让躁动的心瞬间安静下来. 生活不能等待别人来安排,要自己去争取和奋斗:而不论其结果是喜是悲,但可以慰藉的是,你 ...
python爬虫——爬取起点中文网作品信息
首先打开起点中文网点开红圈内的全部作品选项,本博客爬取这里面的作品信息. 接下来爬取所有作品信息,注意,不仅仅只是该面的所有作品信息,而是全部作品信息. 网页下面有跳转其他页的选项. 我们需要找到网 ...
爬虫初体验-- 爬取当当书籍
爬虫初体验-- 爬取当当书籍这是我从学习Python 开始,第4天写的爬虫,所以有很多地方写的不太好,还希望各位多多包涵,欢迎指正,互相学习. 我学习python就是为了玩爬虫的.第一次听说爬虫这个 ...
爬虫再体验--爬取当当书籍--进阶篇
爬取当当书籍–进阶篇在上一篇爬虫初体验中, 叙述了我的小爬虫的整体构架以及中心思想,并且在小伙伴的反馈下,进行了改良,加入了许多的注释,方便大家学习与交流. 在基础篇中,只是简单的爬取了3个字段,小 ...
python爬电影_使用Python多线程爬虫爬取电影天堂资源
最近花些时间学习了一下Python,并写了一个多线程的爬虫程序来获取电影天堂上资源的迅雷下载地址,代码已经上传到GitHub上了,需要的同学可以自行下载.刚开始学习python希望可以获得宝贵的意见. ...
Python爬虫爬取纵横中文网小说
Python爬虫爬取纵横中文网小说学了一周的爬虫,搞了这个东西,自己感觉还不错,有什么问题可以提一提哈目标:纵横中文网-完本-免费小说网址:http://book.zongheng.com/st ...
python爬虫爬取当当网的商品信息
python爬虫爬取当当网的商品信息一.环境搭建二.简介三.当当网网页分析 1.分析网页的url规律 2.解析网页html页面书籍商品html页面解析其他商品html页面解析四.代码实现 ...
利用Python爬虫爬取网页福利图片
最近几天,学习了爬虫算法,通过参考书籍,写下自己简单爬虫项目: 爬取某福利网站的影片海报图片环境:anaconda3.5+spyder3.2.6 目录 1.本节目标 2.准备工作 3.抓取分析 4. ...

起点爬虫爬取全部书籍

起点爬虫爬取全部书籍相关推荐

最新文章

热门文章