笔趣阁单篇小说采集

1、代理文档格式：（代理采集地址 http://www.xicidaili.com）

2、免费代理稳定性不可靠，采用装饰器重连同时切换代理

# coding: utf-8
# 笔趣阁 单篇小说采集 http://www.biquge.com.tw
# 替换第一章地址，总章节数。
# ip.txt 为代理池。
import urllib2
from bs4 import BeautifulSoup
import sys
import traceback
import randomreload(sys)
sys.setdefaultencoding('utf-8')f = open("out.txt", "a+")
headers = {"Host": "www.biquge.com.tw","Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8","X-Requested-With": "XMLHttpRequest","User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36","Content-Type": "application/x-www-form-urlencoded; charset=UTF-8","Connection": "keep-alive","Upgrade-Insecure-Requests": "1"
}url = "http://www.biquge.com.tw/17_17281/7647045.html"  # 第一章网址
page = 1301  # 章节数
nextHref = urlipPool = []def IPpool():reader = open('ip.txt')line = reader.readline()while line:if line.strip() != '':ipPool.append(line.split())line = reader.readline()reader.close()RETRIES = 0
# 重试的次数
count = {"num": RETRIES}def conn_try_again(function):def wrapped(*args, **kwargs):try:return function(*args, **kwargs)except Exception, err:print("--重试访问，当前次数 %s ，（总次数5）--" % (count['num'] + 1))if count['num'] < 5:count['num'] += 1return wrapped(*args, **kwargs)else:raise Exception(err)return wrappedbsObj = None@conn_try_again
def getContent(url):global nextHref, page, bsObj# 定义一个代理开关proxySwitch = Truetry:poolLen = len(ipPool)if (poolLen > 0):i = random.randint(0, poolLen - 1)print(ipPool[i])proxy_host = ipPool[i][2] + "://" + ipPool[i][0] + ":" + ipPool[i][1]proxy_temp = {ipPool[i][2]: proxy_host}proxy_support = urllib2.ProxyHandler(proxy_temp)else:print('--代理池当前无可用代理，使用本机地址访问--')proxy_support = urllib2.ProxyHandler({})nullproxy_handler = urllib2.ProxyHandler({})if proxySwitch:opener = urllib2.build_opener(proxy_support)else:opener = urllib2.build_opener(nullproxy_handler)urllib2.install_opener(opener)req = urllib2.Request(url, headers=headers)response = urllib2.urlopen(req, timeout=3)# print(response.read())bsObj = BeautifulSoup(response, 'lxml')except Exception, err:raise Exception(err)contentDiv = bsObj.find('div', id='content')content = bsObj.find('div', id='content').get_text()preAndNextBar = bsObj.find('div', attrs={'class': 'bottem2'})title = bsObj.find('div', attrs={'class': 'bookname'}).h1.get_text()if ("下一章" in preAndNextBar.get_text()):next = NoneaList = preAndNextBar.findAll('a')for i in aList:if ("下一章" in i.get_text()):next = iif (next == None):print("下一章为空")return TruenextHref = "http://www.biquge.com.tw" + next.get('href')print(title)# print(content)print(nextHref)f.write("#####" + '\n')f.write(title + '\n')f.write(content + '\n')count['num'] = 0else:return Truedef main():IPpool()global pagetry:for num in range(1, page):if (getContent(nextHref)):breakprint("--- end ---")except Exception, e:print(traceback.print_exc())finally:f.close()main()

附：代理采集 https://blog.csdn.net/u012795120/article/details/80857990
下载地址：https://download.csdn.net/download/u012795120/10508330

笔趣阁单篇小说采集相关推荐

1.4 爬虫-笔趣阁获取小说例子
#笔趣阁网站 # 1.模拟搜索 # 2.图书查询-章节 # 3.获取章节-内容 # 4.本地存储:txt.mysql.def searchBook():print("************ ...
python爬取最新说章节_练习_Python3 爬取笔趣阁最新小说章节
警告:本文代码仅供学习,禁止违法使用或商用. 这里拿人气小说<黎明之剑>来举个栗子,喜欢小说<黎明之剑>的朋友们请支持正版阅读. 笔趣阁网站上的其他书籍基本上的都可以套用,其他 ...
Python爬虫——从笔趣阁爬小说
这是一个练习作品.用python脚本爬取笔趣阁上面的免费小说. 环境:python3 类库:BeautifulSoup 数据源:http://www.biqukan.cc 原理就是伪装正常http请求 ...
toolkit-frame之toolkit-sprider(数据采集)---笔趣阁小说
采集笔趣阁小说,使用以下几个核心包: requests:2.10.0 beautifulsoup4:4.7.1 其中: 1.BaseFrame.__log__("开始采集中国船舶网的数据.. ...
python爬取小说写入txt_对新笔趣阁小说进行爬取，保存和下载！这就是Python的魅力...
原标题:对新笔趣阁小说进行爬取,保存和下载!这就是Python的魅力以前挺爱在笔趣阁看小说的(老白嫖怪了) 现在学了一点爬虫技术,就自然而然的想到了爬取笔趣阁的小说也算锻炼一下自己的技术,就以新笔 ...
爬虫练习-爬取笔趣阁小说
练习一下爬虫,将笔趣阁的小说根据需求目标再爬取下来,本文仅仅学习爬虫技术,大家还是要支持一下正版网站的思路: Created with Raphaël 2.2.0开始输入书名查询小说是否存在跳转页面 ...
1.python爬取笔趣阁小说
前一阵无聊想学习python,就有了以下代码,选取了笔趣阁这个大众化的网站,百度发现以笔趣阁为名的小说网站很多,本段代码只在百度结果里选取前五条,并选取了三个叫笔趣阁的网站,前五条里包含笔趣阁的任意一 ...
xpath爬取笔趣阁小说
from lxml import etree from fake_useragent import UserAgent import requests import os # import re # ...
【爬虫】对新笔趣阁小说进行爬取，保存和下载
以前挺爱在笔趣阁看小说的(老白嫖怪了) 现在学了一点爬虫技术,就自然而然的想到了爬取笔趣阁的小说也算锻炼一下自己的技术,就以新笔趣阁开始分析对每一个小说目录界面的url还是很容易得到的如圣墟: ...
爬虫初学（一）：爬取笔趣阁小说（萌新用-详细讲解）
不识有话说作为一个爬虫萌新,第一个小项目当然是爬一爬我们的萌新之友-<新笔趣阁> 虽然没什么难度, 不过还是分享一下自己的代码历程, 希望能给予大家一些思路或帮助, 当然,如果有大佬能够 ...

笔趣阁单篇小说采集

笔趣阁单篇小说采集相关推荐

最新文章

热门文章

笔趣阁 单篇小说采集

笔趣阁 单篇小说采集相关推荐

最新文章

热门文章

笔趣阁单篇小说采集

笔趣阁单篇小说采集相关推荐