1、代理文档格式:(代理采集地址 http://www.xicidaili.com)

2、免费代理稳定性不可靠,采用装饰器重连同时切换代理

# coding: utf-8
# 笔趣阁 单篇小说采集 http://www.biquge.com.tw
# 替换第一章地址,总章节数。
# ip.txt 为代理池。
import urllib2
from bs4 import BeautifulSoup
import sys
import traceback
import randomreload(sys)
sys.setdefaultencoding('utf-8')f = open("out.txt", "a+")
headers = {"Host": "www.biquge.com.tw","Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8","X-Requested-With": "XMLHttpRequest","User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36","Content-Type": "application/x-www-form-urlencoded; charset=UTF-8","Connection": "keep-alive","Upgrade-Insecure-Requests": "1"
}url = "http://www.biquge.com.tw/17_17281/7647045.html"  # 第一章网址
page = 1301  # 章节数
nextHref = urlipPool = []def IPpool():reader = open('ip.txt')line = reader.readline()while line:if line.strip() != '':ipPool.append(line.split())line = reader.readline()reader.close()RETRIES = 0
# 重试的次数
count = {"num": RETRIES}def conn_try_again(function):def wrapped(*args, **kwargs):try:return function(*args, **kwargs)except Exception, err:print("--重试访问,当前次数 %s ,(总次数5)--" % (count['num'] + 1))if count['num'] < 5:count['num'] += 1return wrapped(*args, **kwargs)else:raise Exception(err)return wrappedbsObj = None@conn_try_again
def getContent(url):global nextHref, page, bsObj# 定义一个代理开关proxySwitch = Truetry:poolLen = len(ipPool)if (poolLen > 0):i = random.randint(0, poolLen - 1)print(ipPool[i])proxy_host = ipPool[i][2] + "://" + ipPool[i][0] + ":" + ipPool[i][1]proxy_temp = {ipPool[i][2]: proxy_host}proxy_support = urllib2.ProxyHandler(proxy_temp)else:print('--代理池当前无可用代理,使用本机地址访问--')proxy_support = urllib2.ProxyHandler({})nullproxy_handler = urllib2.ProxyHandler({})if proxySwitch:opener = urllib2.build_opener(proxy_support)else:opener = urllib2.build_opener(nullproxy_handler)urllib2.install_opener(opener)req = urllib2.Request(url, headers=headers)response = urllib2.urlopen(req, timeout=3)# print(response.read())bsObj = BeautifulSoup(response, 'lxml')except Exception, err:raise Exception(err)contentDiv = bsObj.find('div', id='content')content = bsObj.find('div', id='content').get_text()preAndNextBar = bsObj.find('div', attrs={'class': 'bottem2'})title = bsObj.find('div', attrs={'class': 'bookname'}).h1.get_text()if ("下一章" in preAndNextBar.get_text()):next = NoneaList = preAndNextBar.findAll('a')for i in aList:if ("下一章" in i.get_text()):next = iif (next == None):print("下一章为空")return TruenextHref = "http://www.biquge.com.tw" + next.get('href')print(title)# print(content)print(nextHref)f.write("#####" + '\n')f.write(title + '\n')f.write(content + '\n')count['num'] = 0else:return Truedef main():IPpool()global pagetry:for num in range(1, page):if (getContent(nextHref)):breakprint("--- end ---")except Exception, e:print(traceback.print_exc())finally:f.close()main()

附:代理采集 https://blog.csdn.net/u012795120/article/details/80857990
下载地址:https://download.csdn.net/download/u012795120/10508330

笔趣阁 单篇小说采集相关推荐

  1. 1.4 爬虫-笔趣阁获取小说例子

    #笔趣阁网站 # 1.模拟搜索 # 2.图书查询-章节 # 3.获取章节-内容 # 4.本地存储:txt.mysql.def searchBook():print("************ ...

  2. python爬取最新说章节_练习_Python3 爬取笔趣阁最新小说章节

    警告:本文代码仅供学习,禁止违法使用或商用. 这里拿人气小说<黎明之剑>来举个栗子,喜欢小说<黎明之剑>的朋友们请支持正版阅读. 笔趣阁网站上的其他书籍基本上的都可以套用,其他 ...

  3. Python爬虫——从笔趣阁爬小说

    这是一个练习作品.用python脚本爬取笔趣阁上面的免费小说. 环境:python3 类库:BeautifulSoup 数据源:http://www.biqukan.cc 原理就是伪装正常http请求 ...

  4. toolkit-frame之toolkit-sprider(数据采集)---笔趣阁小说

    采集笔趣阁小说,使用以下几个核心包: requests:2.10.0 beautifulsoup4:4.7.1 其中: 1.BaseFrame.__log__("开始采集中国船舶网的数据.. ...

  5. python爬取小说写入txt_对新笔趣阁小说进行爬取,保存和下载!这就是Python的魅力...

    原标题:对新笔趣阁小说进行爬取,保存和下载!这就是Python的魅力 以前挺爱在笔趣阁看小说的(老白嫖怪了) 现在学了一点爬虫技术,就自然而然的想到了爬取笔趣阁的小说 也算锻炼一下自己的技术,就以新笔 ...

  6. 爬虫练习-爬取笔趣阁小说

    练习一下爬虫,将笔趣阁的小说根据需求目标再爬取下来,本文仅仅学习爬虫技术,大家还是要支持一下正版网站的 思路: Created with Raphaël 2.2.0开始输入书名查询小说是否存在跳转页面 ...

  7. 1.python爬取笔趣阁小说

    前一阵无聊想学习python,就有了以下代码,选取了笔趣阁这个大众化的网站,百度发现以笔趣阁为名的小说网站很多,本段代码只在百度结果里选取前五条,并选取了三个叫笔趣阁的网站,前五条里包含笔趣阁的任意一 ...

  8. xpath爬取笔趣阁小说

    from lxml import etree from fake_useragent import UserAgent import requests import os # import re # ...

  9. 【爬虫】对新笔趣阁小说进行爬取,保存和下载

    以前挺爱在笔趣阁看小说的(老白嫖怪了) 现在学了一点爬虫技术,就自然而然的想到了爬取笔趣阁的小说 也算锻炼一下自己的技术,就以新笔趣阁开始 分析 对每一个小说目录界面的url还是很容易得到的 如圣墟: ...

  10. 爬虫初学(一):爬取笔趣阁小说(萌新用-详细讲解)

    不识有话说 作为一个爬虫萌新,第一个小项目当然是爬一爬我们的萌新之友-<新笔趣阁> 虽然没什么难度, 不过还是分享一下自己的代码历程, 希望能给予大家一些思路或帮助, 当然,如果有大佬能够 ...

最新文章

  1. python isdigit()
  2. Ubuntu root密码设置
  3. 【专题六】虚拟化实施人才和培训的瓶颈如何解决? ——虚拟化人才逆势抢手 5项技能最关键...
  4. JSP中页面向Action传递参数的几种方式
  5. silverlight旋转中心很好玩
  6. 一个发布app测试版本的网站
  7. ubuntu12.04 使用gedit 打开txt文件中文乱码的处理方法
  8. 【渝粤教育】国家开放大学2018年秋季 1126t社会医学 参考试题
  9. clickjacking:X-frame-options header missing 漏洞解决办法
  10. 如何使用jQuery更改超链接的href
  11. 【新知实验室】腾讯云TRTC接入测试以及状态同步功能重点验证
  12. Threejs实现酷炫3D地球技术点汇总
  13. 需求开发应用部署“一条龙”,平安云如何加速容器场景落地
  14. pictures for my GitHub -- Convenient Pic's URL offering
  15. python--1、入门
  16. 大数据中一些常用软件
  17. UCF Local Programming Contest 2016 计蒜客解(补)题报告
  18. UMLChina建模竞赛第3赛季第2轮
  19. cocos creator 制作作砸金蛋
  20. Graph Signal Processing——Part I: Graphs, Graph Spectra, and Spectral Clustering (文献翻译)

热门文章

  1. C语言实现超简单贪吃蛇(代码是抄的),我做一下讲解
  2. Windows10 上某些PPT无法显示缩略图
  3. java微信h5支付_java 微信H5支付
  4. Maven安装与配置教程
  5. GeoDa 空间自相关操作步骤
  6. P4778 Counting swaps (组合数学,打表推通项公式,OEIS)
  7. c++万能头文件包含的头文件
  8. 世界七大数学难题与Hilbert的23个问题
  9. 【测试】15.质量管理体系
  10. 服务器 字体文件夹,服务器安装字体