开发工具:python3.4

操作系统:win8

主要功能:去指定小说网页爬小说目录,按章节保存到本地,并将爬过的网页保存到本地配置文件。

被爬网站:http://www.22pq.com/

小说名称:武道宗师

代码出处:本人亲自码的

import urllib.request

import http.cookiejar

import socket

import time

import re

timeout = 20

socket.setdefaulttimeout(timeout)

sleep_download_time = 10

time.sleep(sleep_download_time)

def makeMyOpener(head = {

'Connection': 'Keep-Alive',

'Accept': 'text/html, application/xhtml+xml, */*',

'Accept-Language': 'en-US,en;q=0.8,zh-Hans-CN;q=0.5,zh-Hans;q=0.3',

'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko'

}):

cj = http.cookiejar.CookieJar()

opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cj))

header = []

for key, value in head.items():

elem = (key, value)

header.append(elem)

opener.addheaders = header

return opener

def saveFile(save_path,txts):

f_obj = open(save_path,'w+')

for item in txts:

f_obj.write(item+'\n')

f_obj.close()

#get_code_list

code_list='http://www.22pq.com/book/10/10969/'

oper = makeMyOpener()

uop = oper.open(code_list,timeout=1000)

data = uop.read().decode('gbk','ignore')

pattern = re.compile('

(.*?)',re.S)

items = re.findall(pattern,data)

print ('获取列表完成')

url_path='url_file.txt'

url_r=open(url_path,'r')

url_arr=url_r.readlines(100000)

url_r.close()

print (len(url_arr))

url_file=open(url_path,'a')

print ('获取已下载网址')

for tmp in items:

save_path = tmp[1].replace(' ','')+'.txt'

url = code_list+tmp[0]

if url+'\n' in url_arr:

continue

print('写日志:'+url+'\n')

url_file.write(url+'\n')

opene = makeMyOpener()

op1 = opene.open(url,timeout=1000)

data = op1.read().decode('gbk','ignore')

opene.close()

pattern = re.compile(' (.*?)
',re.S)

txts = re.findall(pattern,data)

saveFile(save_path,txts)

url_file.close()

虽然代码还是有点瑕疵,还是分享给大家,一起改进

python写采集程序_Python爬虫小说采集程序相关推荐

  1. python写简单购物车_python简单的购物车程序(含代码)

    效果图片:\u201C在2017年9月4日@author: len\u201Cproduct_list =[(\u201C机器人\u201D,200000年),(\u201CMacPro\u201D, ...

  2. python加油代码_python入门教程NO.5 用python写个自动选择加油站的小程序

    本文涉及的python基础语法为:if条件分支 Python条件分支是通过一条或者多条语句的执行结果True或者False来决定是否执行相应的代码块. if单向条件语法结构 if 判断条件: 代码块 ...

  3. python自动填写小程序表单_新年好!教大家用Python写一个自动回复拜年信息的小程序!...

    原标题:新年好!教大家用Python写一个自动回复拜年信息的小程序! 过年期间,想必大家都收到很多拜年信息吧!有没有也被拜年短信(大部分是群发)搞得很焦虑?不回复似乎显得很没有礼貌,一一回复又累心劳神 ...

  4. Python入门教程NO.5 用python写个自动选择加油站的小程序

    本文涉及的 python 基础语法为:if 条件分支 Python 条件分支是通过一条或者多条语句的执行结果 True或者 False来决定是否执行相应的代码块. if 单向条件语法结构 if 单向条 ...

  5. python写采集程序_python实现简易采集爬虫

    #!/usr/bin/python#-*-coding:utf-8-*- #简易采集爬虫#1.采集Yahoo!Answers,parseData函数修改一下,可以采集任何网站#2.需要sqlite3或 ...

  6. python 访问网页 重定向_Python数据网络采集5--处理Javascript和重定向

    Python数据网络采集5--处理Javascript和重定向 到目前为止,我们和网站服务器通信的唯一方式,就是发出HTTP请求获取页面.有些网页,我们不需要单独请求,就可以和网络服务器交互(收发信息 ...

  7. 自动采集的网站源码-自动采集发布的电影小说新闻网站程序源码

    自动采集网站源码,有不少SEO的同伴们都在找可以自动采集网站源码,但是这种源码真的好吗?首先可以自动采集的网站源码程序,规则也是别人写好的,采集的内容也是别人用过的,对于网站收录肯定不是那么友好.我们 ...

  8. 使用python爬虫为wordpress采集内容 felix_python爬虫自动采集并上传更新网站 requests wordpress_xmlrpc wordpress实战...

    爬虫用的 bs4+requests 上传用的  wordpress_xmlrpc #coded by 伊玛目的门徒 #coding=utf-8 from wordpress_xmlrpc import ...

  9. python 正则表达式提取数据_Python爬虫教程-19-数据提取-正则表达式(re)

    本篇主页内容:match的基本使用,search的基本使用,findall,finditer的基本使用,匹配中文,贪婪与非贪婪模式 Python爬虫教程-19-数据提取-正则表达式(re) 正则表达式 ...

  10. python 爬视频下载_Python爬虫进阶之爬取某视频并下载的实现

    这篇文章我们来讲一下在网站建设中,Python爬虫进阶之爬取某视频并下载的实现.本文对大家进行网站开发设计工作或者学习都有一定帮助,下面让我们进入正文. 这几天在家闲得无聊,意外的挖掘到了一个资源网站 ...

最新文章

  1. Android 中ContentProvider和Uri详解
  2. JdbcTemplate的CRUD操作
  3. 获取String类型汉字乱码,如何进行编码
  4. 北大邮箱收件服务器,北京大学微电子学研究院邮件系统
  5. Linux用系统命令杀死僵尸进程
  6. java流程控制及控制键盘输出文字 —(6)
  7. 机器学习之必知开源数据集
  8. Linux基于升序链表的定时器
  9. Linux OS 曝新漏洞 攻击者可在多数发行版获root 权限
  10. 《nftables相比iptables到底改变了什么》-- (作者:blog.csdn.net/dog250)
  11. LeetCode(2) 两数相加递归解法,速度最快,内存消耗最小
  12. 【Unity】雷达+Unity +TUIO 介绍二
  13. Python xlrd、xlwt 用法说明
  14. 蓝牙协议层 GATT ,GAP,ATT 之间的关系
  15. Apache Iceberg Research
  16. 为什么全网通手机联通显示无服务器,手机卡无服务怎么回事
  17. HDLC和PPP协议总结
  18. 苹果手机怎么设置专属铃声?看一遍就能学会的超简单教程
  19. Protocol “https“ not supported or disabled in libcurl
  20. 如何基于Python写一个TCP反向连接后门

热门文章

  1. 视频教程-【孙伟】网页设计(切图)视频教程-UI
  2. 7月30日PMP考试注意事项
  3. 关于U盘不能新建文件夹
  4. java设计模式之模板方法模式(Template Method)
  5. [渝粤教育] 云南大学 大学生创新创业教育 参考 资料
  6. JS实现图片拖动验证
  7. 用一套键盘鼠标同时控制两台电脑
  8. 别再说找不到web前端项目练手了,这套最全的前端实战案例请拿去
  9. 沧小海笔记之PCIE协议解析——第二章 详述PCIE事务层
  10. 总有阳光照射不见的地方