python spider code
- #FileName: toolbox_insight.py
- from sgmllib import SGMLParser
- import threading
- import time
- import urllib2
- import StringIO
- import gzip
- import string
- import os
- #rewrite SGMLParser for start_a
- class Basegeturls(SGMLParser): #这个Basegeturls类作用是分析下载的网页,把网页中的所有链接放在self.url中。
- def reset(self):
- self.url = []
- SGMLParser.reset(self)
- def start_a(self, attrs):
- href = [v for k, v in attrs if k == 'href']
- if href:
- self.url.extend(href)
- #for quickly finding
- class Newlist(list):#这个类其实是一个添加了find方法的LIST。当num变量在LIST中,返回True,当不在LIST中,返回False并把num按二分法插入LIST中
- def find(self, num):
- l = len(self)
- first = 0
- end = l - 1
- mid = 0
- if l == 0:
- self.insert(0,num)
- return False
- while first < end:
- mid = (first + end)/2
- if num > self[mid]:
- first = mid + 1
- elif num < self[mid]:
- end = mid - 1
- else:
- break
- if first == end:
- if self[first] > num:
- self.insert(first, num)
- return False
- elif self[first] < num:
- self.insert(first + 1, num)
- return False
- else:
- return True
- elif first > end:
- self.insert(first, num)
- return False
- else:
- return True
- #下面的reptile顾名思义是一个爬虫
- class reptile(threading.Thread):
- #Name: 是爬虫是名字,queue是任务队列,所有的爬虫共用同一个任务队列
- #从中取出一个任务项进行运行,每个任务项是一个要下载网页的URL
- #result: 也是一个队列,将下载的网页中包含的URL放入该队列中
- #inittime: 在本程序中没有用,只是一个为了以后扩展用的
- #downloadway:是下载的网页存放的路径
- #configfile: 是配置文件,存放网页的URL和下载下后的路径
- #maxnum: 每个爬虫有个最大下载量,当下载了这么多网页后,爬虫dead
- def __init__(self, Name, queue, result, Flcok, inittime = 0.00001, downloadway = 'D:\\bbs\\',configfile = 'D:\\bbs\\conf.txt', maxnum = 10000):
- threading.Thread.__init__(self, name = Name)
- self.queue = queue
- self.result = result
- self.Flcok = Flcok
- self.inittime = inittime
- self.mainway = downloadway
- self.configfile = configfile
- self.num = 0 #已下载的网页个数
- self.maxnum = maxnum
- os.makedirs(downloadway + self.getName()) #系统调用:在存放网页的文件夹中创建一个以该爬虫name为名字的文件夹
- self.way = downloadway + self.getName() + '\\'
- def run(self):
- opener = urllib2.build_opener() #创建一个开启器
- while True:
- url = self.queue.get() #从队列中取一个URL
- if url == None: #当取得一个None后表示爬虫结束工作,用于外部方便控制爬虫的生命期
- break
- parser = Basegeturls() #创建一个网页分析器
- request = urllib2.Request(url) #网页请求
- request.add_header('Accept-encoding', 'gzip')#下载的方式是gzip压缩后的网页,gzip是大多数服务器支持的一种格式
- try: #这样可以减轻网络压力
- page = opener.open(request)#发送请求报文
- if page.code == 200: #当请求成功
- predata = page.read() #下载gzip格式的网页
- pdata = StringIO.StringIO(predata)#下面6行是实现解压缩
- gzipper = gzip.GzipFile(fileobj = pdata)
- try:
- data = gzipper.read()
- except(IOError):
- print 'unused gzip'
- data = predata#当有的服务器不支持gzip格式,那么下载的就是网页本身
- try:
- parser.feed(data)#分析网页
- except:
- print 'I am here'#有的网页分析不了,如整个网页就是一个图片
- for item in parser.url:
- self.result.put(item)#分析后的URL放入队列中
- way = self.way + str(self.num) + '.html'#下面的是网页的保存,不多说了
- self.num += 1
- file = open(way, 'w')
- file.write(data)
- file.close()
- self.Flcok.acquire()
- confile = open(self.configfile, 'a')
- confile.write( way + ' ' + url + '\n')
- confile.close()
- self.Flcok.release()
- page.close()
- if self.num >= self.maxnum:#达到最大量后退出
- break
- except:
- print 'end error'
- #和爬虫一样是个线程类,作用是将爬虫中的result中存入的URL加以处理。只要同一个服务器的网页
- class proinsight(threading.Thread):
- def __init__(self, queue, list, homepage, inqueue):
- threading.Thread.__init__(self)
- self.queue = queue#和爬虫中的result队列是同一个
- self.list = list#是上面Newlist的对象
- self.homepage = homepage#主页
- self.inqueue = inqueue#处理完后的URL的去处
- def run(self):
- length = len(self.homepage)
- while True:
- item = self.queue.get()
- if item == None:
- break
- if item[0:4] == '\r\n':
- item = item[4:]
- if item[-1] == '/':
- item = item[:-1]
- if len(item) >= len('http://') and item[0:7] == 'http://':
- if len(item) >= length and item[0:length] == self.homepage:
- if self.list.find(item) == False:
- self.inqueue.put(item)
- elif item[0:5] == '/java' or item[0:4] == 'java':
- pass
- else:
- if item[0] != '/':
- item = '/' + item
- item = self.homepage + item
- if self.list.find(item) == False:
- self.inqueue.put(item)
- 下面的是一个主函数过程
- 我下载的网站是http://bbs.hit.edu.cn
- 开始网页是http://bbs.hit.edu.cn/mainpage.php
- #FileName:test
- from toolbox_insight import *
- from Queue import Queue
- import threading
- import sys
- num = int(raw_input('Enter the number of thread:'))
- pnum = int(raw_input('Enter the number of download pages:'))
- mainpage = str(raw_input('The mainpage:'))
- startpage = str(raw_input('Start page:'))
- queue = Queue()
- key = Queue()
- inqueue = Queue()
- list = Newlist()
- thlist = []
- Flock = threading.RLock()
- for i in range(num):
- th = reptile('th' + str(i), queue, key, Flock)
- thlist.append(th)
- pro = proinsight(key, list, mainpage, inqueue)
- pro.start()
- for i in thlist:
- i.start()
- queue.put(startpage)
- for i in range(pnum):
- queue.put(inqueue.get())
- for i in range(num):
- queue.put(None)
python spider code相关推荐
- [Study]Python Spider
文章目录 一.Python 基础 1.1 pip 1.2 数据类型 1.3 运算符 1.4 关键字 1.5 流程控制 1.6 字符串函数 1.7 列表函数 1.8 字典函数 1.9 切片 1.10 函 ...
- Python:Spider
Spider类定义了如何爬取某个(或某些)网站.包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item). 换句话说,Spider就是您定义爬取的动作及分析某个网页( ...
- python spider 安装_Python爬虫(11):Scrapy框架的安装和基本使用
大家好,本篇文章我们来看一下强大的Python爬虫框架Scrapy.Scrapy是一个使用简单,功能强大的异步爬虫框架,我们先来看看他的安装. Scrapy的安装 Scrapy的安装是很麻烦的,对于一 ...
- python spider怎么用_python爬虫入门(七)Scrapy框架之Spider类
Spider类 Spider类定义了如何爬取某个(或某些)网站.包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item). 换句话说,Spider就是您定义爬取的动作 ...
- 【python VS Code】调用自定义模块 ModuleNotFoundError: No module named XXX
写 python 很久了,今天本没打算熬夜,但却被这么简单的问题困到了 零点半 - 有点像脑筋急转弯. 在 VS Code 等轻量文本编辑器/项目管理器中,我不希望像 pycharm 一样由配置文件自 ...
- python spider模块_spider【第三篇】python爬虫模块requests
requests简介 requests模块是python3自带的库,可直接使用,该库主要用来处理http请求 requests模块的简单使用 requests模块发送简单的请求.获取响应 一.requ ...
- Python Spider: 爬取项目外包网站TaskCity
对于想要做软件外包的小伙伴们来说,每天登陆外包网站,并且搜索合适的项目,是很累人并且十分枯燥的事情.使用Python爬虫,可以自动对外包网站上面最新的软件外包项目进行搜索.提取和保存.可以大大提高大家 ...
- python spider是什么_Scrapy框架下的Spider类是什么
Spider类 Spider类定义了如何爬取某个(或某些)网站.包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item). 换句话说,Spider就是您定义爬取的动作 ...
- python exit code 1602_树莓派1602lcd实验
为利用学习单片机时留下的1602lcd,在树莓派下尝试使用,查找资料时发现了李凡希大神的博客早有记载,故利用他的实验代码,仿照搭建了下.其博客原地址为:https://www.freemindworl ...
最新文章
- 利用矩阵奇异值分解(SVD)进行降维
- python print 的使用方法
- 程序编译出错,缺少类型说明符;语法错误 : 缺少“;”(在标识符“PVOID64”的前面)
- WPF 3d坐标系和基本三角形
- Java 洛谷 P1161 开灯
- protobuf生成as文件
- 第十二章 多元线性回归
- java机考_【Java】(机考常用)类集
- C语言程序设计教程(第三版)课后习题8.2
- 极域电子教室软件怎么脱离控制_如何制定职业发展目标,才能避免“现实发展脱离职业规划”的问题...
- 使用javascript实现对于chineseocr的API调用
- Java接入腾讯云短信接口
- 凹点匹配 matlab源码,粘连类圆形目标图像的分割方法与流程
- 清华EMBA课程系列思考之十五 -- 企业绩效管理 -- 战略性绩效管理
- 【老文档】20190331省电功能性文档
- L1-007 念数字(C语言)
- 华纬科技冲刺深交所:拟募资4亿 二代接班金雷,控制65%股权
- 三国志战略版:Daniel_张角分析
- JavaScript jQuery遍历对象each()方法
- 2023 年值得关注的 7 大人工智能 (AI) 技术趋势
热门文章
- 【LDA学习系列】M-H采样python代码
- 【Python-ML】集成多数投票分类器-训练评估调优
- local_irq_disable
- python数据采集框架_20190715《Python网络数据采集》第 1 章
- 字符串去掉两端的引号_Python3.7知其然知其所以然-第六章 字符串
- VS2015占内存大吗?_手机是6GB运行内存,何为后台却显示3G内存?
- c#知识点——数据库
- java的知识点30——设计模式
- 在webstorm里面添加自定义web browsers的方法
- CTFshow 命令执行 web68