python爬虫代码实例源码_python爬虫代码示例分享
这篇文章主要介绍了三个python爬虫项目实例代码,使用了urllib2库,文中示例代码非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下。
python爬虫代码示例分享
一、爬取故事段子:推荐学习:Python视频教程
注:部分代码无法正常运行,但仍有一定的参考价值。#encoding=utf-8
import urllib2
import re
class neihanba():
def spider(self):
'''
爬虫的主调度器
'''
isflow=True#判断是否进行下一页
page=1
while isflow:
url="http://www.neihanpa.com/article/list_5_"+str(page)+".html"
html=self.load(url)
self.deal(html,page)
panduan=raw_input("是否继续(y/n)!")
if panduan=="y":
isflow=True
page+=1
else:
isflow=False
def load(self,url):
'''
针对url地址进行全部爬去
:param url: url地址
:return: 返回爬去的内容
'''
header = {
"User-Agent": " Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.79 Safari/537.36"
}
request = urllib2.Request(url, headers=header)
response = urllib2.urlopen(request)
html = response.read()
return html
def deal(self,html,page):
'''
对之前爬去的内容进行正则匹配,匹配出标题和正文内容
:param html:之前爬去的内容
:param page: 正在爬去的页码
'''
parrten=re.compile('
(.*?)',re.S)
titleList=parrten.findall(html)
for title in titleList:
parrten1=re.compile('(.*)')
ti1=parrten1.findall(title)
parrten2=re.compile('
',re.S)
til2=parrten2.findall(title)
for t in ti1:
tr=t.replace("","").replace("","")
self.writeData(tr,page)
for t in til2:
tr=t.replace("
","").replace("
","").replace("
","").replace("
","").replace("&ldquo","\"").replace("&rdquo","\"")
self.writeData(tr,page)
def writeData(self,context,page):
'''
将最终爬去的内容写入文件中
:param context: 匹配好的内容
:param page: 当前爬去的页码数
'''
fileName = "di" + str(page) + "yehtml.txt"
with open(fileName, "a") as file:
file.writelines(context + "\n")
if __name__ == '__main__':
n=neihanba()
n.spider()
二、爬取智联:#encoding=utf-8
import urllib
import urllib2
import re
class zhiLian():
def spider(self,position,workPlace):
'''
爬虫的主调度器
:param position: 职位
:param workPlace: 工作地点
'''
url="http://sou.zhaopin.com/jobs/searchresult.ashx?"
url+=urllib.urlencode({"jl":workPlace})
url+="&"
url+=urllib.urlencode({"kw":position})
isflow=True#是否进行下一页的爬去
page=1
while isflow:
url+="&"+str(page)
html=self.load(url)
self.deal1(html,page)
panduan = raw_input("是否继续爬虫下一页(y/n)!")
if panduan == "y":
isflow = True
page += 1
else:
isflow = False
def load(self,url):
'''
针对url地址进行全部爬去
:param url: url地址
:return: 返回爬去的内容
'''
header = {
"User-Agent": " Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.79 Safari/537.36"
}
request = urllib2.Request(url, headers=header)
response = urllib2.urlopen(request)
html = response.read()
return html
def deal1(self,html,page):
'''
对之前爬去的内容进行正则匹配,匹配职位所对应的链接
:param html:之前爬去的内容
:param page: 正在爬去的页码
'''
parrten=re.compile('.*?',re.S)
til=parrten.findall(html)#爬去链接
for t in til:
self.deal2(t,page)
def deal2(self,t,page):
'''
进行二次爬虫,然后在新的页面中对公司、薪资、工作经验进行匹配
:param t: url地址
:param page: 当前匹配的页数
'''
html=self.load(t)#返回二次爬虫的内容
parrten1=re.compile('(.*?)\s+.*?',re.S)
parrten2=re.compile('
职位月薪: (.*?) .*?',re.S)
parrent3=re.compile('
工作经验: (.*?)',re.S)
til1=parrten1.findall(html)
til2=parrten2.findall(html)
til3=parrent3.findall(html)
str=""
for t in til1:
t=t.replace('',"")
str+=t
str+="\t"
for t in til2:
str+=t
str += "\t"
for t in til3:
str+=t
self.writeData(str,page)
def writeData(self,context,page):
'''
将最终爬去的内容写入文件中
:param context: 匹配好的内容
:param page: 当前爬去的页码数
'''
fileName = "di" + str(page) + "yehtml.txt"
with open(fileName, "a") as file:
file.writelines(context + "\n")
if __name__ == '__main__':
position=raw_input("请输入职位:")
workPlace=raw_input("请输入工作地点:")
z=zhiLian()
z.spider(position,workPlace)
三、爬取贴吧:#encoding=utf-8
import urllib
import urllib2
import re
class teiba():
def spider(self,name,startPage,endPage):
url="http://tieba.baidu.com/f?ie=utf-8&"
url+=urllib.urlencode({"kw":name})
for page in range(startPage,endPage+1):
pn=50*(page-1)
urlFull=url+"&"+urllib.urlencode({"pn":pn})
html=self.loadPage(url)
self.dealPage(html,page)
def loadPage(self,url):
header={
"User-Agent":" Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.79 Safari/537.36"
}
request=urllib2.Request(url,headers=header)
response=urllib2.urlopen(request)
html=response.read()
return html
def dealPage(self,html,page):
partten=re.compile(r'(.*?)',re.S)
titleList=partten.findall(html)
rstr=r'#(.*?)#'
for title in titleList:
title=re.sub(rstr,"",title)
self.writePage(title,page)
def writePage(self,context,page):
fileName="di"+str(page)+"yehtml.txt"
with open(fileName,"a") as file:
file.writelines(context+"\n")
if __name__ == '__main__':
name=raw_input("请输入贴吧名:")
startPage=raw_input("请输入起始页:")
endPage=raw_input("请输入终止页:")
t=teiba()
t.spider(name,int(startPage),int(endPage))
更多相关教程,请关注Python教程栏目。
以上就是python爬虫代码示例分享的详细内容,更多请关注php中文网其它相关文章!
本文原创发布php中文网,转载请注明出处,感谢您的尊重!
python爬虫代码实例源码_python爬虫代码示例分享相关推荐
- python爬虫代码实例源码_python爬虫及案例详解(附代码)
安装三大库 1.requests 2.BeautifulSoup 3.lxml 有的网站做了相应的反爬虫,不能用普通方法爬取网站数据. 这里我用python爬取了几个网站的数据,分别存入csv文件,m ...
- python爬虫代码实例源码_python 淘宝爬虫示例源码(抓取天猫数据)
爬取淘宝 天猫网站数据# -*- coding: utf-8 -*- #!/usr/bin/env Python import dateTime import URLparse import sock ...
- python股票回测源码_Python爬虫回测股票的实例讲解
股票和基金一直是热门的话题,很多周围的人都选择不同种类的理财方式.就股票而言,肯定是短时间内收益最大化,这里我们需要用python爬虫的方法,来帮助我们获取一些股票的数据,这样才能更好的买到相应的股票 ...
- python源码_Python爬虫入门之获取网页源码
爬虫,就是用程序代替人去访问网站,然后把网站上需要的东西拿下来:类似人输入网址,看到页面,然后复制粘贴,只是把这个过程自动化. 那么第一步就是去访问网站,要看到网站的页面,对程序来说也就是源码.笔者在 ...
- python爬网页源码_python爬虫爬取网页的内容和网页源码不同?
可以看到这里id为k_total的元素值不同,爬出来是1,网页源码是55. 附还未完成的代码:import requests from bs4 import BeautifulSoup import ...
- python爬虫框架源码_python爬虫的基本框架
1.爬虫的基本流程: 通过requests库的get方法获得网站的url 浏览器打开网页源码分析元素节点 通过BeautifulSoup或者正则表达式提取想要的数据 储存数据到本地磁盘或者数据库 2. ...
- python 网上爬取数据源码_Python爬虫经常爬不到数据,或许你可以看一下小编的这篇文章...
1.最简单的Python爬虫 最简单的Python爬虫莫过于直接使用urllib.request.urlopen(url=某网站)或者requests.get(url=某网站)例如:爬取漫客栈里面的漫 ...
- python计算器小程序源码_python代码编写计算器小程序
本文实例为大家分享了python计算器小程序的具体代码,供大家参考,具体内容如下 import tkinter import tkinter.messagebox import math class ...
- python 搜索引擎 实验楼的源码_Python语言之简历有错别字被拒绝聘用?文档被领导说?Python实现永无错别字!...
本文主要向大家介绍了Python语言之简历有错别字被拒绝聘用?文档被领导说?Python实现永无错别字!,通过具体的内容向大家展示,希望对大家学习Python语言有所帮助. 找出中文错别字 1.5 代 ...
最新文章
- linux下memcached安装以及启动
- 泛型算法----概述,初识泛型算法,定制操作
- PDF页眉页脚怎么设置
- hdu 6406(思路+数据结构)
- rt5350 中断初始化
- java定义private_java9开始——接口中可以定义private私有方法
- 事务例子_图文详解:数据库事务与锁
- 如何检查python的库是否安装成功_Python——查看安装位置和安装的库
- 微软小冰你这么智能 .net知道吗?
- 互联网金融网络借贷系统架构
- govendor使用
- android下拉水波纹,android自定义WaveView水波纹控件
- PHP打印对象 用[]可以 用.不可以 不知所以然
- VIJOS-P1232核电站问题
- 1微秒等于多少皮秒_秒的换算:ms(毫秒),μs(微秒),ns(纳秒),ps(皮秒)
- 2019 CVPR之ReID:Hi-CMD: Hierarchical Cross-Modality Disentanglement for Visible-Infrared Person Re-Id
- Ubuntu安装Madagascar
- 从冷战到深度学习:一篇图文并茂的机器翻译史
- P1926 小书童——刷题大军(dp背包(01背包)状态转移方程)
- matlab threshold算法_控制与应用技术|基于模糊滑模算法的永磁同步电机无位置传感器矢量控制...
热门文章
- javascript全局变量和局部变量详解
- 极路由的“802.1x手机号登陆wifi”插件,电脑连接wifi方法
- java 单例模式 之懒汉模式
- 用matlab画水晶球,Flash CS4的Deco工具绘制一个有图案的水晶球
- 如何用C语言写出一棵树(结构想法分享)
- 蚂蚁核心科技产品亮相数字中国建设峰会 持续助力企业数字化转型
- 年总—回顾收获,奋力前行
- 由管理的细化谈ERP在中国的实施方法
- ArcGIS Server清除缓存(Java后台清理缓存方法)
- 《学习之道》第四章所罗门、组块、大陆漂移