121,278

因工作需要,要定期收集卡饭论坛的病毒样本板块的病毒样本,所以就考虑用 Python做个爬虫,然后自动下载附件。

核心功能有3个:

1· 登录

2· 伪造cookie保持session

3. 下载样本

首先,登录就是先抓取登录页面,找到登录表单会post的数据,当然你也可以用firefox的httpfox插件。

需要注意的是,discuz的登录表单里有个hashform字段,是会随时间变的,所以要登录,必须分两个步骤:

1· 先抓取登录页面,找到hashform值

2· 生成post数据,然后登录 登录成功后,服务器端会返回给我们两个cookie字段,我本来是想先解析这些cookie,然后再生成自己的cookie,作为每次post的数据之一。后来发现cookielib可以安装opener,所以你只要用urllib2.urlopen(req)来取代urllib.urlopen(uri),返回的cookie每次就会被保存,并且自动包在每次发送的请求里。

接下来就是解析网页,获得附件的下载地址了。解析网页无非就是正则。没有什么新的技术含量,就不多说了。

下面上代码,给需要类似功能的朋友做参考。代码写的乱,就不要见怪了。 帖子列表,我是从板块的RSS中获得的。

import urllib,urllib2,cookielib,re,datetime

def getPageHtml(uri):

req = urllib2.Request(uri)

return urllib2.urlopen(req).read()

#return urllib.urlopen(uri).read()

def login():

'''登陆论坛

设置cookie,获得formhash,然后提交post数据 '''

#获得formhash

pattern = re.compile("")

content = getPageHtml('http://bbs.kafan.cn/logging.php?action=login')

formhash = pattern.findall(content)

if (len(formhash) > 0):

formhash = formhash[0]

formhash = formhash[-12:-4]

#cookie

cookieJar = cookielib.CookieJar()

cookie_support= urllib2.HTTPCookieProcessor(cookieJar)

opener = urllib2.build_opener(cookie_support, urllib2.HTTPHandler)

urllib2.install_opener(opener)

#login

postdata=urllib.urlencode({

'loginfield':'username',

'username':'用户名',

'password':'密码',

'referer':'http://bbs.kafan.cn/',

'formhash':formhash,

'questionid':'0',

'answer':''

})

headers = {

'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6',

'referer':'http://bbs.kafan.cn'

}

req = urllib2.Request(

url = 'http://bbs.kafan.cn/logging.php?action=login&loginsubmit=yes&inajax=1',

data = postdata,

headers = headers

)

result = urllib2.urlopen(req).read()

def getPages():

page = getPageHtml('http://bbs.kafan.cn/rss.php?fid=31&auth=0')

pattern = re.compile(".*viewthread.php.*< \/link>")

linkArray = pattern.findall(page)

return linkArray

def getLinks(urls):

#遍历页面

count = 1

for url in urls:

url = url[6:-7]

print "解析" + url

pageContent = getPageHtml(url)

#print pageContent

pattern = re.compile('.*<; \/a>;')

anchors = pattern.findall(pageContent)

#遍历下载节点

for anchor in anchors:

print anchor

linkPattern = re.compile('\"attachment\.php\?aid=[a-zA-Z0-9\%&;=\?-_\B]*\"')

link = linkPattern.findall(anchor)

link = "http://bbs.kafan.cn/" + link[0][1:-1]

namePattern = re.compile('>;[^<;>;].*[^<;>;]<;\/')

name = namePattern.findall(anchor)

name = name[0][1:-2]

date = GetDateString()

time = GetTimeString()

name = rootpath + date + "\\" + time + "_" + name

print "下载" + link

print "至" + name

count = count + 1

download(link,name)

def download(url,filename):

MakeDateFolder(rootpath)

urllib.urlretrieve(url, filename)

def GetTimeString():

from datetime import datetime

todayStr = datetime.today().strftime("%H_%M_%S")

return todayStr

def GetDateString():

from datetime import date

todayStr = date.today().strftime("%Y_%m_%d")

return todayStr

def MakeDateFolder( inFolderName ):

import os

if os.path.isdir( inFolderName ):

newFolderName = inFolderName + '\\\\' + GetDateString()

print(newFolderName)

if os.path.isdir( newFolderName ):

print(newFolderName," Exists already ")

else:

os.mkdir( newFolderName )

print(newFolderName," Create OK ")

rootpath = 'c:\\kafan\\'

login()

pagelinks = getPages()

attlinks = getLinks(pagelinks)

python discuz_Python爬虫自动下载Discuz论坛附件。相关推荐

  1. python discuz_python实现的登陆Discuz!论坛通用代码分享

    代码如下: #coding:gbkimport urllib2,urllib,cookielib,re''' 通用的登陆DZ论坛 参数说明parms: username:用户名(必填), passwo ...

  2. Discuz论坛附件下载权限绕过漏洞

    近日,有网友在乌云上发布了一则Discuz论坛附件下载权限绕过漏洞,能够任意下载带有权限的附件并且无需扣除自身积分.目前Discuz正在处理中,但暂未放出漏洞补丁,有需要的朋友不妨趁漏洞修补之前到各论 ...

  3. python 通达信自动下载收盘和财务数据

    python 通达信自动下载收盘和财务数据,自动启动通达信,鼠标自动操作: 通达信直接从官网下载免费版,可下载财务数据. 自动识别屏幕尺寸(目前为1440x900.1920x1080.1366*768 ...

  4. python网络爬虫快速下载4K高清壁纸

    python网络爬虫快速下载4K高清壁纸 此处给出下载壁纸的链接地址彼岸图网,进入网站之后,我们看到可以下载风景,游戏,动漫,美女等类型的4K图片,装逼一下,re库有贪婪匹配,那我们就写一个通用代码来 ...

  5. Python 爬虫自动下载OpenAI Key Papers

    Spinning Up是OpenAI开源的面向初学者的深度强化学习资料,其中列出了105篇深度强化学习领域非常经典的文章, 见 Spinning Up: 博主使用Python爬虫自动爬取了所有文章,而 ...

  6. 简单python网络爬虫批量下载视频

    寒假闲来无事,决定尝试一下用python写一个小网络爬虫批量下载视频. 由于是第一次写网络爬虫,可以说是两眼一抹黑,整个程序都是自己一点点试出来的,所以程序本身肯定有一些漏洞和缺陷,如果有建议请批评指 ...

  7. Chrome浏览器无法自动登录discuz论坛

    本人用浏览器是Chrome,在discuz论坛一直输入帐号和密码之后点确定无反应,刷新之后可登录-- 网上搜索后,找到的解决办法: 发现是一个叫"Google Analytics(分析)停用 ...

  8. 利用 Python 和 Selenium 自动下载知网期刊文件

    利用Selenium自动下载知网期刊文件 1 下载 Chrome 的 Webdriver 2 代码 2.1 导入相关的包 2.2 设置 WebDriver 2.3 找到期刊名在网页上对应元素 2.4 ...

  9. python下载电影速度_我是如何使用python控制迅雷自动下载电影的?

    写了一个脚本爬取了阳光电影的豆瓣高分电影,需要用迅雷帮我一部一部的自动下载好,供我无聊时观看.为什么要一部一部的下? 因为中国移动送了我一张无限流量卡,结果才用了5个G我就被限速到 100kb/s 了 ...

最新文章

  1. python函数编程-偏函数partial function
  2. aapt: error while loading shared libraries: libstdc++.so.6: wrong ELF class: ELFCLASS64
  3. iOS自动打包并发布脚本
  4. ASP.NET Core如何在ActionFilterAttribute里做依赖注入
  5. hdu 6153 A Secret kmp + dp
  6. Redis面试 - 生产环境中的 redis 是怎么部署的?
  7. 不登陆QQ也能使用QQ截图工具
  8. MAC Photoshop标题栏不见了
  9. 网络打印机拒绝访问,无法连接处理方法汇总
  10. Unity Shader-反射效果(CubeMap,Reflection Probe,Planar Reflection,Screen Space Reflection)
  11. 数据库表,excel,cvs 联系人转vcf
  12. 折腾开源WRT的AC无线路由之路-1
  13. 钉钉邮箱登录入口_钉邮的使用攻略①
  14. java的向下转型_Java 向上/向下转型浅析
  15. 【云原生 | 从零开始学Kubernetes】十二、k8spod的生命周期与容器钩子
  16. 数通(DataCom)--路由交换技术学习笔记
  17. mysql sql dateadd函数_SQL DATEADD函数 (sqlserver 只更新表中年份,不改其他时间)...
  18. [转]split命令:对文件进行分割
  19. ORACLE VARCHAR2最大长度问题[作者:潇湘隐者]
  20. 电信业务平台融合的探讨

热门文章

  1. 有哪些实用的报修管理系统?的修报修平台具备哪些优势?
  2. 51aspx是流氓!自动修改F5快捷键为打开它的站!
  3. android 7 版本升级,Android 7.0独立升级是什么意思?安卓7.0系统升级方法介绍[多图]...
  4. Java接口implements
  5. JS鼠标事件onMouseOver和onMouseOut的坑
  6. 如何在网上买到真品茶叶?
  7. 什么是Bash、什么是shell?
  8. 电脑我的世界服务器怎么按键显示,我的世界电脑版所有的按键及使用方法?
  9. java 如何连接oracle_oracle教程之java连接oracle_java如何连接oracle数据库?
  10. 2022新版手机软件库游戏库下载系统源码/附教程