Python网页抓取、模拟登录
From: http://www.cnblogs.com/bboy/archive/2010/10/29/1864537.html
用python抓取网页是非常简单的事,简单的几行代码就可以解决。。。这里稍微记录一下
需要引用的包有主要是 urllib2,urllib也可以引入,具体 看代码
# Name: 模拟登录web
# Purpose:
#
# Author: huwei
#
# Created: 26/10/2010
# Copyright: (c) huwei 2010
# Licence: <your licence>
#-------------------------------------------------------------------------------
#!/usr/bin/env python
import time,urllib2,urllib
def main():
#登录博客园
loginCNblogs()
pass
#登录博客园
def loginCNblogs():
try:
#设置 cookie
cookies = urllib2.HTTPCookieProcessor()
opener = urllib2.build_opener(cookies)
urllib2.install_opener(opener)
parms = {"tbUserName":"用户名","tbPassword":"密码","__EVENTTARGET":"btnLogin","__EVENTARGUMENT":"",
"__VIEWSTATE":"/wEPDwULLTExMDE0MzIzNDRkGAEFHl9fQ29udHJvbHNSZXF1aXJlUG9zdEJhY2tLZXlfXxYBBQtjaGtSZW1lbWJlcmcJekJlt5rFwfnjeMMnX9V58Xhg",
"__EVENTVALIDATION":"/wEWBQKit6iCDALyj/OQAgK3jsrkBALR55GJDgKC3IeGDK6TQlRlirS2Zja1Lmeh02u4XMwV",
"txtReturnUrl":"http://bboy.cnblogs.com"}
loginUrl = "http://passport.cnblogs.com/login.aspx"
login = urllib2.urlopen(loginUrl,urllib.urlencode(parms))
#print(unicode(login.read(),"utf8"))
#显示配置页面
avatar = urllib2.urlopen("http://home.cnblogs.com/set/avatar/")
#print(avatar.read().decode("utf8"))
except Exception,e:
print(e)
pass
if __name__ == '__main__':
main()
获取 网页很简单 直接 urllib2.urlopen(url).read() 就可以得到网页源码
这里是抓取登录后的页面,所有开头需要设置cookie
opener = urllib2.build_opener(cookies)
urllib2.install_opener(opener)
设置完 cookie以后 再使用 urllib2.urlopen()方法就可以带上你登录成功的cookie了
Python网页抓取、模拟登录相关推荐
- 最好用的Python网页抓取工具包!
众所周知,Python是最流行的编程语言之一,因为它简单.强大,也使它越来越流行,大家可以免费构建软件.开发Web服务.执行数据分析和可视化等等,那么在Python语言中常用的工具有哪些呢?以下是详细 ...
- Python网页抓取和Excel操作实战-基金筛选器
项目背景: 最近在研究基金,想找一些基金能和自己看中的股票能够匹配起来,发现工作量不小,需要去看每只股票的基金持仓情况,然后再去比较筛选,很花时间.于是想是否能利用Python来爬取股票的基金数据,然 ...
- Python网页抓取
#coding:utf-8import urllib #导入模块 print dir(urllib) #查看urllib方法 print help(urllib.urlopen) #查看帮助文档 ur ...
- 玩转Java网页抓取
- 使用Java进行网页抓取 - 用于网页抓取的流行语言有Python.JavaScript和Node.js.PHP.Java.C#等.因为有很多选择,想要确定哪种语言最合适并不容易.每种语言都有其优 ...
- python 爬虫动态网页的区别_Python开发爬虫之动态网页抓取篇:爬取博客评论数据——通过Selenium模拟浏览器抓取...
区别于上篇动态网页抓取,这里介绍另一种方法,即使用浏览器渲染引擎.直接用浏览器在显示网页时解析 HTML.应用 CSS 样式并执行 JavaScript 的语句. 这个方法在爬虫过程中会打开一个浏览器 ...
- python初学者爬虫教程(二)动态网页抓取
python爬虫教程(二)动态网页抓取 解析真实地址抓取 通过selenium 模拟浏览器抓取 selenium 安装与测试 selenium爬取一条评论 selenium获取文章的所有评论 sele ...
- python动态页面元素爬取_Python开发爬虫之动态网页抓取篇:爬取博客评论数据——通过浏览器审查元素解析真实网页地址...
由于主流网站都使用JavaScript展示网页内容,和前面简单抓取静态网页不同的是,在使用JavaScript时,很多内容并不会出现在HTML源代码中,而是在HTML源码位置放上一段JavaScrip ...
- Python开发爬虫之动态网页抓取篇:爬取博客评论数据——通过浏览器审查元素解析真实网页地址...
由于主流网站都使用JavaScript展示网页内容,和前面简单抓取静态网页不同的是,在使用JavaScript时,很多内容并不会出现在HTML源代码中,而是在HTML源码位置放上一段JavaScrip ...
- python网络爬虫学习笔记(6)动态网页抓取(一)知识
文章目录 网络爬虫学习笔记(2) 1 资料 2 笔记 2-1 动态抓取概述 2-2 通过浏览器审查元素解析真实网页地址 2-3 网页URL地址的规律 2-4 json库 2-5 通过Selenium模 ...
最新文章
- linux驱动:TI+DM8127+GPIO(五)之plarform
- KNN 分类算法原理代码解析
- 部署Laravel项目到centos服务器上
- 清华大学计算机系2015分数线,清华大学2015-2017高考录取分数线,附各省录取数据...
- 如何开发一个npm包并发布
- SQL Server2016导出数据表数据
- 孙丕恕离开浪潮 仪器厂历时60年成为服务器龙头企业
- 来腾讯云开发者实验室 学习.NET Core 2.0
- 看了就彻底明白人生!!!
- C/C++字符串输入方法比较(带回车不带回车输入)
- mongodb简单安装
- Linux学习---新建文件,查看文件,修改权限,删除
- 如何写期刊论文的文献综述
- c语言 dfs,DFS(深度优先搜索)
- 桌面文件突然不见了怎么恢复?
- 高效生成6位数字验证码代码
- Html5大文件断点续传实现方法
- 日常英语---十二、MapleStory/Monsters/Level 1-10(Horny Mushroom)
- 将来的手机,我心中的手机 【十年前的一篇随笔】
- rust:错误处理 Blocking waiting for file lock on package cache