From: http://www.cnblogs.com/bboy/archive/2010/10/29/1864537.html

用python抓取网页是非常简单的事,简单的几行代码就可以解决。。。这里稍微记录一下

需要引用的包有主要是 urllib2,urllib也可以引入,具体 看代码

#-------------------------------------------------------------------------------
# Name:        模拟登录web
# Purpose:
#
# Author:      huwei
#
# Created:     26/10/2010
# Copyright:   (c) huwei 2010
# Licence:     <your licence>
#-------------------------------------------------------------------------------
#!/usr/bin/env python

import time,urllib2,urllib

def main():
    
    #登录博客园
    loginCNblogs()
    pass

#登录博客园
def loginCNblogs():
    try:
        #设置 cookie
        cookies = urllib2.HTTPCookieProcessor()
        opener = urllib2.build_opener(cookies)
        urllib2.install_opener(opener)

parms = {"tbUserName":"用户名","tbPassword":"密码","__EVENTTARGET":"btnLogin","__EVENTARGUMENT":"",
        "__VIEWSTATE":"/wEPDwULLTExMDE0MzIzNDRkGAEFHl9fQ29udHJvbHNSZXF1aXJlUG9zdEJhY2tLZXlfXxYBBQtjaGtSZW1lbWJlcmcJekJlt5rFwfnjeMMnX9V58Xhg",
        "__EVENTVALIDATION":"/wEWBQKit6iCDALyj/OQAgK3jsrkBALR55GJDgKC3IeGDK6TQlRlirS2Zja1Lmeh02u4XMwV",
        "txtReturnUrl":"http://bboy.cnblogs.com"}

loginUrl = "http://passport.cnblogs.com/login.aspx"
        login = urllib2.urlopen(loginUrl,urllib.urlencode(parms))
        
        
        #print(unicode(login.read(),"utf8"))

#显示配置页面
        avatar = urllib2.urlopen("http://home.cnblogs.com/set/avatar/")
        #print(avatar.read().decode("utf8"))
    except Exception,e:
        print(e)
    pass

if __name__ == '__main__':
    main()

获取 网页很简单 直接 urllib2.urlopen(url).read() 就可以得到网页源码

这里是抓取登录后的页面,所有开头需要设置cookie

cookies = urllib2.HTTPCookieProcessor()
opener = urllib2.build_opener(cookies)
urllib2.install_opener(opener)

设置完 cookie以后 再使用 urllib2.urlopen()方法就可以带上你登录成功的cookie了

Python网页抓取、模拟登录相关推荐

  1. 最好用的Python网页抓取工具包!

    众所周知,Python是最流行的编程语言之一,因为它简单.强大,也使它越来越流行,大家可以免费构建软件.开发Web服务.执行数据分析和可视化等等,那么在Python语言中常用的工具有哪些呢?以下是详细 ...

  2. Python网页抓取和Excel操作实战-基金筛选器

    项目背景: 最近在研究基金,想找一些基金能和自己看中的股票能够匹配起来,发现工作量不小,需要去看每只股票的基金持仓情况,然后再去比较筛选,很花时间.于是想是否能利用Python来爬取股票的基金数据,然 ...

  3. Python网页抓取

    #coding:utf-8import urllib #导入模块 print dir(urllib) #查看urllib方法 print help(urllib.urlopen) #查看帮助文档 ur ...

  4. 玩转Java网页抓取

    - 使用Java进行网页抓取 - 用于网页抓取的流行语言有Python.JavaScript和Node.js.PHP.Java.C#等.因为有很多选择,想要确定哪种语言最合适并不容易.每种语言都有其优 ...

  5. python 爬虫动态网页的区别_Python开发爬虫之动态网页抓取篇:爬取博客评论数据——通过Selenium模拟浏览器抓取...

    区别于上篇动态网页抓取,这里介绍另一种方法,即使用浏览器渲染引擎.直接用浏览器在显示网页时解析 HTML.应用 CSS 样式并执行 JavaScript 的语句. 这个方法在爬虫过程中会打开一个浏览器 ...

  6. python初学者爬虫教程(二)动态网页抓取

    python爬虫教程(二)动态网页抓取 解析真实地址抓取 通过selenium 模拟浏览器抓取 selenium 安装与测试 selenium爬取一条评论 selenium获取文章的所有评论 sele ...

  7. python动态页面元素爬取_Python开发爬虫之动态网页抓取篇:爬取博客评论数据——通过浏览器审查元素解析真实网页地址...

    由于主流网站都使用JavaScript展示网页内容,和前面简单抓取静态网页不同的是,在使用JavaScript时,很多内容并不会出现在HTML源代码中,而是在HTML源码位置放上一段JavaScrip ...

  8. Python开发爬虫之动态网页抓取篇:爬取博客评论数据——通过浏览器审查元素解析真实网页地址...

    由于主流网站都使用JavaScript展示网页内容,和前面简单抓取静态网页不同的是,在使用JavaScript时,很多内容并不会出现在HTML源代码中,而是在HTML源码位置放上一段JavaScrip ...

  9. python网络爬虫学习笔记(6)动态网页抓取(一)知识

    文章目录 网络爬虫学习笔记(2) 1 资料 2 笔记 2-1 动态抓取概述 2-2 通过浏览器审查元素解析真实网页地址 2-3 网页URL地址的规律 2-4 json库 2-5 通过Selenium模 ...

最新文章

  1. linux驱动:TI+DM8127+GPIO(五)之plarform
  2. KNN 分类算法原理代码解析
  3. 部署Laravel项目到centos服务器上
  4. 清华大学计算机系2015分数线,清华大学2015-2017高考录取分数线,附各省录取数据...
  5. 如何开发一个npm包并发布
  6. SQL Server2016导出数据表数据
  7. 孙丕恕离开浪潮 仪器厂历时60年成为服务器龙头企业
  8. 来腾讯云开发者实验室 学习.NET Core 2.0
  9. 看了就彻底明白人生!!!
  10. C/C++字符串输入方法比较(带回车不带回车输入)
  11. mongodb简单安装
  12. Linux学习---新建文件,查看文件,修改权限,删除
  13. 如何写期刊论文的文献综述
  14. c语言 dfs,DFS(深度优先搜索)
  15. 桌面文件突然不见了怎么恢复?
  16. 高效生成6位数字验证码代码
  17. Html5大文件断点续传实现方法
  18. 日常英语---十二、MapleStory/Monsters/Level 1-10(Horny Mushroom)
  19. 将来的手机,我心中的手机 【十年前的一篇随笔】
  20. rust:错误处理 Blocking waiting for file lock on package cache

热门文章

  1. CMOS密码安全攻略
  2. 让VS2005用起来更顺手
  3. android触摸消息的派发过程
  4. 房价预测 search Search 中对数据预处理的学习
  5. leetcode228. 汇总区间
  6. javascript创建类_如何在10分钟内使用JavaScript创建费用管理器
  7. 分布式 知乎 github_如何使用GitHub本机功能来帮助管理中型分布式团队
  8. 平面设计 前端_我如何在5个月内从平面设计师过渡到前端开发人员
  9. 技能学习重要的古语_学习方法:最重要的开发人员技能
  10. 记一次调用API遇到的问题