python实现登录抓取_Python实现爬取需要登录的网站完整示例
本文实例讲述了Python爬取需要登录的网站实现方法。分享给大家供大家参考,具体如下:
import requests
from lxml import html
# 创建 session 对象。这个对象会保存所有的登录会话请求。
session_requests = requests.session()
# 提取在登录时所使用的 csrf 标记
login_url = "https://bitbucket.org/account/signin/?next=/"
result = session_requests.get(login_url)
tree = html.fromstring(result.text)
authenticity_token = list(set(tree.xpath("//input[@name='csrfmiddlewaretoken']/@value")))[0]
payload = {
"username": "<你的用户名>",
"password": "<你的密码>",
"csrfmiddlewaretoken": authenticity_token # 在源代码中,有一个名为 “csrfmiddlewaretoken” 的隐藏输入标签。
}
# 执行登录
result = session_requests.post(
login_url,
data = payload,
headers = dict(referer=login_url)
)
# 已经登录成功了,然后从 bitbucket dashboard 页面上爬取内容。
url = 'https://bitbucket.org/dashboard/overview'
result = session_requests.get(
url,
headers = dict(referer = url)
)
# 测试爬取的内容
tree = html.fromstring(result.content)
bucket_elems = tree.findall(".//span[@class='repo-name']/")
bucket_names = [bucket.text_content.replace("n", "").strip() for bucket in bucket_elems]
print(bucket_names)
希望本文所述对大家Python程序设计有所帮助。
python实现登录抓取_Python实现爬取需要登录的网站完整示例相关推荐
- python壁纸数据抓取_python 多线程爬取壁纸网站的示例
基本开发环境 ・ Python 3.6 ・ Pycharm 需要导入的库 目标网页分析 网站是静态网站,没有加密,可以直接爬取 整体思路: 1.先在列表页面获取每张壁纸的详情页地址 2.在壁纸详情页面 ...
- python爬虫知乎点赞_Python爬虫爬取知乎小结
最近学习了一点网络爬虫,并实现了使用Python来爬取知乎的一些功能,这里做一个小的总结.网络爬虫是指通过一定的规则自动的从网上抓取一些信息的程序或脚本.我们知道机器学习和数据挖掘等都是从大量的数据出 ...
- python 爬虫 博客园_Python爬虫爬取博客园作业
分析一下他们的代码,我在浏览器中对应位置右键,然后点击检查元素,可以找到对应部分的代码.但是,直接查看当前网页的源码发现,里面并没有对应的代码.我猜测这里是根据服务器上的数据动态生成的这部分代码,所以 ...
- python爬虫微博评论图片_python爬虫爬取微博评论
原标题:python爬虫爬取微博评论 python爬虫是程序员们一定会掌握的知识,练习python爬虫时,很多人会选择爬取微博练手.python爬虫微博根据微博存在于不同媒介上,所爬取的难度有差异,无 ...
- python 实时数据推送_python scrapy 爬取金十数据并自动推送到微信
一.背景 因业务需要获取风险经济事件并采取应对措施,但因为种种原因又疏忽于每天去查看财经日历,于是通过爬取金十数据网站并自动推送到微信查看. 二.目标实现 image 三.环境与工具 1.pychar ...
- python 爬取_Python爬虫爬取马蜂窝北京景点信息
背景 来北京有些日子了,但是每个周末都窝在六环外的村里躺着.想想不能再这么浪费时间了,得出去玩!但是去哪玩呢?于是乎想着,先把北京的景点以及位置都保存起来,然后在分析分析做个出行计划.从哪里获取景点信 ...
- python动态页面元素爬取_python动态爬取网页
简介 有时候,我们天真无邪的使用urllib库或Scrapy下载HTML网页时会发现,我们要提取的网页元素并不在我们下载到的HTML之中,尽管它们在浏览器里看起来唾手可得. 这说明我们想要的元素是在我 ...
- python公众号文章爬虫_Python爬虫爬取微信公众号历史文章全部链接
因为朋友问我能不能找一下一个微信公众号的全部历史文章的链接,我就帮他弄了一下,通过百度和谷歌发现现在大家爬微信公众号的思路基本都是下面两种: 通过搜狗搜索微信公众号然后拿到链接 通过fiddler检测 ...
- python手机壁纸超清_python爬虫 爬取超清壁纸代码实例
简介 壁纸的选择其实很大程度上能看出电脑主人的内心世界,有的人喜欢风景,有的人喜欢星空,有的人喜欢美女,有的人喜欢动物.然而,终究有一天你已经产生审美疲劳了,但你下定决定要换壁纸的时候,又发现网上的壁 ...
最新文章
- formRef=React.createRef() this.formRef.current为null
- 为学Linux,我看了这些书
- Access 字段拼接(UPDATE 数据追加)
- ASP.NET2.0_执行页面发送的强类型方法与弱类型方法
- 满城尽带比特币:程序员如何发布自己的 ICO?
- 福禄克2500V数字绝缘电阻测试仪开箱与上手实测
- iOS quartzCore学习之UIBezierPath 详解
- 关于火狐中使用jquery的animate做动画效果的问题解决
- hdu4353 Finding Mine三角形内的点数
- Shiro 登录认证源码详解
- 二、SpringBoot配置文件讲解
- Silverlight 数据绑定(Binding)
- 共享打印机服务器系统64位,win7系统64位和winXP 32位共享网络打印机的操作方法...
- 小功能⭐️Unity动态更改 Scripting Define Symbols (宏定义)
- 从零开始教你搭建资源类赚钱网站(二):项目预算
- 基于SSM整合的驾照在线考试系统
- 计算广告第二版电子版_88J9-1图集:室外工程-围墙、围栏(第二版),电子版带走...
- CCF201809-3 元素选择器
- matlab三个简单物理建模实例(笔记)
- html聊天室ui,震惊!这个H5居然是在线聊天室!(内附完整教程)