人人贷网站需要用户登录才能看到其相应的借贷人信息。也就是说在爬取数据时,需要用户登录。回顾之前的代码,我想是保存cookie这种方法是不能用了。必须找到一种新的方法来模拟登录网站。查了许多资料,数据捉取无外乎有3种方法:

1.直接抓取数据。

2.模拟浏览器抓取数据。

3.基于API接口抓取数据

综合分析,我决定用第2种方法"模拟浏览器登录",那得找好相应的python包,网上有:mechanize,selenium等等。

1.mechanize包的尝试br.select_form(nr = 0) # Find the login form

br['vb_login_username'] = '你的用户名'

br['vb_login_password'] = '你的注册密码'

这段代码中老是遇到问题,第一,select_form中的nr怎么找,第二,在人人贷网站源代码中如何找所谓的'vb_login_username','vb_login_password'的专有名词。

其实我在代码测试中还是找到对于的nr=0,但是找了好久找不到对应的'vb_login_username'。(个人不太懂html,学的比较菜,有兴趣的可以尝试一下)。后来听朋友说可以试试selenium。

前面废话说了一大堆,都是我学的比较菜,也就是我的经验之谈。

2.selenium包的尝试(重点)

首先你得安装好它,直接pip install selenium即可。而且还要下载相应的浏览器驱动(这里我的运行环境是linux,python好像是3.0以上的,浏览器是firefox)

驱动的下载地址为https://github.com/mozilla/geckodriver/releases(下载好自己系统的版本),然后放到相应的PATH路径中,否则找不到driver。

Window下驱动的放置位置:

将geckodriver.exe复制到C:\Program Files (x86)\mozilla firefox目录下;

并在环境变量Path中添加路径:C:\Program Files (x86)\mozilla firefox;

重启cmd,再次运行即可;

Linux下驱动的放置位置:

解压后将geckodriver存放至 /usr/local/bin/ 路径下即可

sudo mv ~/Downloads/geckodriver /usr/local/bin/

相应代码如下:

相应数据图展示:PS:

其中'loanId2.csv'是之前博客(http://www.cnblogs.com/Yiutto/p/5890906.html)

爬取整理的loanId,只有通过loanId才能爬取借贷人信息。

后来运行上述代码大概爬了3000多条就中断了(应该是同一ip访问过多的问题),如果需要大量数据的可以考虑分批爬取,多台电脑同时进行。

python爬人人贷代码视频_利用python爬取人人贷网的数据相关推荐

  1. python爬人人贷代码视频_【IT专家】人人贷网的数据爬取(利用python包selenium)

    本文由我司收集整编,推荐下载,如有疑问,请与我司联系 人人贷网的数据爬取(利用 python 包 selenium ) 2016/12/31 0 记得之前应同学之情,帮忙爬取人人贷网的借贷人信息,综合 ...

  2. python抓取数据包_利用python-pypcap抓取带VLAN标签的数据包方法

    1.背景介绍 在采用通常的socket抓包方式下,操作系统会自动将收到包的VLAN信息剥离,导致上层应用收到的包不会含有VLAN标签信息.而libpcap虽然是基于socket实现抓包,但在收到数据包 ...

  3. python爬取百度翻译视频_利用python爬取百度翻译内容

    利用python可以实现对百度翻译内容的爬取,具体过程如下: 前期工作 本程序的测试环境为python3.5,Chrome浏览器.进入百度翻译的页面,点开F12进入开发者调试工具,点击network, ...

  4. python 替换array中的值_利用Python提取视频中的字幕(文字识别)

    我的CSDN博客id:qq_39783601,昵称是糖潮丽子~辣丽 从今天开始我会陆续将数据分析师相关的知识点分享在这里,包括Python.机器学习.数据库等等. 今天来分享一个Python小项目! ...

  5. python实现批量下载视频_利用Python实现批量下载腾讯视频!

    原标题:利用Python实现批量下载腾讯视频! 导语 利用Python下载腾讯非VIP视频,也就是可以免费观看的视频.做这个的起因是最近在看一个叫"请吃红小豆吧"的动漫,一共三分钟 ...

  6. python代码物理_利用python求解物理学中的双弹簧质能系统详解

    前言 本文主要给大家介绍了关于利用python求解物理学中双弹簧质能系统的相关内容,分享出来供大家参考学习,下面话不多说了,来一起看看详细的介绍吧. 物理的模型如下: 在这个系统里有两个物体,它们的质 ...

  7. python实现按键精灵的功能_利用Python实现Windows下的鼠标键盘模拟的实例代码

    本文介绍了利用Python实现Windows下的鼠标键盘模拟的实例代码,分享给大家 本来用按键精灵是可以实现我的需求,而且更简单,但既然学python ,就看一下呗. 依赖: pip install ...

  8. python 16bit转8bit的工具_利用python读取YUV文件 转RGB 8bit/10bit通用

    注:本文所指的YUV均为YUV420中的I420格式(最常见的一种),其他格式不能用以下的代码. 位深为8bit时,每个像素占用1字节,对应文件指针的fp.read(1): 位深为10bit时,每个像 ...

  9. python数据库操作批量sql执行_利用Python如何批量修改数据库执行Sql文件

    利用Python如何批量修改数据库执行Sql文件 来源:中文源码网    浏览: 次    日期:2018年9月2日 [下载文档:  利用Python如何批量修改数据库执行Sql文件.txt ] (友 ...

  10. python把汉字变成拼音英文_利用python将表格中的汉字转化为拼音

    GB18030的字符集标准 http://zbgb5.com/2/StandardDetail479488.htm 缺少包时用pip install 进行安装,例如: pip install xlsx ...

最新文章

  1. Android View体系(一)视图坐标系
  2. php人员权限管理(RBAC)
  3. Codeforces Round #247 (Div. 2)C. k-Tree(动态规划)
  4. android 图片缩放算法,Android大图加载,缩放,滑动浏览--SubsamplingScaleImageView 源码分析大图加载...
  5. LeetCode 795. 区间子数组个数
  6. Java开发环境的搭建(JDK和Eclipse的安装)
  7. 线程池应该设置多少核心线程数——Java多线程系列学习笔记
  8. [Java基础]权限修饰符
  9. 算法问题---两艘船是否有最大承载量
  10. redis——实战关注
  11. desktop docker 无法卸载_关于Docker:Docker – 无法移除死容器
  12. oracle将一个表数据更新时间,Oracle批量更新,将一个表的数据批量更新另一表
  13. 小知识-美元石油体系
  14. Android中日期与时间设置控件的使用
  15. VMware OSP对比VMware Tools:简化Linux驱动更新
  16. 【支付】第三方易宝支付
  17. WebStorm配置Sass
  18. asp.net在前台web页面中使用Javascript调用RTX腾讯通的聊天窗口
  19. 利用oc门或od门实现线与_OC门电路和OD门电路原理
  20. kali安装后详细配置

热门文章

  1. mysql分页优化方法
  2. MYSQL PGA SGA设置
  3. Admin.Admin/Login --- 后台项目中的管理员及登录模块
  4. C语言算法碎碎记录之“一圈人,数到几的人就出去,最后一个是几号”
  5. 数据库 聚合 、分组、筛选、排序、日期等函数的应用
  6. SQL 通配符 、分页 功能的学习
  7. retinex算法小感
  8. 【从C到C++学习笔记】域运算符/new/delete运算符/重载/Name managling/extern C/带函数默认值参数
  9. Python单下划线与双下划线
  10. 从零基础入门Tensorflow2.0 ----一、1.2 实战分类模型(数据归一化)