前言:

其实这个项目没什么难度,稍微懂一点爬虫的人或者是已经就业的程序员都可以用自己学的编程语言写出来,但是正是这也原因,也间接证明现在网络很多安全问题的存在,简单的说就是这个网站的程序员偷懒,让用户的信息暴露在网上。

好了,言归正传,我们直接进入文章的主题。

既然我们要准备用Python爬虫,那么首先需要做好Python爬虫的准备:

  • python2.7
  • 库文件(xlwt,urllib2,BeautifulSoup4,xlrd)

安装库文件的方法:

最好在你的python2.7/script/下面打开power shell(可以shift+右击) 执行下面的:

安装库文件的代码:

在这段代码中,pip install 指的是上面的库文件,在后续的代码中不一定要都用,只要上面的,这样如果之后出什么错,继续pip imstall就行了。

然后看一下我们要爬取的网站结构,也就是登录用户的密码规则:

可以看到这是顶岗实习管理系统,所以说是针对大三大四的学生或者是已经毕业的了,从图中可以看到并没有需要输入验证码的环节,而规则则是用户名==密码,也就是说用户名和密码相匹配才能成功登录

符合条件

然后看一下信息,上面的是符合标准的,毕竟不能找那种毕业十多二十年的学生,别人估计孩子都有了......不要在意这些马赛克,朦胧美一直是我的追求。

具体的爬虫思路我把它分为四个步骤

模拟登陆制作学号的规则信息查询和爬取存入表格模型

模拟登陆:

  • 需要登陆才可以访问网站的信息
  • 用脚本访问一个网页时,需要cookie存贮我们的个人信息

python 中cookie维持会话访问:

具体的模拟登陆代码:

然后是制作学号的规则:

之后是最关键的一个步骤,爬取用户信息,这里需要用到第三beautifulsoup库:

然后把爬取到的信息写入到表格里面,这里在写的时候因为编码的问题,不能写入中文:

这里需要注意的是,如果直接整合上面的代码然后运行的话,爬取速度会很快,可能会被网站服务器发现从而被封IP,所以我们需要添加延迟访问:time.sleep(1),设置间隔然后爬取,避免给此网站带来不好的影响,防止被封IP。

具体的代码实现如下:

好了,到了这一步项目基本就已经大功告成了,来看一下爬取的结果:

有图有真相,避免无脑的喷子,获取到的都是电话号码和QQ号码,可不要用这些东西去做坏事哦,毕竟我们主要还是学习里面的技术,有案例只是让我们学起来不那么无聊。

最后分享我准备的python学习资料,给那些正在学习python的同学,或者准备学习python的同学,关注,转发,私信小编“01”即可免费获取!

Python爬取网站用户手机号_用Python爬虫爬取学校网妹子QQ号,100行代码撩妹,用技术脱单...相关推荐

  1. Python爬取网站用户手机号_利用python爬取慕课网站上面课程

    1.抓取网站情况介绍 抓取网站:http://www.imooc.com/course/list 抓取内容:要抓取的内容是全部的课程名称,课程简介,课程URL ,课程图片URL,课程人数(由于动态渲染 ...

  2. Python爬取网站用户手机号_主流网站 Python 爬虫模拟登陆方法汇总

    欢迎关注我的公众号:高级农民工,博客:高级农民工,阅读体验更好. 摘要:介绍微信.知乎.新浪等一众主流网站的模拟登陆爬取方法. 网络上有形形色色的网站,不同类型的网站爬虫策略不同,难易程度也不一样.从 ...

  3. Python爬取网站用户手机号_设计师的福利,python爬取素材网站

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 基本环境配置 python 3.6 pycharm requests parsel 相关模块 ...

  4. Python爬取网站用户手机号_python爬取招聘网站:拉勾网

    前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:TM0831 转载:https://www.cnblogs.com/T ...

  5. python如何爬取网站所有目录_用python爬虫爬取网站的章节目录及其网址

    认识爬虫 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引.模拟 ...

  6. python爬取微博用户正文_基于Python的新浪微博用户信息爬取与分析

    基于 Python 的新浪微博用户信息爬取与分析 邓文萍 [摘 要] 摘要:本文设计并实现了一个微博用户信息爬取与分析系统 , 利用 Cookie 实现了用户的模拟登录 , 使用 Python 语言的 ...

  7. 阻止搜索引擎抓取网站的工具_使用PHP将抓取的网站转变为搜索引擎

    阻止搜索引擎抓取网站的工具 In the previous part of this tutorial, we used Diffbot to set up a crawljob which woul ...

  8. js密码强度正则表达式_这20个正则表达式,能让你少写100行代码

    正则表达式,仅仅用一段非常简短的表达式语句,便能够快速实现一个非常复杂的业务逻辑.熟练地掌握正则表达式的话,能够使你的开发效率得到极大的提升. 正则表达式经常被用于字段或任意字符串的校验,如下面这段校 ...

  9. 100行代码教你爬取斗图网(Python多线程队列)

    100行代码教你爬取斗图网(Python多线程队列) 前言 根据之前写的两篇文章,想必大家对多线程和队列有了一个初步的了解,今天这篇文章就来实战一下,用多线程 + 队列 爬取斗图网的全网图片. 你还在 ...

最新文章

  1. Linux_Bash常用脚本
  2. WordPress插件制作教程概述
  3. javascript编译与运行的几个实验
  4. iOS开发 tabBarController选中状态
  5. oracle自定义函数获取省份,oracle 自定义函数 方法 基本例子
  6. 三阶魔方还原步骤图_研究人员开发的AI成功在1.2秒内还原三阶魔方
  7. java反射用法示例_Java包| 类型,用法,示例
  8. Xposed从入门到弃坑:0x03、XposedHelpers类解析
  9. K8S使用dashboard管理集群
  10. Qt总结之十八:总结
  11. Qt Creator 启动失败 可能的解决办法
  12. Python 基于sympy模块求极值 导数 偏导
  13. sd卡计算机无法读取数据,电脑突然无法读取sd的起因分析sd卡无法读取怎么修复...
  14. 关于Gateway实现JWT登陆拦截过滤器
  15. 【算法专题】数独问题详解
  16. ipad触摸测试软件,平板电脑屏幕灵敏度测试:iPad系列最出色
  17. 用地预审与选址意见书
  18. CPU到达100%的排查
  19. 修改Windows 8中文输入法切换方式
  20. 吉时利DMM6500数字万用表可视化数据,轻松发现测量趋势

热门文章

  1. Rmd 渲染html 如何生成侧边栏
  2. 选用焊接方法与焊接材料原则是什么
  3. 13.Shell之sed
  4. webpack 通用模块(每个页面都用到的js)编译
  5. 大电流传感器的精确标定
  6. SecureCRT使用VBS脚本自动备份网络设备配置,目前支持部分H3C及dptech
  7. 华南理工高级语言程序设计C 作业答案,华南理工2017《高级语言程序设计C》平时作业.doc...
  8. 群晖-第1章-IPV6的DDNS
  9. 全国计算机等级考试(三级网络)基本概念与名词解释
  10. chinese_province_city_area_mapper----一个用于提取简体中文字符串中省,市和区并能够进行映射,检验和简单绘图的python模块