Day7-模拟登录丁香园,爬取所有用户基本信息和回复内容
最后一天了,趁着周末把DataWhale爬虫7天训练最后的task做出来了。
前几天的学习,从学习http,post和get两种请求方法开始,到学习简单urllib和requests请求一个网页进行简单爬虫,再到学习了正则,bs,xpath等来对数据进行提取,用selenium进行模拟163邮箱登录等,最后一天的任务算是对前六天学习的检验把。
模拟登录丁香园,我们使用的还是selenium进行自动化模拟,方法在之前的文章中介绍了。
提取数据,我们用的是xpath,简单快捷。
代码实现:
不知道为什么,之前不用xpath,用selenium里的查找,最后返回的只有一个用户。
结果:
总结:
通过这七天的学习,自己能够动手写一些简单的爬虫了,时间过得很快,和Datawhale爬虫第五期群里的小伙伴们一起学习是一件很美妙的事,学到的东西不少,感谢Dw。
Day7-模拟登录丁香园,爬取所有用户基本信息和回复内容相关推荐
- 爬虫入门学习(八)模拟登录丁香园论坛爬取用户信息
爬虫入门学习(八)实战大项目模拟登录丁香园爬取信息 1 目标 2 思路 3 主要的技术点 3.1 模拟登录 3.2 抓取用户个人主页 4 完整代码 5 项目后期拓展 1 目标 模拟登录丁香园,并抓取页 ...
- python爬虫(四)——模拟登录丁香园
实战 实战小项目:模拟登录丁香园,抓取论坛页面人员基本信息与回复帖子.丁香园论坛:http://www.dxy.cn/bbs/thread/626626#626626 思路 首先把登陆方式由扫码切换为 ...
- python3爬虫——模拟登录丁香园并提取信息
上一篇:模拟登录QQ邮箱 ps:在进行模拟登录时,输入账号密码后,会弹出验证码,目前还没有解决模拟验证,所以本教程需要进行人工验证. 代码: from selenium import webdrive ...
- python3爬虫模拟登录_python3爬虫——模拟登录丁香园并提取信息
上一篇:模拟登录QQ邮箱 ps:在进行模拟登录时,输入账号密码后,会弹出验证码,目前还没有解决模拟验证,所以本教程需要进行人工验证. 代码: from selenium import webdrive ...
- HttpClient模拟登录、HtmlUnit模拟登录,jsoup爬取登录后的内容(不带验证码)
一.HttpClient模拟登录是通过post或get请求,登录后抓取的是静态页面,动态页面使用HtmlUnit public static void main(String[] args) thro ...
- python模拟登录qq邮箱爬取_python模拟登录qq邮箱
前两天做一个任务,要写一个收取qq邮箱邮件的脚本.开始认为挺简单,后来发现还是有一些坑在里面. 首先使用python尝试模拟登录qq邮箱,发现普通用户已经不能通过账号密码模拟登录qq邮箱了.要用到授权 ...
- python爬虫爬取指定用户微博图片及内容,并进行微博分类及使用习惯分析,生成可视化图表...
虽然我是不用微博的,但由于某种原因,手机端的微博会时不时地推送几条我必须看的消息过来.微博被看久了,前几天又看到 语亮 - 简书 一年前的的微博爬虫,就有了对某人微博深入挖掘的想法. 之前语亮的爬虫不 ...
- 实战大项目:模拟登录丁香园,并抓取论坛页面所有的人员基本信息与回复帖子内容----爬取第二步
接着上一步模拟登录操作.学了两天的session 了没有搞定登录.还是回到selenium模拟登录爬取.但是验证码这一块,没有搞定,在文中用的人工辅助登录成功.代码太丑,实在是无言面对同行. impo ...
- 模拟登录丁香园,并抓取论坛页面所有的人员基本信息与回复帖子内容
丁香园直通车抓取页面链接 一.首先利用selenium登录网站,此部分重点: 1.切换到账号密码表单登录,我采用了利用style将display值变为block,代码如下: js1 = 'docume ...
最新文章
- c语言表达式的后缀,中缀表达式转换成后缀表达式C语言程序(一)
- windows c 操作mysql_windows下c/C++操作Mysql的一些总结(绝对精华,不要错过)
- MySQL学习笔记 约束以及修改数据表
- 解决 IntelliJ IDEA 内置的 Tomcat 日志中显示的中文乱码
- facebook 面试_如何为您的Facebook产品设计面试做准备
- 初识ABP vNext(10):ABP设置管理
- 二、python框架相关知识体系
- flowable 表结构大全
- 【Javascript】深入理解this作用域问题以及new/let/var/const对this作用域的影响
- [Windows] 集福宝- 支付宝 集福神器 2019
- 内存泄露之常见问题解决「初级篇」
- 请实现一个函数,用来判断一颗二叉树是不是对称的。注意,如果一个二叉树同此二叉树的镜像是同样的,定义其为对称的。
- 红莲之弓矢(进击的巨人主题曲)
- codevs——2822 爱在心中
- linux查看iozone安装目录,IOZone的基本使用
- VTK Camera
- 一款简单微信小程序个人博客。后端基于SpringBoot实现
- 1.Linux基本简介和使用
- 各大厂800道Java后端经典面试题合集
- 计算机网络学习笔记(持续更新)
热门文章
- linux socat 命令,socat在Linux下的使用
- gear s3刷android wear,三星gear s3怎么刷机教程 三星gear s3刷机方法流程
- Android_TUTK推送需要的相关资料
- 关于计算机的英语作文120词,关于友谊的英语作文120词(精选10篇)
- 阿里云国际版邮件服务套餐购买流程
- ubuntu20.04中安装划词翻译_科研干货 | 知云文献翻译,英文文献阅读必备神器!...
- JNI ---- JNA
- Ubuntu18.04下UnixBench跑分
- *.accdb数据文件的数据解析工具类
- Cadence Allegro 如何隐藏和显示铜皮