上一篇:模拟登录QQ邮箱

ps:在进行模拟登录时,输入账号密码后,会弹出验证码,目前还没有解决模拟验证,所以本教程需要进行人工验证。

代码:

from selenium import webdriver
import time
from lxml import etree#模拟登陆丁香园网站
browser = webdriver.Firefox()
browser.get('https://auth.dxy.cn/accounts/login?service=http://www.dxy.cn/bbs/thread/626626')
time.sleep(1)
browser.find_element_by_xpath('//*[@paneid="j_loginTab2"]').click()
time.sleep(5)
browser.find_element_by_name('username').send_keys('丁香园网站账号')
time.sleep(6)
browser.find_element_by_name('password').send_keys('丁香园网站密码')
time.sleep(3)
browser.find_element_by_xpath('//button[@class= "button"]').click()
time.sleep(18)#得到所需得到的信息
url = browser.current_url #得到当前网址
browser.get(url)
html = browser.page_source #得到页面的html
tree = etree.HTML(html)
xpath_auth="//div[@class= 'auth']/a/text()"
xpath_level ="//div[@class='user-level-area']"
xpath_score_vote_dingdang="//div[@class='num']/a/text()"
xpath_contect="//td[@class= 'postbody']"re_auth = tree.xpath(xpath_auth)
re_content = tree.xpath(xpath_contect)
re_three =tree.xpath(xpath_score_vote_dingdang)
re_level=tree.xpath(xpath_level)#将提取到的信息打印出来
i =1
for auth,content,level in zip(re_auth,re_content,re_level):print('作者:'+auth,' 级别:'+level.xpath('string(.)'),' 内容:'+content.xpath('string(.)').strip(),end=' ')print('积分:'+re_three[i],' 得票:'+re_three[i+1],' 丁当:'+re_three[i+2]+'\n')i = i+1```

python3爬虫——模拟登录丁香园并提取信息相关推荐

  1. python3爬虫模拟登录_python3爬虫——模拟登录丁香园并提取信息

    上一篇:模拟登录QQ邮箱 ps:在进行模拟登录时,输入账号密码后,会弹出验证码,目前还没有解决模拟验证,所以本教程需要进行人工验证. 代码: from selenium import webdrive ...

  2. python3爬虫——模拟登录QQ邮箱

    上一篇: 爬取丁香园网站的信息 该教程是通过selenium实现的 安装selenium: 要下载浏览器驱动,到这个网址 https://github.com/mozilla/geckodriver/ ...

  3. 爬虫入门学习(八)模拟登录丁香园论坛爬取用户信息

    爬虫入门学习(八)实战大项目模拟登录丁香园爬取信息 1 目标 2 思路 3 主要的技术点 3.1 模拟登录 3.2 抓取用户个人主页 4 完整代码 5 项目后期拓展 1 目标 模拟登录丁香园,并抓取页 ...

  4. python爬虫(四)——模拟登录丁香园

    实战 实战小项目:模拟登录丁香园,抓取论坛页面人员基本信息与回复帖子.丁香园论坛:http://www.dxy.cn/bbs/thread/626626#626626 思路 首先把登陆方式由扫码切换为 ...

  5. 实战大项目:模拟登录丁香园,并抓取论坛页面所有的人员基本信息与回复帖子内容----爬取第二步

    接着上一步模拟登录操作.学了两天的session 了没有搞定登录.还是回到selenium模拟登录爬取.但是验证码这一块,没有搞定,在文中用的人工辅助登录成功.代码太丑,实在是无言面对同行. impo ...

  6. 模拟登录丁香园获取全部回复

    采用selenium与xpath结合,先模拟登录再进行相关信息爬取,不过我不是仅仅把上次爬取丁香园的代码强加上去,我把取得源代码的自定义函数去掉,用了selenium的get函数,url用的是登陆后的 ...

  7. 实战大项目:模拟登录丁香园,并抓取论坛页面所有的人员基本信息与回复帖子内容----登录第一步

    哎呀呀,先一步一步的来吧,我们知道要先登录才能查看全部的信息.好吧先去注册,记住账号和密码. 2.注册好了之后,先解决登录问题,可以看到有两个登录的地方,编号1.2. 打开网页,f12,先看看登录节点 ...

  8. 模拟登录丁香园,并抓取论坛页面所有的人员基本信息与回复帖子内容

    丁香园直通车抓取页面链接 一.首先利用selenium登录网站,此部分重点: 1.切换到账号密码表单登录,我采用了利用style将display值变为block,代码如下: js1 = 'docume ...

  9. python3爬虫模拟登录爬取教务系统成绩单(获取cookie操作)

    前言 今天来写写爬取教务系统的爬虫,此次的爬虫目的是爬取教务系统里面的成绩单,涉及到的库依旧是selenium,re,beautifulsoup,Options,今天多了个csv库用来处理爬取的数据, ...

最新文章

  1. MATLAB的size、length函数
  2. 详解linux下安装python3环境
  3. UNIX(进程间通信):04---孤儿进程
  4. 用Python爬取Bilibili视频,难吗?
  5. mysql添加字段自动记录加入时间、更新时间
  6. AR研究-Demo集
  7. ExcelHelper代码
  8. 学生成绩管理系统(C语言)
  9. rose ha 的使用
  10. 三星集团总裁李健熙:72岁老者的争议人生
  11. 智能交通:电子警察系统技术实施方案(ppt)
  12. 重置或者修改mysql的root密码
  13. 显示器竖屏显示会字体发虚的解决方法
  14. Pytorch中的多项分布multinomial.Multinomial().sample()解析
  15. .NET Remoting 最简单示例
  16. statfs结构体和函数详解——例程
  17. 震惊!这个链接里面竟然有
  18. 前端网页预览word,pdf,excel等各类文档
  19. C语言数据结构篇——单循环链表的创建,插入,节点删除,打印等操作
  20. PAT 7-1 厘米换算英尺英寸

热门文章

  1. 1273:【例9.17】货币系统
  2. 一台微型计算机的好坏 主要取决于,计算机一级MSOffice应用选择题
  3. 科学计算机上的符号是什么意思,计算器上各个符号的含义是什么?
  4. 2021.4.2项目阶段报告
  5. Android 小贴士播报
  6. iOS开发之录屏时如何使系统录不到敏感信息
  7. 无盘服务器吃鸡卡,无盘新手必备知识
  8. ARIMA模型的拖尾截尾问题
  9. python中squeeze函数_详解pytorch中squeeze()和unsqueeze()函数介绍
  10. 【Python】把excel文件中的数据转化为字典格式存起来