学习目标

**4.1 ** 实战大项目

  1. 实战大项目:模拟登录丁香园,并抓取论坛页面所有的人员基本信息与回复帖子内容。

  2. 丁香园论坛:http://www.dxy.cn/bbs/thread/626626#626626 。

  3. 参考资料:https://blog.csdn.net/naonao77/article/details/88316754 (Task7的参考资料,任务结束之后再发出来)

1、打开丁香园登录地址是二维码,无法输入账号密码登录

2、用了个简单的方法

使用selenium点击返回电脑登录,进入账号密码登录页面

3、后面就一样的方式去登陆,再获取内容,附代码

from selenium import webdriver
import time
from lxml import etree
import requestsdef login():browser = webdriver.Chrome()browser.get('https://auth.dxy.cn/accounts/login')#点击返回电脑登录browser.find_element_by_xpath('/html/body/div[2]/div[2]/div[1]/a[2]').click()#使用账号密码登录username = browser.find_element_by_name('username')username.send_keys('*******')password = browser.find_element_by_name('password')password.send_keys('********')browser.find_element_by_xpath('//*[@id="user"]/div[1]/div[3]/button').click()time.sleep(5)cookie = browser.get_cookies()cookie_dict = {i['name']:i['value'] for i in cookie}return cookie_dictdef get_content():cookies = login()url = 'http://www.dxy.cn/bbs/thread/626626#626626'headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36'}response = requests.get(url=url,headers=headers,cookies=cookies)html = etree.HTML(response.text)contents = html.xpath('//td[@class="postbody"]')#element类型列表users = html.xpath('//div[@class="auth"]')for i in range(0,len(contents)):content1 = contents[i].xpath('string(.)').strip()user1 = users[i].xpath('string(.)')print(user1+':'+content1)print('='*100)result = user1+':'+content1file_content = open('testing.txt','w',encoding="utf-8")file_content.write(result+"\n")file_content.write('*'*80 +"\n")file_content.close()if __name__ == '__main__':get_content()

登录并爬取评论和用户内容相关推荐

  1. python爬虫豆瓣评论实验报告_用python实现豆瓣短评通用爬虫(登录、爬取、可视化分析)...

    原创技术公众号:bigsai 前言 在本人上的一门课中,老师对每个小组有个任务要求,介绍和完成一个小模块.工具知识的使用.然而我所在的组刚好遇到的是python爬虫的小课题. 心想这不是很简单嘛,搞啥 ...

  2. python爬取新浪微博内容_python新浪微博爬虫,爬取微博和用户信息 (含源码及示例)...

    [实例简介] 这是新浪微博爬虫,采用python+selenium实现. 免费资源,希望对你有所帮助,虽然是傻瓜式爬虫,但是至少能运行.同时rar中包括源码及爬取的示例. 参考我的文章: http:/ ...

  3. 爬虫篇——selenium(webdriver)进行用户登录并爬取数据)

    爬虫篇--selenium(webdriver)进行用户登录并爬取数据 摘要 (一)创建browser对象 (二)用户登录 (三)数据爬取 摘要 本文主要介绍了如何通过selenium使用Chorme ...

  4. 写了一个Windows服务,通过C#模拟网站用户登录并爬取BUG列表查询有没有新的BUG,并提醒我...

    写了一个Windows服务,通过C#模拟网站用户登录并爬取BUG列表查询有没有新的BUG,并提醒我 1.HttpUtil工具类,用于模拟用户登录以及爬取网页: using System; using ...

  5. 爬取京东商城用户评论(福利)

    我们常常看到一些有关充气娃娃的表情包和图片或新闻,但是这种东西很少会像一些小视频一些相互交流,大家可能都是偷摸玩耍.所以猪哥相信其实大部分同学并没有亲身体验过充气娃娃到底是什么感觉(包括猪哥),所以猪 ...

  6. educoder python入门之基础语法-用python实现豆瓣短评通用爬虫(登录、爬取、可视化分析)...

    原创技术公众号:bigsai 前言 在本人上的一门课中,老师对每个小组有个任务要求,介绍和完成一个小模块.工具知识的使用.然而我所在的组刚好遇到的是python爬虫的小课题. 心想这不是很简单嘛,搞啥 ...

  7. 豆瓣用python写的网站_用python写一个豆瓣短评通用爬虫(登录、爬取、可视化)

    原创技术公众号:bigsai,本文在1024发布,祝大家节日快乐,心想事成. @ 前言 在本人上的一门课中,老师对每个小组有个任务要求,介绍和完成一个小模块.工具知识的使用.然而我所在的组刚好遇到的是 ...

  8. python爬取豆瓣短评_用python实现豆瓣短评通用爬虫(登录、爬取、可视化分析)

    原创技术公众号:bigsai 前言 在本人上的一门课中,老师对每个小组有个任务要求,介绍和完成一个小模块.工具知识的使用.然而我所在的组刚好遇到的是python爬虫的小课题. 心想这不是很简单嘛,搞啥 ...

  9. 用python写一个豆瓣短评通用爬虫(登录、爬取、可视化)!

    前言 在本人上的一门课中,老师对每个小组有个任务要求,介绍和完成一个小模块.工具知识的使用.然而我所在的组刚好遇到的是python爬虫的小课题. 心想这不是很简单嘛,搞啥呢?想着去搞新的时间精力可能不 ...

最新文章

  1. 计算机毕业论文过程管理手册,毕业论文过程管理手册(修改)-陈亚琴.doc
  2. MATLAB神经网络样本数量太大,MATLAB搭建bp神经网络的误差特别大,但R2的值也大,求解帮我看看我的网络哪里出问题了...
  3. Python语言的有限状态机实现样例
  4. Python subprocess
  5. linux下DHCP的安装配置
  6. c均值聚类matlab程序_机器学习笔记-9-聚类
  7. python scrapy框架 简书_python爬虫框架——Scrapy架构原理介绍
  8. VS2013+OpenCV3.0编译TLD跟踪算法
  9. Django的rom
  10. linux上python3的安装
  11. java hssfworkbook 乱码_java各种乱码汇总
  12. Linux网卡驱动教程,linux | 网卡驱动
  13. 如何暴力破解wifi密码
  14. php对接海康视频教程_web对接海康威视rtsp视频流
  15. 计算机设置u盘启动,如何设置U盘启动_BIOS设置U盘启动教程 - U当家官网
  16. 备份手机相册----syncthing (一劳永逸式解决方案)
  17. 我有一个 APP 创意,如何将其实现?
  18. C#、C++、Java、Python 选择哪个好?
  19. Import “github.com/gogo/protobuf/gogoproto/gogo.proto“ was not found or had errors.
  20. 怎么申请企业邮箱?手机怎么申请免费邮箱?

热门文章

  1. vue 实战培训课程-张秋方-专题视频课程
  2. 2018级全国计算机二级office试题,全国计算机二级真题-2018年全国计算机二级MsOffice精选真题试卷(Excel)...
  3. VScode安装教程(超详细版)
  4. Arduino UNO的原理图
  5. C51 Proteus仿真板
  6. MATLAB教学_06进阶绘图
  7. Java获取真实Ip地址
  8. ES(elasticsearch)中遇到elasticsearch.keystore的问题,已解决!!!
  9. 破解文件crack.bat打不开
  10. matlab将.mat数据文件转换成.dat/.txt数据文件