4.1 Task7 实战大项目

实战大项目:模拟登录丁香园,并抓取论坛页面所有的人员基本信息与回复帖子内容。
丁香园论坛:http://www.dxy.cn/bbs/thread/626626#626626

import time
from selenium import webdriver
from selenium.common.exceptions import TimeoutException, NoSuchElementExceptiondef login_dxy(browser, username, password):try:# 点击“登录”browser.find_element_by_link_text('登录').click()# 点击“电脑登录”browser.find_element_by_class_name('ico_pc').click()# 输入账号element = browser.find_element_by_name('username')element.clear()element.send_keys(username)# 输入密码element = browser.find_element_by_name('password')element.clear()element.send_keys(password)# 点击“登录按钮”browser.find_element_by_class_name('button').click()except TimeoutException:print('Time out')except NoSuchElementException:print('No Element')def get_content(browser):print("登录成功")time.sleep(10)auth = browser.find_elements_by_class_name('auth')  # 姓名level = browser.find_elements_by_class_name('info') # 级别user_atten = browser.find_elements_by_class_name('user_atten')  # 积分-得票-丁当content = browser.find_elements_by_class_name('postbody')   # 回复内容fw = open('data.txt','a',encoding='utf-8')for i in range(len(content)):num = user_atten[i].find_elements_by_tag_name('a')data = str({'num':i+1,'name':auth[i].text,'level':level[i].text,'score':num[0].text,'vote':num[2].text,'dingdang':num[4].text,'content':content[i].text.replace(" ", "").replace("\n", "")}) +"\n" #去除空格和换行符\nfw.writelines(data)print("写入成功")fw.close()if __name__ == '__main__':browser = webdriver.Firefox(executable_path="geckodriver")browser.get('http://www.dxy.cn/bbs/thread/626626#626626')login_dxy(browser, 'zywpbexk@mail.bccto.me', '******')get_content(browser)browser.quit()

Python爬虫任务4相关推荐

  1. 关于Python爬虫原理和数据抓取1.1

    为什么要做爬虫? 首先请问:都说现在是"大数据时代",那数据从何而来? 企业产生的用户数据:百度指数.阿里指数.TBI腾讯浏览指数.新浪微博指数 数据平台购买数据:数据堂.国云数据 ...

  2. python爬虫之Scrapy框架的post请求和核心组件的工作 流程

    python爬虫之Scrapy框架的post请求和核心组件的工作 流程 一 Scrapy的post请求的实现 在爬虫文件中的爬虫类继承了Spider父类中的start_urls,该方法就可以对star ...

  3. python爬虫抓取信息_python爬虫爬取网上药品信息并且存入数据库

    我最近在学习python爬虫,然后正好碰上数据库课设,我就选了一个连锁药店的,所以就把网上的药品信息爬取了下来. 1,首先分析网页 2,我想要的是评论数比较多的,毕竟好东西大概是买的人多才好.然后你会 ...

  4. python爬虫案例_推荐上百个github上Python爬虫案例

    现在学生都对爬虫感兴趣,这里发现一些好的github开源的代码,分享给各位 1.awesome-spider 该网站提供了近上百个爬虫案例代码,这是ID为facert的一个知乎工程师开源的,star6 ...

  5. Python培训分享:python爬虫可以用来做什么?

    爬虫又被称为网络蜘蛛,它可以抓取我们页面的一些相关数据,近几年Python技术的到来,让我们对爬虫有了一个新的认知,那就是Python爬虫,下面我们就来看看python爬虫可以用来做什么? Pytho ...

  6. 玩转 Python 爬虫,需要先知道这些

    作者 | 叶庭云 来源 | 修炼Python 头图 | 下载于视觉中国 爬虫基本原理 1. URI 和 URL URI 的全称为 Uniform Resource Identifier,即统一资源标志 ...

  7. 买不到口罩怎么办?Python爬虫帮你时刻盯着自动下单!| 原力计划

    作者 | 菜园子哇 编辑 | 唐小引 来源 | CSDN 博客 马上上班了,回来的路上,上班地铁上都是非常急需口罩的. 目前也非常难买到正品.发货快的口罩,许多药店都售完了. 并且,淘宝上一些新店口罩 ...

  8. 一个月入门Python爬虫,轻松爬取大规模数据

    如果你仔细观察,就不难发现,懂爬虫.学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方面,像 Python这样一个月入门Python爬虫,轻松爬的编程语言提供越来越多的优秀工具,让爬虫 ...

  9. Python爬虫获取文章的标题及你的博客的阅读量,评论量。所有数据写入本地记事本。最后输出你的总阅读量!

    Python爬虫获取文章的标题及你的博客的阅读量,评论量.所有数据写入本地记事本.最后输出你的总阅读量!还可以进行筛选输出!比如阅读量大于1000,之类的! 完整代码在最后.依据阅读数量进行降序输出! ...

  10. Python爬虫破解有道翻译

    有道翻译是以异步方式实现数据加载的,要实现对此类网站的数据抓取,其过程相对繁琐,本节我以有道翻译为例进行详细讲解. 通过控制台抓包,我们得知了 POST 请求的参数以及相应的参数值,如下所示: 图1: ...

最新文章

  1. ssm启动报错cannot find class_SSM整合补充 RBAC(权限控制)过滤器
  2. 区块链100讲:智能合约审计指南
  3. 世界首例针对特斯拉自动驾驶判罚:德国裁定Autopilot广告误导买家,特斯拉柏林工厂可能受阻...
  4. Working with Multiple Environments(使用多个环境)
  5. nginx php fpm 日志,nginx下php-fpm不记录php报错日志怎么办?
  6. Scapy 中文文档:一、介绍
  7. java struts2 xss_Apache Struts2提供的最新demo中几处XSS(不严谨啊!不严谨啊!)
  8. 在c#使用Windows IOCP(完成端口)编程研究
  9. 写给新入职的毕业生们(二)
  10. mysql可以装到其他端口吗_linux下怎么在另一个端口安装高版本mysql
  11. WCF集成COM+应用程序遇到的问题
  12. 对数组的操作splice() 和slice() 用法和区别
  13. Android中的App网络传输协议
  14. getbook netty实战_Netty 实战(精髓)简介(Netty in Action)
  15. Kafka+Spark Streaming+Redis实时计算整合实践
  16. CSS定位—固定定位 fixed
  17. C#中Skip和Take的用法
  18. 从自媒体人到服务商 职业信鸽主播的快手商业之路
  19. python远程主机强迫关闭了_[转] python 远程主机强迫关闭了一个现有的连接 socket 超时设置 errno 10054...
  20. 学术英语/专业英语——基本结构及特点

热门文章

  1. 爬虫【3】URL地址编码
  2. 利用手机相机实现表面缺陷检测学习【缺陷检测_01】
  3. java 数字转化为汉字_工具类_java 数字转化为汉字大写
  4. 小红书账号分析丨小红书kol速成干货分享
  5. 我的第一个JDBC小项目
  6. DNS配置异常无法上网(明明有网,但是网页打不开了?)
  7. java基础国庆作业_国庆JAVA作业
  8. [超详细高达5000字]一篇带你玩转数据分析与数据可视化
  9. Markdown编辑器推荐
  10. openvas linux/window漏洞扫描和整改