Python爬虫笔记(3)- 爬取丁香园留言

  • 爬取丁香园留言:主要用到了模拟登录

爬取丁香园留言:主要用到了模拟登录

import requests, json, re, random,time
from bs4 import BeautifulSoup
from selenium import webdriver
from lxml import etree
class getUrl(object):
"""docstring for getUrl"""def __init__(self):self.headers={"Connection": "keep-alive","User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 "  "(KHTML, like Gecko) Chrome/51.0.2704.63 Safari/537.36","Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8","Accept-Encoding": "gzip, deflate, sdch","Accept-Language": "zh-CN,zh;q=0.8"}def run(self):browser = webdriver.Chrome()browser.get('https://auth.dxy.cn/accounts/login?service=http://www.dxy.cn/bbs/index.html')time.sleep(1)#切换账号密码登录表单js1 = 'document.querySelector("#j_loginTab1").style.display="none";'browser.execute_script(js1)time.sleep(1)js2 = 'document.querySelector("#j_loginTab2").style.display="block";'browser.execute_script(js2)#输入账号密码input_name = browser.find_element_by_name('username')input_name.clear()input_name.send_keys('*')# 这里为自己账号和密码input_pass = browser.find_element_by_name('password')input_pass.clear()input_pass.send_keys('*')browser.find_element_by_xpath('//*[@class="form__button"]/button').click()#此步骤应该有验证码,先跳过time.sleep(10)cookie = browser.get_cookies()cookie_dict = {i['name']:i['value'] for i in cookie}#转到抓取页面browser.get("http://www.dxy.cn/bbs/thread/626626#626626");html = browser.page_sourcetree = etree.HTML(html)user = tree.xpath('//div[@id="postcontainer"]//div[@class="auth"]/a/text()')content = tree.xpath('//td[@class="postbody"]')for i in range(0,len(user)):result = user[i].strip()+":"+content[i].xpath('string(.)').strip()#写入文件dir_file = open("DXY_records.txt",'a', encoding="utf-8")dir_file.write(result+"\n")dir_file.write('*' * 80+"\n")dir_file.close()print('*' * 5 +"抓取结束"+'*' * 5)if __name__ == '__main__':geturl = getUrl()geturl.run()
楼医生:我遇到一个“怪”病人,向大家请教。她,42岁。反复惊吓后晕厥30余年。每次受响声惊吓后发生跌倒,短暂意识丧失。无逆行性遗忘,无抽搐,无口吐白沫,无大小便失禁。多次跌倒致外伤。婴儿时有惊厥史。入院查体无殊。ECG、24小时动态心电图无殊;头颅MRI示小软化灶;脑电图无殊。入院后有数次类似发作。请问该患者该做何诊断,还需做什么检查,治疗方案怎样?
********************************************************************************
lion000:从发作的症状上比较符合血管迷走神经性晕厥,直立倾斜试验能协助诊断。在行直立倾斜实验前应该做常规的体格检查、ECG、UCG、holter和X-ray胸片除外器质性心脏病。贴一篇“口服氨酰心安和依那普利治疗血管迷走性晕厥的疗效观察”作者:林文华 任自文 丁燕生http://www.ccheart.com.cn/ccheart_site/Templates/jieru/200011/1-1.htm
********************************************************************************
xghrh:同意lion000版主的观点:如果此患者随着年龄的增长,其发作频率逐渐减少且更加支持,不知此患者有无这一特点。入院后的HOLTER及血压监测对此患者只能是一种安慰性的检查,因在这些检查过程中患者发病的机会不是太大,当然不排除正好发作的情况。对此患者应常规作直立倾斜试验,如果没有诱发出,再考虑有无可能是其他原因所致的意识障碍,如室性心动过速等,但这需要电生理尤其是心腔内电生理的检查,毕竟是有一种创伤性方法。因在外地,下面一篇文章可能对您有助,请您自己查找一下。心理应激事件诱发血管迷走性晕厥1例 ,杨峻青、吴沃栋、张瑞云,中国神经精神疾病杂志, 2002 Vol.28 No.2
********************************************************************************
keys:该例不排除精神因素导致的,因为每次均在受惊吓后出现。当然,在作出此诊断前,应完善相关检查,如头颅MIR(MRA),直立倾斜试验等。

Python爬虫笔记(3)- 爬取丁香园留言相关推荐

  1. [转载] python+selenium定时爬取丁香园的新冠病毒每天的数据,并制作出类似的地图(部署到云服务器)

    参考链接: Python vars() python+selenium定时爬取丁香园的新冠病毒每天的数据,并制作出类似的地图(部署到云服务器) 声明:仅供技术交流,请勿用于非法用途,如有其它非法用途造 ...

  2. python+selenium定时爬取丁香园的新冠病毒每天的数据,并制作出类似的地图(部署到云服务器)

    python+selenium定时爬取丁香园的新冠病毒每天的数据,并制作出类似的地图(部署到云服务器) 声明:仅供技术交流,请勿用于非法用途,如有其它非法用途造成损失,和本博客无关 目录 python ...

  3. 爬虫(2)之 Xpath(爬取丁香园)

    Xpath常用的路径表达式: XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言. 在XPath中,有七种类型的节点:元素.属性.文本.命 ...

  4. 爬虫 -----beautifulsoup、Xpath、re (二)附爬取丁香园用户名以及回复内容

    目录 1.Xpath简介 1.1使用流程: 1.2Xpath常用的路径表达式 1.3 使用lxml解析 2 实战:爬取丁香园-用户名和回复内容 2.1 获取url的html 2.2 lxml解析htm ...

  5. python 爬虫实例 电影-Python爬虫教程-17-ajax爬取实例(豆瓣电影)

    Python爬虫教程-17-ajax爬取实例(豆瓣电影) ajax: 简单的说,就是一段js代码,通过这段代码,可以让页面发送异步的请求,或者向服务器发送一个东西,即和服务器进行交互 对于ajax: ...

  6. Python爬虫 scrapy框架爬取某招聘网存入mongodb解析

    这篇文章主要介绍了Python爬虫 scrapy框架爬取某招聘网存入mongodb解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 创建项目 sc ...

  7. Python学习笔记:爬取网页图片

    Python学习笔记:爬取网页图片 上次我们利用requests与BeautifulSoup爬取了豆瓣<下町火箭>短评,这次我们来学习爬取网页图片. 比如想爬取下面这张网页的所有图片.网址 ...

  8. 利用paddlepaddle爬取丁香园实时统计数据,并生成疫情地图!!

    当下,新型冠状病毒感染的肺炎疫情无时无刻不牵动着人们的心.面对来势汹汹的疫情,除了奋战在前线的医护人员以及防疫建设工作者们,小媛们也想尽一份绵薄之力. 这不,今天为大家带来了一份超超超简单的!生成自己 ...

  9. Python爬虫系列之爬取微信公众号新闻数据

    Python爬虫系列之爬取微信公众号新闻数据 小程序爬虫接单.app爬虫接单.网页爬虫接单.接口定制.网站开发.小程序开发 > 点击这里联系我们 < 微信请扫描下方二维码 代码仅供学习交流 ...

最新文章

  1. 理解Faster R-CNN
  2. 多节锂电串联保护板ic_BMS电池管理系统与锂电池保护板的区别
  3. Java-集合的简单介绍
  4. 以前的学习笔记整理:第二层交换和生成树协议(STP)
  5. Objective C学习总结(二)
  6. magento左栏添加筛选Filtering options on Left-Navigation Menu in Products List Page
  7. 年后复工,逾期升高,策略应该怎么调优
  8. js_ Math 方法
  9. Atitit 编程语言原理与概论attilax总结 三大书籍总结
  10. vue 检测ie版本_vue 兼容低版本ie浏览器
  11. 数据结构_树状数组 详解
  12. 一文搞懂HTTPProxy丨含基础、高级路由、服务韧性
  13. PTA - 厘米换算英尺英寸(C语言)
  14. 红米手机开启开发者模式方法
  15. 单片机中SDZ是什么意思_单片机里sp是什么意思啊
  16. 阿里云的认证多少分通过?没通过可以补考吗?
  17. Twilio Inc.(TWLO)2020年第三季度收益电话会议记录
  18. mybatis-plus 属性为空时判断问题
  19. HR问“什么时间可以入职”,这样回答最保险!
  20. linux mtr 普通用户执行,Linux网站打开慢之mtr工具探测分析

热门文章

  1. 弹性伸缩(Auto Scaling)
  2. NLP初学-文本预处理
  3. Python爬虫实例(3)--BeautifulSoup的CSS选择器
  4. android rom包的组成结构,AndroidROM的制作与结构构成..doc
  5. SDN在低带宽战术通信场景下的应用
  6. Collectors.toList()的作用
  7. 旧版android模拟器,Mrpoid2模拟器
  8. Linux 命令详解之df命令
  9. centos7系统关机命令_centos关机命令
  10. 将BPIO解决方案中文档管理解决方案改成了英文版本