#coding:utf-8from selenium import webdriver
import time,os
import xlrd,xlwt
from xlutils.copy import copy
#使用selenium#使用selenium的隐藏PhantimJS浏览器登陆账号后对内容获取#注意frame与iframe的格式框切换#driver = webdriver.PhantomJS(executable_path="E:\\mac\\id\\phantomjs-2.1.1-windows\\phantomjs-2.1.1-windows\\bin\\phantomjs.exe")driver=webdriver.Chrome()
#driver.set_preference('network.proxy.type', 1)#driver.set_preference('network.proxy.http', '127.0.0.1')#driver.set_preference('network.proxy.http_port', 17890)driver.maximize_window()def get_shuoshuo(qq,path):testexist(path)try:driver.set_page_load_timeout(10)driver.get('http://user.qzone.qq.com/{}/311'.format(qq))time.sleep(3)except:print u'网页启动异常,请重新打开'time.sleep(2)driver.quit()try:driver.find_element_by_id('login_div')except:print u"非好友无法进入空间无权限抓取内容"driver.quit()else:#登录QQ空间driver.switch_to.frame('login_frame')driver.find_element_by_id('switcher_plogin').click()driver.find_element_by_id('u').clear()#选择用户名框driver.find_element_by_id('u').send_keys('#####') #输入个人登录账号driver.find_element_by_id('p').clear()driver.find_element_by_id('p').send_keys('#####') #输入个人登录密码driver.find_element_by_id('login_button').click()time.sleep(3)driver.implicitly_wait(3)try:driver.find_element_by_id('QM_OwnerInfo_Icon')except:print u'空间加载异常,请重新打开'time.sleep(2)driver.quit()else:driver.switch_to.frame('app_canvas_frame')#    last_page=driver.find_element_by_css_selector('.mod_pagenav')#    page_num=re.findall('\d+',last_page.text)[-1]next_page='page'page=1try:while next_page:content = driver.find_elements_by_css_selector('.content')stime = driver.find_elements_by_css_selector('.c_tx.c_tx3.goDetail')for con,sti in zip(content,stime):data = {'time':sti.text,'shuos':con.text}write_data(data['time'],data['shuos'],path)next_page=driver.find_element_by_link_text(u'下一页')page=page+1print u'正在抓取第%d页面内容······'%pagenext_page.click()time.sleep(3)driver.implicitly_wait(3)driver.quit()except:print u'抓取到%d页面结束'%pagedriver.quit()def  testexist(path):if not os.path.exists(path):w= xlwt.Workbook()w.add_sheet('Sheet1')w.save(path)else:os.remove(path)w= xlwt.Workbook()w.add_sheet('Sheet1')w.save(path)def write_data(data1,data2,path):f=xlrd.open_workbook(path)sheet=f.sheet_by_name('Sheet1')src=copy(f)row=sheet.nrowssrc.get_sheet(0).write(row,0,data1)src.get_sheet(0).write(row,1,data2)src.save(path)if __name__ == '__main__':# work_path=raw_input(u'请输入存储数据路径--excle表格类型')2571278041work_path='E:\\0930\\WWWW.csv'get_shuoshuo('######',work_path)#输入好友QQ号

一.selenium爬取好友QQ空间日志说说相关推荐

  1. python爬取好友qq空间_python + selenium +chrome爬取qq空间好友说说并存入mongodb数据库...

    title: python + selenium +chrome爬取qq空间好友说说并存入mongodb数据库 准备阶段 在正式开始在前需要先准备好做爬虫的工具,本例使用chrome无头浏览器进行爬取 ...

  2. 在线python爬取好友qq空间_Python3.6获取QQ空间全部好友列表

    首先要处理的是gtk算法:从上次分析以来代码并没有变 登录QQ空间后搜索gtk字符串,在三个js中出现了 /* |xGv00|e5808eb94a2bdffe3aae60cd22c5efe2 */ d ...

  3. 爬取好友QQ空间的说说(增强版及使用过程中的困难总结)

    之前从网上下载了源码,在拿同学练手时,发现全是一堆广告说说,经查找是由于原来的代码采用的是识别可点击的"下一页"来进行翻页,而我那个同学 曾转发过一个叫"下一个" ...

  4. python爬取加密qq空间_使用python+selenium爬取qq空间好友动态

    使用python+selenium爬取qq空间好友动态 分析过程如下: 要想用selenium登陆qq空间,必须点击账号密码登陆按钮然后再填写账号密码登陆. 1.PNG 点击账号密码按钮后跳转到如下页 ...

  5. python爬取加密qq空间_python3爬虫爬取QQ好友空间说说

    开发环境Win10 python 3.6.3 pycharm 2018.1 第三方库csv requests pymysql selenium 无头浏览器 PhantomJS 主要思路通过QQ邮箱导出 ...

  6. python爬取加密qq空间_python3.7 爬取QQ空间好友

    1 from urllib importparse2 from selenium importwebdriver3 importrequests4 importjson5 from json impo ...

  7. selenium爬取QQ空间

    这几天在看<从零开始学python网络爬虫>中的模拟浏览器篇,对其中的爬取好友说说比较感兴趣,不过书中只是爬取每个好友第一页说说,因此我稍微改进了下(发书名是尊重作者,不过个人认为这本书讲 ...

  8. python selenium爬取QQ空间说说

    准备工作 安装selenium, pyquery, json模块. 使用的是火狐浏览器,所以还要安装geckodriver, 下载好后,把geckodirver.exe文件放在python.exe同一 ...

  9. python3 使用selenium爬取QQ空间说说信息

    使用PhantomJS,事先需要下载PhantomJS from selenium import webdriver import time#使用selenium driver = webdriver ...

最新文章

  1. python使用fpdf创建pdf文件包含:页眉、页脚并嵌入logo图片、设置使用中文字体
  2. elisa标准曲线怎么做_ELISA标准曲线制作
  3. 【推荐系统】一文梳理序列化推荐算法模型进展
  4. LDAP 中关于CN,OU,DC的含义
  5. vuepress build提示YAMLException: end of the stream or a document separator is expected at line 7, colu
  6. rust 案例_RUST-X气相防锈产品落户中国,助力中国高端制造出口海外
  7. 坑爹的uint32_t
  8. Java的历史和学习Java需要准备的工具
  9. 【抢购仅限1500册】2019年入门必备Linux系统自学书籍半价促销。
  10. Info.plist中 各字段详解
  11. Java中super()的用法。主类和子类的继承关系。(2)
  12. python镜像安装教程_PIP镜像方式安装PYTHON包步骤
  13. IDEA 断点出现 no executable code found at line
  14. Ultra Compare 8 文本比较乱码问题 解决
  15. 2021.6.27-参加青少年人工智能编程水平测试C++四级(通过)
  16. 遍历文件夹打印所有文件名
  17. 【恩墨学院】为什么用尽了办法你的系统性能还是不见改善?
  18. 技术分享 | 实战 MySQL 8.0.17 Clone Plugin
  19. 马哥linux培训python
  20. 千兆网络变压器原理图及网络变压器线圈各磁环定义

热门文章

  1. 〖Python零基础入门篇(63)〗 - 持久化学生信息库的完善
  2. ubuntu20.04无法输入中文解决了
  3. EndNote20如何下载并安装中文参考文献格式GBT7714
  4. 2019-2020-1 20175227 《信息安全系统设计基础》第二周学习总结
  5. 利用python删除excel的空白行
  6. python再复习(3)函数
  7. ZigBee TI ZStack CC2530 4.14 广播通信
  8. Cling基础教程 - 用户手册(入门)
  9. dcom注册表问题修复
  10. WPF三层架构的搭建