python-基于selenium爬取微博关键词搜索内容

用的是谷歌浏览器
需要下载chromedriver
暂时还少了登录步骤不能爬取第一页以外的内容
爬取内容(默认了40条(还没有做到翻页所以会重复保存第一页的内容))会用excel保存在

# 1.0 完成了第一页的信息采集并保存进excelfrom selenium import webdriver
import time
import re
import xlwt def wbdriver(driver,wbinfo,num):items = driver.find_elements_by_css_selector('div[class=card-wrap] div[class=card]') #定位到信息的div for item in items: #循环记录所有信息if num<40 :         #默认设置采集40条信息fields = item.find_elements_by_tag_name('p')names = item.find_elements_by_tag_name('a')stringFields = [field.text for field in fields] #包含了微博内容 和发表时间stringname = [name.text for name in names] #包含用户名及转评赞stringField = re.sub('\\n', '', str(stringFields[0])) #内容存在大量的\n 通过正则过滤wbinfo.append(stringname[3])  # 用户wbinfo.append(stringField) #内容wbinfo.append(stringFields[1]) #日期及客户端wbinfo.append(stringname[-3:]) #转评赞num += 1 #计数采集的信息数else:return num  # 提前返回采集数return num #返回采集数
def saveList(ulist, num): #信息存入excleworkbook = xlwt.Workbook(encoding='utf-8')worksheet = workbook.add_sheet('My Worksheet')# 设置宽度worksheet.col(0).width = 256 * 10worksheet.col(1).width = 256 * 150worksheet.col(2).width = 256 * 10# 添加表头order = ['ID ', '微博内容', '发表时间&客户端', '转发评点赞量']for j in range(4):worksheet.write(0, j, order[j])  # 行 列 内容# 添加信息for i in range(num):  # 第i行n = i*4u = ulist[n:n+4]for k in range(4):  # 第k列worksheet.write(i + 1, k, u[k])workbook.save('Excel_test.xls')print("Suc写入excl {}条信息".format(num))def main():wbinfo = []  # 将采集到的信息放进列表num = 0  # 计数采集的信息数inurl = input("输入你要搜索的关键词")  #驱动启动浏览器driver = webdriver.Chrome(r'D:\python\谷歌测试驱动\chromedriver.exe')  #设置等待时间用来加载完整页面driver.implicitly_wait(50)url = "https://s.weibo.com/weibo/"+inurldriver.get(url)  #打开网址time.sleep(1)while(num < 40): #当前采集信息不够进入下一页再循环num = wbdriver(driver, wbinfo, num)#需要登录 才能出现进下一页按钮 或者给一个新的url?#driver.find_element_by_css_selector('a[class=next]').click() #下一页saveList(wbinfo, num) #保存信息进excledriver.quit()print('Done')main()

python-基于selenium库爬取微博关键词搜索内容相关推荐

  1. Python基于BeautifulSoup4库爬取亚马逊网页

    引言 我写的这个爬虫非常的简单,没有什么难的逻辑思维,只是简单运用BeautifulSoup进行爬取,相信初学者都可以看懂,就是代码写的比较乱,因为我也是初学者....可能你没有耐心看完,我会尽量一部 ...

  2. python Scrapy Selenium PhantomJS 爬取微博图片

    1,创建项目 scrapy startproject weibo #创建工程 scrapy genspider -t basic weibo.com weibo.com #创建spider 目录结构 ...

  3. 基于selenium+scrapy爬取复仇者联盟4豆瓣影评数据

    基于selenium+scrapy爬取复仇者联盟4豆瓣影评数据 参考资料: 黑马程序员爬虫教程 静觅爬虫教程 mac下anaconda安装selenium+PhantomJS scrapy下载中间件结 ...

  4. python + selenium多进程爬取淘宝搜索页数据

    python + selenium多进程爬取淘宝搜索页数据 1. 功能描述 按照给定的关键词,在淘宝搜索对应的产品,然后爬取搜索结果中产品的信息,包括:标题,价格,销量,产地等信息,存入mongodb ...

  5. Selenium+Python3爬取微博我发出的评论信息

    Selenium+Python3爬取微博我发出的评论信息 需求 代码 注: 需求 记录对话信息:对话文本.时间.用户.被回复链接.被回复用户.被回复文本. 将数据信息持久化保存,可选择截图. 代码 # ...

  6. 用Requests库爬取微博照片

    用Requests库爬取微博照片 代码如下: #微博图片爬取 import requests import os #文件目录方法模块 url="https://wx3.sinaimg.cn/ ...

  7. python使用requests库爬取淘宝指定商品信息

    python使用requests库爬取淘宝指定商品信息 在搜索栏中输入商品 通过F12开发者工具抓包我们知道了商品信息的API,同时发现了商品数据都以json字符串的形式存储在返回的html内 解析u ...

  8. Selenium+Python3爬取微博私信

    Selenium+Python3爬取微博私信 需求 缺陷 代码 需求 爬取微博私信信息,包括:文本.对话者信息.图片路径,并将截图.文本留存. 缺陷 微博私信网页长时间查看时,经常有刷新失败.页面崩溃 ...

  9. 利用python的scrapy框架爬取google搜索结果页面内容

    scrapy google search 实验目的 爬虫实习的项目1,利用python的scrapy框架爬取google搜索结果页面内容. https://github.com/1012598167/ ...

最新文章

  1. BZOJ 1426 收集邮票 ——概率DP
  2. Storm WordCount
  3. SpringBoot入门教程(十)应用监控Actuator
  4. org.springframework.jdbc.core.JdbcTemplate 无法import原因分析
  5. Pandas高级教程之:plot画图详解
  6. WinCE 修改系统字体 开启ClearType平滑字体
  7. codeforces Restore Cube(暴力枚举)
  8. 视网膜New iPad与普通分辨率iPad页面的兼容处理
  9. Python3爬虫反反爬之搞定同程旅游加密参数 antitoken
  10. python开发游戏脚本_Python开发游戏开服脚本
  11. 解决百度 ueditor v1.4.3 编辑器上传图片失真的bug?
  12. oracle编码储存过程,oracle存储过程代码实例一
  13. python篇---在windows下利用pyinstaller打包成exe
  14. 时间序列R语言操作——非平稳时间序列变平稳
  15. php 进销存 源代码_PHP 进销存源码
  16. excel合并多个工作表_如何批量合并Excel文件和工作表 - Excel合并器使用教程
  17. 计算机软件项目的效益预测,软件工程经济效益分析.doc
  18. 20145212 罗天晨 MSF基础应用
  19. 小程序(一)后端项目搭建
  20. 电脑不识别u盘的解决方法

热门文章

  1. arduino设备驱动程序安装失败
  2. kvo实现原理_KVO使用及实现原理
  3. 汽车车身冲压模具是冲制汽车车身上所有冲压件的模具
  4. android wear播放视频,剑指苹果Watch!Android Wear也支持视频
  5. scala中的高阶函数_Scala中的高阶函数(HOF)
  6. PX4——mc_att_control(姿态控制)
  7. 微信小程序swiper组件真机模拟时疯狂轮播 问题解决完整代码
  8. 6、市场营销 - 开公司创业系列文章
  9. Druid的sql监控页面没有数据
  10. linux安装lvm软件包,linux中LVM