python-基于selenium库爬取微博关键词搜索内容

python-基于selenium爬取微博关键词搜索内容

用的是谷歌浏览器
需要下载chromedriver
暂时还少了登录步骤不能爬取第一页以外的内容
爬取内容（默认了40条（还没有做到翻页所以会重复保存第一页的内容））会用excel保存在

# 1.0 完成了第一页的信息采集并保存进excelfrom selenium import webdriver
import time
import re
import xlwt def wbdriver(driver,wbinfo,num):items = driver.find_elements_by_css_selector('div[class=card-wrap] div[class=card]') #定位到信息的div for item in items: #循环记录所有信息if num<40 :         #默认设置采集40条信息fields = item.find_elements_by_tag_name('p')names = item.find_elements_by_tag_name('a')stringFields = [field.text for field in fields] #包含了微博内容 和发表时间stringname = [name.text for name in names] #包含用户名及转评赞stringField = re.sub('\\n', '', str(stringFields[0])) #内容存在大量的\n 通过正则过滤wbinfo.append(stringname[3])  # 用户wbinfo.append(stringField) #内容wbinfo.append(stringFields[1]) #日期及客户端wbinfo.append(stringname[-3:]) #转评赞num += 1 #计数采集的信息数else:return num  # 提前返回采集数return num #返回采集数
def saveList(ulist, num): #信息存入excleworkbook = xlwt.Workbook(encoding='utf-8')worksheet = workbook.add_sheet('My Worksheet')# 设置宽度worksheet.col(0).width = 256 * 10worksheet.col(1).width = 256 * 150worksheet.col(2).width = 256 * 10# 添加表头order = ['ID ', '微博内容', '发表时间&客户端', '转发评点赞量']for j in range(4):worksheet.write(0, j, order[j])  # 行 列 内容# 添加信息for i in range(num):  # 第i行n = i*4u = ulist[n:n+4]for k in range(4):  # 第k列worksheet.write(i + 1, k, u[k])workbook.save('Excel_test.xls')print("Suc写入excl {}条信息".format(num))def main():wbinfo = []  # 将采集到的信息放进列表num = 0  # 计数采集的信息数inurl = input("输入你要搜索的关键词")  #驱动启动浏览器driver = webdriver.Chrome(r'D:\python\谷歌测试驱动\chromedriver.exe')  #设置等待时间用来加载完整页面driver.implicitly_wait(50)url = "https://s.weibo.com/weibo/"+inurldriver.get(url)  #打开网址time.sleep(1)while(num < 40): #当前采集信息不够进入下一页再循环num = wbdriver(driver, wbinfo, num)#需要登录 才能出现进下一页按钮 或者给一个新的url？#driver.find_element_by_css_selector('a[class=next]').click() #下一页saveList(wbinfo, num) #保存信息进excledriver.quit()print('Done')main()

python-基于selenium库爬取微博关键词搜索内容相关推荐

Python基于BeautifulSoup4库爬取亚马逊网页
引言我写的这个爬虫非常的简单,没有什么难的逻辑思维,只是简单运用BeautifulSoup进行爬取,相信初学者都可以看懂,就是代码写的比较乱,因为我也是初学者....可能你没有耐心看完,我会尽量一部 ...
python Scrapy Selenium PhantomJS 爬取微博图片
1,创建项目 scrapy startproject weibo #创建工程 scrapy genspider -t basic weibo.com weibo.com #创建spider 目录结构 ...
基于selenium+scrapy爬取复仇者联盟4豆瓣影评数据
基于selenium+scrapy爬取复仇者联盟4豆瓣影评数据参考资料: 黑马程序员爬虫教程静觅爬虫教程 mac下anaconda安装selenium+PhantomJS scrapy下载中间件结 ...
python + selenium多进程爬取淘宝搜索页数据
python + selenium多进程爬取淘宝搜索页数据 1. 功能描述按照给定的关键词,在淘宝搜索对应的产品,然后爬取搜索结果中产品的信息,包括:标题,价格,销量,产地等信息,存入mongodb ...
Selenium+Python3爬取微博我发出的评论信息
Selenium+Python3爬取微博我发出的评论信息需求代码注: 需求记录对话信息:对话文本.时间.用户.被回复链接.被回复用户.被回复文本. 将数据信息持久化保存,可选择截图. 代码 # ...
用Requests库爬取微博照片
用Requests库爬取微博照片代码如下: #微博图片爬取 import requests import os #文件目录方法模块 url="https://wx3.sinaimg.cn/ ...
python使用requests库爬取淘宝指定商品信息
python使用requests库爬取淘宝指定商品信息在搜索栏中输入商品通过F12开发者工具抓包我们知道了商品信息的API,同时发现了商品数据都以json字符串的形式存储在返回的html内解析u ...
Selenium+Python3爬取微博私信
Selenium+Python3爬取微博私信需求缺陷代码需求爬取微博私信信息,包括:文本.对话者信息.图片路径,并将截图.文本留存. 缺陷微博私信网页长时间查看时,经常有刷新失败.页面崩溃 ...
利用python的scrapy框架爬取google搜索结果页面内容
scrapy google search 实验目的爬虫实习的项目1,利用python的scrapy框架爬取google搜索结果页面内容. https://github.com/1012598167/ ...

python-基于selenium库爬取微博关键词搜索内容

python-基于selenium爬取微博关键词搜索内容

python-基于selenium库爬取微博关键词搜索内容相关推荐

最新文章

热门文章