使用软件(集搜客)

  1. 下载后页面如图所示(需要进行账户绑定)
  2. 进入微博采集工具箱,官网里面直观看到
  3. 按网页提示进行操作,这样你会跳到爬虫界面

使用python代码进行解决

  • 目的:将一些人的博文单元格另存为txt文件,有的单元格是空的,我们可以替换这这些单元格,比如,向空单元格填入无有效数据等,这样有一个缺点就是数据量有点大,导致复制粘贴等效率低下
from openpyxl import load_workbook
#打开相应文档
inwb = load_workbook("06.xlsx")
#选择相应的表名
sheet = inwb.get_sheet_by_name('sheet1')
list_sheet_column_C = []
# 将数据存储
for i in sheet["B"]:list_sheet_column_C.append(i.value)print(i.value)print(i)
print(len(list_sheet_column_C))
a = 1
#将数据进行写入txt文档
for i in range(25460):c = a + 10434if list_sheet_column_C[c] == None:list_sheet_column_C[c] = "无有效内容"
# txt文档是没有办法写入none,并且这种的数据一般是视频或者全图片,我们选择直接让它无有效内容b = "/home/lsgo16/PycharmProjects/untitled1/2012-2013year/{0}.txt".format(a)with open(b,"w",encoding="utf-8") as f:# if list_sheet_column_C[a] == :#     list_sheet_column_C[a] == ""f.write(list_sheet_column_C[c])print("{0}保存成功".format(a))a = a + 1
  • 整体框架

使用第三方软件爬取微博关键字相关推荐

  1. 爬取微博搜索关键字标题

    目标:爬取微博文章搜索标题 步骤: 1.加载模块 import requests from lxml import etree from urllib import parse from fake_u ...

  2. 【网络爬虫】【java】微博爬虫(一):小试牛刀——网易微博爬虫(自定义关键字爬取微博数据)(附软件源码)...

    一.写在前面 (本专栏分为"java版微博爬虫"和"python版网络爬虫"两个项目,系列里所有文章将基于这两个项目讲解,项目完整源码已经整理到我的Github ...

  3. python根据关键字爬取微博_Python 超简单爬取微博热搜榜数据

    微博的热搜榜对于研究大众的流量有非常大的价值.今天的教程就来说说如何爬取微博的热搜榜.热搜榜的链接是: https://s.weibo.com/top/summary/ 用浏览器浏览,发现在不登录的情 ...

  4. python爬取微博动态页面id、内容、评论点赞数存入MongoDB 详解

    目录 前情提要 一.具体操作及注意事项 1.获取解析json文件 2.获取微博内容 3.存入MongoDB数据库 总代码及结果展示 前情提要 本次爬取有未解决的问题 1.用urlencode合成的ur ...

  5. python爬取微博指定内容_python3.5爬虫-爬取微博某博主微博内容

    想要爬取某个博主的微博数据.在网络上寻找了很多关于爬取微博内容的教程,发现有些教程比较老旧了,已经无法再用,有些教程在我这里出现一些问题,比如爬取移动端的微博需要获取登陆cookie,而我的谷歌浏览器 ...

  6. python 爬虫热搜_Python网络爬虫之爬取微博热搜

    微博热搜的爬取较为简单,我只是用了lxml和requests两个库 1.分析网页的源代码:右键--查看网页源代码. 从网页代码中可以获取到信息 (1)热搜的名字都在 的子节点里 (2)热搜的排名都在 ...

  7. python跑一亿次循环_python爬虫爬取微博评论

    原标题:python爬虫爬取微博评论 python爬虫是程序员们一定会掌握的知识,练习python爬虫时,很多人会选择爬取微博练手.python爬虫微博根据微博存在于不同媒介上,所爬取的难度有差异,无 ...

  8. python 登陆微博 被删除 token_爬取微博信息,使用了cookie仍然无法登录微博

    按照网上的模板自己写了类似的代码爬取微博,可是response回来的html是登录界面的html,应该是没有成功登陆微博,但是和网上的代码是基本一样的 from bs4 import Beautifu ...

  9. python 爬关键词,Python爬虫实战:爬取微博热搜关键词

    一.爬取微博热搜关键词需要的第三方库 1.requests 2.BeautifulSoup 美味汤 3.worldcloud 词云 4.jieba 中文分词 5.matplotlib 绘图 二.爬取微 ...

最新文章

  1. SLA 99.99%以上!饿了么实时计算平台3年演进历程
  2. 简明Python3教程 8.控制流
  3. 关于Java实现去除连续空格的延伸
  4. [转]android使用shape stroke描边只保留底部
  5. 万能笔记本,你值得拥有;(XML)
  6. 路由器 和 交换机 傻傻分不清楚
  7. CSDN、博客园等6大技术博客平台的写作体验测评
  8. deepin中zz_如何解决R中的FizzBu​​zz问题
  9. 跟世界打个招呼c语言编程,(一)helloworld
  10. LeetCode 1028. 从先序遍历还原二叉树(栈)
  11. Nacos Spring 快速开始
  12. spring controller 增加header字段forward_Spring 注解编程之模式注解
  13. 20200616:力扣193周周赛上
  14. 结构体转map[string]interface{}的若干方法
  15. pdf 分形 张济忠_分形理论及其研究方法.pdf
  16. 高通蓝牙耳机开发方法-周康
  17. Widget的简单使用详解
  18. matlab 中gradient()函数的用法
  19. 人工智能之自然语言处理初探
  20. 林轩田《机器学习基石》作业一-Python实现

热门文章

  1. Flutter-TabBar的使用说明
  2. Windows系统激活问题:在运行Microsoft Windows 非核心版本的计算机上,运行 slui.exe 0x2a 0x803f7001 以显示错误文本 解决方案
  3. 对减少HTTP请求的疑问
  4. 慧数汽车大数据分析:谁压垮了SUV车市?
  5. python人工智能入门书籍推荐-人工智能极简编程入门(基于PYTHON)
  6. FIL近期热点资讯盘点
  7. 脑壳清痛之---总结thinkphp5 怎么用odbc连接sql2000
  8. AT24C02的IIC通信
  9. java.lang.ClassNotFoundException:javax.xml.ws.soap.AddressingFeature $ Responses
  10. android人脸特征提取,基于人脸检测和特征提取的移动人像采集系统