抓取实时热搜榜、热点热搜榜、潮流热搜榜、名人热搜榜 ,并固定格式存到CSV文件。

代码如下:

# coding=utf-8
import re
import requests
import xlwt
from bs4 import BeautifulSoup
from selenium import webdriverdriver = webdriver.Chrome("C:\Program Files (x86)\Google\Chrome\Application\chromedriver")driver.set_window_size(1080, 800)
driver.implicitly_wait(10)user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
headers = {'User-Agent': user_agent}class weibo():def __init__(self, url, filename):self.url = urlself.filename = filenamedef sousuo(self):url = self.urlfilename = self.filenamedriver.get(url)myfile = xlwt.Workbook()table = myfile.add_sheet(u'filename', cell_overwrite_ok=True)table.write(0, 0, u"排名")table.write(0, 1, u"关键词")table.write(0, 2, u"热搜指数")r = requests.get(url, headers=headers)html = r.textprint(html)soup = BeautifulSoup(html, 'html.parser')i = 1for tag in soup.find_all(href=re.compile("Refer=top"), target="_blank"):if tag.string is not None:print(tag.string)table.write(i, 1, tag.string)i += 1j = 1for tag in soup.find_all(href=re.compile("Refer=top"), target="_blank"):print(j)table.write(j, 0, j)j += 1z = 1for tag in soup.find_all(class_="star_num"):if tag.string is not None:print(tag.string)table.write(z, 2, tag.string)z += 1filename = str(filename) + ".csv"myfile.save(filename)s1 = weibo('http://s.weibo.com/top/summary?cate=realtimehot', '实时热搜榜')
s1.sousuo()
s2 = weibo('http://s.weibo.com/top/summary?cate=total&key=all', '热点热搜榜')
s2.sousuo()
s3 = weibo('http://s.weibo.com/top/summary?cate=total&key=films', '潮流热搜榜')
s3.sousuo()
s4 = weibo('http://s.weibo.com/top/summary?cate=total&key=person', '名人热搜榜')
s4.sousuo()

“`

爬虫入门教程 | 使用selenium爬取微博热门数据相关推荐

  1. Python爬虫入门教程30:爬取拉勾网招聘数据信息

    前言

  2. Python爬虫入门教程06:爬取数据后的词云图制作

    前言

  3. Python爬虫入门教程31:爬取猫咪交易网站数据并作数据分析

    前言

  4. Python爬虫入门教程32:爬取boss直聘招聘数据并做可视化展示

    前言

  5. Python爬虫入门教程27:爬取某电商平台数据内容并做数据可视化

    前言

  6. python爬虫——使用selenium爬取微博数据(一)

    python爬虫--使用selenium爬取微博数据(二) 写在前面 之前因为在组里做和nlp相关的项目,需要自己构建数据集,采用selenium爬取了几十万条微博数据,学习了很多,想在这里分享一下如 ...

  7. node 没有界面的浏览器_node.js爬虫入门(二)爬取动态页面(puppeteer)

    之前第一篇爬虫教程node.js爬虫入门(一)爬取静态页面讲解了静态网页的爬取,十分简单,但是遇到一些动态网页(ajax)的话,直接用之前的方法发送请求就无法获得我们想要的数据.这时就需要通过爬取动态 ...

  8. python+selenium 爬取微博(网页版)并解决账号密码登录、短信验证

    使用python+selenium 爬取微博 前言 为什么爬网页版微博 为什么使用selenium 怎么模拟微博登录 一.事前准备 二.Selenium安装 关于selenium 安装步骤 三.sel ...

  9. 爬取新笔趣阁排行并保存到mysql_python+selenium爬取微博热搜存入Mysql的实现方法...

    最终的效果 废话不多少,直接上图 这里可以清楚的看到,数据库里包含了日期,内容,和网站link 下面我们来分析怎么实现 使用的库 import requests from selenium.webdr ...

最新文章

  1. 怎么改utf8_想重装python但有很多包怎么办?不要慌,教你如何快速重装
  2. 计算机网络第4版潘爱民_学术活动 钱江会计实务精英讲坛预告(第84期)| 何继昌 : 战略视角下之财务分析应用实践 兼选股案例分享...
  3. LINUX下的tty,console与串口
  4. Skipping failed optional dependency /chokidar/fsevents
  5. 6-第三方库离线安装法
  6. Begin to use Tex Example (from others)
  7. 有哪些神预言的科幻电影
  8. linux shell中的流编辑器sed的使用
  9. 的序号数据是什么_Excel技巧—一劳永逸制作自动更新序号
  10. exec还原oracle,详解通过Backup Exec来实施Oracle灾难恢复
  11. 论文重复率太高咋办?Python来帮你解决
  12. 冰河木马使用(纯属学习)
  13. 软件工程系统建模总结
  14. 银行信贷系统java_java毕业设计_springboot框架的银行信贷系统
  15. CH341SER USB转串口64位驱动
  16. SQL SERVER2008 R2 ,求教,故障日志不断增大,撑爆硬盘,谢谢。
  17. 支持人脸识别的相册PhotoPrism
  18. window.open()打开窗口的几种方式
  19. HTTP服务器开发教程
  20. dns服务器未响应和欠费,dns服务器未响应【操作方向】

热门文章

  1. 咸鱼前端—CSS选择器
  2. Linux系统下如果查看用户的UID和GID
  3. 力天创见智慧商业解决方案
  4. SD/SDIO/EMMC
  5. 程序猿思维释放:打破常态
  6. LTE学习-PSS主同步信号
  7. 语言处理方法-Word2Vec详解
  8. java压缩和解压tar包,tar包、压缩与解压缩
  9. 《2020版JavaScript基础入门教程全集》,助你一臂之力!
  10. string函数的模拟实现