最近在学习python的爬虫知识,分享一个爬取微博热搜的实例,代码很简单。

用到了requests,re,xlwt库

直接看图:

#1导入模块
import requests
import re
import xlwt#2定制请求头
url="https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&wvr=6"
headers={"user-agent":"","Cookie":""
}
#3获取网页数据
r=requests.get(url,headers=headers)
r.encoding=r.apparent_encoding
print(r.status_code)
html=r.text
#4用正则提取排名,热搜内容,热度等信息
datalist=[]
rank=re.findall(r'<td class="td-01 ranktop">(.*)</td>',html)
name=re.findall(r'<a.*target="_blank">(.*?)</a>',html)[1:51]
hot=re.findall(r'<span>(.*?)</span>',html)[1:51]
datalist.append(rank)
datalist.append(name)
datalist.append(hot)
#5保存数据
book=xlwt.Workbook(encoding="utf-8")
sheet=book.add_sheet("微博热搜",cell_overwrite_ok=True)
head=("排名","内容","热度")
for i in range(0,3):sheet.write(0,i,head[i])
for j in range(len(datalist)):data=datalist[j]for i in range(len(rank)):sheet.write(i+1,j,data[i])
book.save("微博热搜.xls")

注意:1请求头一定要带urer-agent和cookie的参数,这里我没有填写需要自己填进去,打开热搜点击F12打开开发者工具,选中network,参看那里面的请求参数urer-agent和cookie都有。

2一般热搜榜是显示50条,用正则表达式提取的时候,排名刚好提取出50个,热度和内容可能不止50条很容易把最前面那条也提取出来,所以可以在后面加上范围[1:51]表示拿第1条到第50条,去除第0个。

爬虫实例:正则表达式爬取微博热搜榜相关推荐

  1. 爬虫—爬取微博热搜榜

    1. 引言 利用scrapy框架爬取微博热搜榜网站前50条热搜. 爬取信息:热搜排名.热搜新闻名.热搜新闻热搜量. 数据存储:存储为.csv文件. 2.爬取流程 新建scrapy爬虫项目: 在终端输入 ...

  2. c#使用正则表达式获取TR中的多个TD_使用python+BeautifulSoup爬取微博热搜榜

    本文将介绍基于Python使用BeautifulSoup爬取微博热搜榜的实现过程 1.首先导入需要使用的库 from bs4 import BeautifulSoup from urllib.requ ...

  3. python爬取微博热搜榜

    python爬取微博热搜榜 最近应我大学室友得需求,做了一个简单的爬虫案例,先给大家看一下程序运行效果 接下来就是贴出代码了,在这里我会做一些简单说明,对如刚入门的同学可能会有所帮助,这里使用的是py ...

  4. Python爬取微博热搜榜,将数据存入数据库

    一直想学习用Python来进行数据的爬取,也一直想知道Python连接数据库的操作,今天刚好看到的这篇文章满足了这两个条件,我试着爬了下微博,并成功将数据添加到数据库中,颇为欢喜.作者写的很简单,有些 ...

  5. python 爬关键词,Python爬虫实战:爬取微博热搜关键词

    一.爬取微博热搜关键词需要的第三方库 1.requests 2.BeautifulSoup 美味汤 3.worldcloud 词云 4.jieba 中文分词 5.matplotlib 绘图 二.爬取微 ...

  6. python爬取微博热搜并存入表格_python爬虫进阶之爬取微博热搜存入Mysql

    在编程中,我们如果想要把数据转入数据库中,首先会选择 MySQL数据库.因为MySQL数据库体积小.速度快.总体拥有成本低.开放源代码,其有着广泛的应用,例如我们使用python爬虫微博热搜,就可以使 ...

  7. python爬取微博热搜榜教程,python爬取微博热搜并存入表格

    微博热搜的爬取较为简单,我只是用了lxml和requests两个库 url= https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&am ...

  8. Python 超简单爬取微博热搜榜数据

    微博的热搜榜对于研究大众的流量有非常大的价值.今天的教程就来说说如何爬取微博的热搜榜. 热搜榜的链接是: https://s.weibo.com/top/summary/ 用浏览器浏览,发现在不登录的 ...

  9. 使用 Nodejs 实现定时爬取微博热搜榜

    The summer is coming " 我知道,那些夏天,就像青春一样回不来.- 宋冬野 青春是回不来了,倒是要准备渡过在西安的第三个夏天了. 看完本文的收获 ctrl + c ctr ...

最新文章

  1. “钱”在这个社会是怎么一个地位
  2. axios请求接口http_Vue使用Axios实现http请求以及解决跨域问题
  3. Spring-学习笔记10【Spring事务控制】
  4. 谷歌Android各版本的代号变迁
  5. POJ 1797 Heavy Transportation
  6. uburntu在不能自动获取网络时的联网设置
  7. 苹果开发者账户需要同意并添加电话号码,苹果账号忘记验证问题解决方案
  8. java 编码格式 utf 8_关于java生成UTF-8编码格式文件的诡异问题
  9. android adb驱动官方下载,adb驱动下载
  10. mobile terminal 笔记
  11. 云数据中心解决方案架构图
  12. pe系统测试软件,PE实测:测试环境及PE制作
  13. win7副本不是正版_为什么有人愿意放弃win10,重装成盗版的win7呢原因有三点!...
  14. 开发者如何提升和推销自己
  15. 《2018中国区块链行业发展白皮书》发布
  16. DM数据库安装、踩雷、解决办法
  17. 科技,美学,人性——交互设计的十字路口
  18. 机器学习-华为mindspore入门-波士顿房价回归
  19. 学如逆水行舟,不进则退。
  20. Linux运维课程 第一阶段 重难点摘要(二)网络基础

热门文章

  1. 基于单片机开发的电子体温计方案
  2. ​女性对健康意识不断提高,内衣市场需求变得多元化
  3. 黑人弹幕用计算机来唱,苏轼唱rap、乾隆玩弹幕…网友:都让开,我要给mc刷火箭!...
  4. 计算机科班出身的优势?
  5. 1550:花神游历各国
  6. 数值最优化-有效集法求解含有不等式约束的二次规划问题
  7. 手把手教你做安卓端人脸识别应用
  8. 辞职考研你想好了吗?
  9. 为电子版微积分算一算经济账
  10. STM32单片机-操作访问内部Flash