Python爬虫 爬取新浪微博热搜

文章目录

    • Python爬虫 爬取新浪微博热搜
  • 网页分析
  • 数据爬取
  • 数据存储
  • 全部代码

网页分析


找到热搜的排名,标题和热度,发现它们在同一路径

数据爬取

import requests
from lxml import etree
url= 'https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&wvr=6'
#print(response.text)
headers={'User-Agent': 'Mozilla/5.0 (Wind ows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.104 Safari/537.36'
}
response=requests.get(url,headers=headers)
html=etree.HTML(response.text)
datas=html.xpath('//*[@id="pl_top_realtimehot"]/table/tbody/tr')
for data in datas:data_title=data.xpath('td[2]/a/text()')#标题的xpath路径print(data_title)

运行结果

数据存储

fp=open('D:/老齐/微博.txt', 'a+')#a+,如果文件不存在就创建,存在就在内容后追加
for data in datas:data_title=''.join(data.xpath('td[2]/a/text()'))#标题data_rank=''.join(data.xpath('td[1]/text()'))#排名data_num=''.join(data.xpath('td[2]/span/text()'))print(data_rank,data_title,data_num,file=fp)
fp.close()

全部代码

import requests
from lxml import etree
url= 'https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&wvr=6'
#print(response.text)
headers={'User-Agent': 'Mozilla/5.0 (Wind ows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.104 Safari/537.36'
}
response=requests.get(url,headers=headers)
html=etree.HTML(response.text)
datas=html.xpath('//*[@id="pl_top_realtimehot"]/table/tbody/tr')
fp=open('D:/老齐/微博.txt', 'a+')#a+,如果文件不存在就创建,存在就在内容后追加
for data in datas:data_title=''.join(data.xpath('td[2]/a/text()'))#标题data_rank=''.join(data.xpath('td[1]/text()'))#排名data_num=''.join(data.xpath('td[2]/span/text()'))print(data_rank,data_title,data_num,file=fp)
fp.close()

Python爬虫 爬取新浪微博热搜相关推荐

  1. Python爬虫爬取微博热搜保存为 Markdown 文件

    微博热搜榜python爬虫,仅供学习交流 源码及注释: # -*- coding=UTF-8 -*- #!usr/bin/env pythonimport os import time import ...

  2. 爬取新浪微博热搜排行

    爬取新浪微博热搜排行 1.1 爬虫基本原理解析 什么是爬虫 通过编写程序模拟浏览器上网 在互联网抓取数据的过程 分类 通用爬虫 搜索引擎用的爬虫系统 尽可能把互联网的所有网页下载 放到本地服务器形成备 ...

  3. 爬虫—爬取微博热搜榜

    1. 引言 利用scrapy框架爬取微博热搜榜网站前50条热搜. 爬取信息:热搜排名.热搜新闻名.热搜新闻热搜量. 数据存储:存储为.csv文件. 2.爬取流程 新建scrapy爬虫项目: 在终端输入 ...

  4. 从零到一学爬虫-爬取微博热搜示例

    爬取微博热搜榜-简单示例 使用爬虫模拟浏览器向微博热搜的服务器发送请求,得到响应,然后将响应的信息进行打印. 当我们直接打开浏览器,输入https://s.weibo.com/top/summary, ...

  5. c#使用正则表达式获取TR中的多个TD_使用python+BeautifulSoup爬取微博热搜榜

    本文将介绍基于Python使用BeautifulSoup爬取微博热搜榜的实现过程 1.首先导入需要使用的库 from bs4 import BeautifulSoup from urllib.requ ...

  6. Python爬虫与信息提取(五)爬虫实例:爬取新浪微博热搜排名

    经过一段时间的Python网络爬虫学习,今天自己摸索制作了一个能够爬取新浪微博实时热搜排名的小爬虫 1.效果: 2.制作过程中遇到的问题: (1)一开始研究微博热搜页面的源代码时忽略了<tbod ...

  7. Python爬取新浪微博热搜榜

    Python爬取新浪微博实时热搜榜.名人热搜榜.热点热搜榜和潮流热搜榜四大板块.这些板块都是不需要登录的,所以爬起来还是比较简单的.不过频繁的爬取会出现验证码. 作用爬取四大榜单的关键词和热搜指数并存 ...

  8. python爬取微博热搜显示到折线图_Python爬取新浪微博热搜榜-Go语言中文社区

    我们如何爬取这50条热搜呢?今天写一个简单的方法供感兴趣的朋友们参考! 引用库: requests json lxml.etree bs4.BeautifulSoup引用方法如下: 如果没有下载的需要 ...

  9. python爬取微博热搜写入数据库_python爬虫爬取微博热搜

    [实例简介] [实例截图] [核心代码] import requests                #数据抓取库 from lxml import etree         #数据解析库 imp ...

最新文章

  1. jqGrid简单使用
  2. java取number长度_Java中常用方法(NumberMath)
  3. 软件测试之单元测试之Junit测试使用前准备
  4. 华为Mate 30系列5G版屠榜双十一:当之无愧的5G爆品
  5. 第一个DFS,第一个递归 HDU1515
  6. 什么叫侧面指纹识别_正面背面侧面 你手机的指纹识别长在哪?
  7. 字节流 system.out ----printStream
  8. trunk端口_超全!华为交换机端口vlan详解~
  9. 自豪地采用WordPress,如何删除链接?
  10. 演示6:python音乐下载器
  11. redhat linux iso下载
  12. win10 修改用户名
  13. 给小朋友讲故事——第一次世界大战(音频)
  14. ubuntu Aria2 AriaNg安装
  15. 英雄联盟 LPL比赛 直播 视频地址 使用VLC播放
  16. PC端实现浏览器点击分享到QQ好友,空间,微信,微博等
  17. Teardrop代码编程,创建虚假包
  18. 【微服务架构 - 04 - Nexus】01 基于 Docker 安装 Nexus
  19. 程序员赚零钱食用指南
  20. 华为路由器联动_不拉宽带也能畅快冲浪,华为移动路由帮你实现

热门文章

  1. map映射的基础用法
  2. html5 打气球小游戏,javascript开发打气球小游戏
  3. Kotlin object的三种用法
  4. 滴滴巨亏背后,打江山容易,守江山难?
  5. IDEA 使用SequenceDiagram插件绘制时序图
  6. 点击图片实现预览功能
  7. java判断线与矩形相交_判断任意多边形与矩形的相交(线段与矩形相交或线段与线段相交)...
  8. 牛!程序媛一口气拿下BAT、美团、vivo、爱奇艺等公司Offer面经总结
  9. BZOJ 1062: [NOI2008]糖果雨(二维树状数组)
  10. c语言之bbs管理系统,编写c语言的软件 纯C语言编写图书管理系统WORD文档bbszp.doc...