知乎热榜讨论话题,https://www.zhihu.com/hot,本文用python抓取下来分析

#!/usr/bin/python
# -*- coding: UTF-8 -*-from urlparse import urljoinimport re
import requestsdef main():headers = {'user-agent':'Baiduspider','cookie':'*****'          }proxies = {'http':'http://122.114.31.177:808'}base_url = 'https://www.zhihu.com/'seed_url = urljoin(base_url, 'hot')resp = requests.get(seed_url,headers=headers,proxies=proxies)html = resp.textmatch_obj = re.compile(r'<h2 class="HotItem-title">.*?</h2>', re.S)results = re.findall(match_obj, html)for item in results:match_title = r'<h2 class="HotItem-title">(.*?)</h2>'title = re.findall(match_title, item)[0]print titleif __name__ == '__main__':main()

最后抓取到的话题如下所示(2019年05月28日16:19分的知乎热榜):

如何看待南昌红谷滩女孩子大街上被陌生人杀害事件?
安卓一旦「抛弃」华为,华为改用自研的「鸿蒙」系统,你是否愿意尝试?
如何看待珠穆朗玛峰大拥堵致 14 人死亡重大事件?
假如地球上所有体重超过 20kg 的生物都拥有人类的智商,会碰撞出怎样的文明火花?
有哪些瞬间「 hold 住全场 」的表情包?
有什么特别恐怖,听了背后凉飕飕的鬼故事?
2019 年 5 月 28 日发布的红米新旗舰 K20 手机有哪些值得一提的亮点和想吐槽的方面?
如何看待网传联邦快递私自转运华为邮件,华为将审查与联邦快递合作关系一事?
刘慈欣的作品中有哪些史诗感很强的片段?
梦会不会是在给你暗示?
为什么施工单位的年轻人越来越少了?
学习哲学有什么坏处?
有哪些让你见过就无法忘记的文身?
如何评价 HBO 新剧《切尔诺贝利》第 4 集?
晋升很快的职场人都有什么共性?
室友无意中打碎了我两瓶香水,应不应该让她赔?
有哪些很皮的句子?
现代社会为何还要学习拗口难懂的古文?
如何看待郑州「奥迪女」因孩子挡路掌掴 5 岁女童一事?
宅男如何正常和女生聊天?
游戏《全面战争:三国》有哪些技巧和战术?
如何看待现今部分医生对患者的不良态度?
人为什么会得痔疮?
男人更愿意找宝钗还是黛玉?
每天跑步五公里,能给自己带来什么?
张云雷有哪些惊艳你的神图?
为何男女比例失调下我依然没有男朋友?
《破冰行动》是以哪起真实事件改编的?具体情况是怎样的?
如何看待黄磊和王迅发两条庆祝微博?
不出国如何练就一口流利的英语?
前女友到底是怎样的存在?
是否存在某些大学辅导员比较嚣张的现象,为什么?
有哪些瘦腿的方法?
如何看待张艺兴首场演唱会 8 秒售完?
如果地球只剩你自己,你会怎样?
如何评价 Dior 的口红?
都说支付宝促进了社会信用的进步,是否夸张了?
四月中旬决定考研还来得及吗?每天至少复习多久?
如何评价《英雄联盟》重做后的「铁男」莫德凯撒?
沈眉庄为什么大家都叫她眉儿而不是庄儿?
有哪些很多人觉得很烂但你要吹爆的动漫?
如何评论张艺兴演唱会无团票,而且票价挺贵的?
有哪些「随手一做好吃又饱肚 」的美食?
如何评价《这就是街舞》第二季第二期中易烊千玺 2v2battle 的表现 ?
红米 K20 搭载全面屏和 7 代屏下指纹,说明小米产品线布局发生了哪些变化?
如何看待吴昕将钟汉良送的礼物转卖了?
经常便秘日常吃什么?
怎么评价《龙珠超:布罗利》这部作品?
黄磊在节目里叫子枫女儿,多多看了会怎么想?
有什么明日方舟玩家看了能会心一笑的笑话或图片?

转载于:https://www.cnblogs.com/kumufengchun/p/10938128.html

python抓取知乎热榜相关推荐

  1. python爬取知乎热榜了解时事

    python爬取知乎热榜了解时事 需求 ​ 知乎热榜是我们了解时事的一个重要途径,但是如果我们每天没有那么多时间来刷知乎,但是还是想要了解知乎热榜的话,我们该怎么办呢?在这里,我想到了通过知乎爬虫的手 ...

  2. 【知乎热榜爬虫】python爬取知乎热榜问题及答案

    所用库 requests xpath解析库 multiprocessing多进程 pymysql数据库操作库 实战背景 主要是爬取知乎热榜的问题及点赞数比较高的答案,通过requests请求库进行爬取 ...

  3. python xpath爬取新闻标题_爬取知乎热榜标题和连接 (python,requests,xpath)

    用python爬取知乎的热榜,获取标题和链接. 环境和方法:ubantu16.04.python3.requests.xpath 1.用浏览器打开知乎,并登录 2.获取cookie和User-Agen ...

  4. Python爬虫抓取B站热榜

    Python爬虫抓取B站热榜 环境 Python 3.7.4 bs4==0.0.1 pandas==1.0.1 urllib3==1.24.2 re 实现代码 # -*- coding:utf-8 - ...

  5. html定位 知乎,从零开始:python实现爬取知乎热榜(随缘更新完善)

    获取URL 获取HTML 解析HTML 获取URL 首先要知道URL是什么: URL: Uniform Resource Identifier,即统一资源标识符. URL: Uniform Resou ...

  6. python 抓取知乎

    刚入门python,本着就是干的原则,从小项目开始. 今天在抓取网页的时候遇到了问题. import urllib.requesturl="http://www.fafu.edu.cn&qu ...

  7. python爬虫实战(2)——爬取知乎热榜内容

    文章目录 一.前期准备 1.获取headers 2.查看网页源代码 二.python代码实现 1.解析网页 2.获取标签 3.完整代码 三.最终结果 一.前期准备 1.获取headers 登录知乎官网 ...

  8. python爬取知乎热搜_python爬取知乎

    大小: 1.59M 文件类型: .zip 金币: 1 下载: 0 次 发布日期: 2021-01-30 资源简介 此项目的功能是爬取知乎用户信息以及人际拓扑关系,爬虫框架使用scrapy,数据存储使用 ...

  9. Python异步爬取知乎热榜

    一.错误代码:摘要和详细的url获取不到 import asyncio from bs4 import BeautifulSoup import aiohttpheaders={'user-agent ...

最新文章

  1. AI安防崛起迅速 开疆拓土少不了专利作“盔甲”
  2. dedecms模板中首页实现分页的方法
  3. 十大迷你iPhone天气应用
  4. BZOJ 1084: [SCOI2005]最大子矩阵【DP】
  5. 【UOJ 51】最接近神的人
  6. 用HTTP的PUT方式发送请求
  7. IT人回家过年的尴尬
  8. C# 制作不规则窗体的两种解决方案
  9. php多文件上传存储到表,PHP 实现一种多文件上传的方法
  10. 计算机技术领域当前的主流技术及社会需求调查报告
  11. TensorFlow神经网络(七)卷积神经网络基础
  12. 【渝粤教育】电大中专Office办公软件 (5)作业 题库
  13. 中间件(一):订单系统整体架构
  14. 计算机无法播放flash,电脑中已安装Flash网页视频还是提示未安装Flash播放器怎么办...
  15. java 正则表达式 检测数学公式是否正确_java 正则表达式 检测数学公式是否正
  16. project实操——项目实例
  17. 信息系统项目管理-项目变更管理-十六
  18. 如何把多张图片快速的拼接在一起?如何拼接多张图片?
  19. 基于FPGA的虚拟示波器的设计
  20. 如何刷机:iphone8锁屏密码错误多次,手机停用,连接iTunes,磁盘已满,双重认证弊端!

热门文章

  1. CPT205-Computer Graphics(2)
  2. ssm+mysql护理质量考核系统微信小程序-计算机毕业设计源码03644
  3. 一个让人不得不转的故事-《通宵达旦工资只有3200 博客网架构师艰难浪迹于北京》
  4. linux upstart脚本,ubuntu upstart简单说明
  5. 《HTML5 移动Web App阅读器》随笔
  6. 神不知鬼不觉的信息盗取-XSS攻击技术
  7. Ubuntu下使用python读取doc和docx文档的内容
  8. 开发,测试,运维这三个行业该如何选择
  9. EasyExcel设置特定单个单元格(颜色)样式
  10. html状态码206,详解浏览器 206 状态码206 Partial Content