python抓取知乎热榜
知乎热榜讨论话题,https://www.zhihu.com/hot,本文用python抓取下来分析
#!/usr/bin/python # -*- coding: UTF-8 -*-from urlparse import urljoinimport re import requestsdef main():headers = {'user-agent':'Baiduspider','cookie':'*****' }proxies = {'http':'http://122.114.31.177:808'}base_url = 'https://www.zhihu.com/'seed_url = urljoin(base_url, 'hot')resp = requests.get(seed_url,headers=headers,proxies=proxies)html = resp.textmatch_obj = re.compile(r'<h2 class="HotItem-title">.*?</h2>', re.S)results = re.findall(match_obj, html)for item in results:match_title = r'<h2 class="HotItem-title">(.*?)</h2>'title = re.findall(match_title, item)[0]print titleif __name__ == '__main__':main()
最后抓取到的话题如下所示(2019年05月28日16:19分的知乎热榜):
如何看待南昌红谷滩女孩子大街上被陌生人杀害事件? 安卓一旦「抛弃」华为,华为改用自研的「鸿蒙」系统,你是否愿意尝试? 如何看待珠穆朗玛峰大拥堵致 14 人死亡重大事件? 假如地球上所有体重超过 20kg 的生物都拥有人类的智商,会碰撞出怎样的文明火花? 有哪些瞬间「 hold 住全场 」的表情包? 有什么特别恐怖,听了背后凉飕飕的鬼故事? 2019 年 5 月 28 日发布的红米新旗舰 K20 手机有哪些值得一提的亮点和想吐槽的方面? 如何看待网传联邦快递私自转运华为邮件,华为将审查与联邦快递合作关系一事? 刘慈欣的作品中有哪些史诗感很强的片段? 梦会不会是在给你暗示? 为什么施工单位的年轻人越来越少了? 学习哲学有什么坏处? 有哪些让你见过就无法忘记的文身? 如何评价 HBO 新剧《切尔诺贝利》第 4 集? 晋升很快的职场人都有什么共性? 室友无意中打碎了我两瓶香水,应不应该让她赔? 有哪些很皮的句子? 现代社会为何还要学习拗口难懂的古文? 如何看待郑州「奥迪女」因孩子挡路掌掴 5 岁女童一事? 宅男如何正常和女生聊天? 游戏《全面战争:三国》有哪些技巧和战术? 如何看待现今部分医生对患者的不良态度? 人为什么会得痔疮? 男人更愿意找宝钗还是黛玉? 每天跑步五公里,能给自己带来什么? 张云雷有哪些惊艳你的神图? 为何男女比例失调下我依然没有男朋友? 《破冰行动》是以哪起真实事件改编的?具体情况是怎样的? 如何看待黄磊和王迅发两条庆祝微博? 不出国如何练就一口流利的英语? 前女友到底是怎样的存在? 是否存在某些大学辅导员比较嚣张的现象,为什么? 有哪些瘦腿的方法? 如何看待张艺兴首场演唱会 8 秒售完? 如果地球只剩你自己,你会怎样? 如何评价 Dior 的口红? 都说支付宝促进了社会信用的进步,是否夸张了? 四月中旬决定考研还来得及吗?每天至少复习多久? 如何评价《英雄联盟》重做后的「铁男」莫德凯撒? 沈眉庄为什么大家都叫她眉儿而不是庄儿? 有哪些很多人觉得很烂但你要吹爆的动漫? 如何评论张艺兴演唱会无团票,而且票价挺贵的? 有哪些「随手一做好吃又饱肚 」的美食? 如何评价《这就是街舞》第二季第二期中易烊千玺 2v2battle 的表现 ? 红米 K20 搭载全面屏和 7 代屏下指纹,说明小米产品线布局发生了哪些变化? 如何看待吴昕将钟汉良送的礼物转卖了? 经常便秘日常吃什么? 怎么评价《龙珠超:布罗利》这部作品? 黄磊在节目里叫子枫女儿,多多看了会怎么想? 有什么明日方舟玩家看了能会心一笑的笑话或图片?
转载于:https://www.cnblogs.com/kumufengchun/p/10938128.html
python抓取知乎热榜相关推荐
- python爬取知乎热榜了解时事
python爬取知乎热榜了解时事 需求 知乎热榜是我们了解时事的一个重要途径,但是如果我们每天没有那么多时间来刷知乎,但是还是想要了解知乎热榜的话,我们该怎么办呢?在这里,我想到了通过知乎爬虫的手 ...
- 【知乎热榜爬虫】python爬取知乎热榜问题及答案
所用库 requests xpath解析库 multiprocessing多进程 pymysql数据库操作库 实战背景 主要是爬取知乎热榜的问题及点赞数比较高的答案,通过requests请求库进行爬取 ...
- python xpath爬取新闻标题_爬取知乎热榜标题和连接 (python,requests,xpath)
用python爬取知乎的热榜,获取标题和链接. 环境和方法:ubantu16.04.python3.requests.xpath 1.用浏览器打开知乎,并登录 2.获取cookie和User-Agen ...
- Python爬虫抓取B站热榜
Python爬虫抓取B站热榜 环境 Python 3.7.4 bs4==0.0.1 pandas==1.0.1 urllib3==1.24.2 re 实现代码 # -*- coding:utf-8 - ...
- html定位 知乎,从零开始:python实现爬取知乎热榜(随缘更新完善)
获取URL 获取HTML 解析HTML 获取URL 首先要知道URL是什么: URL: Uniform Resource Identifier,即统一资源标识符. URL: Uniform Resou ...
- python 抓取知乎
刚入门python,本着就是干的原则,从小项目开始. 今天在抓取网页的时候遇到了问题. import urllib.requesturl="http://www.fafu.edu.cn&qu ...
- python爬虫实战(2)——爬取知乎热榜内容
文章目录 一.前期准备 1.获取headers 2.查看网页源代码 二.python代码实现 1.解析网页 2.获取标签 3.完整代码 三.最终结果 一.前期准备 1.获取headers 登录知乎官网 ...
- python爬取知乎热搜_python爬取知乎
大小: 1.59M 文件类型: .zip 金币: 1 下载: 0 次 发布日期: 2021-01-30 资源简介 此项目的功能是爬取知乎用户信息以及人际拓扑关系,爬虫框架使用scrapy,数据存储使用 ...
- Python异步爬取知乎热榜
一.错误代码:摘要和详细的url获取不到 import asyncio from bs4 import BeautifulSoup import aiohttpheaders={'user-agent ...
最新文章
- AI安防崛起迅速 开疆拓土少不了专利作“盔甲”
- dedecms模板中首页实现分页的方法
- 十大迷你iPhone天气应用
- BZOJ 1084: [SCOI2005]最大子矩阵【DP】
- 【UOJ 51】最接近神的人
- 用HTTP的PUT方式发送请求
- IT人回家过年的尴尬
- C# 制作不规则窗体的两种解决方案
- php多文件上传存储到表,PHP 实现一种多文件上传的方法
- 计算机技术领域当前的主流技术及社会需求调查报告
- TensorFlow神经网络(七)卷积神经网络基础
- 【渝粤教育】电大中专Office办公软件 (5)作业 题库
- 中间件(一):订单系统整体架构
- 计算机无法播放flash,电脑中已安装Flash网页视频还是提示未安装Flash播放器怎么办...
- java 正则表达式 检测数学公式是否正确_java 正则表达式 检测数学公式是否正
- project实操——项目实例
- 信息系统项目管理-项目变更管理-十六
- 如何把多张图片快速的拼接在一起?如何拼接多张图片?
- 基于FPGA的虚拟示波器的设计
- 如何刷机:iphone8锁屏密码错误多次,手机停用,连接iTunes,磁盘已满,双重认证弊端!
热门文章
- CPT205-Computer Graphics(2)
- ssm+mysql护理质量考核系统微信小程序-计算机毕业设计源码03644
- 一个让人不得不转的故事-《通宵达旦工资只有3200 博客网架构师艰难浪迹于北京》
- linux upstart脚本,ubuntu upstart简单说明
- 《HTML5 移动Web App阅读器》随笔
- 神不知鬼不觉的信息盗取-XSS攻击技术
- Ubuntu下使用python读取doc和docx文档的内容
- 开发,测试,运维这三个行业该如何选择
- EasyExcel设置特定单个单元格(颜色)样式
- html状态码206,详解浏览器 206 状态码206 Partial Content