python爬取知乎标题_python爬知乎热榜
爬项目:知乎热榜标题、热度、简介。
第一步浏览网页源代码 确认在哪html 还是js里
标题和热度在html
标签内容在js 需要用到正则表达式:
第二先爬html 里的内容调用模块—再请求一下url数据看看能否找到
#注意:爬出以下内容,加密的需要添加cookie 和user-agent
爬取xml内容, 调用BeautifulSoup模块
注意找html 属性时,代码如下:
soup =BeautifulSoup(html.text, 'lxml') # 引用ixml解析器
beautifulsoup divs = soup.select('.HotList-item') #锁定 class 的头部标签代码
for div in divs: # for循环
title = div.select('.HotList-itemTitle')[0].text #注意这个位置写.HotList-item.HotList-itemBody..HotList-itemTitle 锁定不到,原因是前面都是重合代码直接写title即可,只有表黄才能定位成功 ;select获取列表,锁定第一个[0]
Metrics = div.select('.HotList-itemMetrics')[0].text# 和上面title 一样定位。 print('标题:', title) print('热度:', Metrics)
爬标题和热度代码输入:
爬图片src和图片下载打包:import os
注意:有的图片是空,为了防止出现bug,建立防错机制:try: except: pass
标题、热度、图片结果:
第三步爬简介, 在js里,需要正则表达式 (.*?)
首先在显示源代码里找出js 里简介找到一条,复制代码和内容,然后删除文字,留下代码:
('"excerptArea":{"text":"(.*?)"}')
继续在下面写代码:引用findall
python爬取知乎标题_python爬知乎热榜相关推荐
- python爬取b站用户_python爬取b站排行榜
爬取b站排行榜并存到mysql中 目的 b站是我平时看得最多的一个网站,最近接到了一个爬虫的课设.首先要选择一个网站,并对其进行爬取,最后将该网站的数据存储并使其可视化. 网站的结构 目标网站:bil ...
- python爬取某人所有微博_Python爬取博客的所有文章并存为带目录的word文档(实例67)
看上博客上一个作者的文章,想一次性下载到一个word文件中,并且可以设置好目录,通过word的"导航窗格"快速定位单篇文章.一劳永逸,从此再也不用去博客上一篇一篇地翻阅了.整理一下 ...
- python爬取新闻存入数据库_python 爬取古诗文存入mysql数据库的方法
使用正则提取数据,请求库requests,看代码,在存入数据库时,报错ERROR 1054 (42S22): Unknown column 'title' in 'field list'.原来是我写s ...
- python爬取网页json数据_python爬取json数据库
手把手教你使用Python抓取QQ音乐数据(第一弹) [一.项目目标] 获取 QQ 音乐指定歌手单曲排行指定页数的歌曲的歌名.专辑名.播放链接. 由浅入深,层层递进,非常适合刚入门的同学练手. [二. ...
- python写一个爬虫、爬取网站漫画信息_python爬取漫画
原博文 2017-05-31 00:56 − 抓取漫画的网址是:sf互动传媒 抓取漫画的由来也是看了知乎上有人说用爬取漫画,然后自己也玩玩 首页中每个漫画的url是类似这样存储的: 相关推荐 2019 ...
- python爬取音乐并保存_python爬取QQ音乐歌单歌曲保存到本地,json解析
序:python强大的功能,可以爬取网上的某些信息,本次主要是通过爬歌单信息熟悉下python基础. 用到知识点: 1.python3.urllib.request.openurl 2.json (j ...
- python爬取微博恶评_python爬取微博评论的实例讲解
python爬虫是程序员们一定会掌握的知识,练习python爬虫时,很多人会选择爬取微博练手.python爬虫微博根据微博存在于不同媒介上,所爬取的难度有差异,无论是python新入手的小白,还是已经 ...
- python爬取微信公众号_Python爬取微信公众号(中间人代理法)
1.环境:ubuntu16.04 + redis + mysql + python3.5 + anyproxy + android + pm2 + npm + node 一台爬虫服,python3环境 ...
- python爬虫爬取音乐单曲_Python爬取qq音乐的过程实例
一.前言 qq music上的音乐还是不少的,有些时候想要下载好听的音乐,但有每次在网页下载都是烦人的登录什么的.于是,来了个qqmusic的爬虫.至少我觉得for循环爬虫,最核心的应该就是找到待爬元 ...
最新文章
- 红帽企业集群和存储管理之DRBD+Heartbeat+NFS实现详解
- TechEmpower最新一轮的性能测试出炉,ASP.NET Core依旧表现不俗
- TikTok信息流广告怎么做才有效果?我从100个营销短视频中总结了这些方法
- Flex页面跳转的五种实现方式
- CodeDom Assistant CodeDom的强大工具, 有些BUG修正了下,发到CodePlex,大家有需要的可以看看...
- qq数据泄露_如何保护企业移动端的数据安全?
- C#调用C++的dll文件方法
- vco为什么低频下起振困难_为什么协作如此困难?
- 在普通java类里获取Spring管理的bean
- ajax context this,如何使ajax里的this指向不改变
- LeetCode 344. Reverse String(反转字符串)
- QImage互转cv::Mat
- 人月神话札记:提纲挈领
- xps文件服务器端,黑苹果从入门到精通 篇七:XPS 9360完美黑果实战
- c语言程序提速,用C语言加速程序进而加速硬件速度
- PLM Agile BOM表结构笔记
- 永久性删除的文件怎么恢复,怎么还原文件
- 【pytorch】时间序列预测 —— 同时预测多个分位点
- VUE+tinymce(富文本编辑器)
- 18本生物竞赛辅导书
热门文章
- 共赴CIO时代,永洪BI如何推动企业数字化转型与创新?
- 实用场景解析:那些漂亮的可视化图表都是如何做的?
- 内外受阻,金融壹账通还能走多远?
- 全站仪数据导入电脑_三鼎762R系列全站仪的SD卡传输教程
- mysql 普通sql流程控制,【mysql的编程专题①】流程控制与其他语法
- 学校做计算机教室锐捷,锐捷云课堂:让学生爱上每一节课
- java文件出现字符串_找出三个文本文件中都出现的字符串,并输出到一个文本文件(菜鸟求救)...
- Echarts开源可视化库学习(三)主题的使用
- NX,Canary,RELRO,PIE,Linux的4种保护机制讲解
- Python必备知识点:对Json的基本使用方法