爬项目:知乎热榜标题、热度、简介。

第一步浏览网页源代码 确认在哪html 还是js里

标题和热度在html

标签内容在js 需要用到正则表达式:

第二先爬html 里的内容调用模块—再请求一下url数据看看能否找到

#注意:爬出以下内容,加密的需要添加cookie 和user-agent

爬取xml内容, 调用BeautifulSoup模块

注意找html 属性时,代码如下:

soup =BeautifulSoup(html.text, 'lxml') # 引用ixml解析器

beautifulsoup divs = soup.select('.HotList-item') #锁定 class 的头部标签代码

for div in divs: # for循环

title = div.select('.HotList-itemTitle')[0].text #注意这个位置写.HotList-item.HotList-itemBody..HotList-itemTitle 锁定不到,原因是前面都是重合代码直接写title即可,只有表黄才能定位成功 ;select获取列表,锁定第一个[0]

Metrics = div.select('.HotList-itemMetrics')[0].text# 和上面title 一样定位。 print('标题:', title) print('热度:', Metrics)

爬标题和热度代码输入:

爬图片src和图片下载打包:import os

注意:有的图片是空,为了防止出现bug,建立防错机制:try: except: pass

标题、热度、图片结果:

第三步爬简介, 在js里,需要正则表达式 (.*?)

首先在显示源代码里找出js 里简介找到一条,复制代码和内容,然后删除文字,留下代码:

('"excerptArea":{"text":"(.*?)"}')

继续在下面写代码:引用findall

python爬取知乎标题_python爬知乎热榜相关推荐

  1. python爬取b站用户_python爬取b站排行榜

    爬取b站排行榜并存到mysql中 目的 b站是我平时看得最多的一个网站,最近接到了一个爬虫的课设.首先要选择一个网站,并对其进行爬取,最后将该网站的数据存储并使其可视化. 网站的结构 目标网站:bil ...

  2. python爬取某人所有微博_Python爬取博客的所有文章并存为带目录的word文档(实例67)

    看上博客上一个作者的文章,想一次性下载到一个word文件中,并且可以设置好目录,通过word的"导航窗格"快速定位单篇文章.一劳永逸,从此再也不用去博客上一篇一篇地翻阅了.整理一下 ...

  3. python爬取新闻存入数据库_python 爬取古诗文存入mysql数据库的方法

    使用正则提取数据,请求库requests,看代码,在存入数据库时,报错ERROR 1054 (42S22): Unknown column 'title' in 'field list'.原来是我写s ...

  4. python爬取网页json数据_python爬取json数据库

    手把手教你使用Python抓取QQ音乐数据(第一弹) [一.项目目标] 获取 QQ 音乐指定歌手单曲排行指定页数的歌曲的歌名.专辑名.播放链接. 由浅入深,层层递进,非常适合刚入门的同学练手. [二. ...

  5. python写一个爬虫、爬取网站漫画信息_python爬取漫画

    原博文 2017-05-31 00:56 − 抓取漫画的网址是:sf互动传媒 抓取漫画的由来也是看了知乎上有人说用爬取漫画,然后自己也玩玩 首页中每个漫画的url是类似这样存储的: 相关推荐 2019 ...

  6. python爬取音乐并保存_python爬取QQ音乐歌单歌曲保存到本地,json解析

    序:python强大的功能,可以爬取网上的某些信息,本次主要是通过爬歌单信息熟悉下python基础. 用到知识点: 1.python3.urllib.request.openurl 2.json (j ...

  7. python爬取微博恶评_python爬取微博评论的实例讲解

    python爬虫是程序员们一定会掌握的知识,练习python爬虫时,很多人会选择爬取微博练手.python爬虫微博根据微博存在于不同媒介上,所爬取的难度有差异,无论是python新入手的小白,还是已经 ...

  8. python爬取微信公众号_Python爬取微信公众号(中间人代理法)

    1.环境:ubuntu16.04 + redis + mysql + python3.5 + anyproxy + android + pm2 + npm + node 一台爬虫服,python3环境 ...

  9. python爬虫爬取音乐单曲_Python爬取qq音乐的过程实例

    一.前言 qq music上的音乐还是不少的,有些时候想要下载好听的音乐,但有每次在网页下载都是烦人的登录什么的.于是,来了个qqmusic的爬虫.至少我觉得for循环爬虫,最核心的应该就是找到待爬元 ...

最新文章

  1. 红帽企业集群和存储管理之DRBD+Heartbeat+NFS实现详解
  2. TechEmpower最新一轮的性能测试出炉,ASP.NET Core依旧表现不俗
  3. TikTok信息流广告怎么做才有效果?我从100个营销短视频中总结了这些方法
  4. Flex页面跳转的五种实现方式
  5. CodeDom Assistant CodeDom的强大工具, 有些BUG修正了下,发到CodePlex,大家有需要的可以看看...
  6. qq数据泄露_如何保护企业移动端的数据安全?
  7. C#调用C++的dll文件方法
  8. vco为什么低频下起振困难_为什么协作如此困难?
  9. 在普通java类里获取Spring管理的bean
  10. ajax context this,如何使ajax里的this指向不改变
  11. LeetCode 344. Reverse String(反转字符串)
  12. QImage互转cv::Mat
  13. 人月神话札记:提纲挈领
  14. xps文件服务器端,黑苹果从入门到精通 篇七:XPS 9360完美黑果实战
  15. c语言程序提速,用C语言加速程序进而加速硬件速度
  16. PLM Agile BOM表结构笔记
  17. 永久性删除的文件怎么恢复,怎么还原文件
  18. 【pytorch】时间序列预测 —— 同时预测多个分位点
  19. VUE+tinymce(富文本编辑器)
  20. 18本生物竞赛辅导书

热门文章

  1. 共赴CIO时代,永洪BI如何推动企业数字化转型与创新?
  2. 实用场景解析:那些漂亮的可视化图表都是如何做的?
  3. 内外受阻,金融壹账通还能走多远?
  4. 全站仪数据导入电脑_三鼎762R系列全站仪的SD卡传输教程
  5. mysql 普通sql流程控制,【mysql的编程专题①】流程控制与其他语法
  6. 学校做计算机教室锐捷,锐捷云课堂:让学生爱上每一节课
  7. java文件出现字符串_找出三个文本文件中都出现的字符串,并输出到一个文本文件(菜鸟求救)...
  8. Echarts开源可视化库学习(三)主题的使用
  9. NX,Canary,RELRO,PIE,Linux的4种保护机制讲解
  10. Python必备知识点:对Json的基本使用方法