前言

《后浪》看的人热血沸腾。B站版本视频的底部,评论最多的一段话之一便是鲁迅先生这句。

“愿中国青年都摆脱冷气,只是向上走,不必听自暴自弃者流的话。能做事的做事,能发声的发声。有一分热,发一分光,就令萤火一般,也可以在黑暗里发一点光,不必等候炬火。”

本文通过“好句子迷”网站,获取了鲁迅先生的大部分经典语录,并保存到了本地excel文件,这些发人深省的句子真的该好好读一读。

用到的模块

import requests
from lxml import etree
import pandas as pd
import time

获取数据:

通过“好句子迷”网站,获取网页。

利用request模块,通过URL链接,获取html网页,下一步进行网页分析。

其中,URL只有最后一部分发生改变(1-10 :代表第1页--第10页的全部内容)

# 1、获取数据
headers = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) " \"AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.129 Safari/537.36",}for i in range(0, 9):url = "http://www.shuoshuodaitupian.com/writer/128_" + str(i + 1)  # 1-10页result = requests.get(url, headers=headers).content.decode()

解析数据:

通过Xpath语句解析,分别获取句子的内容、来源和评分等,如图所示。

把获取的每一组数据,放在一个字典里,再把字典追加到一个列表中。

代码部分:

# 2、解析数据
html = etree.HTML(result)
div_list = html.xpath('//div[@class="item statistic_item"]')
div_list = div_list[1:-1]for div in div_list:# 遍历每一条信息item = {}# ./ 注意从当前节点,向下获取item['content'] = div.xpath('./a/text()')[0]item['source'] = div.xpath('./div[@class="author_zuopin"]/text()')[0]item['score'] = div.xpath('.//a[@class="infobox zan like "]/span/text()')[0]item_list.append(item)print("正在爬取第{}页".format(i + 1))
time.sleep(0.1)

保存数据:

把上述获取的数据放到一个列表中后,可通过pandas模块把数据类型转变为DataFrame,进而可以轻松地保存到excel文件中。

为防止中文乱码,注意编码格式。

# 3、保存数据df = pd.DataFrame(item_list) # 把数据存成csv文件
df.to_csv('鲁迅经典语录.csv', encoding='utf_8_sig') # 保证不乱码

按照评分进行排序之后的结果,如下图。

如果你处于想学Python或者正在学习Python,Python的教程不少了吧,但是是最新的吗?说不定你学了可能是两年前人家就学过的内容,在这小编分享一波2020最新的Python教程。获取方式,私信小编 “ 资料 ”,即可免费获取哦!

有一分热,发一分光,爬取鲁迅先生《经典语录》相关推荐

  1. 有一分热,发一分光,用Python 爬取鲁迅先生《经典语录》

    大家好,我是天作. 正值五四青年节,<后浪>看的人热血沸腾.B站版本视频的底部,评论最多的一段话之一便是鲁迅先生这句. "愿中国青年都摆脱冷气,只是向上走,不必听自暴自弃者流的话 ...

  2. python爬取网易云音乐飙升榜音乐_python爬取网易云音乐热歌榜 python爬取网易云音乐热歌榜实例代码...

    想了解python爬取网易云音乐热歌榜实例代码的相关内容吗,FXL在本文为您仔细讲解python爬取网易云音乐热歌榜的相关知识和一些Code实例,欢迎阅读和指正,我们先划重点:python,网易热歌榜 ...

  3. 知乎爬虫-以天津大学热搜为例爬取恶评信息

    一觉醒来,我天上了热搜,天津大学咋说都是我的母校,咋能让人这么诋毁,不说了,一早上撸起袖子就是干! 一开始想遍历Page,试着拉了一下,是Ajax异步(PS:异步渲染,不是翻页的那种),好吧! 直接抓 ...

  4. Python爬虫以及数据可视化分析之某站热搜排行榜信息爬取分析

    目录 前言 一,确定目标 二,发送请求 三, 解析数据 四, 保存数据 pyecharts进行可视化 "某站"数据排名前10视频类型 "某站"标题标签可视化 & ...

  5. 爬取知乎“凡尔赛语录”话题下的所有回答,我知道点开看你的很帅气,但还是没我帅

    凡尔赛文学火了.这种特殊的网络文体,常出现在朋友圈或微博,以波澜不惊的口吻,假装不经意地炫富.秀恩爱. 普通的炫耀,无非在社交网络发发跑车照片,或不经意露出名牌包包 logo,但凡尔赛文学还不这么直接 ...

  6. Python爬取微博热搜数据之炫酷可视化

    可视化展示 看完记得点个赞哟 微博炫酷可视化音乐组合版来了! 项目介绍 背景 现阶段,微博.抖音.快手.哗哩哗哩.微信公众号已经成为不少年轻人必备的"生活神器".在21世纪的今天, ...

  7. python入门爬虫之爬取百度首页的热搜榜

    博主的公众号:Java4y <<<<<<<<< 一个努力提高工作效率(增加摸鱼时间)的小白博主 >>>>>>& ...

  8. python热词关系图_Python 爬取 热词并进行分类数据分析-[拓扑数据]

    日期:2020.01.29 博客期:137 星期三 [本博客的代码如若要使用,请在下方评论区留言,之后再用(就是跟我说一声)] 所有相关跳转: a.[简单准备] c.[拓扑数据](本期博客) d.[数 ...

  9. Python3爬取企查查网站的企业年表并存入MySQL

    Python3爬取企查查网站的企业年表并存入MySQL 本篇博客的主要内容:爬取企查查网站的企业年报数据,存到mysql中,为了方便记录,分成两个模块来写: 第一个模块是爬取数据+解析数据,并将数据存 ...

最新文章

  1. Docker学习笔记_删除某个镜像
  2. 中国工商银行已使用OceanBase!
  3. kettle连接mysql教程_kettle 连接 mysql8
  4. 小学奥数 7647 余数相同问题 python
  5. 2017.7.30 玩具装箱 思考记录
  6. grub引导U盘(集成常用工具/深山红叶PE工具箱V30/完美者U盘维护系统V8.1)
  7. 凸优化第四章凸优化问题 4.7 向量优化
  8. 一个游戏策划案(仅供参考)
  9. 无线攻击 --Fern WiFi Cracker(图形化无线密码破解工具 )
  10. [转载vchome] 2005年经典事件
  11. 即时通讯(WebSocket、Socket IO)
  12. webworker应用场景_JavaScript 工作原理之七-Web Workers 分类及 5 个使用场景
  13. 多场景项目实战 (总结有点多今天)
  14. 分享编程技术的微信公众号二维码
  15. python实现windows ie代理切换
  16. 抖音跳转到微信引流的方法,抖音跳转微信的功能解析
  17. C语言编写两个函数,分别实现两个整数的最小公倍数和最大公约数
  18. 创业团队 磨合 团队稳定 团队成员
  19. android 混淆不混淆第三方jar,Android 第三方Jar包FastJson 代码混淆时的解决方法 - Android开发论坛 - 51CTO技术论坛_中国领先的IT技术社区...
  20. 塔望3W消费战略全案|唯氏:婴幼儿辅食品牌全案策划

热门文章

  1. Intellij IDEA 去除警告波浪线(Weak Warning)
  2. iabp使用流程,bpa流程开发
  3. ubuntu 强力卸载软件
  4. PHP反序列化与SESSION
  5. fadeOut和fadeIn的使用方法
  6. 微信小程序轮播图渲染(示例)
  7. mysql创建学生信息表学号_mysql创建学生信息表
  8. 关于PV操作和信号量临界值的一些理解
  9. 【智力题】13 个球一个天平,现知道只有一个和其它的重量不同,问怎样称才能用三次就找到那个球?
  10. 计算机大一学生笔记本电脑选择