有一分热，发一分光，爬取鲁迅先生《经典语录》

前言

《后浪》看的人热血沸腾。B站版本视频的底部，评论最多的一段话之一便是鲁迅先生这句。

“愿中国青年都摆脱冷气，只是向上走，不必听自暴自弃者流的话。能做事的做事，能发声的发声。有一分热，发一分光，就令萤火一般，也可以在黑暗里发一点光，不必等候炬火。”

本文通过“好句子迷”网站，获取了鲁迅先生的大部分经典语录，并保存到了本地excel文件，这些发人深省的句子真的该好好读一读。

用到的模块：

import requests
from lxml import etree
import pandas as pd
import time

获取数据：

通过“好句子迷”网站，获取网页。

利用request模块，通过URL链接，获取html网页，下一步进行网页分析。

其中，URL只有最后一部分发生改变（1-10 ：代表第1页--第10页的全部内容）

# 1、获取数据
headers = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) " \"AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.129 Safari/537.36",}for i in range(0, 9):url = "http://www.shuoshuodaitupian.com/writer/128_" + str(i + 1)  # 1-10页result = requests.get(url, headers=headers).content.decode()

解析数据：

通过Xpath语句解析，分别获取句子的内容、来源和评分等，如图所示。

把获取的每一组数据，放在一个字典里，再把字典追加到一个列表中。

代码部分：

# 2、解析数据
html = etree.HTML(result)
div_list = html.xpath('//div[@class="item statistic_item"]')
div_list = div_list[1:-1]for div in div_list:# 遍历每一条信息item = {}# ./ 注意从当前节点，向下获取item['content'] = div.xpath('./a/text()')[0]item['source'] = div.xpath('./div[@class="author_zuopin"]/text()')[0]item['score'] = div.xpath('.//a[@class="infobox zan like "]/span/text()')[0]item_list.append(item)print("正在爬取第{}页".format(i + 1))
time.sleep(0.1)

保存数据：

把上述获取的数据放到一个列表中后，可通过pandas模块把数据类型转变为DataFrame，进而可以轻松地保存到excel文件中。

为防止中文乱码，注意编码格式。

# 3、保存数据df = pd.DataFrame(item_list) # 把数据存成csv文件
df.to_csv('鲁迅经典语录.csv', encoding='utf_8_sig') # 保证不乱码

按照评分进行排序之后的结果，如下图。

如果你处于想学Python或者正在学习Python，Python的教程不少了吧，但是是最新的吗？说不定你学了可能是两年前人家就学过的内容，在这小编分享一波2020最新的Python教程。获取方式，私信小编 “ 资料 ”，即可免费获取哦！

有一分热，发一分光，爬取鲁迅先生《经典语录》相关推荐

有一分热，发一分光，用Python 爬取鲁迅先生《经典语录》
大家好,我是天作. 正值五四青年节,<后浪>看的人热血沸腾.B站版本视频的底部,评论最多的一段话之一便是鲁迅先生这句. "愿中国青年都摆脱冷气,只是向上走,不必听自暴自弃者流的话 ...
python爬取网易云音乐飙升榜音乐_python爬取网易云音乐热歌榜 python爬取网易云音乐热歌榜实例代码...
想了解python爬取网易云音乐热歌榜实例代码的相关内容吗,FXL在本文为您仔细讲解python爬取网易云音乐热歌榜的相关知识和一些Code实例,欢迎阅读和指正,我们先划重点:python,网易热歌榜 ...
知乎爬虫-以天津大学热搜为例爬取恶评信息
一觉醒来,我天上了热搜,天津大学咋说都是我的母校,咋能让人这么诋毁,不说了,一早上撸起袖子就是干! 一开始想遍历Page,试着拉了一下,是Ajax异步(PS:异步渲染,不是翻页的那种),好吧! 直接抓 ...
Python爬虫以及数据可视化分析之某站热搜排行榜信息爬取分析
目录前言一,确定目标二,发送请求三, 解析数据四, 保存数据 pyecharts进行可视化 "某站"数据排名前10视频类型 "某站"标题标签可视化 & ...
爬取知乎“凡尔赛语录”话题下的所有回答，我知道点开看你的很帅气，但还是没我帅
凡尔赛文学火了.这种特殊的网络文体,常出现在朋友圈或微博,以波澜不惊的口吻,假装不经意地炫富.秀恩爱. 普通的炫耀,无非在社交网络发发跑车照片,或不经意露出名牌包包 logo,但凡尔赛文学还不这么直接 ...
Python爬取微博热搜数据之炫酷可视化
可视化展示看完记得点个赞哟微博炫酷可视化音乐组合版来了! 项目介绍背景现阶段,微博.抖音.快手.哗哩哗哩.微信公众号已经成为不少年轻人必备的"生活神器".在21世纪的今天, ...
python入门爬虫之爬取百度首页的热搜榜
博主的公众号:Java4y <<<<<<<<< 一个努力提高工作效率(增加摸鱼时间)的小白博主 >>>>>>& ...
python热词关系图_Python 爬取热词并进行分类数据分析-[拓扑数据]
日期:2020.01.29 博客期:137 星期三 [本博客的代码如若要使用,请在下方评论区留言,之后再用(就是跟我说一声)] 所有相关跳转: a.[简单准备] c.[拓扑数据](本期博客) d.[数 ...
Python3爬取企查查网站的企业年表并存入MySQL
Python3爬取企查查网站的企业年表并存入MySQL 本篇博客的主要内容:爬取企查查网站的企业年报数据,存到mysql中,为了方便记录,分成两个模块来写: 第一个模块是爬取数据+解析数据,并将数据存 ...

有一分热，发一分光，爬取鲁迅先生《经典语录》

有一分热，发一分光，爬取鲁迅先生《经典语录》相关推荐

最新文章

热门文章