有一分热,发一分光,爬取鲁迅先生《经典语录》
前言
《后浪》看的人热血沸腾。B站版本视频的底部,评论最多的一段话之一便是鲁迅先生这句。
“愿中国青年都摆脱冷气,只是向上走,不必听自暴自弃者流的话。能做事的做事,能发声的发声。有一分热,发一分光,就令萤火一般,也可以在黑暗里发一点光,不必等候炬火。”
本文通过“好句子迷”网站,获取了鲁迅先生的大部分经典语录,并保存到了本地excel文件,这些发人深省的句子真的该好好读一读。
用到的模块:
import requests
from lxml import etree
import pandas as pd
import time
获取数据:
通过“好句子迷”网站,获取网页。
利用request模块,通过URL链接,获取html网页,下一步进行网页分析。
其中,URL只有最后一部分发生改变(1-10 :代表第1页--第10页的全部内容)
# 1、获取数据
headers = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) " \"AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.129 Safari/537.36",}for i in range(0, 9):url = "http://www.shuoshuodaitupian.com/writer/128_" + str(i + 1) # 1-10页result = requests.get(url, headers=headers).content.decode()
解析数据:
通过Xpath语句解析,分别获取句子的内容、来源和评分等,如图所示。
把获取的每一组数据,放在一个字典里,再把字典追加到一个列表中。
代码部分:
# 2、解析数据
html = etree.HTML(result)
div_list = html.xpath('//div[@class="item statistic_item"]')
div_list = div_list[1:-1]for div in div_list:# 遍历每一条信息item = {}# ./ 注意从当前节点,向下获取item['content'] = div.xpath('./a/text()')[0]item['source'] = div.xpath('./div[@class="author_zuopin"]/text()')[0]item['score'] = div.xpath('.//a[@class="infobox zan like "]/span/text()')[0]item_list.append(item)print("正在爬取第{}页".format(i + 1))
time.sleep(0.1)
保存数据:
把上述获取的数据放到一个列表中后,可通过pandas模块把数据类型转变为DataFrame,进而可以轻松地保存到excel文件中。
为防止中文乱码,注意编码格式。
# 3、保存数据df = pd.DataFrame(item_list) # 把数据存成csv文件
df.to_csv('鲁迅经典语录.csv', encoding='utf_8_sig') # 保证不乱码
按照评分进行排序之后的结果,如下图。
如果你处于想学Python或者正在学习Python,Python的教程不少了吧,但是是最新的吗?说不定你学了可能是两年前人家就学过的内容,在这小编分享一波2020最新的Python教程。获取方式,私信小编 “ 资料 ”,即可免费获取哦!
有一分热,发一分光,爬取鲁迅先生《经典语录》相关推荐
- 有一分热,发一分光,用Python 爬取鲁迅先生《经典语录》
大家好,我是天作. 正值五四青年节,<后浪>看的人热血沸腾.B站版本视频的底部,评论最多的一段话之一便是鲁迅先生这句. "愿中国青年都摆脱冷气,只是向上走,不必听自暴自弃者流的话 ...
- python爬取网易云音乐飙升榜音乐_python爬取网易云音乐热歌榜 python爬取网易云音乐热歌榜实例代码...
想了解python爬取网易云音乐热歌榜实例代码的相关内容吗,FXL在本文为您仔细讲解python爬取网易云音乐热歌榜的相关知识和一些Code实例,欢迎阅读和指正,我们先划重点:python,网易热歌榜 ...
- 知乎爬虫-以天津大学热搜为例爬取恶评信息
一觉醒来,我天上了热搜,天津大学咋说都是我的母校,咋能让人这么诋毁,不说了,一早上撸起袖子就是干! 一开始想遍历Page,试着拉了一下,是Ajax异步(PS:异步渲染,不是翻页的那种),好吧! 直接抓 ...
- Python爬虫以及数据可视化分析之某站热搜排行榜信息爬取分析
目录 前言 一,确定目标 二,发送请求 三, 解析数据 四, 保存数据 pyecharts进行可视化 "某站"数据排名前10视频类型 "某站"标题标签可视化 & ...
- 爬取知乎“凡尔赛语录”话题下的所有回答,我知道点开看你的很帅气,但还是没我帅
凡尔赛文学火了.这种特殊的网络文体,常出现在朋友圈或微博,以波澜不惊的口吻,假装不经意地炫富.秀恩爱. 普通的炫耀,无非在社交网络发发跑车照片,或不经意露出名牌包包 logo,但凡尔赛文学还不这么直接 ...
- Python爬取微博热搜数据之炫酷可视化
可视化展示 看完记得点个赞哟 微博炫酷可视化音乐组合版来了! 项目介绍 背景 现阶段,微博.抖音.快手.哗哩哗哩.微信公众号已经成为不少年轻人必备的"生活神器".在21世纪的今天, ...
- python入门爬虫之爬取百度首页的热搜榜
博主的公众号:Java4y <<<<<<<<< 一个努力提高工作效率(增加摸鱼时间)的小白博主 >>>>>>& ...
- python热词关系图_Python 爬取 热词并进行分类数据分析-[拓扑数据]
日期:2020.01.29 博客期:137 星期三 [本博客的代码如若要使用,请在下方评论区留言,之后再用(就是跟我说一声)] 所有相关跳转: a.[简单准备] c.[拓扑数据](本期博客) d.[数 ...
- Python3爬取企查查网站的企业年表并存入MySQL
Python3爬取企查查网站的企业年表并存入MySQL 本篇博客的主要内容:爬取企查查网站的企业年报数据,存到mysql中,为了方便记录,分成两个模块来写: 第一个模块是爬取数据+解析数据,并将数据存 ...
最新文章
- Docker学习笔记_删除某个镜像
- 中国工商银行已使用OceanBase!
- kettle连接mysql教程_kettle 连接 mysql8
- 小学奥数 7647 余数相同问题 python
- 2017.7.30 玩具装箱 思考记录
- grub引导U盘(集成常用工具/深山红叶PE工具箱V30/完美者U盘维护系统V8.1)
- 凸优化第四章凸优化问题 4.7 向量优化
- 一个游戏策划案(仅供参考)
- 无线攻击 --Fern WiFi Cracker(图形化无线密码破解工具 )
- [转载vchome] 2005年经典事件
- 即时通讯(WebSocket、Socket IO)
- webworker应用场景_JavaScript 工作原理之七-Web Workers 分类及 5 个使用场景
- 多场景项目实战 (总结有点多今天)
- 分享编程技术的微信公众号二维码
- python实现windows ie代理切换
- 抖音跳转到微信引流的方法,抖音跳转微信的功能解析
- C语言编写两个函数,分别实现两个整数的最小公倍数和最大公约数
- 创业团队 磨合 团队稳定 团队成员
- android 混淆不混淆第三方jar,Android 第三方Jar包FastJson 代码混淆时的解决方法 - Android开发论坛 - 51CTO技术论坛_中国领先的IT技术社区...
- 塔望3W消费战略全案|唯氏:婴幼儿辅食品牌全案策划