前景引入

最近Python很火,确实很火,好像一直都比较火,哈哈哈哈。如果你也觉得很火,那么就请看完这篇文章吧,看看Python的热度到底能不能使我这篇文章火起来。

那么作为后起之秀的编程语言——Python,它到底能够做些什么了,网上一直在“炒作”Python:一键化办公,学好Python薪资翻一番,让你的生活多一点money,让你的老板对你刮目相看,让你从此找到自信!这不是吹捧,也不是浮夸。从云计算、大数据到人工智能,Python无处不在,百度、阿里巴巴、腾讯等一系列大公司都在使用Python完成各种任务,让Python越来越接地气了,它的功能也不用我说了,它的优势和特点我也不再赘述了,毕竟本篇是一个技术文章,话不多说,开干!

如果你是科研党,请看完文章!文末有惊喜哟!

源码点击这里下载,直接可以运行

项目简介

近期收到CSDN上的小粉私信,说之前一篇文章Python爬取网站小说并可视化分析,那个网站比较的好,说想要这个网站的所有书籍,自己拿去好好地研读。出于对粉丝的关心,再加上我个人也是比较喜欢文学作品的,无聊闲暇之余,看一本书陶冶一下自己的情操也不是不可的,哈哈哈。收到请求之后,我马上就开始架构思路了,我通过观察网页结构发现了它的特点,最后我加上自己的设计思路,增加词云分析这个功能,多次测试,最终达到了一键化!!!!!!!

项目思路与功能介绍

1.用户输入该网站里面的任何一本书籍的网页链接,输入储存路径回车即可,后台及运行爬虫,之后再去运行智能分词,最后利用强大的pyecharts库,来展示词云图。


2.这么多的书籍,够你看了吧,如果你不想看,想知道这本书主要讲的是什么,出现哪些高频词,最终也会帮助你理解和了解这篇文章的主要内容。

3.本期项目依靠数据分析库和Python原生态的库,进行文本分词,智能切割,智能词云算法和智能爬虫算法,有反爬技术的书写,也有数据分析的亮点。

项目实现

1.首先你必须要安装好这几个库


不会的请看这篇文章,有详细的介绍,要是看不懂我给你安装!绝对可以安装好的~

2.实现爬虫算法

提前定义好全局变量

from pyecharts import options as opts
from pyecharts.charts import WordCloud
from pyecharts.globals import SymbolType
import jieba  # jieba用于分词,中文字典及其强大
from fake_useragent import UserAgent
import requests
from lxml import etree
import time
ll = []
lg = []
lk = []
lj = []
lp = []
li = []
d = {}  # 定义好相应的存储变量
def get_data(title,page,url,num):#title代表文件路径 page代表爬取的章节数 url为修订后网址 num为标签页数with open(r"{}.txt".format(title), "w", encoding="utf-8") as file:ua = UserAgent()  # 解决了我们平时自己设置伪装头的繁琐,此库自动为我们弹出一个可用的模拟浏览器def get_page(url):headers = {"User-Agent": ua.random}res = requests.get(url=url, headers=headers)res.encoding = 'GBK'html = res.texthtml_ = etree.HTML(html)text = html_.xpath('//div[@class="panel-body content-body content-ext"]//text()')num = len(text)for s in range(num):file.write(text[s] + '\n')for i in range(page):# time.sleep(2)file.write("第{}章".format(i + 1))#写入文本数据get_page(url+"{}.html".format(num + i))#爬虫标签页移动,数据输出爬取过程print("正在爬取第{}章!".format(i + 1))print("爬取完毕!!!!")

3.实现智能分词

我自己写了一个智能词云算法,包括各种小功能的实现,设计不易,拒绝白嫖哟,有需要的可以私信我或者自己下载!!!

4.主函数

def main():try:print("\t\t本小程序只针对:<https://www.cz2che.com/>网址有效,里面有大量的古今中外名著小说!!!\n\n")print("C:\\Users\\48125\\Desktop\\")title = input("请输入储存文本的路径及名称如桌面:(C:\\Users\\48125\\Desktop\\文本)不需要加.txt!\n")urll  = str(input("请输入您要爬取的网站(请将键盘光标移动到网址前面在回车!):"))url   = str(urll[:urll.rindex('/') + 1])num   = int(urll[urll.rindex('/') + 1:len(urll) - 5])print(url,num)page  = int(input("请输入本次您要爬取的章节数:\n"))get_data(title,page,url,num)Open(title)print("\n分词完毕!")print('''\n\n\t\t一键词云算法生成器\t0--退出词云系统\t1--生成一词组的词云图\t2--生成二词组的词云图\t3--生成三词组的词云图\t4--生成四词组的词云图\t5--生成大于1词组的词云图(研究常用)\t6--生成全部词组的词云图(包含所有类型的词组)''')num = int(input("请输入本次展示的词语数量(最好不超过100):"))data = sort()[:num]Str = input("请输入这个词云图的标题:")print("词云图已经生成完毕,请查收!")print("感谢您对本程序的使用,欢迎下次光临!!")c = (WordCloud().add("",data,  # 数据集word_size_range=[20, 100],  # 单词字体大小范围shape=SymbolType.DIAMOND)  # 词云图轮廓,有以下的轮廓选择,但是对于这个版本的好像只有在提示里面选# circl,cardioid,diamond,triangle-forward,triangle,start,pentagon.set_global_opts(title_opts=opts.TitleOpts(title="{}".format(Str)),toolbox_opts=opts.ToolboxOpts())  # 工具选项.render("{}词云制作{}词组.html".format(title, choice)))return cexcept:print("无法找到,请检查你的输入!")

项目实现

1.输入网址和保存路径,以及爬取的章节数
2.智能爬虫开启运行

3.智能算法开启


4.效果展示

桌面自动出现,点击网页HTML即可展示词云,还可以自己下载,这就是pyecharts库的特点

看起来还不错吧,我也觉得效果还可以,主要是这个一键化太让我省心了,以后还可以做知网上面的,帮助科研人员做科研方面的研究,还有各个电商网站的评论,来解决老板对商品的评估,这样的一键化可以帮助我们减少浪费的时间,当然老板也会喜欢的。

源码私信我!!!!设计着实不易!!!

项目拓展

我还自己设计另一个国家社科基金数据库的词云一键化分析

科研宝宝的最爱,有需要的可以直接私信我哟,把握好大家的研究方向才是开始最正确的选择
这个程序涉及到一个网页解码和转码的功能

里面的输入类别都可以自己设计的,所有的输入框都可以自己设置筛选条件!!!!

如果你是科研党,不要它可惜了,哈哈哈哈!!!!!!

每文一语

无法预测的未来,才会充满期待

Python爬取全网文字并词云分析(全程一键化!)相关推荐

  1. python爬取微博数据词云_用Python爬取微博数据生成词云图片

    原标题:用Python爬取微博数据生成词云图片 欢迎关注天善智能 hellobi.com,我们是专注于商业智能BI,大数据,数据分析领域的垂直社区,学习.问答.求职,一站式搞定! 对商业智能BI.大数 ...

  2. python爬取豆瓣影评生成词云的课程设计报告_Python爬取豆瓣影评,生成词云图,只要简单一步即可实现。...

    最近看了一部电影<绣春刀>,里面的剧情感觉还不错,本文爬取的是绣春刀电影的豆瓣影评,1000个用户的短评,共5W多字.用jieba分词,对词语的出现频率进行统计,再通过wordcloud生 ...

  3. python爬取豆瓣影评生成词云的课程设计报告_简单爬取《小丑》电影豆瓣短评生成词云...

    导语 在前段时间看了杰昆菲尼克斯的小丑电影,心里很好奇大部分观众看完这部电影之后对此有什么评价,然后看了看豆瓣短评之后,觉得通过python把短评中出现最多的单词提取出来,做成一张词云,看看这部电影给 ...

  4. Python 爬取京东商品评论 + 词云展示

    利用python爬虫爬取京东商品评论数据,并绘制词云展示. 原文链接:https://yetingyun.blog.csdn.net/article/details/107943979 创作不易,未经 ...

  5. Python爬取58同城广州房源+可视化分析

    感谢关注天善智能,走好数据之路↑↑↑ 欢迎关注天善智能,我们是专注于商业智能BI,人工智能AI,大数据分析与挖掘领域的垂直社区,学习,问答.求职一站式搞定! 对商业智能BI.大数据分析挖掘.机器学习, ...

  6. python怎么查看网页编码格式_怎么用python爬取网页文字?

    用Python进行爬取网页文字的代码:#!/usr/bin/python# -*- coding: UTF-8 -*-import requestsimport re# 下载一个网页url = 'ht ...

  7. 分析 book118网页 并用 python爬取 徐磊800高频词

    python爬取 book118 徐磊800高频词 百度搜索 "徐磊800" 搜索到book118 有 这就找到所有的png图片了. 然后就是计算机批量处理. 取网页内容 正则表达 ...

  8. python爬网页文字_怎么用python爬取网页文字?

    用Python进行爬取网页文字的代码:#!/usr/bin/python # -*- coding: UTF-8 -*- import requests import re # 下载一个网页 url  ...

  9. 阿凡达时隔十年重映,王者归来还是炒冷饭?Python爬取上千条评论并分析

    [CSDN 编者按]<阿凡达>十年后再次重映,果不其然话题量十足,可能这就是神级影片的召唤力吧.在怀旧的氛围中,我们得以重新审阅这部曾经的现象级.划时代的作品. 作者 | 刘早起      ...

  10. 词云分析——基于Python对天猫商品评论进行词云分析

    文章目录 0 引言 1 准备工作 2 主程序 3 分析与改进 4 可能出现的报错及解决方案 0 引言 什么是词云分析? 词云图,也叫文字云,是对文本中出现频率较高的"关键词"予以视 ...

最新文章

  1. Waymo的激光雷达计划:进展如何?
  2. leetcode 122 买卖股票的最佳时机II
  3. websocket(二):SSM+websocket的聊天室
  4. c语言的那些小秘密pdf下载,C语言的那些小秘密之函数的调用关系.pdf
  5. MySQL的JOIN原理
  6. 原来这样调优可以攻破MySQL性能瓶颈
  7. Resolving Strong Reference Cycles for Closures
  8. iis php重定向循环,iis和apache及PHP页面设置301重定向跳转方法
  9. noip退役之路--祝福
  10. va_list和vsnprintf、getopt
  11. 一套 SQL 搞定数据仓库?Flink有了新尝试
  12. 如何在函数式编程中存在时间函数?
  13. Python 基础—— operator 模块、functools
  14. std::string begin end
  15. 集成电路的设计 —— 晶体管
  16. 坐着童年纸飞机的C语言for循环!超好玩!超详细!
  17. 瞬态抑制二极管有方向吗?
  18. OpenHarmony更新编译问题及解决办法
  19. 大数据的接触,带你初步认识什么是大数据,云计算以及物联网
  20. Hi3518EV200+PS3210调试经验总结

热门文章

  1. vue print 解决打印每页都有表头
  2. 去哪儿APP 算法初探窥镜
  3. 谷仓创造区块链+电商消费新模式
  4. Linux运维(指令全)
  5. 关于如何处理MyEclipse中struts2与Hiber 3中antlr-2.7.2.jar与antlr-2.7.6包冲突的问题
  6. 基于eclipse和hiber的pojo、数据库表与mapping的相互转换(二)
  7. 如何用HTML和css实现拼图,怎样使用DIV+CSS实现拼图
  8. 广告竞价中为什么采用二价计费
  9. 公告抄袭我文章的掘金账号:[freesan44](https://juejin.cn/user/1063982986970984) 和公众号:小集
  10. 终极搞定硬盘“A disk read error occured,Press Ctrl+Alt+Del to restart”报错的彻底解决方法...