本篇文章会利用python语言中的第三方库jieba库和标准库random库来对文件中的相关元素进行操作。

实践中文片段:“今天是个好天气,大家一起去爬山。”该句子分为上下两部分,以逗号和句号隔开。第一步对该句子进行分词,并以8位为随机种子,在上下半句分别为重新排列组合的词语,并组合输出10种不重复的可能。其中,上下部分部分词语不交叉,每个可能的组合单行输出,,储存到”句子组合.txt“文件中。格式如下:

今天是个好天气,大家一起去爬山。是个好天气今天,一起去爬山今天。

首先,我们导入jieba、random库,创建出所给出的文本字符串。

import jiebaimport randoms = "今天是个好天气,大家一起去爬山。"

对s进行上下半句的分割储存在相关变量之中。

k = s.find(',')s1 = jieba.lcut(s[0:k])s2 = jieba.lcut(s[k+1:-1])

设置随机数种子,并将上下半句重新组合排序并组合成10种不重复的可能。

random.seed(8)lines = [ ]while True:line = " "random.shuffle(s1) #将字符串s1中的元素任意排序random.shuffle(s2) 

对打乱后的s1和s2进行循环遍历,并将其储存在列表line中。最后将10中不重复的line列表粘贴到lines中。将其以csv文件储存。

for item in s1: line += item + "," #遍历s1,将其元素储存在line中,以逗号结尾for item in s2: line += item +"。"if line in lines: continueelse: lines.append(line)if len(lines) ==10: breakf = open("句子组合.txt

中文分词第三方库_Python计算生态jieba库和random库的综合运用之爬山篇相关推荐

  1. python 排列组合_Python计算生态jieba库和random库的综合运用之爬山篇

    本篇文章会利用python语言中的第三方库jieba库和标准库random库来对文件中的相关元素进行操作. 实践中文片段:"今天是个好天气,大家一起去爬山."该句子分为上下两部分, ...

  2. 从搜狗获取行业词库并转换成jieba可用的词库文件

    从搜狗获取行业词库并转换成jieba可用的词库文件 从搜狗获取行业词库 利用网站在线转换 利用Django建立网站 从搜狗获取行业词库 搜狗官方的词库地址 下载下来后是.scel扩展名的文件 利用网站 ...

  3. 优秀的中文分词第三方库——jieba

    jieba库的使用 -中文文本需要通过分词获得单个的词语 -jieba是第三方库,需要额外安装: -pip install jieba jieba分词的三种模式 -精确模式:把文本精确地分开,不存在冗 ...

  4. 不是python中用于开发用户界面的第三方库-Python计算生态习题(50题)

    1.Python网络爬虫方向的第三方库是 A. request B. jieba C.itchat D.time 答案:A 2.Python网络爬虫方向的第三方库是 A.numpy B.scrapy ...

  5. python语言常用的中文分词第三方库是_基于boost使用Python调用NLPIR(ICTCLAS2013)中文分词组件...

    最近需要用到中文分词,本来想省事,用python的第三方库结巴分词,但看了下API,计算文本关键词的方法没有没有返回关键字对应的权值,翻了下文档应该是不还不支持,只好继续使用中科院的那套ICTCLAS ...

  6. python计算生态的命名_Python计算生态之random库

    标准库:random库 random库是用于产生并运用随机数的标准库.random标准库主要有9个随机函数,分别是:seed(),random(),randint(),getrandbits(),ra ...

  7. python计算生态规模_Python计算生态的构建

    本专题的内容结构: 第一部分主要是:如何编写Python第三方库(包和模块) 第二部分主要是:如何编写带有c语言扩展的Python第三方库(包和模块) 第一部分的结构: unit1:深入理解Pytho ...

  8. 北大开源了 Python 中文分词工具包,准确度远超 Jieba

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 转载自量子位 "土地,快告诉俺老孙,俺的金箍棒在哪?" &qu ...

  9. 北大开源了中文分词工具包,准确度远超Jieba,提供三个预训练模型

    车栗子 发自 凹非寺 量子位 报道 | 公众号 QbitAI "土地,快告诉俺老孙,俺的金箍棒在哪?" "大圣,您的金箍,棒就棒在特别适合您的发型." 中文分词 ...

最新文章

  1. 机器学习中目标函数、损失函数、代价函数之间的区别和联系
  2. 随机洗牌算法 银行家算法
  3. 电子书下载:Programming Windows Phone 7 SE2
  4. php curl http2,用php做ios http2推送服务遇到的坑
  5. FreeChart柱状图中如何取消柱子的倒影
  6. flink 1.9.0 编译:flink-shaded-hadoop-2 找不到
  7. ERP管理软件中的“七脉神剑”
  8. SQL实战之查找所有员工的last_name和first_name以及对应部门编号dept_no
  9. 第二十一天 认识一维数组part3
  10. 转载几篇看过的几篇使用技术博文
  11. 关于UCINET软件使用计算密度的笔记
  12. 达叔走了,别只发声感叹就完了
  13. python基础-数据类型与基本操作
  14. QNX-Adaptive Partition
  15. 人工智能实验-使用遗传算法求函数最值
  16. 7.0.高等数学四-隐函数存在定理
  17. HTML基础选择器之属性选择器的基本介绍
  18. 2019年全国大学生“TI杯”电子设计竞赛综合测评电路仿真
  19. 仿新浪热门微博页面动态添加Tab标签与Fragment联动的实现
  20. 解决ios以及mac yyyy-MM-dd HH:mm:ss格式不兼容

热门文章

  1. 使用 HTML5, javascript, webrtc, websockets, Jetty 和 OpenCV 实现基于 Web 的人脸识别
  2. linux下用mail发送邮件
  3. 跨域问题,解决方案-Nginx反向代理
  4. VS2010团队开发调试器无法继续运行该进程,项目文件“”已被重命名或已不再解决方案中
  5. 【vue开发问题-解决方法】(八)利用axios拦截器实现elementUI中加载动画,控制加载区域
  6. 【报告分享】2020-2021年中国职业教育投融资发展报告.pdf(附下载链接)
  7. 刚刚!微信8.0版本重大更新!没想到这么多新功能
  8. 【报告分享】2020年国风爆品的进阶之路-详析花西子的社媒营销策略.pdf(附下载链接)...
  9. oracle缓存怎么看,Oracle从缓存里面查找真实的执行计划
  10. 西门子v90伺服说明书_西门子V90伺服驱动器的的EPOS控制模式