python字符串创建_在Python上创建完整的字符串
我需要在葡萄牙语字符串上执行词干.为此,我使用nltk.word_tokenize()函数对字符串进行标记,然后单独生成每个单词.之后,我重建了字符串.它工作正常,但表现不佳.我怎样才能让它更快?字符串长度约为200万字.
tokenAux=""
tokens = nltk.word_tokenize(portugueseString)
for token in tokens:
tokenAux = token
tokenAux = stemmer.stem(token)
textAux = textAux + " "+ tokenAux
print(textAux)
抱歉英文不好,谢谢!
解决方法:
string是不可变的,因此,如果字符串很长,每次更新字符串都不是好习惯. link here解释了连接字符串和显示性能分析的各种方法.而且,因为迭代只进行一次,所以最好选择生成器表达而不是列表理解.有关详细信息,您可以查看discussion here.在这种情况下,使用带有join的生成器表达式可能会有所帮助:
使用my_text作为长字符串:len(my_text) – > 444399
使用timeit进行比较:
%%timeit
tokenAux=""
textAux=""
tokens = nltk.word_tokenize(my_text)
for token in tokens:
tokenAux = token
tokenAux = stemmer.stem(token)
textAux = textAux + " "+ tokenAux
结果:
1 loop, best of 3: 6.23 s per loop
使用带有join的generator表达式:
%%timeit
' '.join(stemmer.stem(token) for token in nltk.word_tokenize(my_text))
结果:
1 loop, best of 3: 2.93 s per loop
标签:python,nlp,nltk,stemming
来源: https://codeday.me/bug/20190622/1264573.html
python字符串创建_在Python上创建完整的字符串相关推荐
- aws v2.2.exe_如何使用Python 3.6在AWS EC2上创建运行uWSGI,NGINX和PostgreSQLDjango服务器...
aws v2.2.exe by Sumeet Kumar 通过Sumeet Kumar 如何使用Python 3.6在AWS EC2上创建运行uWSGI,NGINX和PostgreSQLDjango服 ...
- python 时间序列预测_使用Python进行动手时间序列预测
python 时间序列预测 Time series analysis is the endeavor of extracting meaningful summary and statistical ...
- python 概率分布模型_使用python的概率模型进行公司估值
python 概率分布模型 Note from Towards Data Science's editors: While we allow independent authors to publis ...
- 使用python预测基金_使用python先知3 1创建预测
使用python预测基金 This tutorial was created to democratize data science for business users (i.e., minimiz ...
- python编辑图像_在python中创建图像编辑应用程序
因此,事实上,创建一个具有良好用户界面的复杂应用程序需要 时间 -我只是在扩大一点THC4K的答案. pil,至少pil本身对这个没有用处:它确实有一些操作图像的功能,但是这里复杂的任务是创建和调整您 ...
- python 创建目录时间_在目录中创建带有日期时间名称和子文件的dir(Python)
我目前正在使用pythonv2.7在Linux上创建一个目录,目录名为日期和时间(即27-10-2011 23:00:01).我的密码是以下:在import time import os dirfmt ...
- python 存储图片_使用python存储网页上的图片实例
使用python存储网页上的图片实例 本文介绍在已知网络图片的地址下,存储图片到本地 本文例子随便选择LOFTER上一张图片,复制图片的地址,如下图所示 在Python中输入代码 import req ...
- python版本管理工具_使用 Python 官方工具在 windows 上管理 Python 多版本
0. 使用官方工具 网上很多教程还在用修改Python.exe文件名的方式来进行多版本的管理,其实Python官方在3.3已经有了一个官方的工具,使用起来也很方便. 1. 下载 2.x 和 3.x(3 ...
- python 量化交易_基于Python的量化交易工具清单(上)
-- Python量化工具清单 -- 以下内容来源于Wilson Freitas的Github项目"Awesome Quant".原文中包含了丰富的语言类别,但是后续介绍主要针对P ...
- python正则表达式提取字符串密码_用python正则表达式提取字符串
在日常工作中经常遇见在文本中提取特定位置字符串的需求.python的正则性能好,很适合做这类字符串的提取,这里讲一下提取的技巧,正则表达式的基础知识就不说了,有兴趣的可以看re的教程. 提取一般分两种 ...
最新文章
- APP超越预期效果的6种方法
- Android中的颜色
- hdu1799 循环多少次?(组合递推公式的使用)
- CSS3--选择器、动画效果
- 实现简单的网页间的跳转
- Entity Framework简介
- Managing Tables
- 企鹅java游戏下载安装_企鹅企鹅生活安卓版游戏下载|企鹅企鹅生活手游下载v1.6.1-乐游网安卓下载...
- Asp.Net文件和文件夹操作大全
- 无法检索文件服务器,无服务器快速无法检索pdf文件(base64编码)
- linux Ubuntu安装ftp并将本地文件上传到云服务器
- vs 正则表达式转大写_liunx之通配符amp;正则表达式
- oracle创建目录的命令,使用create database命令手工创建Oracle数据库
- Kotlin入门(7)循环语句的操作
- cudaMallocHost(void **,size_t)”: 无法将参数 1 从“float **”转换为“void **”
- 个人随手日志之astah professional
- linux与电脑ping通配置方法
- 如何将图片批量转换成PDF
- (啤酒,红酒,白酒,料酒)豆瓣(剁椒)鲫鱼做法记录
- 绘制花朵Flower
热门文章
- Winform 进度条弹窗和任务控制
- 谈谈.NET Core IServiceProvider
- Kubernetes,多云和低代码数据科学:2020年最热门的数据管理趋势
- Bumblebee微服务网关之负载策略
- .NET Framework 4.8发布
- 把旧系统迁移到.Net Core 2.0 日记(1) - Startup.cs 解析
- .NET Core 实现定时抓取博客园首页文章信息并发送到邮箱
- Entity Framework Core 懒加载
- 入门干货之用DVG打造你的项目主页-Docfx、Vs、Github
- 振华重工携手微软,开启港口运营数字化转型新纪元