我需要在葡萄牙语字符串上执行词干.为此,我使用nltk.word_tokenize()函数对字符串进行标记,然后单独生成每个单词.之后,我重建了字符串.它工作正常,但表现不佳.我怎样才能让它更快?字符串长度约为200万字.

tokenAux=""

tokens = nltk.word_tokenize(portugueseString)

for token in tokens:

tokenAux = token

tokenAux = stemmer.stem(token)

textAux = textAux + " "+ tokenAux

print(textAux)

抱歉英文不好,谢谢!

解决方法:

string是不可变的,因此,如果字符串很长,每次更新字符串都不是好习惯. link here解释了连接字符串和显示性能分析的各种方法.而且,因为迭代只进行一次,所以最好选择生成器表达而不是列表理解.有关详细信息,您可以查看discussion here.在这种情况下,使用带有join的生成器表达式可能会有所帮助:

使用my_text作为长字符串:len(my_text) – > 444399

使用timeit进行比较:

%%timeit

tokenAux=""

textAux=""

tokens = nltk.word_tokenize(my_text)

for token in tokens:

tokenAux = token

tokenAux = stemmer.stem(token)

textAux = textAux + " "+ tokenAux

结果:

1 loop, best of 3: 6.23 s per loop

使用带有join的generator表达式:

%%timeit

' '.join(stemmer.stem(token) for token in nltk.word_tokenize(my_text))

结果:

1 loop, best of 3: 2.93 s per loop

标签:python,nlp,nltk,stemming

来源: https://codeday.me/bug/20190622/1264573.html

python字符串创建_在Python上创建完整的字符串相关推荐

  1. aws v2.2.exe_如何使用Python 3.6在AWS EC2上创建运行uWSGI,NGINX和PostgreSQLDjango服务器...

    aws v2.2.exe by Sumeet Kumar 通过Sumeet Kumar 如何使用Python 3.6在AWS EC2上创建运行uWSGI,NGINX和PostgreSQLDjango服 ...

  2. python 时间序列预测_使用Python进行动手时间序列预测

    python 时间序列预测 Time series analysis is the endeavor of extracting meaningful summary and statistical ...

  3. python 概率分布模型_使用python的概率模型进行公司估值

    python 概率分布模型 Note from Towards Data Science's editors: While we allow independent authors to publis ...

  4. 使用python预测基金_使用python先知3 1创建预测

    使用python预测基金 This tutorial was created to democratize data science for business users (i.e., minimiz ...

  5. python编辑图像_在python中创建图像编辑应用程序

    因此,事实上,创建一个具有良好用户界面的复杂应用程序需要 时间 -我只是在扩大一点THC4K的答案. pil,至少pil本身对这个没有用处:它确实有一些操作图像的功能,但是这里复杂的任务是创建和调整您 ...

  6. python 创建目录时间_在目录中创建带有日期时间名称和子文件的dir(Python)

    我目前正在使用pythonv2.7在Linux上创建一个目录,目录名为日期和时间(即27-10-2011 23:00:01).我的密码是以下:在import time import os dirfmt ...

  7. python 存储图片_使用python存储网页上的图片实例

    使用python存储网页上的图片实例 本文介绍在已知网络图片的地址下,存储图片到本地 本文例子随便选择LOFTER上一张图片,复制图片的地址,如下图所示 在Python中输入代码 import req ...

  8. python版本管理工具_使用 Python 官方工具在 windows 上管理 Python 多版本

    0. 使用官方工具 网上很多教程还在用修改Python.exe文件名的方式来进行多版本的管理,其实Python官方在3.3已经有了一个官方的工具,使用起来也很方便. 1. 下载 2.x 和 3.x(3 ...

  9. python 量化交易_基于Python的量化交易工具清单(上)

    -- Python量化工具清单 -- 以下内容来源于Wilson Freitas的Github项目"Awesome Quant".原文中包含了丰富的语言类别,但是后续介绍主要针对P ...

  10. python正则表达式提取字符串密码_用python正则表达式提取字符串

    在日常工作中经常遇见在文本中提取特定位置字符串的需求.python的正则性能好,很适合做这类字符串的提取,这里讲一下提取的技巧,正则表达式的基础知识就不说了,有兴趣的可以看re的教程. 提取一般分两种 ...

最新文章

  1. APP超越预期效果的6种方法
  2. Android中的颜色
  3. hdu1799 循环多少次?(组合递推公式的使用)
  4. CSS3--选择器、动画效果
  5. 实现简单的网页间的跳转
  6. Entity Framework简介
  7. Managing Tables
  8. 企鹅java游戏下载安装_企鹅企鹅生活安卓版游戏下载|企鹅企鹅生活手游下载v1.6.1-乐游网安卓下载...
  9. Asp.Net文件和文件夹操作大全
  10. 无法检索文件服务器,无服务器快速无法检索pdf文件(base64编码)
  11. linux Ubuntu安装ftp并将本地文件上传到云服务器
  12. vs 正则表达式转大写_liunx之通配符amp;正则表达式
  13. oracle创建目录的命令,使用create database命令手工创建Oracle数据库
  14. Kotlin入门(7)循环语句的操作
  15. cudaMallocHost(void **,size_t)”: 无法将参数 1 从“float **”转换为“void **”
  16. 个人随手日志之astah professional
  17. linux与电脑ping通配置方法
  18. 如何将图片批量转换成PDF
  19. (啤酒,红酒,白酒,料酒)豆瓣(剁椒)鲫鱼做法记录
  20. 绘制花朵Flower

热门文章

  1. Winform 进度条弹窗和任务控制
  2. 谈谈.NET Core IServiceProvider
  3. Kubernetes,多云和低代码数据科学:2020年最热门的数据管理趋势
  4. Bumblebee微服务网关之负载策略
  5. .NET Framework 4.8发布
  6. 把旧系统迁移到.Net Core 2.0 日记(1) - Startup.cs 解析
  7. .NET Core 实现定时抓取博客园首页文章信息并发送到邮箱
  8. Entity Framework Core 懒加载
  9. 入门干货之用DVG打造你的项目主页-Docfx、Vs、Github
  10. 振华重工携手微软,开启港口运营数字化转型新纪元