我正试图过滤tweet文本中的所有#关键字。我使用str.extractall()来提取所有带有#关键字的关键字。

这是我第一次使用pandas从tweetText中过滤关键字。输入、代码、预期输出和错误如下所示。

输入:userID,tweetText

01, home #sweet home

01, #happy #life

02, #world peace

03, #all are one

04, world tour

等等。。。总的数据文件是用GB大小的scraped tweets和其他几列组成的。但我只对两个专栏感兴趣。

代码:import re

import pandas as pd

data = pd.read_csv('Text.csv', index_col=0, header=None, names=['userID', 'tweetText'])

fout = data['tweetText'].str.extractall('#')

print fout

预期产量:userID,tweetText

01,#sweet

01,#happy

01,#life

02,#world

03,#all

错误:Traceback (most recent call last):

File "keyword_split.py", line 7, in

fout = data['tweetText'].str.extractall('#')

File "/usr/local/lib/python2.7/dist-packages/pandas/core/strings.py", line 1621, in extractall

return str_extractall(self._orig, pat, flags=flags)

File "/usr/local/lib/python2.7/dist-packages/pandas/core/strings.py", line 694, in str_extractall

raise ValueError("pattern contains no capture groups")

ValueError: pattern contains no capture groups

提前谢谢你的帮助。根据用户id筛选关键字的最简单方法应该是什么?

输出更新:

当仅使用此选项时,输出如下

s.name = "tweetText"

data_1 = data[~data['tweetText'].isnull()]

本例中的输出是空的[],用户id仍在列表中,对于那些具有关键字的用户,有一个关键字数组而不是列表形式。

当仅使用此选项时,输出我们所需的内容,但使用NANs.name = "tweetText"

data_2 = data_1.drop('tweetText', axis=1).join(s)

这里的输出是正确的格式,但是那些没有关键字的输出还没有考虑并且没有

如果有可能的话,我们可以忽略这些用户ID,完全不显示在输出中。在接下来的阶段中,我试图计算关键字的频率,其中NAN或空的[]也将被计算在内,并且该频率可能会损害将来的分类。

python extractall函数_Pandas从str.extractall('#')中给出错误相关推荐

  1. python pop函数里有数字_python中pop()函数如何使用

    pop() 函数用于移除列表中的一个元素(默认最后一个元素),并且返回该元素的值. 语法:list.pop(obj=list[-1]) //默认为 index=-1,删除最后一个列表值. //obj ...

  2. python调函数为什么没反应_python中如何调用函数

    函数的定义及其应用 所谓函数,就是把具有独立功能的代码块组织成为一个小模块,在需要的时候调用 函数的使用包含两个步骤 1.定义函数–封装独立的功能 2.调用函数–享受封装的成果 函数的作用:在开发时, ...

  3. python画三维立体图-如何在论文中画出漂亮的插图?

    ----2020.08.07增---- 看到评论区有人说"没代码没教程所以没帮助"-- 好吧,我寻思链接.参考资料都在回答中给出来了呀(可能不够明显?) 于是,重新整理.注释了一下 ...

  4. python 已知一个字符,在一个list中找出近似值或相似值, 模糊匹配

    已知一个元素,在一个list中找出相似的元素 使用场景: 已知一个其它来源的字符串, 它有可能是不完全与我数据库中相应的字符串匹配的,因此,我需要将其转为适合我数据库中的字符串 使用场景太绕了, 直接 ...

  5. python让函数抛出异常,是否有任何对象可以使str()函数在python中抛出错误或异常?...

    我有一个函数,要求输入是一个字符串. 我知道我可以断言或检查输入类型,但我想尽可能地处理它. 我有以下代码来处理它.但我想知道是否有任何情况,这一行可以抛出我需要处理的异常. def foo(any_ ...

  6. python resample函数_Pandas中resample方法详解

    Pandas中的resample,重新采样,是对原样本重新处理的一个方法,是一个对常规时间序列数据重新采样和频率转换的便捷的方法. 方法的格式是: DataFrame.resample(rule, h ...

  7. python isin函数_pandas中isin()函数及其逆函数使用

    pandas中isin()函数及其逆函数使用 发布时间:2018-05-27 21:11, 浏览次数:2021 , 标签: pandas isin 我使用这个函数就是用来清洗数据,删选过滤掉DataF ...

  8. python 魔法函数是什么意思_Python 中的魔法函数

    魔法函数是Python中的特性,学习好魔法函数将有助于我们写出优秀的pythonic(优雅的.地道的.整洁的)代码,同时因为Python语言的特性,我们在进行框架设计的时候除了设计模式等高级技能,魔法 ...

  9. python repr函数_python的str和repr函数

    先来看一段代码 class Foo(): """docstring for Foo""" def __init__(self, name): ...

最新文章

  1. 布尔定理及证明(完整版)
  2. IOS tableView删除数据
  3. JavaScript七种非常经典的创建对象方式
  4. DevExpress学习之DevExpress.XtraGrid.Columns.GridColumn
  5. Linux基础知识(一)
  6. EasyUI combobox
  7. 从十四五规划看 物联网(NB-IoT、Cat.1、5G)将何去何从?
  8. mysql 5.5 5.6 备份库_mysql5.5备份数据库里面除系统库外的所有数据库
  9. linux vi 中s 替换方法
  10. 【FFMEPG】windows下编译ffmpeg2.5——使用VS2013,ARMLINUX,ANDORID编译ffmpeg
  11. Nebula3资源子系统
  12. π型滤波频率计算_π型电感滤波电路计算
  13. 加州大学洛杉机分校计算机科学,加州大学洛杉矶分校计算机科学与工程世界排名2017年最新排名第6(ARWU世界排名)...
  14. html5+交友app,国内5款高质量陌生人社交软件,你玩过几个
  15. number of items to replace is not a multiple of replacement length
  16. Proxy(代理) ARP作用及原理
  17. JAVA队列( Queue ) 详解
  18. ListView抖动的解决办法
  19. Intel的东进与ARM的西征(4)--理想的星空,苹果处理器之野望
  20. 听说胖里靠卖梳子给和尚 发!财!了!?

热门文章

  1. Java 必会的 9 大技能,我请部门大神给你讲讲
  2. 有趣的开源 AI 换脸工具:faceswap
  3. C#机房重构-总结(三)
  4. 软工文档”注意注意“事项
  5. RecursionError: maximum recursion depth exceeded
  6. some of the strides of a given numpy array are negative
  7. python OrderedDict 详解
  8. socket传输结构体,c++,发送OK,recv返回字节大小正确但接受数据为空
  9. Make sure the device specification refers to a valid device
  10. MATLAB中floor、round、ceil、fix区别