python extractall函数_Pandas从str.extractall('#')中给出错误
我正试图过滤tweet文本中的所有#关键字。我使用str.extractall()来提取所有带有#关键字的关键字。
这是我第一次使用pandas从tweetText中过滤关键字。输入、代码、预期输出和错误如下所示。
输入:userID,tweetText
01, home #sweet home
01, #happy #life
02, #world peace
03, #all are one
04, world tour
等等。。。总的数据文件是用GB大小的scraped tweets和其他几列组成的。但我只对两个专栏感兴趣。
代码:import re
import pandas as pd
data = pd.read_csv('Text.csv', index_col=0, header=None, names=['userID', 'tweetText'])
fout = data['tweetText'].str.extractall('#')
print fout
预期产量:userID,tweetText
01,#sweet
01,#happy
01,#life
02,#world
03,#all
错误:Traceback (most recent call last):
File "keyword_split.py", line 7, in
fout = data['tweetText'].str.extractall('#')
File "/usr/local/lib/python2.7/dist-packages/pandas/core/strings.py", line 1621, in extractall
return str_extractall(self._orig, pat, flags=flags)
File "/usr/local/lib/python2.7/dist-packages/pandas/core/strings.py", line 694, in str_extractall
raise ValueError("pattern contains no capture groups")
ValueError: pattern contains no capture groups
提前谢谢你的帮助。根据用户id筛选关键字的最简单方法应该是什么?
输出更新:
当仅使用此选项时,输出如下
s.name = "tweetText"
data_1 = data[~data['tweetText'].isnull()]
本例中的输出是空的[],用户id仍在列表中,对于那些具有关键字的用户,有一个关键字数组而不是列表形式。
当仅使用此选项时,输出我们所需的内容,但使用NANs.name = "tweetText"
data_2 = data_1.drop('tweetText', axis=1).join(s)
这里的输出是正确的格式,但是那些没有关键字的输出还没有考虑并且没有
如果有可能的话,我们可以忽略这些用户ID,完全不显示在输出中。在接下来的阶段中,我试图计算关键字的频率,其中NAN或空的[]也将被计算在内,并且该频率可能会损害将来的分类。
python extractall函数_Pandas从str.extractall('#')中给出错误相关推荐
- python pop函数里有数字_python中pop()函数如何使用
pop() 函数用于移除列表中的一个元素(默认最后一个元素),并且返回该元素的值. 语法:list.pop(obj=list[-1]) //默认为 index=-1,删除最后一个列表值. //obj ...
- python调函数为什么没反应_python中如何调用函数
函数的定义及其应用 所谓函数,就是把具有独立功能的代码块组织成为一个小模块,在需要的时候调用 函数的使用包含两个步骤 1.定义函数–封装独立的功能 2.调用函数–享受封装的成果 函数的作用:在开发时, ...
- python画三维立体图-如何在论文中画出漂亮的插图?
----2020.08.07增---- 看到评论区有人说"没代码没教程所以没帮助"-- 好吧,我寻思链接.参考资料都在回答中给出来了呀(可能不够明显?) 于是,重新整理.注释了一下 ...
- python 已知一个字符,在一个list中找出近似值或相似值, 模糊匹配
已知一个元素,在一个list中找出相似的元素 使用场景: 已知一个其它来源的字符串, 它有可能是不完全与我数据库中相应的字符串匹配的,因此,我需要将其转为适合我数据库中的字符串 使用场景太绕了, 直接 ...
- python让函数抛出异常,是否有任何对象可以使str()函数在python中抛出错误或异常?...
我有一个函数,要求输入是一个字符串. 我知道我可以断言或检查输入类型,但我想尽可能地处理它. 我有以下代码来处理它.但我想知道是否有任何情况,这一行可以抛出我需要处理的异常. def foo(any_ ...
- python resample函数_Pandas中resample方法详解
Pandas中的resample,重新采样,是对原样本重新处理的一个方法,是一个对常规时间序列数据重新采样和频率转换的便捷的方法. 方法的格式是: DataFrame.resample(rule, h ...
- python isin函数_pandas中isin()函数及其逆函数使用
pandas中isin()函数及其逆函数使用 发布时间:2018-05-27 21:11, 浏览次数:2021 , 标签: pandas isin 我使用这个函数就是用来清洗数据,删选过滤掉DataF ...
- python 魔法函数是什么意思_Python 中的魔法函数
魔法函数是Python中的特性,学习好魔法函数将有助于我们写出优秀的pythonic(优雅的.地道的.整洁的)代码,同时因为Python语言的特性,我们在进行框架设计的时候除了设计模式等高级技能,魔法 ...
- python repr函数_python的str和repr函数
先来看一段代码 class Foo(): """docstring for Foo""" def __init__(self, name): ...
最新文章
- 布尔定理及证明(完整版)
- IOS tableView删除数据
- JavaScript七种非常经典的创建对象方式
- DevExpress学习之DevExpress.XtraGrid.Columns.GridColumn
- Linux基础知识(一)
- EasyUI combobox
- 从十四五规划看 物联网(NB-IoT、Cat.1、5G)将何去何从?
- mysql 5.5 5.6 备份库_mysql5.5备份数据库里面除系统库外的所有数据库
- linux vi 中s 替换方法
- 【FFMEPG】windows下编译ffmpeg2.5——使用VS2013,ARMLINUX,ANDORID编译ffmpeg
- Nebula3资源子系统
- π型滤波频率计算_π型电感滤波电路计算
- 加州大学洛杉机分校计算机科学,加州大学洛杉矶分校计算机科学与工程世界排名2017年最新排名第6(ARWU世界排名)...
- html5+交友app,国内5款高质量陌生人社交软件,你玩过几个
- number of items to replace is not a multiple of replacement length
- Proxy(代理) ARP作用及原理
- JAVA队列( Queue ) 详解
- ListView抖动的解决办法
- Intel的东进与ARM的西征(4)--理想的星空,苹果处理器之野望
- 听说胖里靠卖梳子给和尚 发!财!了!?
热门文章
- Java 必会的 9 大技能,我请部门大神给你讲讲
- 有趣的开源 AI 换脸工具:faceswap
- C#机房重构-总结(三)
- 软工文档”注意注意“事项
- RecursionError: maximum recursion depth exceeded
- some of the strides of a given numpy array are negative
- python OrderedDict 详解
- socket传输结构体,c++,发送OK,recv返回字节大小正确但接受数据为空
- Make sure the device specification refers to a valid device
- MATLAB中floor、round、ceil、fix区别