我正在尝试建立一个回归模型,以便根据出现的单词来预测收视率(1-5)(回归本身并不一定表现良好,更多的是关于所采用的方法).

我使用以下代码创建了一个词频矩阵:

bow = df.Review2.str.split().apply(pd.Series.value_counts)

看起来像这样:

我现在有兴趣删除在整个评论中很少出现的列(单词).此外,我只想迭代不具有NaN的Rating值的评论(行).

这是我的尝试:

# Delete row if Rating less than 1

for index, row in df.iterrows():

if (df.Rating[index] < 1):

bow.drop(bow.index[index], axis=0, inplace = True)

# Delete column if word occurs less than 50 times

sum1 = bow.sum(axis=0)

cntr = 0

for i in sum1:

if (i < 50):

bow.drop(bow.index[cntr], axis=1, inplace = True)

cntr += 1

这似乎没有用,因为它使单词只出现一次.

编辑:

这是我的稀疏 dataframe ,包含单词的出现.

Col->话;

行->句子(项目的评论)(我有1.5k项,因此有1.5k行)

hi this are just some random words I don t ... zing zingy zingzang

0 1.0 NaN 1.0 1.0 1.0 NaN NaN NaN NaN NaN ... NaN NaN NaN

1 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN

2 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN

3 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN

4 NaN NaN NaN NaN NaN NaN NaN NaN NaN 1.0 ... NaN NaN NaN

评分是我原始数据帧中的一列,其中包含[1,5]范围内的整数或NaN

python用pandas提取行列_python- pandas 不删除符合条件的行和列相关推荐

  1. python中pandas什么意思_python pandas 基础理解

    其实每一篇博客我都要用很多琐碎的时间片段来学完写完,每次一点点,用到了就学一点,学一点就记录一点,要用上好几天甚至一两个礼拜才感觉某一小类的知识结构学的差不多了. Pandas 是基于 NumPy 的 ...

  2. python pandas 日期格式_python+pandas+时间、日期以及时间序列处理方法

    先简单的了解下日期和时间数据类型及工具 python标准库包含于日期(date)和时间(time)数据的数据类型,datetime.time以及calendar模块会被经常用到. datetime以毫 ...

  3. python处理时间的标准函数库_python+pandas+时间、日期以及时间序列处理方法

    先简单的了解下日期和时间数据类型及工具 python标准库包含于日期(date)和时间(time)数据的数据类型,datetime.time以及calendar模块会被经常用到. datetime以毫 ...

  4. python中change的用法_Python Pandas dataframe.pct_change()用法及代码示例

    Python是进行数据分析的一种出色语言,主要是因为以数据为中心的python软件包具有奇妙的生态系统. Pandas是其中的一种,使导入和分析数据更加容易. Pandas dataframe.pct ...

  5. python中mean的用法_Python Pandas dataframe.mean()用法及代码示例

    Python是进行数据分析的一种出色语言,主要是因为以数据为中心的python软件包具有奇妙的生态系统. Pandas是其中的一种,使导入和分析数据更加容易. Pandas dataframe.mea ...

  6. python中loc什么意思_python pandas 中 loc iloc 用法区别

    转自:https://blog.csdn.net/qq_21840201/article/details/80725433 ### 随机生DataFrame 类型数据 import pandas as ...

  7. python导入csv报错_Python Pandas read_csv报错

    为实现文本去重(将前面采集的数据进行两两对比删除重复),写了以下代码. #-*- coding: utf-8 -*- import pandas as pd inputfile = 'e:/data/ ...

  8. python中convert函数用法_Python Pandas DataFrame.tz_convert用法及代码示例

    Pandas DataFrame是带有标签轴(行和列)的二维大小可变的,可能是异构的表格数据结构.算术运算在行和列标签上对齐.可以将其视为Series对象的dict-like容器.这是 Pandas ...

  9. python可以构建sem模型_Python Pandas Series.sem()用法及代码示例

    Pandas 系列是带有轴标签的一维ndarray.标签不必是唯一的,但必须是可哈希的类型.该对象同时支持基于整数和基于标签的索引,并提供了许多方法来执行涉及索引的操作. Pandas Series. ...

最新文章

  1. Christopher Manning​:Uber 出售自动驾驶部门是一个标志性事件​ | AI日报
  2. KVM-QEMU基本工作原理分析(二)
  3. 计算机网络 闯关,2009计算机网络考研试题过关必练.docx
  4. 【AI视野·今日Robot 机器人论文速览 第二期】Mon, 7 Jun 2021
  5. 人脸离线识别模块_人脸识别模块做到市场份额60%,这家AI公司如何用狼性在安防杀开一条血道?...
  6. Python 标准库 —— cgi/html
  7. Spring cloud--鸿鹄Cloud分布式微服务云系统—Config
  8. 【Python游戏】贪吃蛇升级版——双人贪吃蛇小游戏 | 附带源码
  9. python中pdfplumber解析pdf_Python中pdfplumber如何提取pdf中的表格数据
  10. 在ADS中进行DCR仿真
  11. linux u盘 修复工具,在Linux终端中修复U盘驱动器问题
  12. DNS区域(ZONE)相关概念
  13. efl是什么意思_efl是什么意思
  14. 华为VLAN隔离配置
  15. linux 查看文件最后几行
  16. 领英使用手册—领英linkedin发送消息和InMail使用的方法技巧
  17. 第14届军警狙击手世界杯:中国队包揽全部冠军
  18. 五、原型模式(Prototype Pattern)
  19. 根据起始时间和结束时间得到期间所有的日期集合
  20. 微信小程序wx.compressImage的坑

热门文章

  1. 使用Swashbuckle构建RESTful风格文档
  2. Serilog Tutorial
  3. IdentityServer4 SigningCredential(RSA 证书加密)
  4. 综述:编程语言的发展趋势及未来方向
  5. 再讲IQueryablelt;Tgt;,揭开表达式树的神秘面纱
  6. asp.net core 中间件详解及项目实战
  7. c++ 二维矩阵 转vector_Python线性代数学习笔记——矩阵的基本运算和基本性质,实现矩阵的基本运算...
  8. sql将html转成excel,使用SQL*PLUS,构建完美excel或html输出
  9. ArcGIS实验教程——实验二十二:空间数据符号化
  10. ArcGIS导入Sketchup模型