python如何给一组数据打标签_用 python 给数据打标签,500 万条数据怎样提高效率?...
所以说你真的就把pandas 当读取数据的工具了吗..
增加了一列is_tobacco 作为你说的标记
filter_query 返回含有这些词的列表 效率有一定提升
其次你可以分割后用 multiprocessing 执行 这个加速起来不止一点半点
import pandas as pd
word = pd.read_table('test.txt', encoding = 'utf-8', names = ['query'])
def signquery(word):
tobacco = [u'烟', u'白沙', u'黄金叶', u'利群', u'南京九五', u'黄鹤楼软', u'黄鹤楼硬', u'娇子', u'钻石荷花', u'玉溪', u'七匹狼尚品', u'七匹狼软灰']
word['is_tobacco'] = word['query'].apply(lambda name:name in tobacco)
return word
def filter_query(word):
tobacco = [u'烟', u'白沙', u'黄金叶', u'利群', u'南京九五', u'黄鹤楼软', u'黄鹤楼硬', u'娇子', u'钻石荷花', u'玉溪', u'七匹狼尚品', u'七匹狼软灰']
return word[word['query'].apply(lambda name:name in tobacco)]['query'].to_dict().values()
result = filter_query(word)
print result
python如何给一组数据打标签_用 python 给数据打标签,500 万条数据怎样提高效率?...相关推荐
- 大规模数据生成 (500万条数据)
前言: 最近有一个作业需要 对 大规模数据 进行 性能测试 需要500万条数据,这是一个很大的量,我们无法通过cvs文件这种方式把数据导入数据库 我开始想到了一个解决方案,使用java程序,循环500 ...
- 记一次500万条数据查询的优化
1.公司业务系统数据平台今早发现有个接口响应很慢,经过逐一排查后,发现问题所在.该接口是做的一个单表查询,表的数据有500万条左右. 下面是表结构 下面是优化前的查询 SELECT count(IP) ...
- 8 种方案机智应对后端一次性返回 10万 条数据
大厂技术 高级前端 Node进阶点击上方 程序员成长指北,关注公众号 回复1,加入高级Node交流群 问题描述 面试官:后端一次性返回10万条数据给你,你如何处理? 我:歪嘴一笑,what the f ...
- 4分钟插入1000万条数据到mysql数据库表
准备工作 我用到的数据库为,mysql数据库8.0版本的,使用的InnoDB存储引 创建测试表 CREATE TABLE `product` (`id` int NOT NULL AUTO_INCRE ...
- 基于python的影评数据分析_[Python] 通过采集两万条数据,对《无名之辈》影评分析...
一.说明 本文主要讲述采集猫眼电影用户评论进行分析,相关爬虫采集程序可以爬取多个电影评论. 运行环境:Win10/Python3.5. 分析工具:jieba.wordcloud.pyecharts.m ...
- python读取大数据量xml_[C#]_[使用微软OpenXmlSDK (OpenXmlReader)读取xlsx表格] 读取大数据量100万条数据Excel文件解决方案...
1.OpenXmlSDK是个很好的类库,可惜只能通过C#调用,C#的童鞋又福气了. 2.服务端程序由于没法安装office,所以这个对asp.net网站来说是最理想的库了.需要.net 4.0版本以上 ...
- 我们用Python分析了B站4万条数据评论,揭秘本山大叔《念诗之王》大热原因!...
来源:恋习Python 本文约2000字,建议阅读10分钟. 我们通过Python大法通过获取B站:[春晚鬼畜]赵本山:我就是念诗之王!4万条数据评论,与大家一起看看其背后火起来的原因. 1990年本 ...
- java sql 写入万条数据_如何快速向数据库插1000万数据?4种方法对比,它简单却速度最快
目录 场景介绍 项目配置 Mybatis为什么慢? JdbcTemplate让我眼前一亮 原生JDBC就是快啊! 存储过程怎么样? 越简单越快 前言 一直有一种说法:批量插入大量数据到MySQL数据库 ...
- 5 多数据save_[Python] 通过采集两万条数据,对无名之辈影评分析
点击上方"Python技术之巅",马上关注 真爱,请置顶或星标 一.说明 本文主要讲述采集猫眼电影用户评论进行分析,相关爬虫采集程序可以爬取多个电影评论. 运行环境:Win10/P ...
最新文章
- PostgreSQL_row_number() over()_应用实例
- vs2015更改默认项目类型
- tableau实战系列(三十四)-教你如何在tableau中实现3D效果作图
- Revel Web开源框架
- Maven的个性化定制
- win10快速运行vue项目跑起来 - 方法篇
- 【java】分布式一致性hash算法
- vs2003不能调试4/8
- 字符串查找函数(BF)
- String、StringBuffer 与StringBuilder
- AI时代,运维和测试岗位如何开启第二春?
- chrome浏览器js 导出excel
- 医疗器械公司规章制度范本
- 仿饿了么微外卖系统php,【外卖小程序】仿美团外卖源码 版本号v1.7 – 亲测可用 饿了么小程序 外卖小程序...
- excel公式不自动计算_梯形丝杠设计计算公式及三针法测量Excel表
- Echarts图表设置x轴y轴均随滚轮滚动缩+放 区域缩放
- Jieba、NLTK等中英文分词工具进行分词
- SpringDataRedis使用
- 阿里巴巴的“旺信”上线
- Qt:QDialog 界面美化