所以说你真的就把pandas 当读取数据的工具了吗..

增加了一列is_tobacco 作为你说的标记

filter_query 返回含有这些词的列表 效率有一定提升

其次你可以分割后用 multiprocessing 执行 这个加速起来不止一点半点

import pandas as pd

word = pd.read_table('test.txt', encoding = 'utf-8', names = ['query'])

def signquery(word):

tobacco = [u'烟', u'白沙', u'黄金叶', u'利群', u'南京九五', u'黄鹤楼软', u'黄鹤楼硬', u'娇子', u'钻石荷花', u'玉溪', u'七匹狼尚品', u'七匹狼软灰']

word['is_tobacco'] = word['query'].apply(lambda name:name in tobacco)

return word

def filter_query(word):

tobacco = [u'烟', u'白沙', u'黄金叶', u'利群', u'南京九五', u'黄鹤楼软', u'黄鹤楼硬', u'娇子', u'钻石荷花', u'玉溪', u'七匹狼尚品', u'七匹狼软灰']

return word[word['query'].apply(lambda name:name in tobacco)]['query'].to_dict().values()

result = filter_query(word)

print result

python如何给一组数据打标签_用 python 给数据打标签,500 万条数据怎样提高效率?...相关推荐

  1. 大规模数据生成 (500万条数据)

    前言: 最近有一个作业需要 对 大规模数据 进行 性能测试 需要500万条数据,这是一个很大的量,我们无法通过cvs文件这种方式把数据导入数据库 我开始想到了一个解决方案,使用java程序,循环500 ...

  2. 记一次500万条数据查询的优化

    1.公司业务系统数据平台今早发现有个接口响应很慢,经过逐一排查后,发现问题所在.该接口是做的一个单表查询,表的数据有500万条左右. 下面是表结构 下面是优化前的查询 SELECT count(IP) ...

  3. 8 种方案机智应对后端一次性返回 10万 条数据

    大厂技术 高级前端 Node进阶点击上方 程序员成长指北,关注公众号 回复1,加入高级Node交流群 问题描述 面试官:后端一次性返回10万条数据给你,你如何处理? 我:歪嘴一笑,what the f ...

  4. 4分钟插入1000万条数据到mysql数据库表

    准备工作 我用到的数据库为,mysql数据库8.0版本的,使用的InnoDB存储引 创建测试表 CREATE TABLE `product` (`id` int NOT NULL AUTO_INCRE ...

  5. 基于python的影评数据分析_[Python] 通过采集两万条数据,对《无名之辈》影评分析...

    一.说明 本文主要讲述采集猫眼电影用户评论进行分析,相关爬虫采集程序可以爬取多个电影评论. 运行环境:Win10/Python3.5. 分析工具:jieba.wordcloud.pyecharts.m ...

  6. python读取大数据量xml_[C#]_[使用微软OpenXmlSDK (OpenXmlReader)读取xlsx表格] 读取大数据量100万条数据Excel文件解决方案...

    1.OpenXmlSDK是个很好的类库,可惜只能通过C#调用,C#的童鞋又福气了. 2.服务端程序由于没法安装office,所以这个对asp.net网站来说是最理想的库了.需要.net 4.0版本以上 ...

  7. 我们用Python分析了B站4万条数据评论,揭秘本山大叔《念诗之王》大热原因!...

    来源:恋习Python 本文约2000字,建议阅读10分钟. 我们通过Python大法通过获取B站:[春晚鬼畜]赵本山:我就是念诗之王!4万条数据评论,与大家一起看看其背后火起来的原因. 1990年本 ...

  8. java sql 写入万条数据_如何快速向数据库插1000万数据?4种方法对比,它简单却速度最快

    目录 场景介绍 项目配置 Mybatis为什么慢? JdbcTemplate让我眼前一亮 原生JDBC就是快啊! 存储过程怎么样? 越简单越快 前言 一直有一种说法:批量插入大量数据到MySQL数据库 ...

  9. 5 多数据save_[Python] 通过采集两万条数据,对无名之辈影评分析

    点击上方"Python技术之巅",马上关注 真爱,请置顶或星标 一.说明 本文主要讲述采集猫眼电影用户评论进行分析,相关爬虫采集程序可以爬取多个电影评论. 运行环境:Win10/P ...

最新文章

  1. PostgreSQL_row_number() over()_应用实例
  2. vs2015更改默认项目类型
  3. tableau实战系列(三十四)-教你如何在tableau中实现3D效果作图
  4. Revel Web开源框架
  5. Maven的个性化定制
  6. win10快速运行vue项目跑起来 - 方法篇
  7. 【java】分布式一致性hash算法
  8. vs2003不能调试4/8
  9. 字符串查找函数(BF)
  10. String、StringBuffer 与StringBuilder
  11. AI时代,运维和测试岗位如何开启第二春?
  12. chrome浏览器js 导出excel
  13. 医疗器械公司规章制度范本
  14. 仿饿了么微外卖系统php,【外卖小程序】仿美团外卖源码 版本号v1.7 – 亲测可用 饿了么小程序 外卖小程序...
  15. excel公式不自动计算_梯形丝杠设计计算公式及三针法测量Excel表
  16. Echarts图表设置x轴y轴均随滚轮滚动缩+放 区域缩放
  17. Jieba、NLTK等中英文分词工具进行分词
  18. SpringDataRedis使用
  19. 阿里巴巴的“旺信”上线
  20. Qt:QDialog 界面美化

热门文章

  1. kafka 分组消费topic_Kafka消费组(consumer group)(转)
  2. 英语 - take的短语
  3. 渗透测试懒人工具P2note
  4. DBC转换工具,现已支持CANFD
  5. 如何免费把vcf文件转换成excel格式
  6. 咻商教育分析欧洲新税法实施后,对跨境电商有哪些影响?
  7. android 仿qq个性标签,【原创】QQ个性标签实现
  8. NVIDIA显卡如何设置多显卡方案
  9. 高一计算机会考英语作文,高中会考英语作文万能句子精选
  10. oracle 索引介绍、作用、使用