[Python字符串提取]

摘要:根据要求进行字符串的提取,并去重

导入分析所需的库import pandas as pd

构造数据集

as1 = pd.DataFrame({'a':[1,2,3,4],

'b':['adwdea,asdw;swa,des','swa,dwad;asdw;swa','se;dw,asd;erf,de','de']})

编写分析函数

def trans(b):

as1['c'] = b.str.split(";")

c = as1['c'].tolist()

for i in range(len(c)):

for j in range(len(c[i])):

c[i][j] = c[i][j].split(",")[0]

return c

trans(as1['b'])

as1['d'] = as1['c'].apply(lambda x:set(x)).apply(lambda x:",".join(x))

as1

转载本文请联系原作者获取授权,同时请注明本文来自李立科学网博客。

链接地址:http://blog.sciencenet.cn/blog-3262505-1137397.html

下一篇:python学习——数据批量替换

python 数据去重_科学网—python学习——根据条件提取数据,并去重 - 李立的博文...相关推荐

  1. python 面板数据分析_科学网—Python中的结构化数据分析利器-Pandas简介 - 郑俊娟的博文...

    此文转载于XXXXXX处... Pandas是python的一个数据分析包,最初由AQR Capital Management于2008年4月开发,并于2009年底开源出来,目前由专注于Python数 ...

  2. python编程口诀_科学网—Python编程技巧汇总 - 高关胤的博文

    正在学习python编程,把一些小技巧记录下来备查 ======================计算技巧========================== 正常的条件语句如下if a>b:c= ...

  3. python读取网站_科学网—python 获取网址 - 林清莹的博文

    Python获取网址的内容# coding=utf-8 import urllib url = "http://www.baidu.com" data = urllib.urlop ...

  4. python字母频率_科学网-Python统计字母频数和频率-吕波的博文

    方案一 统计字符串中的字母频数 import collections import re d = collections.defaultdict(int) S = "testTypecopy ...

  5. python离散积分_科学网—python数据处理笔记(三)通道积分图 - 钱磊的博文

    通道积分是除了p-v图外又一件分析分子云气体运动的利器.在不同的通道查看,可以看到一些速度不同寻常的气体,这些气体就是恒星形成研究中十分感兴趣的高速气体.这些高速气体对于分子云中的能量平衡以及恒星的形 ...

  6. python笔记图片_科学网—python数据处理笔记(二)p-v图 - 钱磊的博文

    python数据处理笔记(二)p-v图 已有 9903 次阅读 2012-5-24 17:46 |个人分类:知识|系统分类:科研笔记| Python, 分子云, 常用工具, p-v图 p-v图是分析分 ...

  7. python画箭头_科学网-Python matplotlib quiver—画箭头、风场、量场图-张伟的博文

    用像素点坐标画图 箭头关键的一个参数是长度,长度可以通过参数scale来设置,如果你多次使用quiver(),只要保证参数scale一致,那么箭头长度就会与风速 的值成正比,可按照下面我贴出的代码那样 ...

  8. python写一个笔记软件_科学网—python学习笔记(1)——创建应用 - 高雪峰的博文...

    创建应用的步骤打开命令行 进入manage.py的同级目录 命令行输入:python manage.py startapp blog 添加应用名到sittings.py中的Installed_apps ...

  9. python社会网络分析教授_科学网—python 社会网络分析工具之networkx - 郗强的博文...

    1.networkx 2.igraph 3.SNAP 1.networkx NetworkX是一个用Python语言开发的图论与复杂网络建模工具,内置了常用的图与复杂网络分析算法,可以方便的进行复杂网 ...

最新文章

  1. vue总结 08状态管理vuex
  2. 学界 | UC伯克利发布一个低成本家居机器人,会叠衣服、会泡咖啡
  3. Mysql(12)——inner join的用法
  4. 基于python的人脸识别技术_用Python写个简单但强大的人脸识别系统
  5. 记一次用WPScan辅助渗透WordPress站点
  6. Kubernetes 版本锁定到1.12.3
  7. 《Webservice的应用与开发》学习笔记 ·001【Web服务、XML文档】
  8. Git删除本地/本地远程/远程服务器分支
  9. ffmpeg 下载网上m3u8的视频文件
  10. 2012年考研大纲词汇方便打印版(免费分享)
  11. cmd xcopy 拷贝文件夹_cmd xcopy进行远程复制
  12. JS 时间格式化 时间戳 日期
  13. 一文了解人工智能——学科介绍、发展史、三大学派
  14. 红孩儿编辑器的模块设计16
  15. py从入门到实践 第四章
  16. http报文格式、GET与POST的区别
  17. 《点燃我温暖你》---爱心代码
  18. Java 数组(三)二维数组
  19. python bs4 安装_Python之解BS4库如何安装与使用?正确方法教你
  20. Ubuntu左手鼠标指针

热门文章

  1. 使用Apache Camel发布/订阅模式
  2. Spring MVC会话教程
  3. 根据您的命令-命令设计模式
  4. Spring –持久层–编写实体并配置Hibernate
  5. 1 TB /节点时快速,可预测且高度可用
  6. JavaFX 2.0 beta示例应用程序和思考
  7. Linux 命令之 type -- 显示指定命令的类型
  8. 深度学习基本概念笔记
  9. php /usr/lib/libjpeg.so.62,linux PHP的装配
  10. 【Android OpenGL ES 开发 (五)】纹理相关(二)