文章分段,文本结构化

import redata = []
for line in open('方剂学--完整版.txt',encoding='utf8'):data.append(line.strip())print(data[:20])

数据结构:

处理过程,用正则表达式:

f = open('方剂学--完整版.txt',encoding='utf8')
text = f.read()
f.close()
#构造正则串
pattern = """\n(.*?)\n【组成】(.*?)\n【功用】(.*?)\n【主治】(.*?)\n"""
text_list = re.findall(pattern=pattern,string=text)
print(text_list[:5])

用pandas转化为Dataframe结构,可视化程度高:

import pandas as pddf_drug = pd.DataFrame(text_list,columns=['name','组成','功用','主治'])
df_drug.head(3)

保存结果:

df_drug.to_excel('方剂学_完整版.xlsx',index=None)

Python 医学文本结构化,文本分段,文本正则化处理,医学文本拆分成段落相关推荐

  1. python文本结构化处理_在Python中标记非结构化文本数据

    python文本结构化处理 Labelled data has been a crucial demand for supervised machine learning leading to a n ...

  2. 文本结构化,分隔符有两种

    [问题] I have a .txt called readings, it has the following data in it: -10,3NW,15cm,4:38 5,15SW,8mm,2: ...

  3. python学习笔记-结构化

    #=========================结构化文件存储==================== # 结构数据: 先有的结构,在谈数据     # JSON文件         # JSON ...

  4. python 面板数据分析_科学网—Python中的结构化数据分析利器-Pandas简介 - 郑俊娟的博文...

    此文转载于XXXXXX处... Pandas是python的一个数据分析包,最初由AQR Capital Management于2008年4月开发,并于2009年底开源出来,目前由专注于Python数 ...

  5. 经济学中的定量分析python_(转)Python中的结构化数据分析利器-Pandas简介

    Pandas是python的一个数据分析包,最初由AQR Capital Management于2008年4月开发,并于2009年底开源出来,目前由专注于Python数据包开发的PyData开发tea ...

  6. python语言结构化语言_如何在python中处理结构化语言文件

    我有一个像这样的大型结构化语言文件:TASK SchM_Task { TYPE = AUTO; SCHEDULE = NON; PRIORITY = 160; ACTIVATION = 1; TIMI ...

  7. python 结构体数组_关于python:将结构化数组转换为常规NumPy数组

    我认为答案将非常明显,但目前看不到. 如何将记录数组转换回常规ndarray? 假设我有以下简单的结构化数组: x = np.array([(1.0, 4.0,), (2.0, -1.0)], dty ...

  8. Python match case结构化模式匹配

    Python 在 3.10 之前没有提供类似 switch case 一样的分支语句,虽然也能用 if elif else 或者字典来实现同样的逻辑.到 3.10 版本终于提供了 match case ...

  9. Python小案例(一)非结构化文本数据处理

    Python小案例(一)非结构化文本数据处理 日常业务需求中,仅凭SQL一招鲜是没法吃遍天的,这个时候就需要更为强大的Python进行支持了.这个系列主要分享一些Python小案例,都是根据笔者日常工 ...

最新文章

  1. 机器学习里如何确定K-Means算法的K值?
  2. [C#] C#访问数据库(SQL Server版本)
  3. .net core发布 正在发现数据上下文_Tableau 2020.4 正式发布,即刻探索浏览器中的 Tableau Prep Builder、空间增强等新功能...
  4. Pytorch高阶API示范——DNN二分类模型
  5. 基本类型--枚举类型和位标志
  6. 人工智障学习笔记——深度学习(2)卷积神经网络
  7. SpringMVC 控制层注解
  8. 【图像处理】直方图均衡化(附带Matlab及OpenCV3自编程实现代码)
  9. iOS8上本地通知接收不到的问题
  10. activitimq集群搭建_Spring-activiti
  11. Android Studio出现R.raw文件标红找不到错误(有多个模块的Project)
  12. cranly:你的R包管理工具
  13. fir.im分发平台安卓苹果应用下载二维码合并步骤
  14. 手工做迷宫_手工DIY好玩双人大型立体迷宫玩具
  15. xise php一句话木马,渗透利器 | 常见的WebShell管理工具
  16. 简单计算机基础知识,计算机基础知识讲义
  17. windows下使用命令行运行PHP
  18. 王川: 深度学习有多深, 学了究竟有几分?
  19. 路缘石成型机的安装使用和施工
  20. 浏览器获得电脑麦克风音频进行广播发声(非录音播放)

热门文章

  1. inspect python_python--inspect
  2. if 0 endif的使用
  3. ChatGPT Prompt工程浅谈
  4. 解决用Xshell工具通过ssh登陆linux操作系统提示找不到匹配的host key算法问题
  5. JQuery选择器 点击背景变色、光棒效果、焦点、添加元素
  6. poj3208 Apocalypse Someday (数位dp + 二分)
  7. justify-content、align-content、align-items、align-self的区别
  8. ViewBag does not exist
  9. 【设计谈】字体与排版
  10. 【外汇天眼】FCA发布最新警告:FXsmart Options未经授权!