我正在尝试使用NLTK从句子中提取介词短语。 我有办法自动执行此操作吗(例如,为函数提供一个句子并获取其介词短语)?

这里的示例似乎要求从语法开始,然后才能获得解析树。 我可以自动获取语法并将其用于获取语法分析树吗?

显然,我可以标记一个句子,挑选介词和随后的名词,但是当介词补语是复合词时,这很复杂。

也许这篇文章会帮助stackoverflow.com/questions/6115677/

我知道答案已经被接受,但是浅层解析器将以最小的语法结构返回NLP块。 这个相当线性的结果可能更易于使用。 这是CLiPS解析器的在线演示:http://www.clips.ua.ac.be/cgi-bin/webdemo/MBSP-instant-webdemo.cgi

这是一个例子:

约翰把书交给了玛丽

[PNP]易于提取。

我针对多种类型的数据集进行了测试,这似乎在提取NP和PNP方面表现更好,尤其是对于生物医学文本而言。

您真正想要的是使用健壮的统计解析器(例如,斯坦福大学)完全解析句子,然后查找标有PP的成分:

(ROOT

(S

(NP (NNP John))

(VP (VBZ lives)

(PP (IN in)

(NP (DT a) (NN house)))

(PP (IN by)

(NP (DT the) (NN sea))))))

我不确定NLTK的解析能力以及该功能是否存在解析的准确性,但是从Python调用外部解析器然后处理输出并不是什么大问题。 使用解析器可以节省大量时间和精力(因为解析器可以处理所有事情),并且是执行此工作的唯一可靠方法。

显然,完整的解析是一个过大的杀伤力,但是它将达到最终目标。 生病了。 看起来至少有一个Python到斯坦福解析器的接口。

我不会说矫kill过正,但却是必要的并发症。 如果您尝试构建基于规则的PP识别器,最终将花费大量时间和精力来获得中等水平的结果。

python提取句子_关于python:从句子中提取介词短语相关推荐

  1. python提取一行_如何从numpy数组中提取任意一行值?

    @Sven的答案很简单,但对于大型数组来说效率相当低.如果处理的是一个相对较小的数组,则不会注意到差异,如果要从较大的数组(例如50 MB)获取配置文件,则可能需要尝试其他几种方法.不过,您需要在&q ...

  2. python 时间序列预测_使用Python进行动手时间序列预测

    python 时间序列预测 Time series analysis is the endeavor of extracting meaningful summary and statistical ...

  3. python 概率分布模型_使用python的概率模型进行公司估值

    python 概率分布模型 Note from Towards Data Science's editors: While we allow independent authors to publis ...

  4. 游戏cg提取工具_记蒼の彼方のフォーリズム の CG提取

    封面:梦回2019ICPC银川区域赛热身赛( 自从Steam版的蒼の彼方のフォーリズム发行之后,就一直惦记着游戏的CG资源,毕竟宣传的时候可是着重强调了2K(2560*1440)的分辨率.但是经过搜索 ...

  5. python语音特征提取_使用Python从视频中提取语音

    python语音特征提取 In this post, I will show you how to extract speeches from a video recording file. Afte ...

  6. python win10 桌面_实战 | Python批量提取Win10锁屏壁纸

    使用Win10的朋友会发现,每次开机锁屏界面都会有不一样的漂亮图片,这些图片通常选自优秀的摄影作品,十分精美.但是由于系统会自动更换这些图片,所以就算再好看的图片,也许下次开机之后就被替换掉了. 借助 ...

  7. python提取文件指定列_如何从csv文件中提取特定列并使用python绘图

    我有一个csv文件,其中包含以下几行数据:# Vertex X Y Z K_I K_II K_III J 0 2.100000e+00 2.000000e+00 -1.000000e-04 0.000 ...

  8. python怎么读取pdf为文本_如何从pdf文件中提取特定文本python

    我试图摘录这段文字:DLA LAND AND MARITIME ACTIVE DEVICES DIVISION PO BOX 3990 COLUMBUS OH 43218-3990 USA Name: ...

  9. python pos函数_使用python+sklearn实现特征提取

    sklearn.feature_extraction模块可用于以机器学习算法支持的格式从原始数据集(如文本和图像)中提取特征.**注意:**特征提取与特征选择有很大不同:前者是将任意数据(例如文本或图 ...

  10. python集群_使用Python集群文档

    python集群 Natural Language Processing has made huge advancements in the last years. Currently, variou ...

最新文章

  1. React-项目-引入外部的样式(14)
  2. js RegExp用法
  3. laravel5.6 数组传递到前端
  4. MySQL查询连接数
  5. Mysql备份工具xtrabackup 8 安装图解
  6. Android or iOS 运行 meteor App 屏幕一片空白 White screen的解决方法
  7. codeforces 884E Binary Matrix 并查集,滚动数组
  8. SpringCloud 基于OAth2.0 搭建认证授权中心_02
  9. 文件与用户管理linux实验,实验03 Linux用户和权限管理
  10. 又有无人车数据集开源,2019段加州通勤小视频等你撩 | 资源
  11. lombok标签_微服务之:springboot入门、Swagger、Lombok使用
  12. 叶子的离开,是因为风的追求,还是树的不挽留
  13. 码农如何写好一封邮件/1
  14. python进不去怎么办_python写文件有时候写不进去怎么办
  15. Makefile往工程文件.prj传参(或者其他文件)
  16. KB kb KB大小写
  17. git push错误(fatal: The upstream branch of your current branch does not match)解决方案
  18. wget linux
  19. Flask系列教程(一)-----------入门
  20. 数据结构c语言版字符逆转视频,C语言版数据结构2019

热门文章

  1. 大数据时代的数据挖掘是怎么做的?
  2. 美国股市由涨转跌 道指一度暴跌超过200点
  3. 蒋正寒计算机编程大赛,重庆大学第七届研究生编程大赛完美收官
  4. R中报错ERROR: configuration failed for package ‘magick’
  5. Dynamics 365 Document Management
  6. php如何给注册页面加验证码,网站注册页面如何添加验证码注册登录
  7. 手机端链接拼多多的商品主图和视频抓取方法
  8. WPS设置章节多级标题自动编号(详细实用)
  9. wps word设置级别多级目录标题
  10. cad插入块_CAD图块全攻略第三期——高级技巧动态块,快来提升逼格!