python随机生成中文句子_关于python:从语法或Ngrams生成随机句子?
我正在编写一个程序,该程序应该吐出一个我自己选择的复杂性的随机句子。 举一个具体的例子,我想通过吐出语法结构的有效句子并使用我已经学习过的单词来帮助我的语言学习。 尽管我愿意接受其他想法,但我想使用python和nltk做到这一点。
似乎有两种方法:
定义一个使用我所知道的语法和词典的语法文件,然后从该列表中生成所有有效的句子,然后选择一个随机答案。
加载语料库以训练ngram,然后可以将其用于构建句子。
我在想这个吗? 一种方法优于另一种方法吗? 任何提示表示赞赏。 谢谢!
参见icml-2011.org/papers/524_icmlpaper.pdf和fit.vutbr.cz/~imikolov/rnnlm
如果我做对了,并且目的是在已经学过的词汇上测试自己,那么可以采取另一种方法:
您无需创建繁琐的NLG(自然语言生成)工作,而是可以创建一个在线搜索程序,阅读新闻摘要甚至是Wikipedia,并仅查找带有您定义的单词的句子。
无论如何,对于您想要的内容,您将必须创建所学单词的列表。然后,您可以为仅包含/几乎仅包含这些单词的句子创建搜索算法。
与人工构造的句子相比,这将具有在真实句子上测试自己的主要优势(在某些情况下听起来可能不太正确)。
这样的应用程序实际上对于学习外语有很大的帮助。如果您做得不错,我相信很多人将从中受益。
我还想对语法结构进行自我测试。在这种情况下,语言(在这种情况下为普通话)提出了一个特殊的问题,因为通常会将单词浪漫化为拼音,以使其更易于理解。爬网很难,因为真正的中文文本是用汉字写的。我也怀疑我是否可以轻松找到具有我可以说的非常简单结构的句子,尽管这可能是可能的。感谢您的提示!
正如您所说,从拼音音译开始,是不可能的-因为如此多的汉字可以对应一个带有给定重音的拼音音节。但是,搜索带有给定汉字的句子实际上比使用其他语言更容易,因为中文没有复数,也没有动词变位。如果您正在学习普通话,您将面临许多挑战,但是语法不是其中之一:)
再次感谢您的回复。普通话语法简单,这就是为什么我要制作这个程序的原因。我不应该说我想练习语法-我真正想要的是对所有存在的语法结构进行反复的口语练习,因此我正确地使用了它们。在德语中,我注意到我不使用完整的语言,而是使用经过尝试的真实短语和语法结构。我认为可以通过强迫自己说更多的句子来改善我正在学习的其他语言,例如:[主题] [Time1] [Time1] [Time2] [Place] [Verb] [Bu] [Verb] [Object]。
(空间不足),而不是依靠我自己来提出结构,这种结构通常最终会变成英语,在该结构中我不会选择动词的" yao bu yao"形式,但会说[Subject] [verb ] [Object](如果有道理)。
如果您的目的确实是帮助学习语言,则需要生成语法(即正确的)句子。如果是这样,请不要使用ngram。他们随意地把单词粘在一起,而您却变得很有趣,看起来很自然。
您原则上可以使用语法,但是它必须是一个很好的语法,而且可能很大。
您尚未考虑的另一种选择是使用模板方法。给自己弄一堆句子,确定您感兴趣的某些单词类别,并通过将例如不同的名词作为主语或宾语来生成变体。这种方法更有可能在有限的时间内为您提供可用的结果。有许多著名的bot都在遵循这一原理,并且这几乎也是语言教学书籍所要做的。
python随机生成中文句子_关于python:从语法或Ngrams生成随机句子?相关推荐
- python随机生成中文字符串_用Python生成随机UTF-8字符串
下面是一个示例函数,它可能创建一个随机的格式良好的UTF-8序列,如Unicode 5.0.0的表3-7所定义:#!/usr/bin/env python3.1 # From Table 3–7 of ...
- python画图显示中文乱码_解决Python pandas plot输出图形中显示中文乱码问题
解决方式一: import matplotlib #1. 获取matplotlibrc文件所在路径 matplotlib.matplotlib_fname() #Out[3]: u'd:\\Anaco ...
- python解析pdf中文乱码_使用Python第三方库pdfminer提取PDF内容,并解决中文编码不支持的问题...
这两天刚好完成一个提取人行简版征信报告PDF所有数据的小项目,中间踩了很多坑,尤其是对于汉字编码问题度娘也不太灵.为了方便后人,在这里记录下在这个过程中我遇到的问题以及我的解决方法. 我用的是mac系 ...
- python随机生成英文字母_在Python中生成随机字母
有没有一种方法可以在Python中生成随机字母(如random.randint,但用于字母)? random.randint的范围功能会很好,但是拥有仅输出随机字母的生成器总比没有好. 简单: > ...
- python自动生成分析报告_利用PYTHON全自动生成分析报告
日常工作当中,特别是金融行业当中,有不少人的工作是提取数据,分析数据,得到可视化图表,并加入自已的研究分析结论,最终生成分析报告,并且有不少报告是定期生成,存在不少重复手工劳动.本文通过一个简单实例, ...
- python传中文参数_解决Python传递中文参数的问题
今天有个需要需要传递中文参数给URL 但是在GBK环境下的脚本传递GBK的参数老是给我报UNICODE的解码错误.烦的很. 所以我们果断选择用urlencode来处理中文, 由于国内外网站编码不同,国 ...
- python 折线图中文乱码_彻底解决 Python画图中文乱码问题--Pyplotz组件
1 源起 自从开始学习Python,就非常喜欢用来画图.一直没有需求画要中文显示信息的图,所以没有配置Python中文的环境.由于昨天就需要画几十个形式相同,只是数据不同的图,并且需要显示中文信息.如 ...
- python自动生成word报告_利用Python实现报告自动生成
前几天,在网上看到一篇介绍利用Python组件实现MS word内容生成的文章.可能是很久没接触编码,感觉在技术领域变得有点孤陋寡闻了,看见一些实用的功能都觉的屌屌的.以前经常通过代码写Excel文件 ...
- python可不可以用中文编写_震惊!!!python可以用中文来写代码
说明: 偶尔间试了一下,python可以用中文来写代码,除了一些python内置函数,和运算符不能用中文外,其它的比如新定义的类名.函数名.变量名,甚至是函数间传的参数都可以用中文来代替.这是国人全民 ...
- python输出一首诗_用Python自动生成藏头诗
本文首发于公众号「老肥码码码」 前几天老肥给大家介绍了有意思的藏头诗,今天我们就来自己根据输入语句实现自动生成藏头藏尾诗吧. 整个诗句生成的逻辑是这样的,先根据输入语句爬取符合要求的诗句(来自百度汉语 ...
最新文章
- FFmpeg 结构体学习(八):FFMPEG中重要结构体之间的关系
- python怎么输出字符串_python出输出字符串方式:
- Android MVP模式的初识
- 10、oracle下PL/SQL编程基础
- CDH 5.13.0 集成 Phoenix
- Android中文API(122) —— AudioRecord
- 理解 Memory barrier(内存屏障)【转】
- Centos 5.2安装Cacti并集成Nagios安装文档
- 微信开发者工具登录问题,网络连接失败
- AI音箱工作原理浅析
- 关于token和refresh token
- roc曲线spss怎么做_如何用SPSS做ROC曲线分析?看这1篇就够了!
- 什么是拨号Internet连接?
- 微信安装旧版本方法(抓包必备)
- android通知栏点击关闭,Android点击通知栏 ,移除通知
- Linux网卡配置文件 参数详解
- 阿里云Elasticsearch搜索
- SQLServer As
- 从两道基础二分算法题谈check函数的写法
- 找一个有钱的男朋友是什么体验?
热门文章
- 监听pda扫描_东大集成PDA扫描开发
- apache模块载入命令_Apache动态加载模块实例讲解
- 鹬蚌相争的困局(博弈论的诡计)
- KFS邮件自动告警-数据比对-数据修复配置方法
- 后端文件流在浏览器pdf预览
- org.hibernate.AssertionFailure:collection[......] was not processed by flush()
- ROS routerOS 软路由
- 计算机丢失mfc110d.dll,msvcp110d.dll
- 网络游戏需要辅助性外挂?
- 电子学会scratch竞赛真题三级真题19年12月真题(含线上题库答题软件)