python城市提取_使用python从文本中提取城市名称
我有一个数据集,其中一个列的标题是“您的位置和时区是什么?”
这意味着我们有像丹麦,CET
地点是英国德文郡,GMT时区
澳大利亚。澳大利亚东部标准时间。+协调世界时10小时。
甚至我的位置是俄勒冈州的尤金,一年中大部分时间还是在首尔,
韩国则视学校放假而定。我的主要时区是
太平洋时区。
整个五月我将在英国伦敦(GMT+1)。整个六月我要么在挪威(GMT+2),要么在以色列
(GMT+3)有限的互联网接入。整个七月和八月
我将在英国伦敦(GMT+1)。然后从
2015年9月,我将在美国波士顿(EDT)
有没有办法从中提取出城市、国家和时区?
我正在考虑创建一个数组(从一个开源数据集),其中包含所有国家/地区名称(包括短格式)以及城市名称/时区,然后如果数据集中的任何单词与城市/国家/时区或短格式匹配,它会将其填充到同一数据集中的一个新列中并对其进行计数。
这实用吗?
====REPLT基于NLTK应答=====
运行与Alecxe相同的代码Traceback (most recent call last):
File "E:\SBTF\ntlk_test.py", line 19, in
tagged_sentences = [nltk.pos_tag(sentence) for sentence in tokenized_sentences]
File "C:\Python27\ArcGIS10.4\lib\site-packages\nltk\tag\__init__.py", line 110, in pos_tag
tagger = PerceptronTagger()
File "C:\Python27\ArcGIS10.4\lib\site-packages\nltk\tag\perceptron.py", line 141, in __init__
self.load(AP_MODEL_LOC)
File "C:\Python27\ArcGIS10.4\lib\site-packages\nltk\tag\perceptron.py", line 209, in load
self.model.weights, self.tagdict, self.classes = load(loc)
File "C:\Python27\ArcGIS10.4\lib\site-packages\nltk\data.py", line 801, in load
opened_resource = _open(resource_url)
File "C:\Python27\ArcGIS10.4\lib\site-packages\nltk\data.py", line 924, in _open
return urlopen(resource_url)
File "C:\Python27\ArcGIS10.4\lib\urllib2.py", line 154, in urlopen
return opener.open(url, data, timeout)
File "C:\Python27\ArcGIS10.4\lib\urllib2.py", line 431, in open
response = self._open(req, data)
File "C:\Python27\ArcGIS10.4\lib\urllib2.py", line 454, in _open
'unknown_open', req)
File "C:\Python27\ArcGIS10.4\lib\urllib2.py", line 409, in _call_chain
result = func(*args)
File "C:\Python27\ArcGIS10.4\lib\urllib2.py", line 1265, in unknown_open
raise URLError('unknown url type: %s' % type)
URLError:
python城市提取_使用python从文本中提取城市名称相关推荐
- excel 公式 单引号 concat_excel数据提取技巧:从混合文本中提取数字的万能公式...
编按:哈喽,大家好!有没有能把任何文本中包含的所有数字都提取出来的公式?当然是有的,今天就给大家带来提取数字的万能公式,不管数字在文本中的位置是否有规律,不管文本中数字有多少,它都能把数字提取出来.赶 ...
- python二维元组元素的提取_如何从元组列表中提取第n个元素?
我在寻找以最快的方式提取2元组列表的第二个元素时发现了这一点.不是我想要的,但是运行了与第3种方法所示相同的测试,并测试了zip方法 setup = 'elements = [(1,1) for _ ...
- mysql中xml字段提取_从Mysql XML转储中提取数据xml.dom.minidom
我用phpmyadmin将mysql数据库导出到xml,现在我想用minidom解析它,但是我无法以我需要的形式获取内容.在 摘要:我需要将变量title分配给This is the title中包含 ...
- python --cpca(从文本中提取省市区)
安装 pip install cpcawindows报错的话 c++构建工具补全下动态链接库 或 pip install cpca-fix(替代) github https://github.com/ ...
- python 时间序列预测_使用Python进行动手时间序列预测
python 时间序列预测 Time series analysis is the endeavor of extracting meaningful summary and statistical ...
- python模型预测_《Python机器学习——预测分析核心算法》——1.5 构建预测模型的流程...
本节书摘来异步社区<Python机器学习--预测分析核心算法>一书中的第1章,第1.5节,作者:[美]Michael Bowles(鲍尔斯),更多章节内容可以访问云栖社区"异步社 ...
- python 概率分布模型_使用python的概率模型进行公司估值
python 概率分布模型 Note from Towards Data Science's editors: While we allow independent authors to publis ...
- 自然语言处理(NLP)之从文本中提取时间
在我们的日常生活和工作中,从文本中提取时间是一项非常基础却重要的工作,因此,接下来将介绍如何从文本中有效地提取时间. 举个简单的例子,我们需要从下面的文本中提取时间: 6月28日,杭州市统计局权威 ...
- 提取html string,c#从html中提取文本
虽然之前也写过gensim库的word2vec的教程,但是对于文本分析的特征提取并不太理解.最近看了几篇scikit的外文教程,对机器学习中文本的特征提取有了一些了解. 一:背景相信有很多朋友在遇到应 ...
- 一种精确从文本中提取URL的思路及实现
在今年三四月份,我接受了一个需求:从文本中提取URL.这样的需求,可能算是非常小众的需求了.大概只有QQ.飞信.阿里旺旺等之类的即时通讯软件存在这样的需求.在研究这个之前,我测试了这些软件这块功能,发 ...
最新文章
- Yann LeCun、吴恩达的新年AI预测:强调“少样本学习”,AI恐慌在减少
- 【设计模式】组合模式 ( 简介 | 适用场景 | 优缺点 | 代码示例 )
- Hystrix 熔断降级
- 图分区技术基本概念【1】
- 手持终端机USB无法同步连接是什么意思?
- linux查看文件有多少行
- Map 四种获取 key 和 value 值的方法,以及对 map 中的元素排序
- java 的io流需要学吗_Java Io流怎么学习呢?
- Maven : Maven和jenkins报错 ClassNotFoundException : org.slf4j.Logger
- go语言导入git包_使用go module导入本地包的方法教程详解
- Linux 常用系统工具与初始化配置
- 放两个关于角色与权限的文章供自己参考
- 五种经典网页布局设计
- 一个基于对话框的简单MFC程序分析
- ftpclient覆盖上传文件
- 技术不牛如何才拿到国内IT巨头的Offer
- DKMS:Dynamic Kernel Module Support
- chrome 打开默认页 被篡改_Chrome谷歌浏览器主页总被篡改怎么解决?
- 第1140期AI100_机器学习日报(2017-11-01)
- modelsim10.7遇到LM_LICENSE_FILE问题,成功解决运行OK
热门文章
- SQL日期与时间戳转换unix_timestamp() 与 from_unixtime()
- oracle rman恢复表空间,Oracle RMAN 表空间的完全恢复
- go goroutine 进程 线程 协程
- java的常见数据处理和数据结构理解
- Netty之reactor模式
- 【IDE-Visual Studio】灾难性故障(异常来自 HRESULT:0x8000FFFF (E_UNEXPECTED))
- [译]获取Windows口令
- vps2routeros
- html5表格源码,HTML5表格制作源代码.doc
- NX CAM二次开发 UFUN获得/设置(刀具/几何体/方法/操作)参数