【chp3】代码调试-车万翔-自然语言处理：基于预训练模型的方法

由于下载的维基百科语料库体量太大，并且都是中文，所以在pycharm中updating indexes非常非常久都无法完成编制索引，因此，下载的语料不要放在project中，而是放在chp3文件夹的外面，这样就不会进行索引了。
json错误，去掉后缀即可

# converter = opencc.OpenCC("t2s.json")
converter = opencc.OpenCC("t2s")

GBK错误

f_in = open(sys.argv[1], "r", encoding="utf-8")

# print(需要打印的数据.encode(‘GBK’,‘ignore’).decode(‘GBK’))
print(line_t2s.encode('GBK','ignore').decode('GBK'))

最后在终端中执行

python .\chp3-new\convert_t2s.py .\wiki-text\AD\wiki_07 > output_file_zyy

就可以看到output文件中是简体中文。

下载的语料库下载链接如下：
链接：https://pan.baidu.com/s/1opkdj-skr8VmjsW2UEd06A
提取码：1024
–来自百度网盘超级会员V6的分享

【chp3】代码调试-车万翔-自然语言处理：基于预训练模型的方法相关推荐

自然语言处理：基于预训练模型的方法（一）
自然语言处理:基于预训练模型的方法 1.2 自然语言处理的难点 1.3 自然语言处理任务体系 1.2 自然语言处理的难点 1.2.1 抽象性语言是由抽象符号构成的,每个符号背后都对应着现实世界或人们 ...
《自然语言处理：基于预训练模型的方法》读书笔记：第2章自然语言处理基础
目录第2章自然语言处理基础 2.1 文本的表示 2.1.1 词的独热表示 2.1.2 词的分布式表示 2.1.3 词嵌入表示 2.1.4 文本的词袋表示 2.2 自然语言处理任务 2.2.1 语言 ...
《自然语言处理：基于预训练模型的方法》第七章预训练语言模型
预训练模型并不是自然语言处理领域的"首创"技术. 在计算机视觉领域,通常会使用ImageNet进行一次预训练,让模型从海量图像中充分学习如何从图像中提取特征.然后,会根据具体的任务 ...
【自然语言处理（NLP）】基于预训练模型的机器阅读理解
[自然语言处理(NLP)]基于预训练模型的机器阅读理解作者简介:在校大学生一枚,华为云享专家,阿里云专家博主,腾云先锋(TDP)成员,云曦智划项目总负责人,全国高等学校计算机教学与产业实践资源建设专 ...
基于预训练模型 ERNIE 实现语义匹配
基于预训练模型 ERNIE 实现语义匹配本案例介绍 NLP 最基本的任务类型之一 -- 文本语义匹配,并且基于 PaddleNLP 使用百度开源的预训练模型 ERNIE1.0 为基础训练效果优异的语 ...
论文阅读：Pre-trained Models for Natural Language Processing: A Survey 综述：自然语言处理的预训练模型
Pre-trained Models for Natural Language Processing: A Survey 综述:自然语言处理的预训练模型目录 Pre-trained Models f ...
CV之NS之VGG16：基于预训练模型VGG16训练COCO的train2014数据集实现训练《神奈川冲浪里》风格配置yml文件
CV之NS之VGG16:基于预训练模型VGG16训练COCO的train2014数据集实现训练<神奈川冲浪里>风格配置yml文件目录一.训练 1.<神奈川冲浪里>风格 2. ...
基于预训练模型的军事领域命名实体识别研究
摘要 [目的]为了解决开源非结构化军事领域数据的命名实体识别问题.[方法]本文提出基于预训练模型(Bidirectional Encoder Representations from Transfor ...
【NLP】N-LTP：基于预训练模型的中文自然语言处理平台
论文名称:N-LTP: A Open-source Neural Chinese Language Technology Platform with Pretrained Models 论文作者:车万 ...
N-LTP：基于预训练模型的中文自然语言处理平台
2021-05-03 18:12:52 论文名称:N-LTP: A Open-source Neural Chinese Language Technology Platform with Pretr ...

【chp3】代码调试-车万翔-自然语言处理：基于预训练模型的方法

【chp3】代码调试-车万翔-自然语言处理：基于预训练模型的方法相关推荐

最新文章

热门文章