我是一个新的python,正在处理一个文本分类问题。我用不同的在线资源开发了一个代码。但是这个代码并没有做词性标注。有人能帮我找出我的代码中我真正出错的那一行吗。我在代码中做词性标记,但结果中没有显示。我也试过用nltk做词性标注,但这对我也不起作用。如有任何帮助,我们将不胜感激。谢谢。在# Add the Data using pandas

Corpus = pd.read_csv(r"U:\FAHAD UL HASSAN\Python Code\projectdatacor.csv",encoding='latin-1')

# Data Pre-processing - This will help in getting better results through the classification algorithms

# Remove blank rows if any.

Corpus['description'].dropna(inplace=True)

# Change all the text to lower case. This is required as python interprets 'design' and 'DESIGN' differently

Corpus['description'] = [entry.lower() for entry in Corpus['description']]

# Punctuation Removal

Corpus['description'] = Corpus.description.str.replace('[^\w\s]', '')

# Tokenization : In this each entry in the corpus will be broken into set of words

Corpus['description']= [word_tokenize(entry) for entry in Corpus['description']]

# Remove Stop words, Non-Numeric and perfom Word Stemming/Lemmenting.

# WordNetLemmatizer requires Pos tags to understand if the word is noun or verb or adjective etc. By default it is set to Noun

STOPWORDS = set(stopwords.words('english'))

tag_map = defaultdict(lambda : wn.NOUN)

tag_map['J'] = wn.ADJ

tag_map['V'] = wn.VERB

tag_map['R'] = wn.ADV

for index,entry in enumerate(Corpus['description']):

# Declaring Empty List to store the words that follow the rules for this step

Final_words = []

# Initializing WordNetLemmatizer()

word_Lemmatized = WordNetLemmatizer()

# pos_tag function below will provide the 'tag' i.e if the word is Noun(N) or Verb(V) or something else.

for word, tag in pos_tag(entry):

# Below condition is to check for Stop words and consider only alphabets

if word not in STOPWORDS and word.isalpha():

word_Final = word_Lemmatized.lemmatize(word,tag_map[tag[0]])

Final_words.append(word_Final)

# The final processed set of words for each iteration will be stored in 'description_final'

Corpus.loc[index,'description_final'] = str(Final_words)

print(Corpus['description_final'].head())

这些就是我得到的结果。这段代码做了很多事情,比如标记化,删除了stopwords,但是它在我的结果中显示了pos标记。在

^{pr2}$

python词性标注_文本分类的词性标注相关推荐

  1. python分类流程_文本分类指南:你真的要错过 Python 吗?

    雷锋网按:本文为雷锋字幕组编译的技术博客,原标题 A Comprehensive Guide to Understand and Implement Text Classification in Py ...

  2. python文本分类_手把手教你在Python中实现文本分类.pdf

    手把手教你在Python 中实现文本分类(附代码.数 据集) 引言 文本分类是商业问题中常见的自然语言处理任务,目标是自动将文本文件分到一个 或多个已定义好的类别中.文本分类的一些例子如下: • 分析 ...

  3. python 文本分类卡方检验_文本分类学习 (四) 特征选择之卡方检验

    前言: 上一篇提到了特征提取,或者叫做降维.在文本分类中,特征提取算法的优劣对于文本分类的结果具有非常大的影响. 所以选择效果好的特征提取算法是文本分类前中很重要的步骤.于是这篇就对卡方检验做一个介绍 ...

  4. 手把手教你在Python中实现文本分类(附代码、数据集)

    作者: Shivam Bansal 翻译:申利彬 校对:丁楠雅 本文约2300字,建议阅读8分钟. 本文将详细介绍文本分类问题并用Python实现这个过程. 引言 文本分类是商业问题中常见的自然语言处 ...

  5. Python中实现文本分类(附代码、数据集)

    本文将详细介绍文本分类问题并用Python实现这个过程. 引言 文本分类是商业问题中常见的自然语言处理任务,目标是自动将文本文件分到一个或多个已定义好的类别中.文本分类的一些例子如下: 分析社交媒体中 ...

  6. 算法工程师面试问答_文本分类

    [关于 文本分类]那些你不知道的事 一. 抽象命题 1.1 分类任务有哪些类别?它们都有什么特征? 分类任务是机器学习中最常见的监督学习任务之一.以文本分类为例,情感分类,新闻分类,主题分类.问答匹配 ...

  7. 【NLP】基于python fasttext的文本分类

    背景 文本分类中的深度学习算法比较多,各种算法也由于其复杂度适应不同的场景.这次介绍的fasttext也是一个结构比较简单模型.结构虽然简单,但效果不错,还快.并且除了python有相关实现的包外,在 ...

  8. 文本特征选择 java代码_文本分类入门(十)特征选择算法之开方检验

    前文提到过,除了分类算法以外,为分类文本作处理的特征提取算法也对最终效果有巨大影响,而特征提取算法又分为特征选择和特征抽取两大类,其中特征选择算法有互信息,文档频率,信息增益,开方检验等等十数种,这次 ...

  9. 文本分类模型_文本分类模型之TextCNN

    六年的大学生涯结束了,目前在搜索推荐岗位上继续进阶,近期正好在做类目预测多标签分类的项目,因此把相关的模型记录总结一下,便于后续查阅总结. 一.理论篇: 在我们的场景中,文本数据量比较大,因此直接采用 ...

最新文章

  1. react创建组件_如何使用React创建时间轴组件
  2. Shell until循环
  3. 爬虫---Beautiful Soup 通过添加不同的IP请求
  4. 在windows上编译apr等相关动态库
  5. log4j日志 linux配置,Log4j 日志详细用法
  6. PyTorch:保存/加载训练好的模型测试
  7. java类与对象(属性,方法)的使用
  8. your ps needs to be repaired_同一张人像照片,25 个国家的PS后!!!
  9. QGIS数据分析入门——Qgis下载及界面介绍(一)
  10. 禁用U盘,不影响其他设备的使用
  11. 1.6 判断一个字符串是否由重复子字符串组成
  12. Xcode8去除控制台多余打印
  13. python函数求导 不使用模块_Python sympy 模块常用功能(二)
  14. Vue3+file-saver+xlsx 实现 excel 导出
  15. python简易版爬虫
  16. 关于source insight、添加.s和.S文件,显示全部路径、加入项目后闪屏幕
  17. 在进行IBEACON定位时所应考虑到的误差与建议
  18. c语言程序设计第五版课后习题答案谭浩强第八章课后题
  19. BaseMultiItemQuickAdapter 条目position获取
  20. 航芯技术分享 | 一文读懂什么是量子密码

热门文章

  1. 【golang】Go语言学习-select用法
  2. COM与.NET调用DCOM组件
  3. php sql 时间 函数,PHP模拟SQL Server的两个日期处理函数
  4. rfc8222045
  5. Zynq器件的时钟系统
  6. 免费的容器架构可视化工具 | 阿里云应用高可用服务 AHAS 发布重大新特性
  7. 动态规划和摩尔投票法
  8. 利用My97DatePicker实现年份多选
  9. 65.shell特殊符号与和cut,sort,wc,uniq,tee,tr,split命令
  10. 生态聚伙伴 方案联价值 华为首次发布企业业务解决方案伙伴计划