graphlab对中文的支持非常无解,怎么办?

# coding: utf-8# # graphlab对中文的支持简直无解,怎么办?求解决方法# In[34]:import sys
reload(sys)
sys.setdefaultencoding('utf8')
import graphlab
import datetime# In[35]:# Limit number of worker processes. This preserves system memory, which prevents hosted notebooks from crashing.
graphlab.set_runtime_config('GRAPHLAB_DEFAULT_NUM_PYLAMBDA_WORKERS', 4)# In[36]:

douban = graphlab.SFrame.read_json('data/douban.json')# In[37]:

douban.head()# In[38]:

len(douban)# In[41]:

weicheng = douban[douban['name'] == '围城']# In[42]:

weicheng# In[43]:

weicheng['intro']# In[44]:

weicheng['word_count'] = graphlab.text_analytics.count_words(weicheng['intro'])# In[46]:

weicheng['word_count']# In[47]:#创建一张新表,stack可以将k-v转换为2列
weicheng_word_count_table = weicheng[['word_count']].stack('word_count', new_column_name = ['word','count'])# In[48]:

weicheng_word_count_table.head()# In[49]:#排序,降序
weicheng_word_count_table.sort('count',ascending=False)# In[50]:#TF-IDF取决于所有文本
douban['word_count'] = graphlab.text_analytics.count_words(douban['intro'])
douban.head()# In[51]:#计算tf-idf
tfidf = graphlab.text_analytics.tf_idf(douban['word_count'])# Earlier versions of GraphLab Create returned an SFrame rather than a single SArray
# This notebook was created using Graphlab Create version 1.7.1
if graphlab.version <= '1.6.1':tfidf = tfidf['docs']tfidf# In[52]:

douban['tfidf'] = tfidf# In[53]:

weicheng = douban[douban['name'] == '围城']# In[54]:#创建一个围城的tfidf列并排序
weicheng[['tfidf']].stack('tfidf',new_column_name=['word','tfidf']).sort('tfidf',ascending=False)# In[55]:#创建一个临近模型
knn_model = graphlab.nearest_neighbors.create(douban,features=['tfidf'],label='name')# In[56]:

knn_model.query(weicheng)# In[ ]:

代码地址(附作业答案): https://github.com/RedheatWei/aiproject/tree/master/Machine%20Learning%20Specialization/week4

爬虫地址: https://github.com/RedheatWei/douban_book_intro

转载于:https://www.cnblogs.com/redheat/p/9300059.html

机器学习实战3--豆瓣读书简介相关推荐

  1. python_NLP实战之豆瓣读书数据聚类

    用k_means对豆瓣读书数据聚类 1.读取数据以及数据预处理 book_data = pd.read_csv('data/data.csv') #读取文件print(book_data.head() ...

  2. 【机器学习实战系列】读书笔记之DecisionTree(ID3算法)(三)

    一.使用决策树预测隐形眼镜类型 这里实现一个例子,即利用决策树预测一个患者需要佩戴的隐形眼镜类型.以下是整个预测的大体步骤: 收集数据:使用书中提供的小型数据集 准备数据:对文本中的数据进行预处理,如 ...

  3. 【社区图书馆】读书推荐:《PyTorch高级机器学习实战》

    读书推荐:<PyTorch高级机器学习实战> 作者:i阿极 作者简介:Python领域新星作者.多项比赛获奖者:博主个人首页

  4. 机器学习实战读书总结

    机器学习实战读书总结 蒟蒻退役ACMer 1403mashaonan终于读完了新买的Machine Learning in Action(机器学习实战) 立的年前读完这本书的flag没有完成(主要是1 ...

  5. Python分布式爬虫实战 - 豆瓣读书

    本实例从零到一实现豆瓣读书的所有标签的分布式爬虫编写 本实例使用到的工具: IDE:Pycharm 工具:Python,Scrapy,linux,mysql,redis 需要用到的模块:scrapy ...

  6. Python《机器学习实战》读书笔记(三)——决策树

    第三章 决策树 引言 3-1 决策树的构造 3-1-1 信息增益 3-1-2 划分数据集 3-1-3 递归构建决策树 3-2 在Python中使用Matplotlib注解绘制树形图 3-2-1 Mat ...

  7. 机器学习实战---读书笔记: 第11章 使用Apriori算法进行关联分析---2---从频繁项集中挖掘关联规则

    #!/usr/bin/env python # encoding: utf-8''' <<机器学习实战>> 读书笔记 第11章 使用Apriori算法进行关联分析---从频繁项 ...

  8. 爬取豆瓣读书-豆瓣成员常用的标签(Python爬虫实战)

    前两篇博客,我们介绍了如何对豆瓣读书历史记录进行抓取,这一篇博客是一个收尾工作. 传送门: 爬取豆瓣读书-用户信息页链接(Python爬虫实战) 爬取豆瓣读书-用户所有阅读书籍名称.日期和书籍链接(P ...

  9. python爬取豆瓣读书的书名与简介

    最近写了一个python爬取豆瓣读书的书名与简介的程序,一开始是要爬取当当书名与简介的,由于涉及动态的一些问题,运用了selenium库,也实现了但是爬取速度慢,而且不稳定,出现被目标计算机积极拒绝访 ...

最新文章

  1. 【pmcaff】萝卜网高级会员奖品发放开始啦!快去领奖哟·!
  2. UVa 11468 (AC自动机 概率DP) Substring
  3. JAVA只要掌握内部类,多继承和单继承都不是问题
  4. oracle生成助记符,如何在POA Network开发和部署智能合约
  5. Flutter实战一Flutter聊天应用(汇总)
  6. 初识Opserver,StackExchange的监控解决方案
  7. Spark Shuffle 中 JVM 内存使用及配置内幕详情
  8. win10修改命令行默认字体
  9. 耶鲁大学心态(估计是杜撰的) 送给正在奋斗的人
  10. Android自定义一个属于自己的刻度尺
  11. 计算机桌面变蓝屏,电脑进入桌面蓝屏解决方法
  12. Google Hacking使用详解
  13. 43套高质量PPT模板—创意风格主题
  14. Reference详解
  15. Linux配置(购买云服务器)
  16. python中的 pip 和 requirements.txt 是干什么的
  17. 如何申请接入微信APP支付文章
  18. 行业轮动的黄金律:日内动量与隔夜反转
  19. msp430 USB驱动
  20. matplotlib解决中文乱码问题

热门文章

  1. 利用cookie显示上次浏览的时间
  2. 图形学实验之显示一个飞机(C++实现)
  3. ZooKeeper的典型应用
  4. [转]linux系统增加swap大小方法(安装oracle可能需要)
  5. AngularJS自定义指令详解(有分页插件代码)
  6. 利用 Linux 查找重复文件
  7. 【干货】系统管理员必备,服务器监控工具汇总
  8. Linux源代码软件安装,Linux软件安装:源代码与软件安装
  9. 盘点|2021最受开发者欢迎和最具行业影响力的文章
  10. 函数计算的开发与配置