很久没写技术型的日志了。再不续笔,思维就停滞了,这里以观察者为题写一些关于思维的东西。我不喜欢把大段大段的代码当做日志,本科忽悠导师的论文的写法自然无趣。
最近自己弄的一个小的代码,关于语义分析的。
与计算机图形处理的领域一样,计算机所能认识的无非就是两个人,一个叫“0” ,另一个叫“1”。无论是ascii编码的一字节字符,还是两字节编码的utf-8编码系统,计算机从来不会给予某些字特殊的待遇。
现在直奔需求:
计算机怎么判断某两句话是否含义相似。 我们以“近代历史上,中国的国父是谁?”和“请问,谁是中国近代史的国父”为例。计算机怎么判断这两句话事实上是同一句话(当然,don't try to find grammer errors)。
我们抛开计算机的迷雾不谈,先说说人类是怎么分析这两句话是否是相同的含义的。
首先,我们给这两句话分别断句,抽取出这两句话的词。第一句话的一种可能的抽取结果:“近代、历史、中国、国父、谁”。当然,这只是一种可能的抽取结果。换做别人肯能会有其他比较有趣的结果。同样第二句话的一种可能的抽取结果“请问、谁、中国、近代、历史、国父”。第二句话的抽取也有不同的方式,但是,第一句和第二句需要保持同样的抽取算法。
好,接下来用计算机化的术语来描述这个问题的解决方式:
我们将认为这两句话的抽取结果,也就是两句话的词存入数组中。得到数组
A:“近代、历史、中国、国父、谁”。
B: “请问、谁、中国、近代、历史、国父”。
剩下的就是模式与分类的一个简单分类方式 。这里我抛开置信区间与置信度这些太过概念性的术语不谈了。分别遍历数组A的成员,检查其在数组B中是否存在。如果数组A的成员全部存在于数组B,那么,A是B的一个子集--即A语义近似B。反过来,如果数组B的成员全部存在于数组A,那么,B是A的一个子集--即B语义近似A。
另外,在说说置信度的问题。
语义分析是很难用图像处理中的模式来描述的。我个人觉得不应该引入计算机图形处理中的置信度 的概念。举一个简单的例子来说:
“他很高” 与“他很不高”采用上面的处理流程就会出现“他、高”,“他、不、高”,如果说用统计学中的置信度来衡量这两句话的语义是否相近,很可能会给出“这两句话的语义近似度高达60%”之类的结果。
如果对词的抽取不懂的,请参考搜索引擎相关文章。 

转载于:https://www.cnblogs.com/songtzu/archive/2012/11/04/2754331.html

观察者模式之:数据分析的实例相关推荐

  1. python数据分析可视化实例_Python数据分析及可视化实例之基于Kmean分析RFM进行用户关怀...

    系列文章总目录:Python数据分析及可视化实例目录 数据集下载 Python数据分析及可视化实例之全国各城市房价分析(含数据采集) Python数据分析及可视化实例之帝都房价预测 Python数据分 ...

  2. python数据分析可视化实例-Python数据分析与可视化从入门到精通

    (1)没有高深理论,每章都以实例为主,读者参考书中源码运行,就能得到与书中一样的结果.(2)专注于Python数据分析与可视化操作中实际用到的技术.相比大而全的书籍资料,本书能让读者尽快上手,开始项目 ...

  3. 观察者模式之气象监测站实例演示(一)

    最近在阅读HEAD+FIRST+设计者模式时,认为其中的事例非常有趣,于是希望在看的过程中,跟随书直接将代码演示,增进理解.同时将一些内容放到自己的博客中,方便日后查阅,或者其他小伙伴们看. 观察者模 ...

  4. 电商数据分析指标体系实例。

    Arno Chan | 作者 人人都是产品经理 | 来源 爱数据原统计网 | 转自 http://www.woshipm.com/data-analysis/4153888.html 大家好,我是小z ...

  5. python大数据分析入门实例-Python大数据分析与机器学习商业案例实战

    大数据分析与机器学习技术已成为各行各业实现数字化变革的关键驱动力.本书以功能强大且较易上手的Python语言为编程环境,全面讲解了大数据分析与机器学习技术的商业应用实战.全书共16章,讲解了线性回归模 ...

  6. python数据分析简单实例-利用Python进行数据分析――基础示例

    编辑推荐: 来源csdn ,文章通过美国官方网站的几个案例详细讲解了Python数据分析,介绍较为详细,更多内容请参阅下文. import json import numpy as np import ...

  7. 数据分析之实例二:物流行业数据分析

    import os import pandas as pd import matplotlib.pyplot as plt import numpy as np plt.rcParams['font. ...

  8. 数据分析工具实例:通过数据展示对转基因食品的思考

    转基因食品的安全性问题一直以来都是一个饱受争议的问题,自从转基因这个名词进入大众的视线后,便长期受到民众的关注,有人说好,有人说不好,具体情况是怎样,也没有相关的研究成果去证明.其实我国很早就对转基因 ...

  9. python数据分析的例子_pandas数据分析案例:利用python进行汽车数据分析可视化实例...

    最近我一在杭州做外贸生意的老表让我给他推荐一辆车,自己的宝来开了5年多,感觉不香了,这次要我给他从BBA中选一个,落地35万以内落地.我想这做生意稳重一点,35万以内差不多就是奔驰C,宝马3和奥迪A4 ...

最新文章

  1. 去掉chrome记住密码后自动填充表单的黄色背景
  2. JQuery中的样式切换
  3. 什么是软件危机?产生原因?如何解决?
  4. YbtOJ#662-交通运输【线段树合并,树状数组】
  5. coding ssh_exchange_identification: Connection closed by remote host
  6. 转录组+微生物组联合解密困扰50年的丛枝菌根共生“自我调节”中枢分子网络机制...
  7. 计算机外围设备哪两类,《微机原理与接口技术》课后习题答案
  8. go结构体初始化_golang中结构体的初始化方法(new方法)
  9. 英伟达显卡不同架构_英伟达GeForce RTX 3070 Ti与RTX 3070显卡规格曝光
  10. 从Hadoop看普通算法在一个系统中的应用
  11. 危险的SharedPreference操作
  12. Unity 数字跳动抽奖,且每次数字不重复!
  13. linux 误删文件夹恢复工具,恢复Linux误删除文件系列之foremost工具
  14. linux wine qq2017,20170506-linux下最新WineQQ8.9.1安装教程
  15. 路由器命令级别和用户级别
  16. python聊天室_python聊天室
  17. Classic Shell给你的Win8/7装上更好用的开始菜单
  18. 简单图形验证码的识别
  19. Kanzi学习之路(4):Kanzi的属性系统
  20. Python之qq自动发消息

热门文章

  1. Java SPI 是什么?
  2. (已更新)运势运程小程序v1.2.0 功能模块+微信小程序+前端+后端+新增每日星座卡片
  3. 计算机应用 winxp,计算机应用能力考试中文 Windows XP 操作系统练习题(1)
  4. 基于javaweb的在线奶茶店系统(java+jsp+javascript+servlet+mysql)
  5. 基于XMind的E-R图制作
  6. 统信有往 ActiveX迁移利器
  7. Python Plugin loader tut for ida pro 7.0
  8. Oralce快照恢复数据
  9. android 文本框输入 默认文字居中,Android系统。 TextView中的文本垂直居中
  10. Pr制作综艺节目效果的特效