0 简述

早期的垃圾分类都是基于规则的分类器,缺点 :1)垃圾信息制造者知道规则后,可以轻松避开 ;2)是否为垃圾信息很大程度上因其所面对的读者和张贴位置的不同而不同。

1 文档和单词

将构造的分类器须利用某些特征来对不同的内容项进行分类。所谓特征,是指任何可以用来判断内容中具有或是缺失的东西。当考虑对文档分类时,内容则是文档,特征则是文档中的单词。 python中的re包来处理(正则表达式)。

2 对分类器进行训练

分类器目的:从极为不确定的状态开始,随着分类器不断了解到那些特征对于分类而言,更为重要,其确定性也在逐渐增加。

3 计算概率

对一封电子邮件在每个分类中的出现次数进行统计,将其转化为概率。

P(Word|Classification),即给定一个分类,某个单词出现的概率。

存在的问题,一个单词在不同样本中可以划分不同类。 解决方案:对单词进行加权

4 朴素分类器

朴素贝叶斯: Pr(A|B) = Pr(B|A)* Pr(A) / Pr(B)

在垃圾信息过滤中,避免将普通邮件当成垃圾邮件要比截获每一封垃圾邮件更为重要,为了解决这个问题,为每个分类定义一个最小阈值。

5 费舍尔方法

函数需求三个变量:

1)属于某分类的概率 clf = Pr(feature|category)

2)属于所有分类的概率 freqsum = Pr(feature|category)之和

3)cporb = clf / freqsum

费舍尔计算方法所有特征概率相乘,然后取自然对数,再将所得结果乘以-2,若概率彼此独立且随机分布,这一结果将满足对数卡方分布。

集体智慧编程_6文档过滤相关推荐

  1. 《集体智慧编程》读书笔记2

    最近重读<集体智慧编程>,这本当年出版的介绍推荐系统的书,在当时看来很引领潮流,放眼现在已经成了各互联网公司必备的技术. 这次边阅读边尝试将书中的一些Python语言例子用C#来实现,利于 ...

  2. 《集体智慧编程》读书笔记10

    最近重读<集体智慧编程>,这本当年出版的介绍推荐系统的书,在当时看来很引领潮流,放眼现在已经成了各互联网公司必备的技术. 这次边阅读边尝试将书中的一些Python语言例子用C#来实现,利于 ...

  3. 《集体智慧编程》数学公式

    这篇博客的目的主要是为了记录这些公式,取自原书附录B. 1.欧几里得距离(Euclidean Distance) 用途:计算距离,衡量相似度 公式: 代码实现: def euclidean(p, q) ...

  4. 《集体智慧编程》——第一章导读

    为什么80%的码农都做不了架构师?>>>    什么是集体智慧 其含义是指:为了长早新的想法,而将一群人的行为.偏好或思想组合在一起. 完成这项工作的一种最为基础的方法,便是使用调查 ...

  5. 淘宝资深java技术专家整理分享java异步编程实战文档

    前言 本文由淘宝资深java技术专家爆肝整理分享的java异步编程实战文档,针对常见异步编程场景,从编程语言.开发框架等角度深入讲解异步编程的原理和方法,每个技术点都附有案例代码! 通常Java开发人 ...

  6. 《集体智慧编程》读书笔记4

    最近重读<集体智慧编程>,这本当年出版的介绍推荐系统的书,在当时看来很引领潮流,放眼现在已经成了各互联网公司必备的技术. 这次边阅读边尝试将书中的一些Python语言例子用C#来实现,利于 ...

  7. 《集体智慧编程》笔记(1 / 12):集体智慧导言

    文章目录 什么是集体智慧 什么是机器学习 机器学习的局限性 真实生活中的例子 学习型算法的其他用途 小结 Netflix, Google都适用了先进算法,将来自不同人群的数据加以组合,进而得出新的结论 ...

  8. 微软编程规范(文档)

    项目编程规范 第一章 概述. 5 术语定义. 5 Pascal 大小写. 5 Camel 大小写. 5 文件命名组织. 5 1.3.1文件命名. 5 1.3.2文件注释. 5 第二章   代码外观. ...

  9. 工具技巧和读文档 | 读函数式编程接口文档 | 匿名内部类 | lambda表达式 |IDEA

    Function接口,函数式接口 按入参返回值分类,大概分为4种类型,再加上多个入参就又多了Bi开头的两种. 有Ctrl+P的时候不懂参数列表该写啥,就先Ctrl+ALT看下入参类型的相关实现类! 一 ...

  10. 【集体智慧编程】第二章、提供推荐

    一.前言 本章即将告诉大家,如何根据群体偏好来为人们提供推荐.有许多针对于此的应用,如:在线购物中的商品推荐.热门网站的推荐,以及帮助人们寻找音乐和影片的应用.本章将告诉你如何构筑一个系统,用以寻找具 ...

最新文章

  1. Repeater使用 AspNetPager分页控件
  2. mysql模糊查询与预编译_mysql预编译模糊查询恶心了我一天的时间,终于弄好了。但是还有一点不明白。如下:...
  3. 通过AVFoundation框架获取摄像头数据
  4. 基于 Springboot 和 Mybatis 的后台管理系统 BootDo
  5. IOS autosizing(设置控件的固定位置大小)
  6. 阿里CTO谈BAT:李彦宏说是新瓶装旧酒、马化腾说太遥远了、马云说今天就应该做
  7. PyTorch系列入门到精通——DataLoader与Dataset
  8. Docker学习笔记 - Docker容器的日志
  9. opencv图像分析与处理(15)- 图像压缩中的编码方法:霍夫曼编码、Golomb编码、Rice编码、算术编码及其实现
  10. 控制理论导论_生活 amp; 工作 amp; 科研 amp; 控制理论与实践
  11. int too large to convert to float
  12. 沪深交易所的集合竞价机制
  13. linux mariadb,linux配置mariaDB
  14. 小丁是怎样入门git的
  15. 什么是R型直流电源变压器?
  16. CAD中遇到几个奇怪问题的解决
  17. 多台电脑共享上网的方法:在Windows XP中设置Internet连接共享
  18. GNS3实验:三层交换机配置
  19. FlexboxLayout全攻略(Google官方灵活实现流式布局控件)
  20. 键盘按键错乱解决方案

热门文章

  1. 超详细软件著作权申请——资料篇
  2. 雾里探花之计算机硬件及组成原理(前言)
  3. 计算机组成原理(唐朔飞)--第一篇 概论
  4. Stata+R: 一文读懂中介效应分析
  5. Matlab遗传算法
  6. HTML+CSS+JavaScript网页特效源代码(复制代码保存即可使用)
  7. 几道JAVA和分布式系统面试题总结
  8. jdk1.8中文帮助文档
  9. 自适应各终端懒人网址导航源码v1.6
  10. 求oracle学习资料(最好是视频)