基于

SNM

算法的大数据量中文商品清洗方法

张苗苗

【摘

要】

SNM

算法即邻近排序算法,是英文数据清洗最常用的算法[

1

目前为止,因为中英文语义的差异等一些原因,中文数据清洗还未形成完整的

理论,现有中文数据清洗算法大多数是基于改编英文数据清洗算法而来的[

2

3

。论文介绍数据清洗,对基于

SNM

算法对中文数据清洗的应用着重研究。

先介绍传统的

SNM

算法,论述该算法的缺陷,针对缺陷进项改进,并提出实

际中的应用场景。通过实验结果显示,在相似重复记录消除方面,

SNM

改进

算法具有明显的优势。

【期刊名称】

计算机与数字工程

【年

(

),

期】

2019(047)003

【总页数】

4

【关键词】

关键词

SNM

算法;数据清洗;重复记录

https://www.zhangqiaokeyan.com/academic-journal-cn_computer-digital-

engineering_thesis/0201271010738.html

修回日期:

2018

10

26

Class Number TP301.6

1

引言

近些年,庞大数据量和其中隐藏的规律,带动数据挖掘技术日新月异的发展

4

。数据挖掘的成功与否主要取决于数据源的质量高低和数据挖掘技术是否

合适,而影响数据源质量的一个重要因素就是脏数据的存在[

5

。不一致或陈

旧的数据、不精确的数据以及人为造成的错误数据等是脏数据形成的原因[

6

snm算法_基于SNM算法的大数据量中文商品清洗方法相关推荐

  1. snm算法_基于SNM算法的大数据量中文地址清洗方法-计算机工程与应用.PDF

    基于SNM算法的大数据量中文地址清洗方法-计算机工程与应用 108 2014 ,50(5 ) Computer Engineering and Applications 计算机工程与应用 基于SNM ...

  2. kettle分批处理大表数据_采用Kettle分页处理大数据量抽取任务

    需求: 将Oracle数据库中某张表历史数据导入MySQL的一张表里面. 源表(Oracle):table1 目标表(MySQL):table2 数据量:20,000,000 思路: 由于服务器内存资 ...

  3. mapbox矢量切片_使用Tippecanoe工具处理大数据量的矢量数据切片

    Tippecanoe是Mapbox的一个开源切片工具,项目地址:https://github.com/mapbox/tippecanoe,Mapbox常规的切片方法tilelive-copy参见另一篇 ...

  4. 大数据量,海量数据 处理方法总结(转)

    最近有点忙,稍微空闲下来,发篇总结贴. 大数据量的问题是很多面试笔试中经常出现的问题,比如baidu google 腾讯 这样的一些涉及到海量数据的公司经常会问到. 下面的方法是我对海量数据的处理方法 ...

  5. [转载]大数据量,海量数据 处理方法总结 作者phylips@bmy

    转自:http://i.yoho.cn/473260/logview/1816730.html 大数据量的问题是很多面试笔试中经常出现的问题,比如baidu google 腾讯 这样的一些涉及到海量数 ...

  6. 大数据算法_【中科大】大数据算法(2020年春季)

    算法与理论是计算机科学的核心领域之一.随着大数据时代的来临,传统的算法理论已经不能很好地解决人工智能. 物联网.工业制造等领域所遇到的实际问题.本门课程主要介绍基于大数据的新型算法技术,如随机采样.数 ...

  7. xgboost算法_基于XGBoost算法构建投资组合

    摘要 极端梯度提升 (eXtreme Gradient Boosting) 是一种基于决策树的集成机器学习方法,适用于分类和回归问题.其优点是速度快.效果好.能处理大规模数据.支持自定义损失函数等. ...

  8. python爬取网站大数据_基于腾讯位置大数据平台的全球移动定位数据获取(Python爬取)...

    对于腾讯位置大数据平台,有一些商业接口可以调用 看起来还是挺爽的,但是现阶段只接受商业合作客户来调用,我们个人是获取不到的. 那就没办法了吗?当然不是,实际上腾讯位置大数据把调用接口就直接写在了前端, ...

  9. python大数据平台_基于腾讯位置大数据平台的全球移动定位数据Python爬取与清洗...

    前不久投稿了一篇论文是以腾讯位置大数据为基础进行人口空间化研究的,但是还未见刊,见刊后会给大家分享下具体的研究方法. 首先打开腾讯位置大数据星云图链接:https://xingyun.map.qq.c ...

最新文章

  1. DBA入门之路:由浅入深的总结学习法
  2. Spring Cloud第八篇:Spring Cloud Bus刷新配置
  3. IBM为世博会服务支持建立快速反应通道
  4. android开发超级群(500人)
  5. C++ 虚拟析构函数
  6. jQuery函数attr()和prop()的区别
  7. html 树形图可拖拽,HTML5拖拽API实现vue树形拖拽组件
  8. 监控mysql主从同步状态是否异常
  9. 【渝粤教育】国家开放大学2018年春季 0008-21T简明现代汉语 参考试题
  10. 2019-11-29GPS干扰技术解析
  11. 艾诺novo7极光版 使用心得
  12. android 开源fc模拟器_用 Go 撸了一个 NES/FC/红白机模拟器——GoNES
  13. 上线一套 BI 系统到底需要多少钱???
  14. java根据文件字符换行_java操作txt文本(一):遇到指定字符换行
  15. 批量删除进程 mysql_linux 批量删除进程
  16. php短信功能实现原理,基于信息熵原理分词的php实现
  17. Shiro-SpringBoot (一)
  18. 便笺Sticky note常用快捷键
  19. 教你长高 男的没有1米8的 女的没1.65都要看啊
  20. 英语教师计算机研修总结报告,英语教师研修总结范文(通用5篇)

热门文章

  1. MATLAB与STK互联40:仿真案例7—近地圆轨道卫星的抵近操作及相对轨迹显示设置(无互联,手动设置)
  2. ubuntu11.10 安装网卡驱动
  3. 《移动的帝国》阅读笔记
  4. arcgis怎么关联excel表_在arcgis中添加excel表格数据-ArcGIS如何将Excel里的数据关联至地图上...
  5. Hexo站点建设之——国际化(i18n)
  6. 基于柯西变异的蚁狮优化算法 - 附代码
  7. 2. 思科设备开启guestshell
  8. 阿里干货课堂丨Android 之 Listview
  9. 网络安全有哪些种类?
  10. lis通道号_求助TRPV1通道激活问题