现在的CMS都自带了采集功能,内容和标题相对来说很好处理,但大部分情况关键词很难能提取到。于是自动获取关键字成为当前PHP类CMS的“传统问题”。那如何才能自动获取关键词呢,其主要步骤主要可以分为如下三个步骤:

1,通过分词算法将标题和内容分别进行分割,提取出关键词和频度在内容的分词阶段,当前主要的两个算法是中科院的ICTCLAS和隐马尔可夫模型。但这两个都太高端,有一定的门槛,且都是只支持C++/JAVA。基于PHP的当前有两个是值得推荐的PSCWS和HTTPCWS。 SCWS于2008-03-08发布1.0.0 正式版,到现在最新版本已经到了1.0.4。PSCWS是它的PHP版。而HTTPCWS是张宴开发的,之前叫PHPCWS。PHPCWS 先使用“ICTCLAS 3.0 共享版中文分词算法”的API进行初次分词处理,再使用自行编写的“逆向最大匹配算法”对分词和进行词语合并处理,并增加标点符号过滤功能,得出分词结果。目前仅支持Linux/Unix系统。

2,将提取结果与现有词库进行比较,得到最符合规则的关键词这里主要就是要看词库了,我们可以自己定义词库,也可以使用现有的成熟词库。

3,然后将这两套关键词进行比较,得到最符合当前内容的关键词在这个阶段就是具体情况具体分析了。当前PHP类CMS都自有自己的提取关键词系统。其中在网络上流传最广的是DEDECMS的分词源码,我也在我的POPCMS上作过测试,效果很不错,不过类似“我们”等无意义的词提取并被列为关键词的频率太高,甚至有时候还会把空格的HTML提出来做为关键词,亟待改进。不过如果作为辅助功能,它已经很好了。另外PHPCMS和DISCUZ的自动提取关键词功能也很强大。

首发:http://www.murray.cn/index.php/2009/11/php-auto-get-keyword-cms/

php 自动关键词,基于Php实现自动获取关键词的分析相关推荐

  1. linux 实现自动安装,基于cobbler 实现自动安装linux系统

    1.安装个组件 yum install epel-rpm-macros.noarch -y #安装epel源 yum install -y cobbler cobbler-web dhcp tftp- ...

  2. C语言设计窗帘自动拉伸,基于st8952的自动窗帘设计.doc

    基于st8952的自动窗帘设计.doc 福建电力职业技术学院 课程名称:<智能仪器> 题目:基丁 STC89C52的简易计算器设计 专业班次: 姓 名: 学 号: 指导教师: 学期:201 ...

  3. Spring基于注解的自动装配

    Spring基于注解的自动装配 基于XML的自动装配是在配置文件的bean里设置autowire属性,有byType,byName的方式.而基于注解的自动装配同样是这样只不过我们直接在成员变量上直接标 ...

  4. 用python做生物信息数据分析_基于Python的自动获取生物信息数据的软件设计

    基于 Python 的自动获取生物信息数据的软件设计 * 周斯涵,刘月兰 ** [摘 要] [摘 要] 从国际生物信息学数据库中采集数据来进行相关领域的分析, 但随着数据库规模不断扩大 , 数据来源种 ...

  5. php 自动关键词,Php实现自动获取关键词的分析

    现在的CMS都自带了采集功能,内容和标题相对来说很好处理,但大部分情况关键词很难能提取到.于是自动获取关键字成为当前PHP类CMS的"传统问题".那如何才能自动获取关键词呢,其主要 ...

  6. 基于单片机的超市储物柜设计_基于单片机的自动存储柜的设计

    金红娟 张娣 王历 摘  要: 隨着科技的日趋发展,智能化产品随处可见,极大地方便了人们的生产生活.在一些综合超市,大型购物商场等一些公共场合,由于人流大,购物的人多,仅靠人工来存储物品速度慢,效率低 ...

  7. 【时间序列】基于一维卷积自动特征提取的短期用水需求量预测

    今天带大家精读的论文是 <Short-term water demand forecast based on automatic feature extraction by one-dimens ...

  8. [转]基于 aspnet 的自动合并输出js和css的解决方案

    这是一个基于 aspnet 的自动合并输出js和css的解决方案. 首先感谢 LoveCherry 的文章<httpmodule和httphandler配合的又一应用--合并脚本样式>(h ...

  9. 自动跟随机器人:一种简易的自动跟随方案,自动跟随小车、自动跟随平衡小车、STM32、基于超声波的自动跟随小车

    目的:一种廉价的跟随方案,让大家都能够参与进来,技术难度不大,一些人也能够DIY一些属于自己的"跟随"机器人!并不是要做工业应用什么的.只是做出来玩玩~ / 1 / 介绍 先看视频 ...

最新文章

  1. 人类未来将毁于元宇宙?刘慈欣向往星辰大海,小扎却要深耕Meta
  2. C++ code:main参数
  3. mysql ddl crash,MySQL5.6 crash-safe replication一个坑
  4. Centos7 安装 opencv
  5. LeetCode 2202. K 次操作后最大化顶端元素
  6. ThinkPHP V5 漏洞利用
  7. 每天学一点ubuntu指令
  8. linux malloc速度,性能 – memcpy()的速度受malloc()的不同方式的影响很大
  9. python面试代码题_常见python面试题-手写代码系列
  10. DataBinding 学习系列(3)新增的可见字段来编写对象(bean)
  11. C#winform控制textbox输入只能为数字
  12. ESX中的虚拟机中安装虚拟机的实现
  13. python自定义拼音输入法_Python与HMM实现简单拼音输入法
  14. matlab遗传工具箱ga,用遗传算法工具箱(GA)识别Bouc-Wen模型微分方程参数
  15. 暖春战疫,程序员买买买指南
  16. springboot项目启动后执行方法
  17. netcore 集成 CAP 使用 rabbitMQ集群
  18. 如何利用会员积分体系提高用户活跃留存
  19. 每天五分钟机器学习:随着算法迭代次数动态调整学习率
  20. android开发 之 Canvas绘制文字,图片

热门文章

  1. zdm各命令的功能和作用_zdm软件命令大全.xls
  2. 计算机网络-tcp连接常见异常
  3. C# manifest文件介绍
  4. 海淘 Google Nexus4 历程
  5. 扇区、小区、载频的关系
  6. SpringBoot 配置返回前端固定格式yyyy-MM-dd HH:mm:ss和接收ISO时间自动转为LocalDateTime
  7. 山大计算机技术专硕历年分数线,山东大学社会工作硕士历年复试分数线_社会工作考研分数线_复试线 - 希赛网...
  8. 物联网周刊(第 4 期):边缘人工智能
  9. SpringMvc零配置,无Web.xml
  10. 适用于任意模糊内核的深度即插即用超分辨率(DPSR论文笔记-2019CVPR)