转载自: http://hi.baidu.com/esky9/blog/item/7c76159051b03783a877a45e.html

原创是网站优化的一大法宝,下面将讲解如何在PHP环境下,开发一个基于PHP的伪原创的写作软件程序。本文将认为读者易经具有PHP的知识,所以不再给出PHP教程。

教程环境:

1、PHP

2、MYSQL 织梦好,好织梦

3、SCWS分词系统 dedecms.com

类似PHP脚本,类似MYSQL数据库,类似分词系统亦可,在此只提供思路。

第一步:配置好你的环境! 织梦内容管理系统

在此需要做的是下载SCWS分析系统,按照官方的教程安装此系统,并且测试通过。其他的后台脚本,数据库就不多说了。SCWS是设计给C语言使用的,也为PHP做了扩展库,你也可以使用C语言制作你的伪原创程序。 本文来自织梦

第二步:获取文章,肢解文章 织梦好,好织梦

所谓肢解文章,就是将文章分句,分句需要自己写程序进行,我提供一个思路:以句号、感叹号、问号为分句标识,以上引号,左括号,左书名号等位起始符,以右引号、右括号、右书名号为结束符。遍历文章,当遇到起始符则进入不可分句状态,遇到结束符则退出此状态,当遇到分句标识时,仅当当前为可分句状态是,将读取到的内容分为一句,以此循环,将文章肢解问一个一个的句子。在此做分句状态的目的,是为了保护位于括号、引号、书名号等一段内容内的分句标识,例如【他说:“我爱你。”】这里的【我爱你。】不会被误分解。

第三步:分词 织梦好,好织梦

将分解的句子进一步肢解,得到分词。例如【苹果与西红柿一个是水果一个是蔬菜】这个句子可以分为【苹果】【与】【西红柿】【一个】【是】【水果】【一个】【是】【蔬菜】,在这个步骤中,需要SCWS的帮助,正常安装此分词系统后,分词操作只需要一个函数。就这个简单!另外,除了分解出词语之外,还要获得词语的性质,例如名词、动词等。

第四步:关键词同义替换

在此需要一个知识库的支持,下载《哈工大信息检索实验室同义词词林》扩展版,里面是非常全的同义词大全,每个词有多个编码,代表该词多义,一个编码下有多个词,表示这些词是同义词,将他们读取并保存到数据库中备用。 本文来自织梦

根据相关领域,设置你的关键词,例如你是做房产类网站,那么你的关键词可能是租房,出租,二手房,买房子,房屋合同,要找出很多的该领域的关键词,然后根据同义词词林对它们进行替换。为什么只替换关键词呢?因为一个非关键词部分替换了,可能会引起奇异,而且不是该领域的词,权重没有领域关键词权重高,损失语句通顺度来做伪原创,得不偿失。

第五步:标点乱舞

文章相似度的计算是根据句子相似度计算的,句子的相似度又是根据词相似度计算出来的,所以即使更换了关键词为同义词,所得到的文章与原文还是会被判定为相似文章,怎么办呢?首先我们看看如何进行文章相似度计算。

前面说的同义词词林的编码,其实这里面大有学问,不是随便乱编的码,同义词词林的拓展版将一个词的词义,用一个编码标识,编码可分为5部分,分别是大类、中类、小类、词群、原子词群,例如学生和老师,这两个词,肯定是属于一个大类的,因为他们都是人,而西红柿和番茄,肯定是一个词群的,因为他们指的就是一个东西。那么相似度的计算就简单了,按照100为完全相同来计算,若大类相同,则为10,若中类再相同,则为20,若小类再相同,则为50,若词群再相同则为90,若原子词群再相同,则为100。这里为什么要用“再”字,因为只要其中有一个不同,则无需再对比下去,例如大类都不同的两个词,中类,小类肯定不同了。

在此对比两个文章中的一个句子出现的词的相似度,计算每个句子的相似度,进而计算文章相似度,这里涉及一个算法,类似google的PR算法,以贡献度来叠加计算相似度。

说了这么多,我们该如何做,我们要打乱标点符号,干扰搜索引擎的分句处理。 内容来自dedecms

人看文章时,特别是新闻或者资讯,一般不在意标点符号,甚至有些人只是一眼而过粗略的看,即使断句混乱,文章大意不会有任何问题,所以我们要随意的将文章中的句号和逗号随意的替换,这样影响搜索引擎对文章进行分句,从而影响其相似度计算。

第六步:建立摘要置于段首

文章越靠前的内容越重要,这点毋庸置疑,所以我们需要对文章进行摘要,置于文章顶部,摘要的制作要有一定的压缩率,如1000字的文章,做100字的摘要即可,这里不按字数来统计,按句子数来统计比较方便,因为我们已经对文章进行了分句处理。500句规模的文章,做20句摘要左右。摘要的核心在于选取摘要句子,因为摘要本身是让人了解个大概意思,所以又那么一点点语义不通是可以承受的。

前面说过了关键词,提取摘要也需要关键词,我们以权重的方式提取摘要句,包含关键词的句子,权重高,包含的数量越多,权重越高,以此计算出每个句子的权重。然后根据原文的顺序,按权重高低顺序将他们提取出来,直到提取够你所需要的句数为止。将他们拼接,成为文章的文摘。 dedecms.com

在此还可以做的更好一些,在网上找句子相似度计算算法,计算句子相似度,将相似句剔除,防止语义重复。因为包含很多关键词的句子很有可能意思是重复的。

第七步:标题的自定义 织梦内容管理系统

伪原创很重要的一点就是改标题,标题一定要改,根据相似度计算的算法,我们改标题一定要改得焕然一新,例如【高考10招】改成【高考十招】,这种改法,你简直是把百度当***了。那要怎么改呢?编瞎话你会不?【专家十点建议,助你备战高考】【做到这十项,高考得满分】【清华离你只有十步!】改成这些标题意思没变,但是很吸引人去点击,并且不会被搜索引擎发现是雷同文章。不错把? 织梦好,好织梦

第八步:打乱权重较低的句子的顺序

权重低的句子也能派上用场,虽然我们认为这些句子不是很重要,但是搜索引擎可不知道,我们把他们的顺序稍微打乱,并不影响语义,反而起到了伪原创的效果,很好。

对于目前的伪原创软件,无章法的打乱句子顺序,是不可取的。例如一篇文章介绍了10个软件,已经标记好了1、2、3、4的顺序,经过伪原创之后,顺序乱了,读者读起来就匪夷所思了。而本文介绍了句子打乱,是从局部范围内打乱,而且都是非关键句。

[转] PHP:自己动手制作伪原创程序相关推荐

  1. 如何制作伪原创视频短视频伪原创软件

             如何制作伪原创视频短视频伪原创软件        想要做好短视频引流,大量短视频素材是基础,创作短视频素材方式有两种,第一种就是自己进行原创拍摄,第二种是进行下载收集,然后进行伪原创 ...

  2. 抖音可以搬运视频吗 | 如何制作伪原创视频

             抖音可以搬运视频吗 | 如何制作伪原创视频        .              视频自媒体最主要的就是素材,如果你的视频素材对了,标题起的不要太烂,播放量是差不到哪里去的.如 ...

  3. 如何制作伪原创内容?

    进行seo优化,编写内容的网站管理员很普通,原创,伪原创,转载. 今天在本文中我们将讨论伪原创内容的制作. 如何制作伪原创内容SEO常见问题第1  -  天津 seo优化_Moang SEO 你喜欢伪 ...

  4. 火山小视频伪原创教程 | 如何制作伪原创视频

             火山小视频伪原创教程 | 如何制作伪原创视频        .       火山小视频伪原创教程 | 如何制作伪原创视频自媒体运营技巧:短视频优质素材选题方向1. 多分析一些50万到 ...

  5. python文章伪原创_python制作伪原创文章?

    开发环境简介:python版本我们使用3.5,操作系统win7, 要使用的模块: 1.wxpython桌面图形扩展.安装方法使用pip安装命令:pipinstall-UwxPython 2.请求,re ...

  6. nltk 同义词替换 单词拼写校正 制作伪原创文章

    一.基于贝叶斯单词拼写校正 # -*- coding: utf-8 -*- # @Time : 2019/11/26 10:13 # @Author : # @FileName: word_check ...

  7. 信捷原创程序,8个伺服轴。 PLC:信捷XDM-60T10 HMI:信捷TG765 总体I/O在200个点之内

    信捷原创程序,8个伺服轴. PLC:信捷XDM-60T10 HMI:信捷TG765 总体I/O在200个点之内, 程序步骤6600步,HMI页面30页,程序有注释. 编程思路框架极好,思路清晰. 由于 ...

  8. PHP同义词伪原创程序V1.0 修复增强版 自带4万+词库

    介绍 PHP同义词伪原创程序V1.0 修复增强版 自带4万+词库是专门生成原创及伪原创文章的在线工具,可以把在互联网上复制的文章瞬间变成原创文章.本工具是一款免费的专业伪原创工具,专门针对谷歌.百度. ...

  9. 三边封制袋机程序 采用松下PLC和威纶通触摸屏 前后双伺服送料

    三边封制袋机程序 采用松下PLC和威纶通触摸屏 前后双伺服送料 屏幕485通讯控制温度 温控模块常州汇邦 一分钟速度可达200张 中英文切换操作系统 在用的设备上拷贝下来的,有触摸屏和PLC程序,没有 ...

  10. 智能AI文章写作伪原创-免费API接口

    wyc-api 智能AI文章写作伪原创接口API 更新时间: 2022/10/08 接口介绍 支持6种伪原创算法 不是单单关键词替换,而是语句组合替换,并在不断更新数据. 支持火车头插件使用 在线体验 ...

最新文章

  1. Lora模块项目01:简述物联网的各大无线通信技术
  2. windows WebStorm常用快捷键记录,常用的都在这儿找扒
  3. Spring Boot配置嵌入式Servlet容器的两种方法
  4. MongoDB 常用运算符
  5. 程序员面试金典 - 面试题 04.09. 二叉搜索树序列(双端队列+回溯)**
  6. 科研“潜规则”了解一下
  7. -bash: mysql: command not found解决方法(zabbix监控mysql失败)
  8. Java 简单五子棋程序的实现
  9. 笔记2014-08-26
  10. 1.极限——ε-δ例子_7
  11. Win10 64位安装SQL2000(个人版)
  12. 沙盒机制和应用程序目录
  13. centos的防火墙配置
  14. 远程分支和本地分支的相互创建和跟踪
  15. ace自定义在线编辑器方法及提示
  16. 基础练习 回文数 C语言
  17. 学报格式和论文格式一样吗_发表学报论文格式有什么要求
  18. 点我一下,你将获得排查性能问题的超能力~
  19. 嵌入式和服务器Linux系统下free -m Memory统计信息解析
  20. 如何优雅地使用Sublime

热门文章

  1. PHP str_replace() 函数详解
  2. No package ‘glib-2.0‘ found/No package ‘gobject-2.0‘ found
  3. 编译imsdroid,折腾了半天,还是弃用了Android Studio,换用Eclipse
  4. 编译问题解决:mkdir: 无法创建目录/usr/local/share/man/man1: 文件已存在
  5. 如果没有证据,判断一个事件的主谋的方法
  6. 谈谈如何正确的送领土
  7. 祝贺吾博文中第一篇点击超过一万的文章出现
  8. python可变参数_Python学习之路:函数传递可变参数与不可变参数,每天学一点点...
  9. php简单登陆,PHP简单实现单点登录
  10. centos下java编程工具_centos下安装JAVA开发工具(4)------Redis