language-ai

文章AI伪原创,文章自动生成,NLP,自然语言技术处理,DNN语言模型,词义相似度分析。全网首个AI伪原创开源应用类项目。

点击右侧about内的链接极速体验!

快速开始

环境准备:JDK1.8, maven3.6+, redis

在 application.yml 中配置百度AI的相关信息

baidu:

appid: 你的app_id

appkey: 你的app_key

secret: 你的app_secret

如何获取? 输入https://ai.baidu.com/tech/nlp_basic, 点击立即使用, 根据提示一步一步完成即可获得。

有免费调用额度, 对于个人而言已经够了。

3.启动项目, 前端页面访问http://localhost:8080/ai,swagger文档访问http://localhost:8080/ai/doc.html

加载词库到redis中, 项目启动后, 发送post请求http://localhost:8080/ai/command/initRedis 初始化redis即可。该操作会将库清空再初始化,请悉知

请求参数格式如下:

{

"appName": "",

"params": {

"password": "你的用户名",

"username": "你的密码"

},

"sign": "",

"timestamp": "",

"version": ""

}

也可直接使用swagger执行接口初始化

测试版本未作校验, 所有参数默认为空即可。

项目截图

【词义分析】

【词义相似度计算】

【DNN语言模型计算】

【AI伪原创】

【BootstrapSwaggerUI在线文档】

【首页】

源码目录详解

language-ai

|- src/main

| |- java java源码所在目录

| |- com.chenxin

| |- auth 百度AI授权认证模块

| |- base 基础公共抽象模块

| |- config 项目所有自定义配置模块

| |- controller 这个不用多说

| |- exception 全局异常与自定义一次模块

| |- model 项目所有使用的数据模型, dto,vo,bo等

| |- service 业务模块

| |- util 工具模块

| |- auth 授权认证模块

| |- consts 常量类

| |- http http相关

| |- nlp NLP同义词库加载工具

| |- system 系统相关

| |- CommonEnum.java 统一信息处理枚举类

|

| |- AiApplication.java 主启动类

|

|- src/test/java

|- com.chenxin 相关测试代码, 经验证, 若idea版本太低将会导致该单元测试无法使用

其他自行查看源码, 不一一概述

关于词库

使用到的中文同义词词库是哈工大的同义词词林(扩展版)

项目自带词库(csdn下载的)

拓展词库

想要更加精确的计算与替换, 就需要一个很精准庞大的词库, 这个词库大家可以自己慢慢的补充完整

只需要将词库添加进文件 resource/res/word.txt, 按照格式进行添加即可, 然后调用初始化redis接口即可。

初始化redis接口/ai/command/initRedis

关于词库中词语重复问题

这个大家无需担心, 作者在此方面做了大量优化。 相同键值Key的词组,将会全部存储至redis中,以Key0,Key1的形式存储,

查询时, 会将所有相同Key的词组全部找出, 并进行去重, 然后在进行其他操作, 计算词义相似度等等。相同的Key,为了提升

查询效率, 默认取相同Key的前20组!

技术图谱

本项目集成多个NLP优秀项目, 搭配使用。 分词使用百度AI 自然语言处理技术中的词义分析技术, 词义相似度

使用HanLP项目计算同义词距离!

自然语言处理技术(百度AI提供技术支持)

词义分析技术

词向量表示

词义相似度

DNN语言模型

依存句法分析

短文本相似度

自然语言处理(hanLP提供技术支持)

HanLP是一系列模型与算法组成的NLP工具包,目标是普及自然语言处理在生产环境中的应用。

同义词词库

哈工大的同义词词林(扩展版)

技术架构

后端

SpringBoot, 简单配置, 快速开发

MyBatis , 复杂数据操作(轻量级版本无需数据库, 提高灵活性)

Spring Data Jpa , 简单数据操作(轻量级版本无需数据库, 提高灵活性)

SwaggerUI BootstrapSwaggerUI, 在线接口文档, 增强美化, 接口文档导出

Redis 数据存储与缓存

Async 异步多线程, 提升文章切割替换速度(单核cpu可能效果不太明显)

前端

本项目的页面只是简单作为测试, 后续会打造一个完整的产品网站。

Vue

ElementUI

问题与优化

Q: 当文本长度稍微大一点的时候,文本变脸就变得十分缓慢, 因为这涉及到将几万的词库加载到内存然后进行词义距离计算

A:这时候加载词库比对的思路,明显已经不适用了。因此采用高性能的redis数据库,进行词库的存储与读取,极大的提升了同义词的查找效率

优点 同义词精确匹配, 替换性能提升十几倍

Q:只能有一组同义词, 例如 安分守己 - 循规蹈矩 和 循规蹈矩 - 安分守己。那 安分守己 - 诚实本分就添加不进词库。 初版先牺牲词库丰富性而达到高性能

A: 现在已优化, 自动给同名键增加后缀, 后使用redis模糊查询进行匹配 (真正的性能和效率并存)

Q:当文本过长,百度AI接口会抛出异常

A:用户端或者服务端做好文本切片的操作

Q: 当用户直接输入文章, 几千字如何处理?

A: 根据文本大小进行切片, 采用异步多线程处理, 提升程序性能

Q: 直接粘贴文章进行AI伪原创可能会报json注入异常

A: 建议去掉空格, 回车等。或者换成转义字符。

关于作者

热衷于ai,分布式微服务,web应用,大数据等领域。工作室:1024代码工作室,有需求的可以联系作者哦,交流也是可以滴。

邮箱:amazingjava@163.com

其他

为什么会使用多个NLP项目, 原因是因为最初是想使用百度AI将整个项目完成。 但由于百度自然语言处理API

对于普通用户调用有次数限制, 超量需要收费, 因此数据量比较大的处理将给了HanLP项目处理。将数据量较小

的分词交给百度AI处理。

关于同义词库文件的位置, 不建议移动和改变, 文件夹以及名字都是。后续有时间, 再优化这个问题吧。

python文本自动伪原创_如何实现文章AI伪原创?相关推荐

  1. 如何快速实现文章AI伪原创?

    language-ai 文章AI伪原创,文章自动生成,NLP,自然语言技术处理,DNN语言模型,词义相似度分析.全网首个AI伪原创开源应用类项目. 代码托管在github,需要的可以自取:https: ...

  2. python文本自动伪原创_新手一天30篇伪原创,快速在线生成原创文章

    新手一天30篇伪原创,快速在线生成原创文章 现如今新媒体行业的竞争可谓越来越大,在这个内容为王的时代,优质的内容等于一切.写不出令人满意的内容,自我感觉到失落只是一方面,另一方面则是面临着失业的风险. ...

  3. python文本自动伪原创_Python调用有道智云文本翻译API接口实现“智能”伪原创

    随着人工智能的火热,互联网热门韭菜行业SEO也貌似进入了AI的快车道,尤其以智能伪原创超级热门,你会发现几乎是个seo工具网站都挂着智能伪原创的"狗头"招牌,抱着人无我有,人有我优 ...

  4. python文章伪原创_对国内首款伪原创工具作者泊君的访谈

    提及SEO伪原创工具,想必大家都非常的熟悉!但是当谈及到SEO伪原创工具的鼻祖,估计很多人都非常的陌生,因为他在SEO行业非常的低调,很少在SEO界露面及参加各种SEO峰会:他的学生都是SEO行业中的 ...

  5. python文本结构化处理_在Python中标记非结构化文本数据

    python文本结构化处理 Labelled data has been a crucial demand for supervised machine learning leading to a n ...

  6. 文章采集伪原创工具-免费批量文章采集伪原创发布工具

    文章采集伪原创工具怎么使用怎么下载.详细情况请看图文结合.看不懂的话直接看图片直接下载.博主已经在使用中了,免费! 文章自动采集图一 文章自动采集设置图二 文章自动发布图三 文章自动发布设置图四 上周 ...

  7. python单片机自动浇花_[MicroPython]TPYBoardv102自动浇花系统

    1.系统功能 监测土壤湿度.环境温度.光照强度 根据当前环境自动浇水,寒冷天气自动加热土壤 2.所需元器件 TPYBoard板子1块 光敏模块1块 DS18B20模块1块 土壤湿度检测模块1块 杜邦线 ...

  8. python微信自动打卡_「微信辅助」吃鸡再也不怕了,Python用wxpy实现微信自动回复...

    我是程序员小小叶,为大家带来原创精彩技术内容. 首先安装wxpy. pip install wxpy优点:相比itchat封装了接口,使用较为方便.注意事项:wxpy 支持 Python 3.4-3. ...

  9. python文本聚类 词云图_文本挖掘:避孕药主题情感分析

    关于舆情分析的实例分析,希望给你带来一些帮助. 前言 距离上次文本挖掘小文章时间已经过了3个月了,北京已经入冬,有人说北京的冬天很冷,但是吃上火锅很暖:也有人说北京的冬天雾霾严重,太干.这两句表达的是 ...

最新文章

  1. QT-- MainWindow外的cpp文件调用ui
  2. mvc4站点支持.html
  3. 水平集嵌入函数的曲率
  4. python循环for...in_python循环while和forin实例
  5. oracle package 函数,Oracle 存储过程procedure,函数function用法,以及package用法
  6. 【华为云技术分享】《跟唐老师学习云网络》 - Veth网线
  7. 四、StackPanel控件
  8. matlab教程分析,MATLAB数据分析教程
  9. centos6下的vsftpd配置
  10. Micropython——基于PYB的霍尔编码器电机测速与使用
  11. Ubuntu如何更新显卡驱动
  12. 【2017宁波联考】生成树
  13. 计算机技术 在职,计算机技术在职研究生招生简章
  14. 如何将文字转图片?手把手教你转换
  15. OGM 与mongodb
  16. card_list_operation.erl
  17. 基于Java+JSP+MySQL基于SSM的医院挂号就诊系统
  18. 使用HTML5,CSS3和Jquery的老虎机效果
  19. 矢量化图形工具VTracer
  20. 最全的国内外IT学习网站和工具(自己总结的)

热门文章

  1. 复习JAVA高级部分
  2. ntp服务restrict_linux设置NTP服务器及时间同步
  3. php soap 例子,GitHub - ueaner/soap: PHP SOAP 实例
  4. 【庖丁解牛】Starting MySQL.. ERROR! The server quit without updating PID file (/tmp/mysqld.pid)
  5. 树莓派gpio控制输出电压
  6. tf实现Focal-Loss
  7. 奥林匹克计算机怎么学,信息学竞赛金牌教练带你C++入门!
  8. Python爬虫笔记——Url解码时,如何将汉字转化为以 %开头的 gb2312 编码 和 将以%号开头的编码转化为汉字 的示例
  9. jenkins php代码发布图
  10. 管家婆分销ERPV3A8单据第1行商品【】货位没有填写或不属于该仓库或已删除,不能保存