语料库语言学作为一个计算机和语言学学科的交叉学科,在我国发展了近30年,成果颇丰。而现阶段,在语料库的研究和使用上依然面临着许多的困难:语料库作为现代语言学研究的工具正在发挥着越来越重要的作用,而大型语料库构建成本较高,普通语言学研究者为获得与自己研究相关的语料往往花销过大,并且由于研究领域不同,获得有价值的语料也往往较为困难,这给语言学研究带来了不便。在这种情况下建设小型语料库的价值就显现出来了,小型教学语料库的构建是高校语言研究的一个发展方向。它的好处是有效方便,而且简单易行[1]。本文以河南科技学院大学生科技创新实验项目“语料库搜索引擎”的数据结构和算法设计为基础,以PHP为程序设计脚本语言,以MySQL为数据库工具详细阐述基于该平台下的小型语料库的构建方法。在这种设计模型下,后期可以通过加入JAVA技术,基于操作系统的Shell触发技术,Ajax、Lucene等等,使其功能更加强大。这里就该设计下的基本模型予以阐述。一、系统和平台的选择系统和平台的选择直接影响系统的运行效率。我们之所以选择PHP语言和MySQL数据库的原因有以下几点。一是两者同属开源产品,有利于我们更深入地了解其工作原理。在这个基础上,我们能对后期一些优化开发起到一定的奠基作用,比如说采用PHP拓展直接优化检索速度、写入多项常用模块,方便二次开发和为其他程序备留接口;采用LinuxShell执行快速的划词标记,甚至在一定程度上可以为后期基于此模型下的单片机的开发做好一定的铺垫,实现语言研究者进行语料研究时使用类似手机的终端机进行操作。二是PHP以其数据运算速度著称。语料库的建设就是一种意义上的数据挖掘,拥有较大的数据处理量,因而PHP无疑是最好的选择。三是程序的兼容性和运行效率。使用PHP和MySQL开发的程序具有良好的兼容性和可移植性。当然,在该项目中,我们使用其在FreeBSD操作系统运行,良好的内存管理和安全性能够进一步提高语料库检索的执行效率和安全性。二、创建语料数据表算法是程序的灵魂,而一个好的数据结构表同样是一个程序的灵魂所在,因此数据库中数据结构表的设计就是整个项目的重中之重。在语料库构建中,本文将展示两种数据结构设计:第一种具有较好的检索速度并且较容易使人理解,但是相比之下,过分冗余的数据将是该模型中一个致命的缺陷。第二种方案,是基于哈希函数的一种散列技术,这种方案的复杂程度远远超过了第一种方案,但是它避免了数据冗余,并且在数据的创建和检索速度上有良好的表现。在整个语料库的设计中,我们首先要存储语料库基本信息,上传语料文件,进行文本编码的转换。现阶段文本编码主要分为UTF-8编码和GB2312编码,我们这里统一采用UTF-8编码。从上传的语料中读取几十个字节的数据,使用PHP中的ORD()函数计算并判断这一段文字是UTF8编码还是GB编码,如果是GB编码则使用mb_convert_en-coding()函数或者iconv()函数进行编码转换,将文件转化成UTF-8编码。在数据文件按照一定的数据结构存入数据库的过程中,需要一个外循环和内循环。程序的外循环在于设定文件指针,让程序每次读取一定量的数据,并针对读取的数据进行内循环处理。在程序的内循环处理过程中,使用fgets()函数来读取这些数据,这样就自然而然地为数据进行了分段。然后根据常见的句子切割符号,如句号、感叹号、问号等,使用正则表达,对已得到的段落进行分句,利用开源的分词软件[2]对每句话进行分词、标注。将处理后的结果压入数组堆栈,得到目标数组。对于这些目标数组的结构设计和存储,我们有以下两种设计结构

语料库mysql_基于PHP+MySQL的小型语料库程序设计解决方案相关推荐

  1. 基于PHP+MySQL的小型购物系统网站

    资源下载地址:https://download.csdn.net/download/sheziqiong/86764052 资源下载地址:https://download.csdn.net/downl ...

  2. 基于PHP+MySQL的小型企业客户关系管理系统

    随着时代发展,越来越多的企业意识客户的重要性.尤其是在当下竞争如此激烈,市场瞬息万变的情况下,只有将生产为中心转化为以客户为中心,才能够永远地力与不败之地.客户关系管理能够更好的维护企业和客户之间的关 ...

  3. confluent mysql_基于Confluent Mysql Binlog 数据遇到的问题以及解决方式

    技术架构 Debezium + Confluent + Kafka + OSS/S3 整体设计预期实现效果 Debezium 采集binlog 数据,通过Confluent Source 写入Kafk ...

  4. 会议室管理系统jsp和mysql_基于jsp+mysql+servlet的JSP会议-会议室管理系统

    运行环境: 最好是java jdk 1.8,我们在这个平台上运行的.其他版本理论上也可以. IDE环境: Eclipse,Myeclipse,IDEA都可以 硬件环境: windows 7/8/10 ...

  5. 成绩查询源码mysql_基于PHP+MYSQL的成绩查询系统(含源码)

    获取项目源文件,联系Q:1415736481,可指导毕设,课设 成绩查询系统文档 我们做的是成绩查询系统,有教师管理系统和学生查系统. 在教师管理系统中的功能如下: 插入学生成绩. 查询学生成绩. 修 ...

  6. 驾校预约系统mysql_基于jsp+mysql+Spring+mybatis的SSM驾校预约管理系统

    运行环境: 最好是java jdk 1.8,我们在这个平台上运行的.其他版本理论上也可以. IDE环境: Eclipse,Myeclipse,IDEA都可以 tomcat环境: 最好是Tomcat 7 ...

  7. 餐饮收银管理系统如何连接mysql_基于jsp+mysql+Spring+mybatis的SSM餐厅点餐收银管理系统...

    运行环境: 最好是java jdk 1.8,我们在这个平台上运行的.其他版本理论上也可以. IDE环境: Eclipse,Myeclipse,IDEA都可以 tomcat环境: 最好是Tomcat 7 ...

  8. 药品信息管理系统mysql_基于PHP+MySQL药品信息查询系统(含论文)

    本系统阐述了医药信息查询系统的开发过程,并对该系统的需求分析及系统需要实现的设计方法作了介绍.该系统的基本功能包括用户注册登录,查看医药资讯,医药查询和在线留言等信息. 本系统技术介绍:php,mys ...

  9. 制作centos+mysql_搭建基于CentOS+MySQL的EA服务器环境

    Enterprise Architect是非常好用的UML建模工具,可以做为单机使用,也可以将EA工程放在服务器上,实现设计工程的多人共享使用,如果把工程放在服务器上,EA工程实际上就是一个数据库,支 ...

  10. 【php毕业设计】基于php+mysql+apache的二手物品交易网站设计与实现(毕业论文+程序源码)——二手物品交易网站

    基于php+mysql+apache的二手物品交易网站设计与实现(毕业论文+程序源码) 大家好,今天给大家介绍基于php+mysql+apache的二手物品交易网站设计与实现,文章末尾附有本毕业设计的 ...

最新文章

  1. python中列表常用方法_Python中列表的常用方法
  2. C#中Timer组件用法
  3. 外星人入侵 python 飞船位置_《python从入门到实践》项目一:外星人入侵
  4. MyBatis和hibernate本质区别与应用场景
  5. Python redis的订阅发布机制(publish、pubsub)
  6. bootstrap-multiselect.js多选下拉框初始化时默认选中初始值
  7. 特征工程(六): 非线性特征提取和模型堆叠
  8. Outlook 邮箱备份操作手册
  9. 深度学习中拟合是什么意思?
  10. Java StringBuffer 用法
  11. 新下载的工程,启动tomcat出现识别文件失败的现象。No qualifying bean of type 'com.kanq.platform.cert.mapper.CertificateSjdr
  12. PowerBI使用Tabular Editor翻译报表模型
  13. 当年的毒王熊猫烧香,现在怎么样了?
  14. oracle 如何判断当前日期是星期几
  15. ACM初窥门径(一)
  16. 如果你在用vivo手机拍照的话,这个功能要打开,不然白浪费了这么好的手机
  17. Codeforces Round #829 cf1753A Cowardly Rooks
  18. OA协同办公系统 公共事务设置
  19. Echart柱状图中数据显示在图上方
  20. Android 仿淘宝属性标签页

热门文章

  1. 卸载 Notepad++ !事实已证明,它更牛逼……
  2. 中病毒了文件夹变exe文件找到方法
  3. C语言中怎么计算字母序数,C语言中怎样求一个四位数的逆序数,如输入1234就能输出4321?...
  4. 05——去哪儿(旅游网站首页开发)
  5. 安卓iccid_A40i Android7.1 读取ICCID错误解决方案
  6. 向量叉乘计算多边形面积
  7. nuxt.js 全局 js_使用nuxt js在vuetify js中进行高级颜色管理
  8. 使用proteus仿真STM32超声波SRF04测距!Code+Proteus
  9. ACM——01——1003: 【入门】求任意三位数各个数位上数字的和 【运算符】
  10. C#实战009:Excel操作-删除指定的Excel工作表