我最开始在选用数据库时,为了不使用第三方库,打算使用erlang自带的mnesia。但是因为涉及到字符串匹配搜索,mnesia的查询语句在我看来太不友好,在经过一些资料查阅后就直接放弃了。

然后我打算使用couchdb,因为它是www.usus.ccerlang写的,而我正在用erlang写程序。第一次接触非关系型数据库,发现NoSQL数据库使用起来比SQL类的简单多了。但是在erlang里要使用couchdb实在太折腾了。我使用的客户端库是couchbeam。

因为couchdb暴露www.usus.cc的API都是基于HTTP协议的,其数据格式使用了json,所以couchbeam实际上就是对各种HTTP请求、回应和json的包装。但是它竟然使用了ibrowse这个第三方HTTP客户端库,而不是erlang自带的。ibrowse又使用了jiffy这个解析json的库。这个库更惨烈的是它的解析工作都是交给C语言写的动态库来完成,我还得编译那个C库。

couchdb看起来不支持字符串查询,我得自己创建一个view,这个view里我通过翻阅了一些资料写了一个将每个doc的name拆分成若干次查询结果的map。这个map在处理每一次查询时,我都得动态更新之。couchdb是不支持局部更新的,这还不算大问题。然后很高兴,终于支持字符串查询了。这里的字符串查询都是基于字符串的子串查询。但是问题在于,太慢了。每一次在WEB端的查询,都直接导致erlang进程的call超时。

要让couchdb支持字符串查询,要快速,当然是有解决方案的。但是这个时候我已经没有心思继续折腾www.usus.cc,任何一个库、程序如果接口设计得如此不方便,那就可以考虑换一个其他的。

我选择了mongodb。同样的基于文档的数据库www.usus.cc。2.4版本还支持全文搜索。什么是全文搜索呢,这是一种基于单词的全文搜索方式。hello world我可以搜索hello,基于单词。mongodb会自动拆词。更关键更让人爽的是,要开启这个功能非常简单:设置启动参数、建立索引。没了。mongodb的erlang客户端库mongodb-erlang也只依赖一个bson-erlang库。然后我又埋头苦干,几个小时候我的这个爬虫程序就可以在浏览器端搜索关键字了。

后来我发现,mongodb的全文搜索是不支持中文的。因为它还不知道中文该怎么拆词。恰好我有个同事做过中文拆词的研究,看起来涉及到很复杂的算法。直到这个时候,我他妈才醒悟,我为什么需要基于单词的搜索。我们大部分的搜索其实都是基于子字符串的搜索。

于是,我将种子文件的名字拆分成了若干个子字符串www.usus.cc,将这些子字符串以数组的形式作为种子文档的一个键值存储,而我依然还可以使用全文索引,因为全文索引会将整个字符串作为单词比较。实际上,基于一般的查询方式也是可以的。当然,索引还是得建立。

网络原理制作bt采集蜘蛛相关推荐

  1. DHT网络原理制作bt采集蜘蛛,开源版

    dhtcrawler最早的版本有很多问题,修复过的最大的一个问题是关于erlang定时器的,在DHT实现中,需要对每个节点每个peer做超时处理,在erlang中的做法直接是针对每个节点注册了一个定时 ...

  2. 利用DHT网络原理制作bt采集

    P2P系统的应用越来越广泛,在文件共享.流媒体服务.即时通讯交流.计算和存储能力共享以及协同处理与服务等方面都能看到P2P的存在,一些P2P应用如Napster.eMule.BitTorrent等早已 ...

  3. 利用DHT网络原理制作

    我最开始在选用数据库时,为了不使用第三方库,打算使用erlang自带的mnesia.但是因为涉及到字符串匹配搜索,mnesia的查询语句在我看来太不友好,在经过一些资料查阅后就直接放弃了. 然后我打算 ...

  4. 网络原理4 数据链路层

    文章目录 mac地址 网络原理的总结 在数据链路层中,最主要的就是以太网协议 这里的目的IP和原地址都是mac地址 mac地址 首先要知道什么是Mac地址,mac地址也叫做物理地址或以太网地址,它是一 ...

  5. 网络原理学习笔记--基本概念1

    学习网络原理过程中必须熟知的一些最基本的概念,理解这些概念对于学习信号传输.各种网络协议等都很有帮助 1) 模拟信号:就是连续变化的信号.例如,当我们说话时,声音大小是连续变化的,因此运送话音信息的声 ...

  6. 【毕业设计_课程设计】基于网络爬虫的新闻采集和订阅系统的设计与实现(源码+论文)

    文章目录 0 项目说明 1 项目说明 2 系统需求 3 系统架构 4 效果展示 5 论文目录 6 项目工程 0 项目说明 基于网络爬虫的新闻采集和订阅系统的设计与实现 提示:适合用于课程设计或毕业设计 ...

  7. 【阿里云课程】分组网络原理,结构发展及设计改进

    大家好,继续更新有三AI与阿里天池联合推出的深度学习系列课程,本次更新内容为第10课中的一节,介绍如下: 分组网络原理与结构演变 本次课程是阿里天池联合有三AI推出的深度学习系列课程第10期,深度学习 ...

  8. 【阿里云课程】残差网络原理,结构发展及有效性理解

    大家好,继续更新有三AI与阿里天池联合推出的深度学习系列课程,本次更新内容为第10课中的一节,介绍如下: 残差网络原理与结构演变 本次课程是阿里天池联合有三AI推出的深度学习系列课程第10期,深度学习 ...

  9. 自制最小的无盘网络服务器,无盘网络终极制作2003服务器端安装准备

    我们在做任何系统的时候都要事先做好相应的准备工作,对于无盘网络也是一样,那么我们在无盘网络终极制作2003中服务器端的安装需要做好哪些准备工作呢?5636网吧技术带你一起去看看具体的准备过程. 1.要 ...

  10. 计算机 - 网络原理

    计算机 - 网络原理 转载于:https://www.cnblogs.com/KevinXia/p/7477693.html

最新文章

  1. 21世纪科技生态面临第三次全球标准
  2. 【Kotlin】扩展属性 ( 扩展变量属性 | 扩展常量属性 | 注意事项 | 本质分析 )
  3. 你真的了解防火墙吗?
  4. Kotlin实战指南十二:data class
  5. 牛客网(剑指offer) 第七题 斐波那契数列
  6. 【C++】Visual Studio教程(九) -卸载 Visual Studio
  7. 揭秘北京2022冬奥会背后的技术
  8. C#:继承过程中的静态成员
  9. GetModuleHandle
  10. 《八佰》正式上映不到两天 累计票房破6亿元
  11. Fantom已开始网络升级,大约需2个小时
  12. java生产环境增量发版陷阱【原】
  13. mysql 5.7 group_mysql,_mysql5.7中group by和mysql5.5中group by的结果不一样,mysql - phpStudy...
  14. 国内首个SENT 信号解析软件 适配NXP KMA321, melexis MLX90372等SENT信号输出芯片 完美替代PicoScope 解析SENT
  15. SCJP刷题学习笔记(Part six)
  16. 项目建议书模板doc_重要!非洲猪瘟等动物疫病防控相关标准征集啦!征集2019年度动物卫生标准立项项目的通知...
  17. 非平稳序列的确定性分析
  18. 电脑时间调到2099年,会发生什么
  19. Win10图片查看器打不开图片,报错内存不足
  20. svm算法java实现_谁有用JAVA实现机器学习svm算法的代码,感激不尽

热门文章

  1. You辉编程_用vue3.0开发移动app的流程
  2. python 写入文件并保存_python学习将数据写入文件并保存方法
  3. 米思齐+blynk双登录控制(米思齐Mixly的新玩法)
  4. 什么是java框架结构_Java框架概述
  5. 一个炫酷的个人网站带后台
  6. 直流电机单闭环调速matlab仿真,单闭环直流电机调速Simulink仿真.docx
  7. origin调整纵坐标刻度值_Origin数据图坐标刻度值特殊标注的方法
  8. 搜索巨头百度深耕中国量子产业
  9. java设置窗体图标_在java中怎么设置窗体的图标?详细步骤图解
  10. ubuntu下鼠标右键新建文档