【建站系列教程】2、数据源 (全网最良心、实用教程)

  • 网站主题
  • 数据源
    • 数据来源于数据库
    • 数据来源于api接口
    • 数据来源于python爬虫
  • 总结

写在前面:大家好,我是热爱编程的小泽
【建站系列教程】是我的亲身建站经历写给广大建站同胞们的教学博客。
喜欢的话点个赞吧~ 评论区欢迎交流讨论~

网站主题

首先,在做网站之前,得明确自己是要做什么网站,为什么要做网站。以下分类只针对个人站长:

  • 个人博客:这个不多说,主要以分享技术为主
  • 赚取IP的网站:这些网站主题有很多,小说、视频、软文等等
  • 正规用户网站:这个大多是个人创业的网站
  • ……

    为网站选择一个好主题,至关重要。我在做这个网站的时候,是为了赚点击接入广告的,觉得小说类的网站点击量应该会非常大,所以打算做个(盗版)小说网。
    【注】不要做那些盗版事物的网站,限制太多。至于我的小说网,大家接着看下去。

数据源

什么是数据源?顾名思义,就是网站里面的信息来源。
  网站里面的信息当然以原创最佳,但是绝大多数站长都是用网上已有的信息。比如,信息采集器、小说采集器、爬网页、抓接口等等。这里我们来分类一下常见网站的信息来源,我们以小说网站为例:

  • 1、信息来源于配套的数据库
  • 2、信息来源于其他网站的api接口
  • 3、信息来源于python爬虫

数据来源于数据库

有关于数据库的知识,不再重复,这里主要介绍数据库与建站的关系

当你买了一个服务器之后,一般会有一个镜像系统,然后会配套有一个数据库。当我们把网站数据放在这个配套的数据库里面,查询和请求数据就会很快。
优点:查询速度快,自己的数据不怕丢失
缺点:像我想做个小说网站那样的,一本小说动辄2000章,一本下来大概有5M,网站书库有10W本的话,您算算这数据库得多大容量。所以对于我们这些小站长来说,缺点也是显而易见的,就是太占存储空间。
相关做法:
1、手动导入数据库信息,这个成本太高,一般采取方法23。
2、爬api接口,然后把api返回的数据写脚本导入到自己的数据库。
3、写python脚本,爬数据导入到自己的数据库。

数据来源于api接口

这里我会写几篇教程,帮助大家提取网站、手机的api接口,超实用。请大家移步查看我的fiddler抓包教程。

对于我们程序员来说,破解别人的网站、接口是一件大块人心的事情。而拥有api接口的我们更是可以为所欲为(哈哈)。
  因为把小说放在自己的数据库的不现实,所以我把目标放在一些小说的开发api上。后来查了一大堆资料,得用抓包工具去抓接口,于是我去了,且成果显著,在后续的博客中我会把小说的开发api免费分享给大家。
优点:自己不需要建数据库,占空间少,拿别人的接口直接用。
缺点:
1、别人的接口终归是别人的,某天别人把接口关了,你的网站就凉凉了。
2、而且,直接调用api接口,会对网站的响应速度有很大影响。
3、因为接口原因,你只想请求10条数据,但是你不知道接口参数,所以每次都返回个1000条数据,可想而知,这多占速度。
获取api相关做法:
1、看网站源码,看看能不能提取出来有用的接口。
2、用fiddler抓包。后续有教程
3、去正规网站购买api服务。

数据来源于python爬虫

贴士:爬虫的话一般是搜索引擎用的比较多,因为它需要爬全网的网站来做排名、权重等等。就个人而言,爬虫了解会用就行,没必要深入。

我不知道python爬虫为什么挺火的。但是说实话,js、PHP、java哪个没有能力爬虫?可能后者的沉淀比较深,不去与python争罢了。
python爬虫相关做法:
1(实用)、一般做法是,针对某个网站去写python脚本,然后提取信息导入到自己的数据库里面。
2(鸡肋)、利用爬虫技术(说白了就是正则表达式处理字符串),封装成api,供自己调用。这个不推荐,因为这个耗时比直接调用数据接口还长得多。

总结

在做网站之前,选好网站的主题与内容,然后去找数据。

【建站系列教程】2、数据源相关推荐

  1. 【建站系列教程】7、SEO优化之meta标签【最后一篇】

    [建站系列教程]7.SEO优化之meta标签[进阶] 写在前面:大家好,我是热爱编程的小泽. [建站系列教程]是我的亲身建站经历写给广大建站同胞们的教学博客. 喜欢的话点个赞吧~ 评论区欢迎交流讨论~ ...

  2. 【建站系列教程】6、.htaccess文件的url重写规则-网页伪静态化

    [建站系列教程]6..htaccess文件的url重写规则-网页伪静态化 如何创建.htaccess文件? .htaccess是什么 htaccess语法教程 写在前面:大家好,我是热爱编程的小泽. ...

  3. 【建站系列教程】5、谈一谈网站的静态化

    [建站系列教程]5.谈一谈网站的静态化[进阶] 动态页面?静态页面?伪静态页面? 三个页面有何优缺点? 为什么要让网页静态化 如何网页伪静态化? 写在前面:大家好,我是热爱编程的小泽. [建站系列教程 ...

  4. 【建站系列教程】4、还不知道SEO你就OUT了

    [建站系列教程]4.还不知道SEO你就OUT了[进阶] SEO的使用背景 SEO到底是什么?SEO会对网站做哪些操作? 对于程序员来说,代码优化方向的SEO能做哪些? 最后,我们才说SEO的原理 写在 ...

  5. 【建站系列教程】3.2、ajax使用精讲

    [建站系列教程]3.2.ajax介绍 ajax的应用场景 1.form表单实现无跳转提交 2.ajax局部刷新代替刷新网页 ajax的通俗介绍 ajax的基本用法 ajax的ES写法 写在前面:大家好 ...

  6. 【建站系列教程】3.1、cookie介绍

    [建站系列教程]3.1.cookie介绍 cookie的应用场景 1 小说网站的字体.颜色.背景颜色设置 2 隐藏url里面的参数 cookie的通俗介绍 cookie的基本用法 js版本 jQuer ...

  7. 【建站系列教程】3、建站基本技术介绍

    [建站系列教程]3.写网页基本技术介绍 摘要 html.css.js jQuery ui框架 bootstrap jQuery-ui vue的ui 后端 采用ajax 或者 php cookie也可以 ...

  8. 【建站系列教程】2.3、分享一些小说的api接口

    [建站系列教程]2.3.分享一些小说的api接口 一.追书神器api 二.资源二api 三.宜搜api 四.结语 写在前面:大家好,我是热爱编程的小泽. [建站系列教程]是我的亲身建站经历写给广大建站 ...

  9. 【建站系列教程】2.2、fiddler手机抓包教程

    [建站系列教程]2.2.fiddler手机抓包教程 (全网最良心.实用教程) fiddler手机抓包原理 步骤摘要 详细步骤 1. 安装fiddler.修改配置 2. 电脑和手机连上同一个wifi 3 ...

最新文章

  1. SpringMVC获取请求参数-基本类型
  2. HikariConfig配置详解
  3. Java排序算快速排序_Java排序算法 [快速排序]
  4. matlab铁路平板车装货问题,两辆铁路平板车的装货问题最终论文
  5. 数据库历险记(三) | 缓存框架的连环炮
  6. Spring Boot——2分钟构建spring web mvc REST风格HelloWorld
  7. 如何创建线程?如何实现Runnable接口?
  8. [Java]图书管理系统
  9. AD原理图 PCB设计步骤
  10. Asus ROG Zephyrus G14 / 幻14 Ubuntu 外接HDMI显示屏检测不到,AMD核显驱动配置,AMD+Nvidia双显卡配置
  11. 2023年东北大学外国语言学及应用语言学考研上岸经验贴
  12. typora 主题下载及安装
  13. linux定时启动python脚本,linux定时执行python脚本
  14. win10配置计算机时强制关机,老鸟讲解Win10设置远程系统强制关机的详尽处理要领...
  15. 宇视科技线上c语言笔试答案,宇视科技2016招聘试题.docx
  16. PHP图书信息表books,创建一个图书表
  17. 超详细Redis入门教程——Redis命令(上)
  18. Android Studio 界面设计和运行的不一样
  19. 操作符(运算符)详解
  20. VSC的基础使用(插件和设置)

热门文章

  1. ‘Link‘ is not exported from ‘react-router‘
  2. ROS学习笔记—-- catkin
  3. RDKit | 定量评估类药性(QED)
  4. 第十三课.随机近似初步:蒙特卡洛方法
  5. Ubuntu下dex2jar的安装和使用
  6. 局部敏感哈希(Locality sensitive hash) [3]—— 代码篇
  7. python acm 素数个数_湘潭大学OJ-1098求区间内素数个数问题
  8. python输入字符串转换为公式_将python字符串转化成长表达式的函数eval实例
  9. QIIME 2教程. 23图形界面q2studio(2020.11)
  10. 图之典—可视化图表的词典