【建站系列教程】2、数据源
【建站系列教程】2、数据源 (全网最良心、实用教程)
- 网站主题
- 数据源
- 数据来源于数据库
- 数据来源于api接口
- 数据来源于python爬虫
- 总结
写在前面:大家好,我是热爱编程的
小泽
。
【建站系列教程】是我的亲身建站经历写给广大建站同胞们的教学博客。
喜欢的话点个赞吧~ 评论区欢迎交流讨论~
网站主题
首先,在做网站之前,得明确自己是要做什么网站,为什么要做网站。以下分类只针对个人站长:
- 个人博客:这个不多说,主要以分享技术为主
- 赚取IP的网站:这些网站主题有很多,小说、视频、软文等等
- 正规用户网站:这个大多是个人创业的网站
- ……
为网站选择一个好主题,至关重要。我在做这个网站的时候,是为了赚点击接入广告的,觉得小说类的网站点击量应该会非常大,所以打算做个(盗版)小说网。
【注】不要做那些盗版事物的网站,限制太多。至于我的小说网,大家接着看下去。
数据源
什么是数据源?顾名思义,就是网站里面的信息来源。
网站里面的信息当然以原创最佳,但是绝大多数站长都是用网上已有的信息。比如,信息采集器、小说采集器、爬网页、抓接口等等。这里我们来分类一下常见网站的信息来源,我们以小说网站为例:
- 1、信息来源于配套的数据库
- 2、信息来源于其他网站的api接口
- 3、信息来源于python爬虫
数据来源于数据库
有关于数据库的知识,不再重复,这里主要介绍数据库与建站的关系
当你买了一个服务器之后,一般会有一个镜像系统,然后会配套有一个数据库。当我们把网站数据放在这个配套的数据库里面,查询和请求数据就会很快。
优点:
查询速度快,自己的数据不怕丢失
缺点:
像我想做个小说网站那样的,一本小说动辄2000章,一本下来大概有5M,网站书库有10W本的话,您算算这数据库得多大容量。所以对于我们这些小站长来说,缺点也是显而易见的,就是太占存储空间。
相关做法:
1、手动导入数据库信息,这个成本太高,一般采取方法23。
2、爬api接口,然后把api返回的数据写脚本导入到自己的数据库。
3、写python脚本,爬数据导入到自己的数据库。
数据来源于api接口
这里我会写几篇教程,帮助大家提取网站、手机的api接口,超实用。请大家移步查看我的fiddler抓包教程。
对于我们程序员来说,破解别人的网站、接口是一件大块人心的事情。而拥有api接口的我们更是可以为所欲为(哈哈)。
因为把小说放在自己的数据库的不现实,所以我把目标放在一些小说的开发api上。后来查了一大堆资料,得用抓包工具去抓接口,于是我去了,且成果显著,在后续的博客中我会把小说的开发api免费分享给大家。
优点:
自己不需要建数据库,占空间少,拿别人的接口直接用。
缺点:
1、别人的接口终归是别人的,某天别人把接口关了,你的网站就凉凉了。
2、而且,直接调用api接口,会对网站的响应速度有很大影响。
3、因为接口原因,你只想请求10条数据,但是你不知道接口参数,所以每次都返回个1000条数据,可想而知,这多占速度。
获取api相关做法:
1、看网站源码,看看能不能提取出来有用的接口。
2、用fiddler抓包。后续有教程
3、去正规网站购买api服务。
数据来源于python爬虫
贴士:爬虫的话一般是搜索引擎用的比较多,因为它需要爬全网的网站来做排名、权重等等。就个人而言,爬虫了解会用就行,没必要深入。
我不知道python爬虫为什么挺火的。但是说实话,js、PHP、java哪个没有能力爬虫?可能后者的沉淀比较深,不去与python争罢了。
python爬虫相关做法:
1(实用)、一般做法是,针对某个网站去写python脚本,然后提取信息导入到自己的数据库里面。
2(鸡肋)、利用爬虫技术(说白了就是正则表达式处理字符串),封装成api,供自己调用。这个不推荐,因为这个耗时比直接调用数据接口还长得多。
总结
在做网站之前,选好网站的主题与内容,然后去找数据。
【建站系列教程】2、数据源相关推荐
- 【建站系列教程】7、SEO优化之meta标签【最后一篇】
[建站系列教程]7.SEO优化之meta标签[进阶] 写在前面:大家好,我是热爱编程的小泽. [建站系列教程]是我的亲身建站经历写给广大建站同胞们的教学博客. 喜欢的话点个赞吧~ 评论区欢迎交流讨论~ ...
- 【建站系列教程】6、.htaccess文件的url重写规则-网页伪静态化
[建站系列教程]6..htaccess文件的url重写规则-网页伪静态化 如何创建.htaccess文件? .htaccess是什么 htaccess语法教程 写在前面:大家好,我是热爱编程的小泽. ...
- 【建站系列教程】5、谈一谈网站的静态化
[建站系列教程]5.谈一谈网站的静态化[进阶] 动态页面?静态页面?伪静态页面? 三个页面有何优缺点? 为什么要让网页静态化 如何网页伪静态化? 写在前面:大家好,我是热爱编程的小泽. [建站系列教程 ...
- 【建站系列教程】4、还不知道SEO你就OUT了
[建站系列教程]4.还不知道SEO你就OUT了[进阶] SEO的使用背景 SEO到底是什么?SEO会对网站做哪些操作? 对于程序员来说,代码优化方向的SEO能做哪些? 最后,我们才说SEO的原理 写在 ...
- 【建站系列教程】3.2、ajax使用精讲
[建站系列教程]3.2.ajax介绍 ajax的应用场景 1.form表单实现无跳转提交 2.ajax局部刷新代替刷新网页 ajax的通俗介绍 ajax的基本用法 ajax的ES写法 写在前面:大家好 ...
- 【建站系列教程】3.1、cookie介绍
[建站系列教程]3.1.cookie介绍 cookie的应用场景 1 小说网站的字体.颜色.背景颜色设置 2 隐藏url里面的参数 cookie的通俗介绍 cookie的基本用法 js版本 jQuer ...
- 【建站系列教程】3、建站基本技术介绍
[建站系列教程]3.写网页基本技术介绍 摘要 html.css.js jQuery ui框架 bootstrap jQuery-ui vue的ui 后端 采用ajax 或者 php cookie也可以 ...
- 【建站系列教程】2.3、分享一些小说的api接口
[建站系列教程]2.3.分享一些小说的api接口 一.追书神器api 二.资源二api 三.宜搜api 四.结语 写在前面:大家好,我是热爱编程的小泽. [建站系列教程]是我的亲身建站经历写给广大建站 ...
- 【建站系列教程】2.2、fiddler手机抓包教程
[建站系列教程]2.2.fiddler手机抓包教程 (全网最良心.实用教程) fiddler手机抓包原理 步骤摘要 详细步骤 1. 安装fiddler.修改配置 2. 电脑和手机连上同一个wifi 3 ...
最新文章
- SpringMVC获取请求参数-基本类型
- HikariConfig配置详解
- Java排序算快速排序_Java排序算法 [快速排序]
- matlab铁路平板车装货问题,两辆铁路平板车的装货问题最终论文
- 数据库历险记(三) | 缓存框架的连环炮
- Spring Boot——2分钟构建spring web mvc REST风格HelloWorld
- 如何创建线程?如何实现Runnable接口?
- [Java]图书管理系统
- AD原理图 PCB设计步骤
- Asus ROG Zephyrus G14 / 幻14 Ubuntu 外接HDMI显示屏检测不到,AMD核显驱动配置,AMD+Nvidia双显卡配置
- 2023年东北大学外国语言学及应用语言学考研上岸经验贴
- typora 主题下载及安装
- linux定时启动python脚本,linux定时执行python脚本
- win10配置计算机时强制关机,老鸟讲解Win10设置远程系统强制关机的详尽处理要领...
- 宇视科技线上c语言笔试答案,宇视科技2016招聘试题.docx
- PHP图书信息表books,创建一个图书表
- 超详细Redis入门教程——Redis命令(上)
- Android Studio 界面设计和运行的不一样
- 操作符(运算符)详解
- VSC的基础使用(插件和设置)
热门文章
- ‘Link‘ is not exported from ‘react-router‘
- ROS学习笔记—-- catkin
- RDKit | 定量评估类药性(QED)
- 第十三课.随机近似初步:蒙特卡洛方法
- Ubuntu下dex2jar的安装和使用
- 局部敏感哈希(Locality sensitive hash) [3]—— 代码篇
- python acm 素数个数_湘潭大学OJ-1098求区间内素数个数问题
- python输入字符串转换为公式_将python字符串转化成长表达式的函数eval实例
- QIIME 2教程. 23图形界面q2studio(2020.11)
- 图之典—可视化图表的词典