随笔---有关爬虫的总结
写了一些美女图片的爬虫一段时间后,
略有总结
首先,网站的连接应该分离成一个独立的文件,之前为了写得快,会直接把图片网站写在代码中,发现当我需要不断更改图片网站的时候需要不断编译代码,这样就不够优化的。
其次原因是在一些文章平台会有链接的识别,从而导致因为代码中有一些网站链接不安全,所以博客网站是不会让你发布出来的。
意思意思,网站不安全,导致代码无法传播,所以应该把代码和网址分开传播,在代码中增加自动读取文件的功能即可。
package crawlerfunc RunByStaticLinkJson(projectName string,bigTile string,sleepTime int){// 通过读取本地links.json的网址而启动的爬虫// projectName 整个网站的名称bigTilePath := InitProject(projectName,bigTile) // 这个是创建初始化linksAndPages := LoadPagesLinkFromLocal() // 加载本地links.json -> map[string]float64(interface{})StaticFilter(linksAndPages,sleepTime,bigTilePath)
}func Scout(){// 侦察linksAndPages:=LoadPagesLinkFromLocal() // 侦察读取links.json,json文件应该只有一个元素,因为侦擦多个pages无意义// 当使用的是Scout模式时候,value的值为0的时候,表示是'a'模式,当value的值是1的时候表示'img'模式for k,v := range linksAndPages{if v==0.0{ // 从json读取的数值类型是float64ScoutPages(k,"a")}else{ScoutPages(k,"img")}break // 只拿list中的第一条数据}}
随笔---有关爬虫的总结相关推荐
- 数组乱码_python 爬虫随笔-土办法治乱码
在解析网页时,时常可以看到如下情景: 即在UTF-8编码显示下,网页文字以方块形式出现,防止直接复制. 而网页显示则正常如下: 这种情况下,我们需要的仅仅是数字,则需要找到相应的字体对应规则. 当然, ...
- 【Python随笔】一天搞定,爬虫爬取w3schools的sql语句案例集
在很久以前的Easy Python系列中,介绍了通过爬虫手段爬取豆瓣电影信息的一种技术套路.今天故技重施,为了迎合先前做SQL语句分析的需要,决定爬取w3schools网站上面所有SQL案例,用作测试 ...
- python爬虫随笔3 妹子图爬虫
前言 其实最早知道python爬虫就是知乎接触的妹子图爬虫,这次等于是自己写的:很多类库都是自己喜欢那个就用那个了: 思路 首先我们需要一个导航页,然后找到我们需要的类似于列表之类的,然后得到链接集合 ...
- 随笔写一个简单的爬虫
目标:爬取damai网上即将上演的信息 1 #!/usr/bin/python 2 # -*- coding: utf-8 -*- 3 4 import requests, re 5 from bs4 ...
- Python爬虫随笔:爬取iciba上的单词发音文件
不废话,上代码 # 抓取iciba网站上的发音文件并存储到系统中 import requests import re import randomdef donwload_voice(word):uap ...
- 博客园有人随笔总数10000+?
数说博客园之----随笔总数 前两天在博客园首页的一个角落里发现一个有意思的链接:这个页面汇总了博客园积分前3000名的用户. 博客列表(按积分),这里列出了博客园的积分前三千名.恰好这阵子在折腾爬虫 ...
- python爬虫:做一个界面爬虫小软件
任务目标: 1.抓取不同类型的图片 2.编写一个GUI界面爬虫程序,打包成exe重新文件 3.遇到的难点 1.分析如何抓取不同类型的图片 首先打开网站,可以看到有如下6个类型的菜单 点击不同菜单,发现 ...
- gmail cid图片不显示_python爬虫:爬取男生喜欢的图片
任务目标: 1.抓取不同类型的图片 2.编写一个GUI界面爬虫程序,打包成exe重新文件 3.遇到的难点 1.分析如何抓取不同类型的图片 首先打开网站,可以看到有如下6个类型的菜单 在这里插入图片描述 ...
- c语言 将url图片存到本地_python爬虫:爬取男生喜欢的图片
任务目标: 1.抓取不同类型的图片 2.编写一个GUI界面爬虫程序,打包成exe重新文件 3.遇到的难点 1.分析如何抓取不同类型的图片 首先打开网站,可以看到有如下6个类型的菜单 在这里插入图片描述 ...
最新文章
- cisco 核心交换机连接两个路由器_CISCO、H3C、华为三层交换机端口二三层切换命令对比...
- 25台机器人=18名搬运工,我在徐福记工厂,围观了给旷视河图的落地现场
- web自动化测试---概述
- Linux系统电脑非正常关机之后可能出现在登录界面循环的情况
- HTMLCSS 问题
- mvc的Controller返回值类型ActionResult详解
- 进程间通信-Queue(python版)
- Java集合基础知识总结
- python正则表达式提取字符串密码_用python正则表达式提取字符串
- 如何利用python监控主机存活并邮件、短信通知
- linux 用户权限不够,linux .权限不够怎么办
- 模型的泛化能力--正则化
- 山科OJ:Problem C: Lemon
- HarmonyOS:ListContainer实现表格
- 平板插上显示无服务器,教你一招,让ipad变成免费的外置显示器!
- input输入框只能输入11位数字
- 目标检测YOLO实战应用案例100讲-面向目标检测的语义分割技术研究与应用
- 【毕业设计】大数据股票分析与预测系统 - python LSTM
- 微信小游戏云开发 | 72小时极限编程体验
- 欧拉角中各种角度的名称