需要结合:《百度搜索引擎关键字URL采集爬虫优化行业定投方案高效获得行业流量-代码篇》一起学习
#百度搜索引擎关键字URL采集爬虫优化行业定投方案高效获得行业流量
 
#知识点
'''
1 网络爬虫
2 Python开发网络爬虫
3 requests库
4 文件操作
'''
 
#项目结构
'''
key.txt                 关键字文档,根据这个文档中的关键字进行爬取
demo.py               爬虫文件内容了
res/软件开发.txt    爬虫采集来的URL
'''
 
#在Pycharm中新建项目:C:...0501
#该项目暂时没有多线程和多进程
#在项目中新建脚本spider.py
 
#版本信息
'''
1 环境              python3
2 第三方模块  requests     安装方法 pip install requests
3 IDE               PyCharm
'''
 
#数据在哪里?爬取哪里的数据呢?
#打开浏览器,打开百度,在搜索框中输入“程序设计”  点击“百度一下”按钮,在百度返回的信息中,广告部分不要,其余部分的每个网站的网址
 
#爬虫其实就是在模拟浏览器,向目标网站发一个http请求,这个http请求是如何发送的呢?
#在浏览器按F12,可以帮助我们监控浏览器发送的请求,,90%以上的网站都是基于http请求的
#在搜索框中输入“程序设计”,点击 “百度一下”按钮之后,在Network栏会出现很多数据,每一条数据都代表一个http请求
 
#点击“百度一下”按钮之后,展示的页面超文本是什么样子的呢? 在空白的地方右键-->"查看网页源代码",就会发现网页其实就是一个html文本,经过浏览器处理,展示成用户看到的样子。前台看到的每一项信息都会是一个<a></a>标签,是一个超链接来的。
#所以首先需要找到html文本中的<a>标签中的超链接信息,在Network中的每个http请求的Respont栏下都有很多信息,想要拿到这个数据,就要去Headers栏下去找Request URL信息(如:Request URL:https://ss3.baidu.com/6ONWsjip0QIZ8tyhnq/ps_default.gif?_t=1525188253376)。
 
#要想访问一个网页首先需要知道的是,网址栏中的URL,如:https://www.baidu.com/s?wd=%E7%A8%8B%E5%BA%8F%E8%AE%BE%E8%AE%A1&rsv_spt=1&rsv_iqid=0x967855b80019cdd1&issp=1&f=8&rsv_bp=0&rsv_idx=2&ie=utf-8&tn=baiduhome_pg&rsv_enter=0&rsv_sug3=3&rsv_sug1=2&rsv_sug7=100&inputT=643536&rsv_sug4=644636
 
 
#过一遍原理
#网络爬虫
'''  简单定义一下什么是爬虫
本质上就是一个程序,在获取text之前的这几行代码就是一个爬虫了
这个程序可以模拟浏览器自动去互联网上下载我们需要的网络资源
'''
 
#网络资源
'''
在互联网上能够访问到的图片、视频、网页、文件等
每一个网络资源,通过什么访问呢?
比如网页要通过网址来访问 url
'''
 
#url
'''
全球统一资源定位符
'''
 
#浏览器的工作流程
'''
第一步:浏览器先要访问某个资源,首先要有URL,根据这个URL去访问网络资源,这个url执行其对应的服务器,根据URL,浏览器发送HTTP请求(常用的两种方式get/post)
 
忽略服务器的处理环节了(毕竟不是web开发)
 
第二步:服务器把结果返还给浏览器,返回就是HTTP响应,正常情况下,正常返回的数据,浏览器会从中解包数据进行渲染、展示(如果是图片就展示成图片)给用户
 
不同的爬虫区别就在请求的部分了,根据爬的网站不同,get()需要带的参数就不同
'''
#爬虫的原理讲完了
#难在分析过程
#简单在就是发送一个http请求
 
#开发爬虫的几个步骤
'''
1,找到目标数据
        找到目标数据所在的页面或目标数据所在的url
 
2,找到数据的加载流程
        分析怎么发送http请求的
        
3,发送http请求
        模拟浏览器,在“浏览器的工作流程”中有介绍
        
4,提取数据
        数据清洗、处理
 
5,数据持久化
        入库或写入文件
'''
 
#获取到response之后,就是数据处理环节了,从返回的页面html中提取有用的信息,做数据清洗--这个环节就要用到正则表达式的内容了
 
分析出每一条返回的结果都会被class="result c-container"的div包裹,其中的 href = ""中的内容就是我们想要的URL,就要用正则表达式去从text中提取出这一部分内容,,这一部分尽量用正则表达式去写吧,BeautifulSoap等底层也是正则表达式,效率是没有直接用正则表达式高的。
 
#需要复习一下正则表达式的内容
 
#需要复习一下文件操作
 
#需要复习一个html的知识
 
#学习正则表达式的方法:
'''
    不要贪心,,很多人学习正则很贪心,以为只要看一下就能把所有元字符都学会,如果这么去想就是给自己找不痛快。
    需要逐个学习元字符,,每学一个元字符,要多练,自己设计字符串去匹配。不停地去写,直到把这个元字符弄懂弄透了。
    什么叫弄懂弄透了?就是3天以后再回来看,还能把它写出来。
'''
 
 
#学习方法:
#听课学习的是老师的思路,直到大概怎么做,课下再去研究。不会的时候再来看看视频,看看笔记。
 
 
#写代码方法:死去活来法
#先把程序写死,然后不停地优化,最后能让程序适应多种情况
 
 
#如何学习第三方库
#学习别人的代码,看文档知道怎么用就行了
 
 
----------------------------------------------爬虫部分学完了
 
 

转载于:https://www.cnblogs.com/avention/p/8981563.html

百度搜索引擎关键字URL采集爬虫优化行业定投方案高效获得行业流量-笔记篇相关推荐

  1. 全网采集工具(msray)-百度搜索引擎关键词全网采集

    全网采集工具(msray)-百度搜索引擎进行全网采集 Msray-plus,是一款采用GO语言开发的企业级综合性爬虫/采集软件. 支持:搜索引擎结果采集.域名采集.URL采集.网址采集.全网域名采集. ...

  2. 百度搜索引擎优化指南3.0_深圳网站搜索引擎排名优化电话,百度优化排名费用_华阳网络...

    天津华阳在线科技有限公司为您详细解读深圳网站搜索引擎排名优化电话,百度优化排名费用的相关知识与详情:网站的主页标题是百度SEO的关键.你想要的主要关键词应该反映在标题中.如果标题写得好,百度很快就收录 ...

  3. python批量关键字百度搜索结果url解码

    代码块思路: 读取TXT文件中的关键了,每行1个: 按关键字批量采集百度搜索结果前10名:采集格式为搜索词.匹配排名标题.匹配排名URL(加密结果).对应排名等信息 批量对于百度加密后的URL进行解密 ...

  4. 百度搜索引擎优化指南 2.0

    前言 根据 DCCI2010 年中国互联网站长生存与发展状况调查的数据显示,中国互联网站长月收入在 500 元以下以及无收入的比例超过 50%,主要盈利模式仍以广告为主,大多数的互联网创业者面对着巨大 ...

  5. 百度搜索引擎优化技巧

    (被奉百度排名优化的圣经) 相信不少站长都听说过站长世界webmasterworld.com(也有的是翻为网管世界)这个论坛.这是世界上最著名的站长们聚集的地方,谈论各种与网站有-关的话题,包括搜索引 ...

  6. 2012-2013百度搜索引擎优化大事记

    回顾2012年至今搜索引擎的一些事件,可以让大家更好滴认知搜索引擎,并为自己的未来优化指明一个方向.走在搜索引擎的前面,是我们必须要做的,而不是一直跟在后边.那么,如何做呢?通过了解一些事件,我们可以 ...

  7. php搜索引擎的数据哪里来,PHP获取搜索引擎关键字来源的函数(支持百度和谷歌等搜索引擎)...

    最近遇到一个项目,客户需要一个功能,一个商品销售下单需要知道用户下单是从哪个途径来的,认为客服软件(53客服)和站长统计只能满足工作时间,及晚上下班和周六日休息,客服不在线,用户下单会不知道该订单的具 ...

  8. 多搜索引擎关键词采集域名采集URL采集联系人采集工具

    多搜索引擎关键词采集域名采集URL采集联系信息采集工具 Msray-plus,是一款采用GO语言开发的企业级综合性爬虫/采集软件. 1:可从国内外多个搜索引擎批量采集用户导入的关键词对应的搜索结果(S ...

  9. seo优化notfallow有二种下拉菜单百度搜索引擎

    爱下载分享高品质外链资源在seo优化中的功效 notflow标识在seo优化中很普遍.其实际效果是告知百度搜索引擎不必追踪连接,并避免他们向网页页面或连接传送净重.notfallow有二种创作方法:网 ...

最新文章

  1. “95后”曹原又双叒叕发Nature了!1个月2篇,已经第6篇了……
  2. OpenCV2马拉松第22圈——Hough变换直线检測原理与实现
  3. linux上安装配置vsftpd
  4. 2021 - 10 -7 ! 二叉树的前序、中序、后序遍历 非递归思路(迭代版本)
  5. leetcode 388. Longest Absolute File Path | 388. 文件的最长绝对路径(栈+DFS)
  6. Mysql数据库正则表达式
  7. greenplum 查询出来的数字加减日期_Python实践代码总结第5集(日期相关处理)
  8. 计算机网络应用简介_计算机网络简介
  9. webpack是什么?为什么要用webpack(一个小白的感想)
  10. zookeeper在linux环境安装
  11. 监控IIS的运行状态
  12. Matlab资料汇总暨MATLAB中文论坛帖子整理(二)
  13. Visual Studio(VS) 2019版本下载官方地址
  14. 游戏的初级体验,三围:视、听、触的展示
  15. 推荐这几个阿里、抖音、快手超级牛逼的技术大佬的公众号!
  16. CC2530—MQ-2气敏式烟雾传感器
  17. python人狗大战csdn在线
  18. 大数据立法 贵阳走在前列
  19. zoj 3864 Quiz for EXO-L(连通块 bfs)
  20. 来黑马,赢得漂亮!(黑马11月开班时间)

热门文章

  1. Danfo.js专题 - Series对象
  2. Python实战技术 - Python虚拟隔离环境 和 Docker技术
  3. python︱ collections模块(namedtuple/defaultdict/OrderedDict等)
  4. fastText分类器
  5. 分类问题的评价及matrix , precision, recall
  6. Oracle BIEE 链接oracle 数据库的问题,报:Check if 'Oracle OCI 10G' database client is installed
  7. 常用js(javascript)函数
  8. Analytic Functions in Oracle 8i and 9i
  9. 利用jmeter对mysql数据库进行压力测试
  10. 3D应用开发中的欧拉角和旋转矩阵