Google搜索引擎关键词检索结果抓取

程序功能

  • 支持配置文件设置
  • 支持分时间段抓取
  • 支持自定义关键词抓取
  • 支持随机切换Google域名
  • 支持爬取结果过程日志记录
  • 支持爬取结果写入CSV或数据库

数据字段

  • title:标题信息
  • caption_cite:二级链接
  • caption_time:发布时间
  • caption_p:摘要信息

数据字段以列表形式存储,长度应一致,某一字段不存在则为None。

运行记录

[~] Read configuration file[+] Read completePage1:https://www.google.pn/search?hl=en&q=Confucius+Institute&tbs=cdr:1,cd_min%3A7/28/2022,cd_max:7/19/2022&start=0title:9      caption_cite:9       caption_time:9       caption_p:9......Page17:https://www.google.it/search?hl=en&q=Confucius+Institute&tbs=cdr:1,cd_min%3A7/28/2022,cd_max:7/19/2022&start=160title:158     caption_cite:158     caption_time:158     caption_p:158-----------------------------------------------------------------------------------------------------Stored in the database------------End------

常见报错

  • 网页获取错误
    • 网页源代码无法获取,或者出现Connect链接问题报错
  • 网页解析错误
    • 数据字段长度不一致,写入文件时报错

解决方案

  • 可能是谷歌网页大量爬取后需要人机验证,可以点击抓取失败的当前链接查看
  • 更换代理:可以更换ip+端口(使用代理池),或者更换代理的节点(一般换节点就能解决)

程序演示


【项目地址】

关于博主

知乎:南浔Pyer

CSDN:南浔Pyer

个人网站:DL小站

GitHub:LeonWang91

Google-Spyder:Google搜索引擎关键词检索结果抓取相关推荐

  1. 常州SEO姜东:搜索引擎的工作原理抓取、索引和排名-搜索引擎如何工作

    搜索引擎的工作原理:抓取.索引和排名 首先,出现. 正如我们在第 1 章中中提到的,搜索引擎是应答机.它们的存在是为了发现.理解和组织互联网内容,以便为搜索者提出的问题提供最相关的结果. 为了出现在搜 ...

  2. python 搜索引擎_利用Python抓取搜索引擎结果

    前一段时间一直在研究如何用python抓取搜索引擎结果,在实现的过程中遇到了很多的问题,我把我遇到的问题都记录下来,希望以后遇到同样问题的童鞋不要再走弯路. 1. 搜索引擎的选取 选择一个好的搜索引擎 ...

  3. 如何优化才能赢得搜索引擎“欢心”,提升抓取量?

    在网站优化中,站长们也是时刻不敢放松,进行不断的调整和创新优化技巧,促进优化效果提升.当网站有很好的搜索引擎抓取量时,也就意味着网站的收录趋向良好,排名提升的机会就很大,但如何优化,才能更好地吸引搜索 ...

  4. 浅析搜索引擎对网站的抓取规则有哪些方面

    众多网络优化公司都有一个共识,那就是每个搜索引擎的排名实际上都是综合网站各方面因素进行综合判定的.在某种情况下凑巧让一些网站得出了一些所谓的优化结论,实际上关于搜索引擎的算法谁都不能确保自己完全了解, ...

  5. 搜索引擎(蜘蛛)抓取内容规则

    搜索引擎spider爬虫(蜘蛛) 其实当你了解了搜索引擎的工作流程.策略和基本算法后,就可以在一定程序上避免因为不当操作而带来的不必要处罚,同也可以快速分析出很多搜索引擎搜索结果异常的原因.有搜索行为 ...

  6. php爬取百度相关关键词,PHP实现抓取百度搜索结果页面【相关搜索词】并存储到txt文件示例...

    本文实例讲述了PHP实现抓取百度搜索结果页面[相关搜索词]并存储到txt文件.分享给大家供大家参考,具体如下: 一.百度搜索关键词[脚本之家] [脚本之家]搜索链接 https://www.baidu ...

  7. python关键词排名_Python抓取爱站关键词排名数据

    Python批量下载爱站的关键字排名数据,非常好用.直接上代码: # -*- coding: utf-8 -*- from cPAMIE import PAMIE import os from Bea ...

  8. 运营商三网,如何获取,抓取 有哪些窍门!

    数据抓取有一定了解小伙伴应该知道python网络爬虫可以爬取网站,网页的数据信息,一般可以设定自己感兴趣的内容,让python网络爬虫去爬取.三网运营商大数据也是可以实时抓取网站数据的,主要包括:网站 ...

  9. 影响GOOGLE排名因素 搜索引擎优化实战

    Search Engine Optimization (SEO) - 10 Steps Leading To Success 影响GOOGLE排名因素 搜索引擎优化实战 域名问题 在申请域名前就要确定 ...

  10. python抓取google搜索结果

    1. 搜索引擎的选取 选择一个好的搜索引擎意味着你能够得到更准确的搜索结果.我用过的搜索引擎有四种:Google.Bing.Baidu.Yahoo!. 作为程序员,我首选Google.但当我看见我最爱 ...

最新文章

  1. jquery如何调用后台的方法
  2. Android应用中网络请求库Volley的使用
  3. java 无法找到ant_无法找到与ANT(mac)关联的文件
  4. 数据库的基本操作、增删查改
  5. Asp.net Ajax 的 PageRequestManager类的事件
  6. 28岁的李佳琪落户上海了
  7. 速修复!开源企业自动化软件 Apache OFBiz 出现严重的 RCE 漏洞
  8. 【深度优先搜索】计蒜客:等边三角形
  9. linux安装文泉驿字体,文泉驿的安装及配置
  10. spring 使用aop 缺少依赖包aspectjweaver.jar 和spring-aop.jar报错
  11. Pybluez Win10系统安装教程(蓝牙通信模块pybluez,Python完美安装)
  12. Linux上的arping命令介绍
  13. plsql:导出数据到excel
  14. 已知ip地址如何算默认网关
  15. worldpress自定义页面
  16. sql中如何按拼音笔画排序
  17. Docer实现Django Uwsgi部署
  18. 拼多多Temu如何批量养国外买家账号进行拉新?
  19. vue引入第三方原生js库
  20. 亚利桑那州接受加密货币纳税的计划受挫

热门文章

  1. 【渝粤题库】广东开放大学物业管理基本制度与政策 形成性考核 (2)
  2. word封面下划线长度固定
  3. 智能合约漏洞,公链的阿喀琉斯之踵
  4. oracle 还原imp,Oracle学习笔记——imp还原数据库
  5. excel的图表里如何添加上下标
  6. 活泼绵软的乐伽萌兔揉捏按摩背靠体验
  7. 使用数据库有什么好处?
  8. 操作系统和编程语言简单描述
  9. css中pt单位,css中字体单位px,pt,em,百分比之间的区别和用法
  10. Vue安装必要插件element-ui插件及axios依赖(详细)