本文目的是简单的在选定浏览器页面,按照关键字爬取自己想要的信息,关键点为跳过反爬网页的反爬机制

使用UA伪装

  • User-Agent

我们使用所爬网站中的User-Agent来进行伪装,让它以为我们是它本身的一部分,从而使得我们能够成功爬取我们需要的信息。

  • 各网站User-Agent查找方法

打开所要爬取的页面,按键盘F12,如下图内容:

代码模块

  • 该代码用例是搜狗网站
import requestsif __name__ == '__main__':# UA伪装header = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.82 Safari/537.36'}# 1.指定urlurl = "https://www.sogou.com/web?"kw = input("请输入关键字:")param = {'query' : kw}# 2.发送请求response = requests.get(url=url,params=param,headers=header)#数据获取html = response.textprint(html)response.encoding = 'utf-8'fileName = kw + '.html'with open(fileName,'w',encoding='utf-8') as f:f.write(html)print("页面获取成功!!!!")

按关键字爬取网页信息相关推荐

  1. Python 爬取网页信息并保存到本地爬虫爬取网页第一步【简单易懂,注释超级全,代码可以直接运行】

    Python 爬取网页信息并保存到本地[简单易懂,代码可以直接运行] 功能:给出一个关键词,根据关键词爬取程序,这是爬虫爬取网页的第一步 步骤: 1.确定url 2.确定请求头 3.发送请求 4.写入 ...

  2. [python] 常用正则表达式爬取网页信息及分析HTML标签总结

    这篇文章主要是介绍Python爬取网页信息时,经常使用的正则表达式及方法.它是一篇总结性文章,实用性比较大,主要解决自己遇到的爬虫问题,也希望对你有所帮助~ 当然如果会Selenium基于自动化测试爬 ...

  3. Python爬虫:Xpath爬取网页信息(附代码)

    Python爬虫:Xpath爬取网页信息(附代码) 上一次分享了使用Python简单爬取网页信息的方法.但是仅仅对于单一网页的信息爬取一般无法满足我们的数据需求.对于一般的数据需求,我们通常需要从一个 ...

  4. python正则表达式爬取网页数据_常用正则表达式爬取网页信息及HTML分析总结

    Python爬取网页信息时,经常使用的正则表达式及方法. 1.获取 标签之间内容2.获取 超链接之间内容3.获取URL最后一个参数命名图片或传递参数4.爬取网页中所有URL链接5.爬取网页标题titl ...

  5. 常用正则表达式爬取网页信息及分析HTML标签总结

    这篇文章主要是介绍Python爬取网页信息时,经常使用的正则表达式及方法.它是一篇总结性文章,实用性比较大,主要解决自己遇到的爬虫问题,也希望对你有所帮助~ 当然如果会Selenium基于自动化测试爬 ...

  6. 常用正则表达式爬取网页信息及HTML分析总结

    Python爬取网页信息时,经常使用的正则表达式及方法. 1.获取<tr></tr>标签之间内容 2.获取<a href..></a>超链接之间内容 3 ...

  7. 利用脚本动态爬取网页信息

    利用脚本动态爬取网页信息 编译环境:Jupyter Notebook (Anaconda3) 调用的包:selenium,webdrive,webdriver_manager 文章目录 利用脚本动态爬 ...

  8. Scrapy项目之自动爬取网页信息

    前文已经介绍了利用Scrapy框架与手写爬虫,比较了Scrapy框架的优势.前面介绍的scrapy框架爬取是针对一个网页的爬取,而本文介绍的是实现多个网页的自动爬取,本文将以爬取虎扑湿乎乎论坛帖子信息 ...

  9. python爬取网页信息

    最近在学习python,发现通过python爬取网页信息确实方便,以前用C++写了个简单的爬虫,爬取指定网页的信息,代码随便一写都几百行,而要用python完成相同的工作,代码量相当少.前几天看到了一 ...

最新文章

  1. 高斯--塞德尔迭代法求方程组的解(Python实现)
  2. 5、优化MySQL服务器
  3. 3个常考的SQL数据分析题(含数据和代码)
  4. 【HTML】前端性能优化之CDN和WPO的比较
  5. The Event System
  6. Kotlin入门(29)任务Runnable
  7. 拓端tecdat|R语言改进的股票配对交易策略分析SPY-TLT组合和中国股市投资组合
  8. 文字处理技术:完成了对表格的布局处理
  9. c语言九九乘法表倒三角问题,c语言问题九九乘法表
  10. r语言和python的区别-Python和R语言的区别?
  11. python并发编程gevent模块以及猴子补丁学习
  12. Windows 8/8.1/10 删除微软拼音、微软五笔输入法的方法
  13. CURL命令参数详解
  14. com组件 的劫持_IE首页被劫持跳转问题的解决方案
  15. 协议、接口、服务的联系
  16. Tair ldb(leveldb存储引擎)实现介绍
  17. Python 中的对象赋值、浅拷贝和深拷贝
  18. python登录qq邮箱_Python + Selenium 登录QQ邮箱
  19. 2021年跨境电商行业相关数据
  20. AI编译器XLA调研

热门文章

  1. 什么是 infiniband
  2. 【日拱一卒】如何编写测试用例(下)
  3. 利用上位机显示毫米波雷达数据
  4. OpenCv创建读取,显示图片与灰度,透明图片,控制图片窗口大小
  5. 2012多校联盟第二场1009 还是BFS
  6. 边带娃边赚钱,昨日共计165.52
  7. 人民日报强烈推荐的13本证书,含金量都很高!
  8. Scrapy模块爬取中华英才网招聘信息(分页)
  9. 不良贷款催收之技巧和策略
  10. 航城街道工商联(商会)领导一行莅临联诚发参观考察