目录

Python爬虫

【导入第三方库】

【类的初始化】

【发起请求】

【解析响应】

【循环解析】

【格式化数据】

【记录信息】

【打印结果】

【----------实现效果------------】


Python爬虫

【导入第三方库】

import json
import requests
from lxml import etree

【类的初始化】

class Baidu_requests(object):def __init__(self):pass

【发起请求】

    def baidu_test(self, url='https://www.baidu.com/s?wd=成都&rsv_spt=1'):'''百度一下:取出标题、描述、url:param url: 成都:return: None'''headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36", "Content-Type": "text/html;charset=utf-8"}response = requests.get(url, headers=headers)res_text = response.text.encode('gbk', 'ignore').decode('gbk')

【解析响应】

        res_text = response.text.encode('gbk', 'ignore').decode('gbk')html = etree.HTML(res_text, etree.HTMLParser())html_h3 = html.xpath('//*[@id="content_left"]/div[@id]')

【循环解析】

# 遍历信息for i in range(len(html_h3)):try:str_xpath_1 = f'//*[@id="content_left"]/div[@id="{int(i) + 1}"]//h3'res_title_1 = html.xpath(str_xpath_1)[0].xpath('string(.)')except:res_title_1 = str_xpath_1try:str_xpath_2 = f'//*[@id="content_left"]/div[@id="{int(i) + 1}"]//div'res_comment_2 = html.xpath(str_xpath_2)[0].xpath('string(.)')except:res_comment_2 = str_xpath_2try:str_xpath_3 = f'//*[@id="content_left"]/div[@id="{int(i) + 1}"]//a/@href'res_url_3 = html.xpath(str_xpath_3)[0]except:res_url_3 = str_xpath_3

【格式化数据】

            # 格式化信息res_title_1 = str(i + 1) + "." + str(res_title_1.encode('gbk', 'ignore').decode('gbk')).strip()res_comment_2 = res_comment_2.encode('gbk', 'ignore').decode('gbk').replace(" ", '').replace("\n", '')res_url_3 = res_url_3.encode('gbk', 'ignore').decode('gbk').strip()

【记录信息】

            # 记录信息with open('response_2021.txt', 'a+', encoding='utf-8') as write:write.write(res_title_1 + '\n')write.write(res_comment_2 + '\n')write.write(json.dumps(res_url_3, ensure_ascii=False) + '\n')write.write('\n')

【打印结果】

            # 打印信息print("Total:", len(html_h3), "\nUrl  :", url, "\n")print(res_title_1, end='\n------------------------\n')print(res_comment_2, end='\n')print(res_url_3, end='\n\n')if __name__ == "__main__":Baidu_requests().baidu_test()

【----------实现效果------------】

D:\TestFiles\Python3\python.exe D:/Mytest/Svnbucket/Python3/临时文件/Baidu_request.py
Total: 11
Url  : https://www.baidu.com/s?wd=成都&rsv_spt=1 1.成都(四川省省会、副省级市) - 百度百科
------------------------
重播进入百科成都,简称“蓉”,别称蓉城、锦城,是四川省省会、副省级市、特大城市、成渝地区双城经济圈核心城市,国务院批复确定的中国西部地区重要的中心城市,国家重要的高新技术产业基地、商贸物流中心和综合交通枢纽。截至2019年,全市下辖12个市辖区、3个县、代管5...历史沿革行政区划地理环境自然资源人口政治更多>baike.baidu.com/
http://www.baidu.com/link?url=-WgTsRnaxzWlsxP78BLSlzPzBaXFXLR42wPLkg7AJMVGbljm0YpuIQRipIs_hAPdo4CrUP77kzCvoJXRf2Bq4G6GI6_IA8zwG-e983ubEiO2.中国成都
------------------------
中优:让老成都嗅到“蜀都味”让新蓉漂感受“国际范”四川省政府网专栏:全力以赴坚决打赢抗击新冠肺炎疫情人民战争新闻推荐范锐平主持召开市委全面深化....user-avatar{ display:flex;   flex-direction:row; align-items:center; justify-content:flex-start;}www.chengdu.gov.cn/.snapshoot,.snapshoot:visited{color:#9195A3!important;}.snapshoot:active,.snapshoot:hover{color:#626675!important;}百度快照
http://www.baidu.com/link?url=dQKUaBQDWX_lxVDl4SILItinMPJsB79lEF4PJ0_J91lylftfO-gbJbCViQxlMNjO3.成都,吃喝玩乐背后的雄心_腾讯新闻
------------------------
3小时前如果人们要问,谁是“新一线城市”,那么,成都应该是最想摘掉“新”字的那个。在各种有关城市的指标上,比如中国第四城第五城、最宜居城市等,成都常年霸...
http://www.baidu.com/link?url=RAQOz3DNvH6pcFTacFMi3VU-pjgpA4Ov9E1X84Qkof0XdF7QWXTSvptMRjsaSpjvyIaNuckAkZTyaPDuFRP8ra4.成都市人民政府
------------------------
认识成都成都市实施幸福美好生活十大工程动员大会召开范锐平讲话王凤朝主持新闻推荐范锐平主持召开市委常委会(扩大)会议成都市重大产业化项目投资基金高能级项....user-avatar{ display:flex;   flex-direction:row; align-items:center; justify-content:flex-start;}www.chengdu.gov.cn/chengdu/ind....snapshoot,.snapshoot:visited{color:#9195A3!important;}.snapshoot:active,.snapshoot:hover{color:#626675!important;}百度快照
http://www.baidu.com/link?url=uI_4ckJQgTGbxQXotb7l-f8Lvvm2PSapolQbyJfaU3BHS_cw8BhYfaqL1u0tFqfQVErxA3ZIDtlugZvpHf3Uw_5.成都网站建设-定制做网站-成都网站制作公司-专业建站、创...
------------------------
成都创新互联科技有限公司是一家专注成都做网站,网站建设,网站设计,网络营销,服务器托管等互联网公司,专业为中小企业提供网站设计制作,网站后期维护,网站推广等一整套...
http://www.baidu.com/link?url=P-we37k8UfrvxIWs1VnLkxPDFz3758pmogHuPKSQRr6BYlg-ecATnxYYc1pWqR1M6.//*[@id="content_left"]/div[@id="6"]//h3
------------------------
其他人还在搜成都必去的十大景点成都旅游攻略成都旅游团成都三日游最佳攻略歌曲《成都》成都旅游景点成都必去的地方排行为什么成都被称为性都成都旅游景点大全排名赵雷《成都》
/s?wd=%E6%88%90%E9%83%BD%E5%BF%85%E5%8E%BB%E7%9A%84%E5%8D%81%E5%A4%A7%E6%99%AF%E7%82%B9&usm=3&ie=utf-8&rsf=11630003&rsv_dl=0_prs_28608_1&rsv_pq=f0b6a72400020cd3&rsv_t=a31dNdBxSz0hyyM0VpXeLU%2BPdoEnhPsiIv4NpvGNu2K7IYOCAmg3JAe5U7E&oq=7.成都的最新相关信息
------------------------
46分钟前重返500万!成都地铁单日客运量节后回温红星新闻随着春节假期结束,成都地铁线网客运量也迅速回温。今天(2月23日),红星新闻记者从成都地铁运营有限公司获悉,2月22日,成都地铁单日客流量达到523.22万,为今年首次重...3小时前成都普通女孩VS网红女孩网易35分钟前未来五年成都将建400所中小学幼儿园优质教育学...四川新闻网1小时前成都“顶级公务机被天降异物击穿”原因查明,修...澎湃新闻2小时前首部城市主题院线电影《成都漫步》开机腾讯新闻
http://www.baidu.com/link?url=-WgTsRnaxzWlsxP78BLSlrpdWiHwsLFgDrQa8eR880vyd1MUHbqmWzDomeC48nPxsHbJSBVK9vGKPxw8AtXpditR_ybT2QrVXLlhiBvP4kC2HoWRZWWRV9LZCmIPDjKh8.成都 - 百度汉语
------------------------http://www.baidu.com/link?url=lvT4jl9lP0uzOqAI1vksANLI7AOOrOx7Qc7A46ARSfWVF_o5yNO-3b3unFQpH50IEJqFfPJyfVHb-itC_EQ6Sf6yKJ80EfRhmi514IW0Izq8W0dunI3LM_nyRBmdTrxI4wggEmSQMtz7HKTRcdoZlq9.成都在线试听_高音质歌曲_网易云音乐
------------------------
网易云音乐酷我音乐酷狗音乐千千音乐序号歌曲歌手播放歌词01成都 赵雷  02成都    文静  03成都    曲肖冰 04成都    彭子龙 05成都    刘安琪 查看更多成都      序号歌曲歌手播放歌词01成都  降央卓玛    02成都    冯提莫 03成都    李梦瑶 查看更多成都      序号歌曲歌手播放01成都    阿兰  02成都    徐薇  查看更多成都      序号歌曲歌手播放歌词下载01成都    杨峰  02成都    蓝天城少儿艺术团    查看更多成都
http://www.baidu.com/link?url=rHqQQAjABl8e0WVtEqwsKXzbcIsraO5evjCLU3BPLVs96DjDidp_y2BcrR30mFk4izEc9kqOZqid8ifg62ZOz38eOWwGnb0VBHwyMKYhfs710.严格执法!成都曝光两起非道路移动机械违法行为
------------------------
1小时前近年来,成都市为打赢蓝天保卫战,深入推进“铁腕治霾”,减少移动源污染,改善空气质量,加大了对机动车和非道路移动机械的监管力度,严肃查处违法行为。2...
http://www.baidu.com/link?url=-i-lJNoAdS6Kudsx2F85j50UReOfwI2dRoJkVMBC7dnmJHUaiVNxJR-dRnXp1mo9VdWYn6N5q6xAMS5YDFdbx0zu4eE1ORlKxpBuiPVDyWi11.2021成都旅游攻略,成都自由行攻略,马蜂窝成都出游攻略游记...
------------------------
喜欢热闹疯狂,请来重庆喜欢小资情调,就去成都成都更加人文,底蕴更深,来这里就是放松可以使自己更沉静;如果只是单纯的为了吃好玩好那我推荐去重庆!【先说一下重庆....user-avatar{  display:flex;   flex-direction:row; align-items:center; justify-content:flex-start;}马蜂窝.snapshoot,.snapshoot:visited{color:#9195A3!important;}.snapshoot:active,.snapshoot:hover{color:#626675!important;}百度快照
http://www.baidu.com/link?url=4VqILO61Uhc8hkLPjCQQEul6lOkNLAB3YNam12ANs0V6d1dfzzRvGnpDn_StpMbhZ3jePHAjDT3Ltqwv2CkUhH7h5kvMliCg1Gkqi0gUHZe进程已结束,退出代码0

【Web_接口爬虫_Python3_百度一下_requestjsonetree】百度一下,检索“成都”,爬取标题、内容、链接地址,保存文本_20200301相关推荐

  1. 【Web_接口爬虫_Python3_豆瓣电影TOP50_threadingrequests】(豆瓣)电影TOP-50,多线程接口爬虫电影名称和地址,自动化测试案例

    #!/usr/bin/env/python3 # -*- coding:utf-8 -*- ''' Author:leo Date&Time:2019-08-30 and 18:32 File ...

  2. python爬取discuz_爬虫技术实践(二)Discuz! 按板块爬取帖子内容实战

    Discuz! 是一套由康盛创想开发的通用社区论坛软件系统,成熟度高.覆盖率大.用户可以在不需要任何编程的基础上,通过简单的设置和安装,在互联网上搭建起具备完善功能.很强负载能力和可高度定制的论坛服务 ...

  3. python爬取百度新闻所有的新闻的前1页 标题和URL地址

    这是我自己写的一个爬取百度新闻的一个代码,欢迎大家多来讨论,谢谢!(自己已经测试可以使用,在文章最后见效果图) ''' re模板:2.2.1 requests模板:2.18.4 bs4模板:4.6.0 ...

  4. java spring+mybatis整合实现爬虫之《今日头条》搞笑动态图片爬取

    java spring+mybatis整合实现爬虫之<今日头条>搞笑动态图片爬取(详细) 原文地址原博客地址 先上效果图 抓取的动态图: 数据库: 一.此爬虫介绍 今日头条本身就是做爬虫的 ...

  5. Python爬虫新手入门教学(十八):爬取yy全站小视频

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. Python爬虫.数据分析.网站开发等案例教程视频免费在线观看 https://space. ...

  6. 爬虫实战(二)—利用requests、selenium爬取王者官网、王者营地APP数据及pymongo详解

    概述 可关注微信订阅号 loak 查看实际效果. 代码已托管github,地址为:https://github.com/luozhengszj/LOLGokSpider ,包括了项目的所有代码. 本文 ...

  7. python爬去新浪微博_Python爬虫爬取新浪微博内容示例【基于代理IP】

    Python爬虫爬取新浪微博内容示例[基于代理IP] 发布时间:2020-09-07 10:08:14 来源:脚本之家 阅读:120 本文实例讲述了Python爬虫爬取新浪微博内容.分享给大家供大家参 ...

  8. Python网络爬虫数据采集实战(八):Scrapy框架爬取QQ音乐存入MongoDB

    通过前七章的学习,相信大家对整个爬虫有了一个比较全貌的了解 ,其中分别涉及四个案例:静态网页爬取.动态Ajax网页爬取.Selenium浏览器模拟爬取和Fillder今日头条app爬取,基本涵盖了爬虫 ...

  9. Python爬虫 | 对广州市政府数据统一开放平台数据的爬取

    Python爬虫 | 对广州市政府数据统一开放平台数据的爬取 简单爬虫 网页分析 爬虫代码 简单爬虫 本次爬虫演示的是对 广州市政府数据统一开放平台 数据的爬取 网页分析 我们先到url=' http ...

  10. python爬取微博文本_Python爬虫爬取新浪微博内容示例【基于代理IP】

    本文实例讲述了Python爬虫爬取新浪微博内容.分享给大家供大家参考,具体如下: 用Python编写爬虫,爬取微博大V的微博内容,本文以女神的微博为例(爬新浪m站:https://m.weibo.cn ...

最新文章

  1. JVM内存GC的骗局——JVM不抛出OOM但内存已经泄露
  2. js/css 检测移动设备方向的变化 判断横竖屏幕
  3. RocketMQ角色介绍
  4. 计算机策划知识竞赛有创意的主题,【社团活动】首届创意·科技文化节--第八届计算机趣味知识竞赛决赛...
  5. LINUX国产操作系统还缺少些什么?
  6. C语言 mallocfree
  7. 【BUAAOO】第四次博客作业
  8. filezilla的root账户无法连接服务器解决办法
  9. 硬盘服务器作用,文件服务器有什么作用?
  10. 真正彻底卸载ie8的某些加载项
  11. Objective-C JSON字符串解析
  12. python实现复联4影评数据词云可视化分析
  13. 项目管理的十个经典法则
  14. 面试时工作经验不足,如何才能打动HR?
  15. AI专家Raj Reddy建议:政府应免费发放智能手机
  16. python医疗系统代码_吴裕雄 人工智能 java、javascript、HTML5、python、oracle ——智能医疗系统WEB端初诊代码简洁版实现...
  17. 图书馆小程序—Alpha迭代—第七周会议记录
  18. 程序员对学历得要求高吗?
  19. 记一次 .NET 某电子病历 CPU 爆高分析
  20. 何俊谈阿里巴巴前端性能优化最佳实践-笔记

热门文章

  1. 好记性不如烂笔头之linux的vim命令速看
  2. 源码解析zxing条码边距及总宽度计算规则,附java使用zxing生成条形码,并去除条码两边空白
  3. 什么是云计算?这个愚蠢的流行词是什么意思?
  4. 基于CCS工程MSP430串口升级(二)
  5. 知识树软件的IPO图
  6. 50、LOLNeRF: Learn from One Look
  7. MySQL 中 TIMESTAMP 类型返回日期时间数据中带有 T
  8. 20211高考成绩查询,青岛理工大学教务系统URP成绩查询、网上选课查分 http://211.64.192.21/,精英高考网...
  9. ie11 java_如何在IE11运行Java小程序(Applet)
  10. HDU 5442 (串的最大表示+KMP)