python提取百度首页链接_python获取百度热榜链接的实例方法
目标网址:
https://www.baidu.com/
要获取的内容:
链接分析:
从下图可以看出只需要获取关键字,再构建就可以了。
完整代码:
import requests
import pprint
import re
import urllib.parse
url = 'https://www.baidu.com/'
headers = {
'Host': 'www.baidu.com',
'Referer': 'https://www.baidu.com/',
'User-Agent': 你的User-Agent,
'Cookie': 你的Cookie
}
response = requests.get(url, headers=headers).content.decode('utf-8')
# 获取关键字
pat = '"pure_title": "(.*?)"'
keyword = re.findall(pat, response, re.S)
print(len(keyword))
for hot_word in keyword:
# 汉字不符合url标准,所以这里需要进行url编码
i = urllib.parse.quote(hot_word, encoding='utf-8', errors='replace')
# url构建
link = f'https://www.baidu.com/s?cl=3&tn=baidutop10&fr=top1000&wd={i}&rsv_idx=2&rsv_dl=fyb_n_homepage&hisfilter=1'
print(link)
你会发现结果很长:
但其实关键字后面的几个参数是可以去掉的,这样url就没有那么长了。
内容扩展:
python 爬取简单的百度搜索结果
爬取百度搜索结果
主要还要借助xpath helper谷歌浏览器的插件来操作更容易找到需要查找信息的xpath位置
还要首先了解一下百度搜索请求的参数 lm默认为0,天数限制,但是好像只有1有用。
默认每页10条信息,rn
pn是页码
from lxml import etree
import re
import requests
import string
import json
headers = {
"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36"
}
response = requests.get('https://www.baidu.com/s?wd=腾讯视频优惠&lm=1',headers=headers)
r = response.text
html = etree.HTML(r,etree.HTMLParser())
r1 = html.xpath('//h3')
r2 = html.xpath('//*[@class="c-abstract"]')
r3 = html.xpath('//a[@class="c-showurl"]')
for i in range(10) :
r11 = r1[i].xpath('string(.)')
r22 = r2[i].xpath('string(.)')
r33 = r3[i].xpath('string(.)')
# with open('test.txt', 'a', encoding='utf-8') as f:
# f.write(json.dumps(r11,ensure_ascii=False) + '\n')
# f.write(json.dumps(r22, ensure_ascii=False) + '\n')
# f.write(json.dumps(r33, ensure_ascii=False) + '\n')
print(r11,end='\n')
print(r22,end='\n')
print(r33)
print()
到此这篇关于python获取百度热榜链接的实例方法的文章就介绍到这了,更多相关教你用python获取百度热榜链接内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!
python提取百度首页链接_python获取百度热榜链接的实例方法相关推荐
- python 百度ocr安装_Python利用百度文字识别(OCR)服务实现图片文字提取,准确率超高...
最近和朋友聊天,聊到一个充满使命感但又略显心酸的话题--下班回家在网上给小朋友抄题...那么问题来了,除了大家所知的QQ文字识别功能之外,还有哪些方式可以做到文字识别呢. 作为一名热心的Python小 ...
- Java百度网盘创建链接,java获取百度网盘真实下载链接的方法
本文实例讲述了java获取百度网盘真实下载链接的方法.分享给大家供大家参考.具体如下: 目前还存在一个问题,同一ip在获取3次以后会出现验证码,会获取失败,感兴趣的朋友对此可以加以完善. 返回的Lis ...
- php 实现查询百度排名,PHP实现获取百度top50的搜索排行关键字
很多站长谈SEO优化时对百度热门关键词很感兴趣,合理利用热门关键词进行优化对网站排名是有帮助的,当然我说的是合理利用,可不能滥用百度关键词,起码某些关键词对应的内容应该是你的网站上可以提供的.扯远了. ...
- 用python提取图片主要颜色_Python可视化|09-使用python和R提取图片颜色绘图(五-颜色使用完结篇)...
本文是继前面四篇python可视化颜色使用的完结篇,介绍如何使用python提取图片中的颜色绘图: 如果你不想使用前人设定好的色号或者colormap,想自己从好看的图片中提取颜色,请往下看: 1.颜 ...
- 仿百度首页(可进行百度搜索)
仿制百度首页制作,搜索框可调用百度搜索 体验地址:百度一下,你就知道 网页结构: <!doctype html> <html lang="zh"><h ...
- php 百度来路关键词,php获取百度搜索关键词的方法[方法过时了]
本来是想找一段通过js获取百度关键词的方法的,结果找并且测试获取到是可以就是只能获取到英文字符,如果是汉字就会乱码!知道可能是转码的问题,使用之前用过的代码也出现这样的问题!刚好看到php获取搜索关键 ...
- python requests 动态加载_Python获取网页中动态加载的数据
Python获取网页中动态加载的数据 0.XHR 是什么? XHR是 XMLHttpRequest 对象.既Ajax功能实现所依赖的对象,在JQuery中的Ajax是对 XHR的封装. 1.查看异步加 ...
- python提取列表中文本_python提取图像的名字*.jpg到txt文本的方法
如下所示: # -*- coding:utf-8 -*- import sys sys.path.append('E:\\Anaconda\\libs') import os #os:操作系统相关的信 ...
- python微博评论情感分析_Python采集微博热评进行情感分析祝你狗年脱单
Ps: 重要的事情说三遍!!! 结尾有彩蛋,结尾有彩蛋,结尾有彩蛋. 如果自己需要爬(cai)虫(ji)的数据量比较大,为了防止被网站封Ip,可以分时段爬取,另外对于爬到的数据一般是用来存储数据库,这 ...
- python从txt拿取数据_python爬虫今日热榜数据到txt文件的源码
免费资源网 - https://freexyz.cn/ 今日热榜:https://tophub.today/ 爬取数据及保存格式: 爬取后保存为.txt文件: 部分内容: 源码及注释: import ...
最新文章
- flannel源码分析--handleSubnetEvents
- L2-003 月饼-团体程序设计天梯赛GPLT
- 【模块化开发】之 Webpack、Rollup、Parcel
- hive学习07-常见的优化
- 10-10-010-简介-官网-官网翻译
- cnn可视化 感受野(receptive field)可视化
- MySQL入门第三天(下)——存储过程与存储引擎
- MLDN Java学习笔记(3)
- 【语义分割】3、用mmsegmentation训练自己的分割数据集
- 沙箱环境和正式环境【PayPal接入(java)】【IPN通知问题】项目实战干货总结记录!
- 嵌入式使用Zbar解析二维码
- 记录微信获取平台证书支付错误 错误的签名,验签失败
- 一个JAVA渣渣的校招成长记,附BAT美团网易等20家面经总结
- gmt转换北京时间 java_java GMT 日期转换 | 学步园
- bootstrap引用glyphicon图标无法显示
- 1131 Subway Map
- 网址(url),ip地址,域名,dns,hosts,服务器
- 交换机虚拟化和堆叠的区别_交换机级联与堆叠有何区别?(内含堆叠方法)
- Modbus-RTU查表法的CRC校验
- 编辑文章 - 博客频道 - CSDN.NET