python提取百度首页链接_python获取百度热榜链接的实例方法

目标网址：

https://www.baidu.com/

要获取的内容：

链接分析：

从下图可以看出只需要获取关键字，再构建就可以了。

完整代码：

import requests

import pprint

import re

import urllib.parse

url = 'https://www.baidu.com/'

headers = {

'Host': 'www.baidu.com',

'Referer': 'https://www.baidu.com/',

'User-Agent': 你的User-Agent,

'Cookie': 你的Cookie

}

response = requests.get(url, headers=headers).content.decode('utf-8')

# 获取关键字

pat = '"pure_title": "(.*?)"'

keyword = re.findall(pat, response, re.S)

print(len(keyword))

for hot_word in keyword:

# 汉字不符合url标准，所以这里需要进行url编码

i = urllib.parse.quote(hot_word, encoding='utf-8', errors='replace')

# url构建

link = f'https://www.baidu.com/s?cl=3&tn=baidutop10&fr=top1000&wd={i}&rsv_idx=2&rsv_dl=fyb_n_homepage&hisfilter=1'

print(link)

你会发现结果很长：

但其实关键字后面的几个参数是可以去掉的，这样url就没有那么长了。

内容扩展：

python 爬取简单的百度搜索结果

爬取百度搜索结果

主要还要借助xpath helper谷歌浏览器的插件来操作更容易找到需要查找信息的xpath位置

还要首先了解一下百度搜索请求的参数 lm默认为0，天数限制，但是好像只有1有用。

默认每页10条信息，rn

pn是页码

from lxml import etree

import re

import requests

import string

import json

headers = {

"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36"

}

response = requests.get('https://www.baidu.com/s?wd=腾讯视频优惠&lm=1',headers=headers)

r = response.text

html = etree.HTML(r,etree.HTMLParser())

r1 = html.xpath('//h3')

r2 = html.xpath('//*[@class="c-abstract"]')

r3 = html.xpath('//a[@class="c-showurl"]')

for i in range(10) :

r11 = r1[i].xpath('string(.)')

r22 = r2[i].xpath('string(.)')

r33 = r3[i].xpath('string(.)')

# with open('test.txt', 'a', encoding='utf-8') as f:

# f.write(json.dumps(r11,ensure_ascii=False) + '\n')

# f.write(json.dumps(r22, ensure_ascii=False) + '\n')

# f.write(json.dumps(r33, ensure_ascii=False) + '\n')

print(r11,end='\n')

print(r22,end='\n')

print(r33)

print()

到此这篇关于python获取百度热榜链接的实例方法的文章就介绍到这了,更多相关教你用python获取百度热榜链接内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

python提取百度首页链接_python获取百度热榜链接的实例方法相关推荐

python 百度ocr安装_Python利用百度文字识别(OCR)服务实现图片文字提取，准确率超高...
最近和朋友聊天,聊到一个充满使命感但又略显心酸的话题--下班回家在网上给小朋友抄题...那么问题来了,除了大家所知的QQ文字识别功能之外,还有哪些方式可以做到文字识别呢. 作为一名热心的Python小 ...
Java百度网盘创建链接,java获取百度网盘真实下载链接的方法
本文实例讲述了java获取百度网盘真实下载链接的方法.分享给大家供大家参考.具体如下: 目前还存在一个问题,同一ip在获取3次以后会出现验证码,会获取失败,感兴趣的朋友对此可以加以完善. 返回的Lis ...
php 实现查询百度排名,PHP实现获取百度top50的搜索排行关键字
很多站长谈SEO优化时对百度热门关键词很感兴趣,合理利用热门关键词进行优化对网站排名是有帮助的,当然我说的是合理利用,可不能滥用百度关键词,起码某些关键词对应的内容应该是你的网站上可以提供的.扯远了. ...
用python提取图片主要颜色_Python可视化|09-使用python和R提取图片颜色绘图（五-颜色使用完结篇）...
本文是继前面四篇python可视化颜色使用的完结篇,介绍如何使用python提取图片中的颜色绘图: 如果你不想使用前人设定好的色号或者colormap,想自己从好看的图片中提取颜色,请往下看: 1.颜 ...
仿百度首页（可进行百度搜索）
仿制百度首页制作,搜索框可调用百度搜索体验地址:百度一下,你就知道网页结构: <!doctype html> <html lang="zh"><h ...
php 百度来路关键词,php获取百度搜索关键词的方法[方法过时了]
本来是想找一段通过js获取百度关键词的方法的,结果找并且测试获取到是可以就是只能获取到英文字符,如果是汉字就会乱码!知道可能是转码的问题,使用之前用过的代码也出现这样的问题!刚好看到php获取搜索关键 ...
python requests 动态加载_Python获取网页中动态加载的数据
Python获取网页中动态加载的数据 0.XHR 是什么? XHR是 XMLHttpRequest 对象.既Ajax功能实现所依赖的对象,在JQuery中的Ajax是对 XHR的封装. 1.查看异步加 ...
python提取列表中文本_python提取图像的名字*.jpg到txt文本的方法
如下所示: # -*- coding:utf-8 -*- import sys sys.path.append('E:\\Anaconda\\libs') import os #os:操作系统相关的信 ...
python微博评论情感分析_Python采集微博热评进行情感分析祝你狗年脱单
Ps: 重要的事情说三遍!!! 结尾有彩蛋,结尾有彩蛋,结尾有彩蛋. 如果自己需要爬(cai)虫(ji)的数据量比较大,为了防止被网站封Ip,可以分时段爬取,另外对于爬到的数据一般是用来存储数据库,这 ...
python从txt拿取数据_python爬虫今日热榜数据到txt文件的源码
免费资源网 - https://freexyz.cn/ 今日热榜:https://tophub.today/ 爬取数据及保存格式: 爬取后保存为.txt文件: 部分内容: 源码及注释: import ...

python提取百度首页链接_python获取百度热榜链接的实例方法

python提取百度首页链接_python获取百度热榜链接的实例方法相关推荐

最新文章

热门文章