Python爬虫百度搜索

一、bs4实现

import requests
from urllib import parse
from bs4 import BeautifulSoup
import timeheaders={
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'
}def getPage(url):try:re=requests.get(url,headers=headers)re.encoding=re.apparent_encodingreturn re.textexcept:print(re.status_code)def parsePage(text):soup=BeautifulSoup(text,'lxml')content=soup.select('div .result')for item in content:try:title=item.select('h3 a')[0].texthref=item.select('h3 a')[0]['href']abstract=item.select('.c-abstract')[0].textprint("{}-{}\n{}".format(title,abstract,href))except:pass# baiketry:bk=soup.select("div .result-op .op-bk-polysemy-piccontent")[0]baike_abstract=bk.select('p')[0].text.strip()baike_title=soup.select('.result-op .c-gap-bottom-small a')[0].text.strip()baike_href=soup.select('.result-op .c-gap-bottom-small a')[0]['href']print("{}-{}\n{}".format(baike_title,baike_abstract,baike_href))except:pass# 其他人还在搜try:items=soup.select("div .result-op .list_1V4Yg a")print("其他人还在搜>>>")for item in items:e_title=item.texte_href=parse.urljoin('http://www.baidu.com',item['href'])print(e_title,e_href)except:passif __name__ == '__main__':word=parse.quote(input('请输入关键字：'))pn=int(input("请输入爬取的页数："))for i in range(pn):print("开始爬取第%d页>>>"%(i+1))url=f'http://www.baidu.com/s?wd={word}&pn={i*10}'text=getPage(url)parsePage(text)time.sleep(2)

二、正则表达式实现

import requests
import re
from urllib import parse
import timedef getPage(url):try:re=requests.get(url)re.encoding=re.apparent_encoding# with open('02_regex_baidu.html','w',encoding='utf8') as f:#     f.write(re.text)return re.textexcept:print(re.status_code)
def parse_page(html):content=re.findall(r'{"?title"?:("|\')(.*?)("|\'),"?url"?:("|\')(.*?)("|\')}',html)# baike=re.findall(r'{title:\'(.*?)\',url:\'(.*?)\'}',html)# print(content)for item in content[:-1]:print("{}\n{}".format(item[1],item[4]))# 其他人都在搜try:everybody=re.findall(r'href="(/s.*?oq=)">([-_\w\u2e80-\u9fff]+)',html)print("其他人都在搜...")for item in everybody:e_href=parse.urljoin("http://www.baidu.com",item[0])e_title=item[1]print(e_title,e_href)# 第二种方法'''everybody2=re.finditer(r'href="(/s.*?oq=)">([-_\w\u2e80-\u9fff]+)',html)print("其他人都在搜...")for item in everybody2:e2_title=item.group(2)e2_url=parse.urljoin("http://www.baidu.com",item.group(1))print(e2_title,e2_url)'''except:passif __name__ == '__main__':word=parse.quote(input("请输入关键字："))pn=int(input("请输入想爬取的页数："))for i in range(pn):print("开始爬取第%d页>>>"%(i+1))url=f"http://www.baidu.com/s?wd={word}&pn={i*10}"html=getPage(url)parse_page(html)time.sleep(2)

Python爬虫百度搜索相关推荐

python模拟百度搜索点击链接_用 Python 获取百度搜索结果链接
前言近期有许多项目需要这个功能,由于Python实现起来比较简单就这么做了,代码贴下来觉得好点个赞吧~ 代码 # coding: utf-8 import os import time import ...
python模拟百度搜索点击链接_python采集百度搜索结果带有特定URL的链接代码实例...
这篇文章主要介绍了python采集百度搜索结果带有特定URL的链接代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 #coding utf-8 ...
Python爬虫百度云加速验证码问题
Python爬虫百度云加速验证码问题问题描述解决思路实现代码最终结果问题描述第一篇博文:低手,刚学,求勿喷. 前段时间,使用爬虫访问一个磁力链接下载网站(target_url),收集电影下 ...
python爬虫-百度/360搜索
原理: 百度搜索的url为 http://baidu.com/s?wd=搜索内容 360搜索的url为 www.so.com/s?q=搜索内容百度搜素 import requests #keywor ...
python爬虫百度百科-python爬虫(一)_爬虫原理和数据抓取
本篇将开始介绍Python原理,更多内容请参考:Python学习指南为什么要做爬虫著名的革命家.思想家.政治家.战略家.社会改革的主要领导人物马云曾经在2015年提到由IT转到DT,何谓DT,DT ...
Python爬虫——百度+新浪微盘下载歌曲
本篇分享将讲解如何利用Python爬虫在百度上下载新浪微盘里自己想要的歌手的歌曲,随便你喜欢的歌手! 首先我们先探索一下我们操作的步骤(以下载Westlife的歌曲为例):打开百度,输入"W ...
python爬取热门新闻每日排行_用python查看百度搜索中今日热点事件排行榜
大家好,我是咿哑呀.我们知道,在百度搜索中,查看今日热点事件排行榜时,可以打开网址"http://top.baidu.com/buzz?b=341&c=513&fr=topb ...
python爬虫百度地图_零基础掌握百度地图兴趣点获取POI爬虫（python语言爬取）（基础篇）...
实现目的:爬取昆明市范围内的全部中学数据,包括名称.坐标. 先进入基础篇,本篇主要讲原理方面,并实现步骤分解,为python代码编写打基础. 因为是0基础开始,所以讲得会比较详细. 如实现目的所讲,爬 ...
python爬虫之搜索51job并存入mysql数据库
简介在python爬虫之51job工作搜索我们只是通过python函数将其简单打印,在此我们将其进行封装成类,打印并写入mysql数据库中. 因此我们首先需要设计mysql的库和表结构,在此我们只用 ...

Python爬虫百度搜索

Python爬虫百度搜索相关推荐

最新文章

热门文章