requests

文档:http://cn.python-requests.org/zh_CN/latest/

安装:pip --timeout=100 install requests

[ python ] pip 配置国内镜像源(亲测有效)


百度搜索

  • 一个简单地小例子
  • 基于requests模块的get请求
  • 爬取百度搜索首页
import requestsif __name__ == "__main__":url = "https://www.baidu.com"response = requests.get(url)response.encoding = 'utf-8'print("状态码:" + str(response.status_code))page_text = response.textprint("页面内容:" + page_text)with open('./baidu.html', 'w', encoding='utf-8') as fp:fp.write(page_text)print('爬取数据结束!')

搜狗搜索

  • 基于requests模块的get请求
  • 爬取搜狗指定词条对应的搜索结果页面
import requestsif __name__ == '__main__':headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'}url = 'https://www.sogou.com/web'kw = input('输入查询关键字:')param = {'query': kw}response = requests.get(url, param, headers=headers)page_text = response.textfileName = kw + '.html'with open(fileName, 'w', encoding='utf-8') as fp:fp.write(page_text)print('数据爬取结束!')

百度翻译

  • 基于requests模块的post请求
  • 破解百度翻译
import requests
import jsonif __name__ == '__main__':headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'}post_url = 'https://fanyi.baidu.com/sug'word = input('输入查询关键字:')data = {'kw': word}response = requests.post(post_url, data, headers=headers)dic_obj = response.json()print(dic_obj)fileName = word + '.json'fp = open(fileName, 'w', encoding='utf-8')json.dump(dic_obj, fp, ensure_ascii=False)print('数据爬取结束!')

豆瓣喜剧电影排行榜

  • 基于requests模块ajaxget请求
  • 爬取链接:https://movie.douban.com/
  • 爬取豆瓣电影分类排行榜 - 喜剧片
import requests
import jsonif __name__ == '__main__':headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'}param = {"type": "24","interval_id": "100:90","action": "","start": "0","limit": "20",}url = 'https://movie.douban.com/j/chart/top_list'response = requests.get(url, param, headers=headers)dic_obj = response.json()print(dic_obj)fileName = '豆瓣电影排行榜.json'fp = open(fileName, 'w', encoding='utf-8')json.dump(dic_obj, fp, ensure_ascii=False)print('数据爬取结束!')

企业信息爬取

  • 爬取链接:http://125.35.6.84:81/xk/
  • 爬取企业化妆品生产许可证信息
import requests
import json
if __name__ == '__main__':headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) ''Chrome/78.0.3904.108 Safari/537.36 '}url = 'http://125.35.6.84:81/xk/itownet/portalAction.do?method=getXkzsList'# 企业 id 列表id_list = []detail_list = []# 获取前两页企业 id,30 条idfor page in range(1, 3):page = str(page)param = {"on": "true","page": page,"pageSize": "15","productName": "","conditionType": "1","applyname": "","applysn": "",}response = requests.post(url, param, headers=headers)json_ids = response.json()for dic in json_ids['list']:id_list.append(dic['ID'])post_url = 'http://125.35.6.84:81/xk/itownet/portalAction.do?method=getXkzsById'for id in id_list:data = {'id': id}res = requests.post(post_url, data, headers=headers)detail_json = res.json()detail_list.append(detail_json)fileName = '企业信息.json'fp = open(fileName, 'w', encoding='utf-8')json.dump(detail_list, fp, ensure_ascii=False)print('数据爬取结束!')

来源:爬虫开发入门丨老男孩IT教育


[ Python ] 爬虫类库学习之 requests,爬取豆瓣喜剧电影排行榜相关推荐

  1. Python爬虫实战之一 - 基于Requests爬取拉勾网招聘信息,并保存至本地csv文件

    Python爬虫实战之二 - 基于Requests抓取拉勾网招聘信息 ---------------readme--------------- 简介:本人产品汪一枚,Python自学数月,对于小白,本 ...

  2. [python爬虫] BeautifulSoup和Selenium对比爬取豆瓣Top250电影信息

    这篇文章主要对比BeautifulSoup和Selenium爬取豆瓣Top250电影信息,两种方法从本质上都是一样的,都是通过分析网页的DOM树结构进行元素定位,再定向爬取具体的电影信息,通过代码的对 ...

  3. 【Python爬虫案例学习21】爬取某站上海租房图片

    ####前言 其实很简短就是利用爬虫的第三方库Requests与BeautifulSoup. 其实就几行代码,但希望没有开发基础的人也能一下子看明白,所以大神请绕行. ####基本环境配置 pytho ...

  4. python爬虫——使用代理和xpath爬取豆瓣读书

    根据豆瓣读书的所有标签自动创建文件夹,使用代理防止被反爬.但是我的代理好像是假的,还是被反爬了-通过设置cookie爬取,但是爬取一定数量后需要在浏览器手动进行验证码输入-总的来说,代码写的很麻烦 i ...

  5. 超实用的爬虫利器selenium 爬取豆瓣喜剧电影排行榜数据

    话不多说上代码 这里依然选择的是反爬最少对新手友好的豆瓣小可爱 之前的招聘网站反爬都tui厉害... selenium库和chromedriver 的环境变量问题网上都有很多教程这里不再赘述 唯一需要 ...

  6. python爬取豆瓣电影信息可行性分析_Python爬虫实现的根据分类爬取豆瓣电影信息功能示例...

    本文实例讲述了Python爬虫实现的根据分类爬取豆瓣电影信息功能.分享给大家供大家参考,具体如下: 代码的入口:if __name__ == '__main__': main()#! /usr/bin ...

  7. python爬虫之股票数据定向爬取

    python爬虫之股票数据定向爬取 功能描述 目标:获取上交所和深交所所有股票的名称和交易的信息 输出:保存到文件中 技术路线:requests-bs4-re 前期分析 选取原则:股票的信息静态存在H ...

  8. python爬虫初学实战——免登录爬取easyicon里的vip图标(2)

    python爬虫初学实战-免登录爬取easyicon里的vip图标(2) 实验日期:2020-08-09 tips:没看过前面(1)的可以康康,指路 -> 爬取easyicon里的png图标 成 ...

  9. python爬虫 - 起点女生榜单爬取 - 1

    python爬虫 - 起点女生榜单爬取 ​ 最近一直在追庆余年,顺带瞄了一眼小说,真真是精彩(虽然因为范闲多妻的设定接受不了就放弃了). ​ 说来说去,还是钟爱女频的修仙小说,所以就想爬一下起点女生网 ...

最新文章

  1. chapter 2 自定义数据类型
  2. MySQL5.5编译方式安装实战
  3. IdentityServer4
  4. linux常用的BootLoader U-boot的前世今生
  5. iOS播放器 - AVPlayer
  6. nginx nodejs环境配置_Linux 环境变量配置(Nodejs/MongoDB/JDK/Nginx)
  7. HIVE SQL 时间函数
  8. grasshopper for rhino 6下载_福利篇 | Rhino常用插件功能汇总
  9. HTML期末大作业~学生个人博客静态页面模板(HTML+CSS+JavaScript)
  10. 如何应用计算机键盘截图,怎么在电脑中使用键盘截图?
  11. html页面太大了怎么调小,html – 如何在调整浏览器窗口大小时保持绝对定位的元素...
  12. ahocorasick库的简单使用
  13. 【随笔记】Deepin20 Linux 下安装编译NGINX
  14. 向量个数,向量维数,向量空间维数
  15. 推荐几个在线处理文件、图片、音视频的工具,免费又好用!
  16. 总结一波 Redis 面试题,收藏起来!
  17. 为什么工具类App,都要做一个社区?
  18. Webpack 4教程 - 第四部分,使用SplitChunksPlugin分离代码
  19. 机器人系统设计与制作:Python语言实现2.5 用Blender制作机器人的三维模型
  20. 大端字节序和小端字节序

热门文章

  1. D. Who killed Cock Robin--“今日头条杯”首届湖北省大学程序设计竞赛(网络同步赛)...
  2. 网宿科技携手亚马逊云科技,助力云计算成为真正的生产力
  3. 使用Hexo在GitHub Pages上搭建部署免费的个人博客网站(上:GitHub搭建)——最详细全面解读教程(没有之一)
  4. partprobe 和 partx 的用法
  5. 使用MFC界面库LibUIDK
  6. 刷题总结——火柴排队(NOIP2013)
  7. 41、用户sa登录失败,错误18456
  8. 快速揭开Word制表位设置的神秘面纱【系统收藏】
  9. “打卡土鸡”打通养鸡信息壁垒,解决土鸡信任危机
  10. Hbase面试题(持续更新)