简单爬取红牛分公司基本数据part01
简单爬取红牛分公司基本数据part01
此教程利用requests、re、pandas三个模块完成爬取。
导入模块:
import requests
import re
import pandas获取URL:url = requests.get('http://www.redbull.com.cn/about/branch')
代码实现:
import requests
import re
import pandasurl = requests.get('http://www.redbull.com.cn/about/branch')# 打印是否能获取URL请求
# print(url.text)# 公司名称
title_list = re.findall('<h2>(.*?)</h2>',url.text)
# print(title_list)
# 公司地址
addr_list = re.findall("<p class='mapIco'>(.*?)</p>",url.text)
# print(addr_list)
# 公司邮箱
email_list = re.findall("<p class='mailIco'>(.*?)</p>",url.text)
# print(email_list)
# 公司电话
phone_list = re.findall("<p class='telIco'>(.*?)</p>",url.text)
# print(phone_list)data_dict={"公司名称":title_list,
"公司地址":addr_list,
"公司邮箱":email_list,
"公司电话":phone_list
}df = pandas.DataFrame(data_dict)
df.to_excel(r'company.xlsx')
谢谢各位看官,后期陆续更新!!!
简单爬取红牛分公司基本数据part01相关推荐
- python--re模块及爬取红牛分公司实战演练
正则取消转义 正则器中取消转义推荐使用\(每个\只能取消一个字符的转义) 而python中取消转义推荐使用r'\n\a\t'(也可以使用\) python内置模块之re 引用方式:import re ...
- 列表表达式爬取红牛分公司数据
列表达式爬取红牛官网分公司信息 import requests import pandas as pd import bs4 response = requests.get("http:// ...
- 正则表达式爬取红牛分公司数据
正则表达式还是很好玩的,爬取红牛官网分公司信息 import requests import re import pandas as pd response = requests.get(url=&q ...
- java爬虫-简单爬取网页图片
刚刚接触到"爬虫"这个词的时候是在大一,那时候什么都不明白,但知道了百度.谷歌他们的搜索引擎就是个爬虫. 现在大二.再次燃起对爬虫的热爱,查阅资料,知道常用java.python语 ...
- Scrapy学习之第一个简单爬取小程序
1.首先,先安装scrapy模块,使用命令:pip install scrapy,安装如果出现error: Microsoft Visual C++ 14.0 is required错误的话可参考文章 ...
- (55)-- 简单爬取人人网个人首页信息
# 简单爬取人人网个人首页信息 from urllib import requestbase_url = 'http://www.renren.com/964943656' headers = {&q ...
- scrapy简单爬取内容
scrapy的简单爬取不用新建项目.安装好scrapy后编写爬虫文件 import scrapyclass ZaobaoScrapy(scrapy.Spider):name = "zaoba ...
- 爬虫实战--简单爬取小说网站的小说(面对过程)
本篇博文为简单爬取小说网站的小说代码分为三种编程思想,面对过程,面对函数,面对对象,本篇为第一种,也是最简单的一种.面对过程即已过程为中心的编程思想.这里我们把爬取的详细分为以下几个步骤: 1.下载小 ...
- python爬虫下载小说_用PYTHON爬虫简单爬取网络小说
用PYTHON爬虫简单爬取网络小说. 这里是17K小说网上,随便找了一本小说,名字是<千万大奖>. 里面主要是三个函数: 1.get_download_url() 用于获取该小说的所有章节 ...
最新文章
- 结构成员访问的三种方法
- pyzbar Unable to find zbar shared library
- prometheus+grafana+pushgateway+node-exporter+consul搭建监控系统
- 20145321 《Java程序设计》第7周学习总结
- Leetcode 59. 螺旋矩阵 II (每日一题 20210926)
- 信息学奥赛C++语言:打印字母表
- 关于c3样式在浏览器上的兼容问题
- ikun 潜入?疑似 B 站后台源码泄露
- 如何获取高质量 CV 训练数据?这个超详细上手教程不容错过
- C# PDF操作之-PDF转WORD
- 评价的等级优良差_老师问:小学考试用优良等级评价,可取吗?
- ch2第一个shiny应用_v1
- 符合应急监管要求的危化品企业双重预防数字化系统
- SM4算法大文件加密与字符串加密
- 微信小程序源码案例大全
- android2.3 微信,Android新版微信2.3支持周边朋友查找
- pc端ui图片尺寸_PC端UI设计尺寸规范?
- 【Leetcode】5 longestPalindrome python解法
- RuntimeError: CUDA out of memory. Tried to allocate 1.54 GiB...
- SpringSecurity系列学习(一):基于JWT的认证
热门文章
- springboot基于web的传染病信息管理系统的设计与实现毕业设计-附源码221124
- 卸载wps后,安装完office 2010 图标异常,类型未识别问题
- 五子棋游戏源码和核心算法的讲解(简易五子棋web版)
- 单位篮球比赛结束,感想很多
- 西安交通大学计算机考研考数学几,西安交通大学电子信息专业考研考数学几?...
- 核心项目:高并发秒杀系统(项目介绍,项目搭建,数据库,DAO)
- kafka_2.11 简单使用
- 武汉市征集人工智能领域技术成果等通知-2022年申请时间及条件
- 2016锐捷网络云课堂云网络研讨会福州闭幕 根植教育彰显“变革之力”
- C# 数字转汉字(一二三)