几个月前吧,需要去北京看机床展,在去之前需要对参展公司,及其展品种类有个大体的了解。参展列表如下

http://www.cimtshow.com/ZHSExhibitorsListAction.do?actionType=showlist&topage=1&keyword=&language=zhs

一共34页,还是比较多的,如果只需要展位号,公司名称这样本页就有的信息导入excel很简单,但是为了筛选但是还要打开每个展位的“参赛展品”链接,看里面有什么种类一个个点就太麻烦了。正好之前看过简单的爬虫知识,这个用爬虫来解决是比较方便的。虽然很简单,但是第一次写爬虫,第一次用python语言,还是写了一晚上。

#!/usr/bin/env python3
import os
from urllib.request import urlopen
from bs4 import BeautifulSoup
import csvpages=[] #建立个列表来存储链接
def getLinks(url):html=urlopen(url)bsObj=BeautifulSoup(html,"lxml")a=bsObj.findAll("table")[0]bls=a.findAll("a")for aa in bls:if 'href' in aa.attrs:if aa.attrs['href']  not in pages:#我们遇到了新页面newPage=aa.attrs['href']print("http://www.cimtshow.com"+newPage)pages.append("http://www.cimtshow.com"+newPage)for j in range(34):    #这里python循环也查了好久。。是这样写的url="http://www.cimtshow.com/ZHSExhibitorsListAction.do?actionType=showlist&topage="+str(j+1)+"&keyword=&language=zhs"getLinks(url)
csvFile=open("../files/editors1.csv",'a',newline='',encoding='utf-8')
for i in range(len(pages)):html1=urlopen(pages[i])bsObj1=BeautifulSoup(html1,"lxml")rows=bsObj1.findAll("div",{"class":"zplb_w"})if len(rows):       writer=csv.writer(csvFile)csvRow=[]for row in rows:csvRow.append(row.attrs['title'])writer.writerow(csvRow)else:writer.writerow("0,无记录")  #如果链接里没有就写入无记录
csvFile.close()

python爬虫爬取机床展名录相关推荐

  1. 在当当买了python怎么下载源代码-python爬虫爬取当当网

    [实例简介]python爬虫爬取当当网 [实例截图] [核心代码] ''' Function: 当当网图书爬虫 Author: Charles 微信公众号: Charles的皮卡丘 ''' impor ...

  2. python爬虫代码实例-Python爬虫爬取百度搜索内容代码实例

    这篇文章主要介绍了Python爬虫爬取百度搜索内容代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 搜索引擎用的很频繁,现在利用Python爬 ...

  3. python爬虫数据分析可以做什么-python爬虫爬取的数据可以做什么

    在Python中连接到多播服务器问题,怎么解决你把redirect关闭就可以了.在send时,加上参数allow_redirects=False 通常每个浏览器都会设置redirect的次数.如果re ...

  4. python爬虫爬取csdn博客专家所有博客内容

    python爬虫爬取csdn博客专家所有博客内容: 全部过程采取自动识别与抓取,抓取结果是将一个博主的所有 文章存放在以其名字命名的文件内,代码如下 #coding:utf-8import urlli ...

  5. python网易云_用python爬虫爬取网易云音乐

    标签: 使用python爬虫爬取网易云音乐 需要使用的模块 只需要requests模块和os模块即可 开始工作 先去网易云音乐网页版找一下你想要听的歌曲点击进去.按键盘F12打开网页调试工具,点击Ne ...

  6. 使用Python爬虫爬取网络美女图片

    代码地址如下: http://www.demodashi.com/demo/13500.html 准备工作 安装python3.6 略 安装requests库(用于请求静态页面) pip instal ...

  7. python如何爬取网站所有目录_用python爬虫爬取网站的章节目录及其网址

    认识爬虫 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引.模拟 ...

  8. 运用Python爬虫爬取一个美女网址,爬取美女图

    运用Python爬虫爬取一个美女网址,爬取美女图 要运用到的python技术: 导入库 1.request 发送请求,从服务器获取数据 2.BeautifulSoup 用来解析整个网页的源代码 imp ...

  9. Python爬虫|爬取喜马拉雅音频

    "GOOD Python爬虫|爬取喜马拉雅音频 喜马拉雅是知名的专业的音频分享平台,用户规模突破4.8亿,汇集了有声小说,有声读物,儿童睡前故事,相声小品等数亿条音频,成为国内发展最快.规模 ...

  10. Python爬虫 爬取新浪微博热搜

    Python爬虫 爬取新浪微博热搜 文章目录 Python爬虫 爬取新浪微博热搜 网页分析 数据爬取 数据存储 全部代码 网页分析 找到热搜的排名,标题和热度,发现它们在同一路径 数据爬取 impor ...

最新文章

  1. 802.11n 中HT20 HT40的区别和信道划分
  2. python教程:几个基础类型循环删除
  3. Hacking techniques automation
  4. 寄存器讲解--汇编(32位处理器)
  5. 牛客题霸 [滑动窗口的最大值] C++题解/答案
  6. 减治法解决八枚硬币问题/假币问题(JAVA)----二分,三分,不知轻重的情况
  7. IEEE 754——计算机中浮点数的表示方法
  8. 蓝牙路由器系列产品:企业级Cassia E1000
  9. c++邮递员投递经过特定点_关于中国邮递员问题和欧拉图应用
  10. 十二个“一”---十二位胜似亲人的悲情向团体详解
  11. 浏览器清理缓存的几种方法
  12. ASP.NET WEBAPI实现微信接入验证
  13. 考研计算机300分什么水平,2020考研成绩达到300分是什么水平?
  14. c3po数据库连接池简单配置
  15. 5, 10,15,20-四(4-甲氧羰基苯基)卟啉(TPPCOOMe)/5-(对亮氨酸丁氧苯基 )-10 ,15 ,20-三苯基卟啉锌配合物(Zn[Leu-TPP]齐岳定制
  16. GitHub在Markdown中插入仓库中的图片
  17. spark count统计元素个数
  18. mysql truncate操作可能导致 数据表不存在
  19. 宝宝咳嗽时的8大禁忌
  20. hypermesh 连接单元_超低延时 13mm超大动圈单元 QCY T8S半入耳游戏耳机_蓝牙耳机

热门文章

  1. redis配置文件redis.conf中bind详解
  2. 电流环扰动观测器、PI参数自动生成 观测器对扰动进行补偿,能有效提高电流环抗扰动能力,并且能对反电势扰动起到很好的作用
  3. 2020年高压电工考试APP及高压电工模拟考试软件
  4. 图新地球点云大师:点云数据三维可视化管理及等高线提取
  5. 程序员自学成才-老程序员给新手的四条自学经验
  6. 读书APP的不二备胎,我选了网易蜗牛读书
  7. freeswitch对接阿里语音识别(非mrcp方式)+简单asr空号检测
  8. 实现简单的中英互译的安卓App
  9. 基于51单片机控制的BUCK开关电源Proteus仿真
  10. DXGI_FORMAT enumeration (dxgiformat.h)