今天尝试使用python写一个网络爬虫代码,主要是想訪问某个站点,从中选取感兴趣的信息,并将信息依照一定的格式保存早Excel中。

此代码中主要使用到了python的以下几个功能,因为对python不熟悉,把代码也粘贴在以下。

1, 使用url打开站点网页

import urllib2

data = urllib2.urlopen(string_full_link).read().decode('utf8')print data

2,使用正則表達式匹配

import re

#一般的英文匹配

reg = """a href=\S* target='_blank' title=\S*"""

dicList = re.compile(reg).findall(data)

print dicList#中文的正则匹配,须要使用中文相应的unicode码

reg=u"\u5730\u5740\S*" #“地址”相应的 unicode code

addrList = re.compile(reg).findall(sub_data)print addrList

3,写数据到excel文件

import xlrd

import xlwt

file = xlwt.Workbook()

table = file.add_sheet('hk', cell_overwrite_ok=True)

print index, name, addr, tel

table.write(index, 0, name)

table.write(index, 1, addr)

table.write(index, 2, tel)

file.save("""D:\\test.xls""")

python网络爬虫程序_使用Python写的第一个网络爬虫程序相关推荐

  1. python迷宫万花筒代码_用Python3写一个走迷宫的小程序(图形化:matplotlib,dfs,prim)...

    先看一下动态效果图(慢放): 首先生成迷宫: 主要用了两个算法:Prim和dfs 总结:Prim生成的比较像真正的迷宫,所以默认用了Prim生成迷宫 先输入n,m,会生成一个迷宫(prim生成),然后 ...

  2. cmd写java程序_用cmd写一个最简单的Java程序

    一,准备: 1.确保电脑中装有eclipse软件并且确保配置好环境变量 (1)环境变量配置方法: 特别提示:jdk和eclipse保存的路径不能有中文字符 1.打开我的电脑--属性--高级--环境变量 ...

  3. python写机器人程序_用Python写的一个多线程机器人聊天程序

    本人是从事php开发的, 近来想通过php实现即时通讯(兼容windows).后来发现实现起来特别麻烦, 就想到python.听说这家伙在什么地方都能发挥作用.所以想用python来做通讯模块...所 ...

  4. 个人用户拨号上网除了具备计算机,计算机和网络基的础知识总复习资料第一部分网络.doc...

    计算机和网络基的础知识总复习资料第一部分网络 <计算机和网络基础知识>总复习资料(第一部分网络) 第节知识绪论1. 发展史略 世界上第一台电子数字式计算机于1946年2月15日在美国宾夕法 ...

  5. 基于python的影评数据分析_基于Python聚焦型网络爬虫的影评获取技术

    龙源期刊网 http://www.qikan.com.cn 基于 Python 聚焦型网络爬虫的影评获取技 术 作者:郭向向 郑嘉慧 苗学芹 来源:<时代金融> 2019 年第 11 期 ...

  6. 基于python的网络爬虫编程_基于Python的网络爬虫程序设计

    程序设计 ●Program Design 基于 Python的网络爬虫程序设计 网络 信 息量 的迅 猛 增 长,对 如何从海量的信息中准确的搜索 到用户需要的信息提 出了极大的 挑战.网络爬 虫具有 ...

  7. 用python写投票程序_大话python最终篇,web.py 开发的投票程序demo

    概述 开发语言         python Web开发框架  web.py 前端开发框架   vuejs+elementui 数据库              mysql 设计思路 首先是数据库设计 ...

  8. python写采集程序_用python写的一个wordpress的采集程序

    在学习python的过程中,经过不断的尝试及努力,终于完成了第一个像样的python程序,虽然还有很多需要优化的地方,但是目前基本上实现了我所要求的功能,先贴一下程序代码: 具体代码如下: #! /u ...

  9. python爬表情包_【从零开始写爬虫一】批量下载表情包

    序 打算写个关于node的爬虫菜鸟教程,接下来将带大家一步一步写一个表情包爬虫,从获取页面,解析表情包链接, 清洗脏数据,下载表情包到本地.开始之前你需要有对chrome调试工具和ES6有一定了解,包 ...

  10. java 爬虫框架_不知道Python爬虫?这篇文章丢给他(内含框架结构)

    前言 爬虫即网络爬虫,英文是Web Spider.翻译过来就是网络上爬行的蜘蛛,如果把互联网看作一张大网,那么爬虫就是在大网上爬来爬去的蜘蛛,碰到想要的食物,就把他抓取出来. 我们在浏览器中输入一个网 ...

最新文章

  1. c++ empty()函数
  2. CentOS6.3环境下openresty安装drizzle模块
  3. go swagger
  4. 省内转学出错的解决办法
  5. springboot 整合mybatis_SpringBoot整合MyBatis框架快速入门
  6. postgresql-创建主键自增的表
  7. GPU Pro2 - 3.Procedural Content Generation on the GPU
  8. windows分区给linux根目录,解决双系统安装Linux之后找不到Windows分区
  9. 子页面带到父页面提交
  10. 图论--有向图强连通分量的标记及缩点模板
  11. 第 17 章 命令模式
  12. 万豪国际数据再遭泄露影响520万客户,两名员工账户为突破口
  13. eclipse引入php源包
  14. 评价法(四):yaahp软件——层次分析法模块使用
  15. 资料汇总更新|FPGA软件安装包、书籍、源码、技术文档…(2021.01.04更新)
  16. WPF Chart控件
  17. Excel高级函数应用总结
  18. 公钥私钥的使用和数字签名原理
  19. 获取购买到的淘宝商品订单详情API接口,买家订单API接口,买家订单详情API接口
  20. WEB前端一些兼容IE8 浏览器的写法

热门文章

  1. Ubuntu下如何用Empathy上QQ
  2. 二极管7种应用电路详解之三
  3. 半导体二极管的直流电阻和动态电阻如何区别?
  4. python常见函数
  5. django性能优化缓存view详解
  6. EF使用Fluent API配置映射关系
  7. iOS 排序算法总结、二分法查找
  8. RobotFrameWork(五)控制流之if语句——Run Keyword If
  9. X431 元征诊断枪
  10. OpenLayer + Ags 综合应用(一)--OpenLayer 地图展现