python网络爬虫程序_使用Python写的第一个网络爬虫程序
今天尝试使用python写一个网络爬虫代码,主要是想訪问某个站点,从中选取感兴趣的信息,并将信息依照一定的格式保存早Excel中。
此代码中主要使用到了python的以下几个功能,因为对python不熟悉,把代码也粘贴在以下。
1, 使用url打开站点网页
import urllib2
data = urllib2.urlopen(string_full_link).read().decode('utf8')print data
2,使用正則表達式匹配
import re
#一般的英文匹配
reg = """a href=\S* target='_blank' title=\S*"""
dicList = re.compile(reg).findall(data)
print dicList#中文的正则匹配,须要使用中文相应的unicode码
reg=u"\u5730\u5740\S*" #“地址”相应的 unicode code
addrList = re.compile(reg).findall(sub_data)print addrList
3,写数据到excel文件
import xlrd
import xlwt
file = xlwt.Workbook()
table = file.add_sheet('hk', cell_overwrite_ok=True)
print index, name, addr, tel
table.write(index, 0, name)
table.write(index, 1, addr)
table.write(index, 2, tel)
file.save("""D:\\test.xls""")
python网络爬虫程序_使用Python写的第一个网络爬虫程序相关推荐
- python迷宫万花筒代码_用Python3写一个走迷宫的小程序(图形化:matplotlib,dfs,prim)...
先看一下动态效果图(慢放): 首先生成迷宫: 主要用了两个算法:Prim和dfs 总结:Prim生成的比较像真正的迷宫,所以默认用了Prim生成迷宫 先输入n,m,会生成一个迷宫(prim生成),然后 ...
- cmd写java程序_用cmd写一个最简单的Java程序
一,准备: 1.确保电脑中装有eclipse软件并且确保配置好环境变量 (1)环境变量配置方法: 特别提示:jdk和eclipse保存的路径不能有中文字符 1.打开我的电脑--属性--高级--环境变量 ...
- python写机器人程序_用Python写的一个多线程机器人聊天程序
本人是从事php开发的, 近来想通过php实现即时通讯(兼容windows).后来发现实现起来特别麻烦, 就想到python.听说这家伙在什么地方都能发挥作用.所以想用python来做通讯模块...所 ...
- 个人用户拨号上网除了具备计算机,计算机和网络基的础知识总复习资料第一部分网络.doc...
计算机和网络基的础知识总复习资料第一部分网络 <计算机和网络基础知识>总复习资料(第一部分网络) 第节知识绪论1. 发展史略 世界上第一台电子数字式计算机于1946年2月15日在美国宾夕法 ...
- 基于python的影评数据分析_基于Python聚焦型网络爬虫的影评获取技术
龙源期刊网 http://www.qikan.com.cn 基于 Python 聚焦型网络爬虫的影评获取技 术 作者:郭向向 郑嘉慧 苗学芹 来源:<时代金融> 2019 年第 11 期 ...
- 基于python的网络爬虫编程_基于Python的网络爬虫程序设计
程序设计 ●Program Design 基于 Python的网络爬虫程序设计 网络 信 息量 的迅 猛 增 长,对 如何从海量的信息中准确的搜索 到用户需要的信息提 出了极大的 挑战.网络爬 虫具有 ...
- 用python写投票程序_大话python最终篇,web.py 开发的投票程序demo
概述 开发语言 python Web开发框架 web.py 前端开发框架 vuejs+elementui 数据库 mysql 设计思路 首先是数据库设计 ...
- python写采集程序_用python写的一个wordpress的采集程序
在学习python的过程中,经过不断的尝试及努力,终于完成了第一个像样的python程序,虽然还有很多需要优化的地方,但是目前基本上实现了我所要求的功能,先贴一下程序代码: 具体代码如下: #! /u ...
- python爬表情包_【从零开始写爬虫一】批量下载表情包
序 打算写个关于node的爬虫菜鸟教程,接下来将带大家一步一步写一个表情包爬虫,从获取页面,解析表情包链接, 清洗脏数据,下载表情包到本地.开始之前你需要有对chrome调试工具和ES6有一定了解,包 ...
- java 爬虫框架_不知道Python爬虫?这篇文章丢给他(内含框架结构)
前言 爬虫即网络爬虫,英文是Web Spider.翻译过来就是网络上爬行的蜘蛛,如果把互联网看作一张大网,那么爬虫就是在大网上爬来爬去的蜘蛛,碰到想要的食物,就把他抓取出来. 我们在浏览器中输入一个网 ...
最新文章
- c++ empty()函数
- CentOS6.3环境下openresty安装drizzle模块
- go swagger
- 省内转学出错的解决办法
- springboot 整合mybatis_SpringBoot整合MyBatis框架快速入门
- postgresql-创建主键自增的表
- GPU Pro2 - 3.Procedural Content Generation on the GPU
- windows分区给linux根目录,解决双系统安装Linux之后找不到Windows分区
- 子页面带到父页面提交
- 图论--有向图强连通分量的标记及缩点模板
- 第 17 章 命令模式
- 万豪国际数据再遭泄露影响520万客户,两名员工账户为突破口
- eclipse引入php源包
- 评价法(四):yaahp软件——层次分析法模块使用
- 资料汇总更新|FPGA软件安装包、书籍、源码、技术文档…(2021.01.04更新)
- WPF Chart控件
- Excel高级函数应用总结
- 公钥私钥的使用和数字签名原理
- 获取购买到的淘宝商品订单详情API接口,买家订单API接口,买家订单详情API接口
- WEB前端一些兼容IE8 浏览器的写法