使用Python写的第一个网络爬虫程序
今天尝试使用python写一个网络爬虫代码,主要是想訪问某个站点,从中选取感兴趣的信息,并将信息依照一定的格式保存早Excel中。
此代码中主要使用到了python的以下几个功能,因为对python不熟悉,把代码也粘贴在以下。
1, 使用url打开站点网页
import urllib2data = urllib2.urlopen(string_full_link).read().decode('utf8')
print data
2,使用正則表達式匹配
import re#一般的英文匹配
reg = """a href=\S* target='_blank' title=\S*"""
dicList = re.compile(reg).findall(data)
print dicList
#中文的正则匹配,须要使用中文相应的unicode码
reg=u"\u5730\u5740\S*" #“地址”相应的 unicode code
addrList = re.compile(reg).findall(sub_data)
print addrList
3,写数据到excel文件
import xlrd
import xlwtfile = xlwt.Workbook()table = file.add_sheet('hk', cell_overwrite_ok=True)print index, name, addr, teltable.write(index, 0, name)table.write(index, 1, addr)table.write(index, 2, tel)file.save("""D:\\test.xls""")
转载于:https://www.cnblogs.com/gccbuaa/p/7217680.html
使用Python写的第一个网络爬虫程序相关推荐
- python网络爬虫程序_使用Python写的第一个网络爬虫程序
今天尝试使用python写一个网络爬虫代码,主要是想訪问某个站点,从中选取感兴趣的信息,并将信息依照一定的格式保存早Excel中. 此代码中主要使用到了python的以下几个功能,因为对python不 ...
- java爬虫编写步骤_JAVA爬虫--编写第一个网络爬虫程序
JAVA爬虫–编写第一个网络爬虫程序 前言上一章节介绍了XPATH基础语法,本章节将手把手带大家编写第一个爬虫程序,同时也希望能通过这个爬虫程序,帮助大家熟悉上一章节学习的XPATH基础语法并运用到实 ...
- python写机器人程序_用Python写的一个多线程机器人聊天程序
本人是从事php开发的, 近来想通过php实现即时通讯(兼容windows).后来发现实现起来特别麻烦, 就想到python.听说这家伙在什么地方都能发挥作用.所以想用python来做通讯模块...所 ...
- python网络爬虫程序_Python写的网络爬虫程序(很简单)
Python写的网络爬虫程序(很简单) 这是我的一位同学传给我的一个小的网页爬虫程序,觉得挺有意思的,和大家分享一下.不过有一点需要注意,要用python2.3,如果用python3.4会有些问题出现 ...
- python百度百科api-Python即时网络爬虫:API说明
API说明--下载gsExtractor内容提取器 1,接口名称 下载内容提取器 2,接口说明 如果您想编写一个网络爬虫程序,您会发现大部分时间耗费在调测网页内容提取规则上,不讲正则表达式的语法如何怪 ...
- 【网络爬虫入门01】应用Requests和BeautifulSoup联手打造的第一条网络爬虫
[网络爬虫入门01]应用Requests和BeautifulSoup联手打造的第一条网络爬虫 广东职业技术学院 欧浩源 2017-10-14 1.引言 在数据量爆发式增长的大数据时代,网络与用户的沟 ...
- python获取实时基金数据由银河证券提供_我用Python写了个金融数据爬虫,半小时干了组里实习生一周的工作量...
原标题:我用Python写了个金融数据爬虫,半小时干了组里实习生一周的工作量 最近,越来越多的研究员.基金经理甚至财务会计领域的朋友,向小编咨询:金融人需要学Python么? 事实上在2019年,这已 ...
- Python大作业-网络爬虫程序
简介 此程序是本人大三时期的Python大作业,初学Python后所编写的一个程序,是一个网络爬虫程序,可爬取指定网站的信息. 本程序爬取的网站是Bangumi-我看过的动画,Bangumi是一个专注 ...
- python如何在网络爬虫程序中使用多线程(threading.Thread)
python如何在网络爬虫程序中使用多线程 一.多线程的基础知识 二.在网络爬虫中使用多线程 2.1 从单线程版本入手 2.2 将单线程版本改写为多线程版本 2.3 运行多线程版本程序 2.4 将多线 ...
- python网络爬虫程序技术_Python网络爬虫程序技术-中国大学mooc-题库零氪
Python网络爬虫程序技术 - 中国大学mooc 已完结 94 项目1 爬取学生信息 1.2 Flask Web网站随堂测验 1.import flask app=flask.Flask(__n ...
最新文章
- python对文件的读写正确操作方式
- ROS系统——重要参考资料
- JDK8:Lambda表达式操作List集合
- python编程需要什么软件-python编程用哪个软件
- mysql计算1000天后的日期_mysql,数据库_mysql 计算某个时间,多少天后,多少个月后时间戳,mysql,数据库,数据库设计 - phpStudy...
- 关于SWT中的布局Layout
- 数字IC验证学习(二)
- java 布局管理器_java布局管理器-borderlayout
- 54 - 算法 - 动态规划问题 连续子序列和最大
- Oracle RAC的Failover
- C# 正则匹配 电话号码 和 座机号
- c语言编程简单好玩的图,几个有趣的画图编程
- OSAL--操作系统抽象层 初始化流程分析
- PyCharm怎么来更新pip
- 虚拟化和禁用安全启动的设置
- [转]SAP模块一句话入门
- python股票量化分析
- 从unity到unreal4 虚幻4学习笔记 一 : ue4与vs studio、vs code开发环境的安装与配置
- setup/teardown用法汇总
- leetcode: Largest Rectangle in Histogram,Maximal Square,Maximal Square问题
热门文章
- [转]java String的经典问题(new String(), String)
- android--04activity的布局管理器
- 提取身份证信息的自定义函数
- 使用 Anthem.NET 的常见回调(Callback)处理方式小结
- 腾讯单子非:知识图谱在NLU与推荐中,是如何发挥作用的?该如何构建?
- 【收藏】10个重要问题概览Transformer全部内容
- Transformers Assemble(PART I)
- 封城第12日,冰箱都快塞不下咯(附菜谱分享)
- 论文赏析[NAACL19]基于DIORA的无监督隐式句法树归纳
- HDFS常用命令/API+上传下载过程(三)