今天尝试使用python写一个网络爬虫代码,主要是想訪问某个站点,从中选取感兴趣的信息,并将信息依照一定的格式保存早Excel中。

此代码中主要使用到了python的以下几个功能,因为对python不熟悉,把代码也粘贴在以下。

1, 使用url打开站点网页

import urllib2data = urllib2.urlopen(string_full_link).read().decode('utf8')

print data

2,使用正則表達式匹配

import re#一般的英文匹配
reg = """a href=\S* target='_blank' title=\S*"""
dicList = re.compile(reg).findall(data)
print dicList

#中文的正则匹配,须要使用中文相应的unicode码
reg=u"\u5730\u5740\S*"      #“地址”相应的 unicode code
addrList = re.compile(reg).findall(sub_data)
print addrList

3,写数据到excel文件

import xlrd
import xlwtfile = xlwt.Workbook()table = file.add_sheet('hk', cell_overwrite_ok=True)print index, name, addr, teltable.write(index, 0, name)table.write(index, 1, addr)table.write(index, 2, tel)file.save("""D:\\test.xls""")

转载于:https://www.cnblogs.com/gccbuaa/p/7217680.html

使用Python写的第一个网络爬虫程序相关推荐

  1. python网络爬虫程序_使用Python写的第一个网络爬虫程序

    今天尝试使用python写一个网络爬虫代码,主要是想訪问某个站点,从中选取感兴趣的信息,并将信息依照一定的格式保存早Excel中. 此代码中主要使用到了python的以下几个功能,因为对python不 ...

  2. java爬虫编写步骤_JAVA爬虫--编写第一个网络爬虫程序

    JAVA爬虫–编写第一个网络爬虫程序 前言上一章节介绍了XPATH基础语法,本章节将手把手带大家编写第一个爬虫程序,同时也希望能通过这个爬虫程序,帮助大家熟悉上一章节学习的XPATH基础语法并运用到实 ...

  3. python写机器人程序_用Python写的一个多线程机器人聊天程序

    本人是从事php开发的, 近来想通过php实现即时通讯(兼容windows).后来发现实现起来特别麻烦, 就想到python.听说这家伙在什么地方都能发挥作用.所以想用python来做通讯模块...所 ...

  4. python网络爬虫程序_Python写的网络爬虫程序(很简单)

    Python写的网络爬虫程序(很简单) 这是我的一位同学传给我的一个小的网页爬虫程序,觉得挺有意思的,和大家分享一下.不过有一点需要注意,要用python2.3,如果用python3.4会有些问题出现 ...

  5. python百度百科api-Python即时网络爬虫:API说明

    API说明--下载gsExtractor内容提取器 1,接口名称 下载内容提取器 2,接口说明 如果您想编写一个网络爬虫程序,您会发现大部分时间耗费在调测网页内容提取规则上,不讲正则表达式的语法如何怪 ...

  6. 【网络爬虫入门01】应用Requests和BeautifulSoup联手打造的第一条网络爬虫

    [网络爬虫入门01]应用Requests和BeautifulSoup联手打造的第一条网络爬虫 广东职业技术学院 欧浩源 2017-10-14  1.引言 在数据量爆发式增长的大数据时代,网络与用户的沟 ...

  7. python获取实时基金数据由银河证券提供_我用Python写了个金融数据爬虫,半小时干了组里实习生一周的工作量...

    原标题:我用Python写了个金融数据爬虫,半小时干了组里实习生一周的工作量 最近,越来越多的研究员.基金经理甚至财务会计领域的朋友,向小编咨询:金融人需要学Python么? 事实上在2019年,这已 ...

  8. Python大作业-网络爬虫程序

    简介 此程序是本人大三时期的Python大作业,初学Python后所编写的一个程序,是一个网络爬虫程序,可爬取指定网站的信息. 本程序爬取的网站是Bangumi-我看过的动画,Bangumi是一个专注 ...

  9. python如何在网络爬虫程序中使用多线程(threading.Thread)

    python如何在网络爬虫程序中使用多线程 一.多线程的基础知识 二.在网络爬虫中使用多线程 2.1 从单线程版本入手 2.2 将单线程版本改写为多线程版本 2.3 运行多线程版本程序 2.4 将多线 ...

  10. python网络爬虫程序技术_Python网络爬虫程序技术-中国大学mooc-题库零氪

    Python网络爬虫程序技术 - 中国大学mooc 已完结  94 项目1 爬取学生信息 1.2 Flask Web网站随堂测验 1.import flask app=flask.Flask(__n ...

最新文章

  1. python对文件的读写正确操作方式
  2. ROS系统——重要参考资料
  3. JDK8:Lambda表达式操作List集合
  4. python编程需要什么软件-python编程用哪个软件
  5. mysql计算1000天后的日期_mysql,数据库_mysql 计算某个时间,多少天后,多少个月后时间戳,mysql,数据库,数据库设计 - phpStudy...
  6. 关于SWT中的布局Layout
  7. 数字IC验证学习(二)
  8. java 布局管理器_java布局管理器-borderlayout
  9. 54 - 算法 - 动态规划问题 连续子序列和最大
  10. Oracle RAC的Failover
  11. C# 正则匹配 电话号码 和 座机号
  12. c语言编程简单好玩的图,几个有趣的画图编程
  13. OSAL--操作系统抽象层 初始化流程分析
  14. PyCharm怎么来更新pip
  15. 虚拟化和禁用安全启动的设置
  16. [转]SAP模块一句话入门
  17. python股票量化分析
  18. 从unity到unreal4 虚幻4学习笔记 一 : ue4与vs studio、vs code开发环境的安装与配置
  19. setup/teardown用法汇总
  20. leetcode: Largest Rectangle in Histogram,Maximal Square,Maximal Square问题

热门文章

  1. [转]java String的经典问题(new String(), String)
  2. android--04activity的布局管理器
  3. 提取身份证信息的自定义函数
  4. 使用 Anthem.NET 的常见回调(Callback)处理方式小结
  5. 腾讯单子非:知识图谱在NLU与推荐中,是如何发挥作用的?该如何构建?
  6. 【收藏】10个重要问题概览Transformer全部内容
  7. Transformers Assemble(PART I)
  8. 封城第12日,冰箱都快塞不下咯(附菜谱分享)
  9. 论文赏析[NAACL19]基于DIORA的无监督隐式句法树归纳
  10. HDFS常用命令/API+上传下载过程(三)