代码笔记,仅供参考


利用python爬取安徽省高校名单

因为工作需要,所以我爬取了安徽省高校的名单,并将其保存在csv文件中:

# -*- coding: utf-8 -*-# -*- coding: utf-8 -*-import requests
from lxml import etree
from fake_useragent import UserAgent
import time
import csvclass SchoolSpider:def __init__(self):self.url = 'http://www.gx211.com/gxmd/gx-ah.html'def get_ua(self):return UserAgent().randomdef get_page(self):headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0)'}res = requests.get(self.url, headers = headers)html = res.content.decode('utf-8')print('url:', res.url)print('code:', res.status_code)#print(html)self.get_school_list(html)def get_school_list(self, html):html_parse = etree.HTML(html)xpath = '//table//td[@class="td1"]/a/text()'s_list = html_parse.xpath(xpath)#print(s_list)self.write_ip(s_list)def write_ip(self, school_list):with open('./output/my_school_name.csv', 'w', newline = '', encoding = 'utf-8') as f:writer = csv.writer(f)writer.writerow(['school'])for item in school_list:writer.writerow([item])def main(self):self.get_page()if __name__ == '__main__':start = time.time()spider = SchoolSpider()spider.main()end = time.time()print('执行时间:%.2f' % (end-start))

部分结果:

school
安徽大学
中国科学技术大学
合肥工业大学
安徽工业大学
安徽理工大学
安徽工程大学
安徽农业大学
安徽医科大学
蚌埠医学院
皖南医学院
安徽中医药大学
安徽师范大学
阜阳师范大学
安庆师范大学

今日代码(20201003)--简单爬虫相关推荐

  1. python3爬虫小型代码_python3简单爬虫实现代码

    分享一个python实现的网络爬虫代码.转自:http://www.cnblogs.com/yes123/p/3761388.html 写了个python3的.代码非常简单就不解释了,直接贴代码. # ...

  2. python简单爬虫代码-python简单爬虫(二)

    ") file.write(" for data inself.datas: file.write(" file.write(' '+str(data['url'])+' ...

  3. 爬虫python代码-一则python3的简单爬虫代码

    不得不说python的上手非常简单.在网上找了一下,大都是python2的帖子,于是随手写了个python3的.代码非常简单就不解释了,直接贴代码. 代码如下: #test rdp import ur ...

  4. python编写爬虫代码_python编写简单爬虫资料汇总

    爬虫真是一件有意思的事儿啊,之前写过爬虫,用的是urllib2.BeautifulSoup实现简单爬虫,scrapy也有实现过.最近想更好的学习爬虫,那么就尽可能的做记录吧.这篇博客就我今天的一个学习 ...

  5. python简单爬虫代码-一则python3的简单爬虫代码

    不得不说python的上手非常简单.在网上找了一下,大都是python2的帖子,于是随手写了个python3的.代码非常简单就不解释了,直接贴代码. 代码如下: #test rdp import ur ...

  6. python最简单的爬虫代码,python小实例一简单爬虫

    python新手求助 关于爬虫的简单例子 #coding=utf-8from bs4 import BeautifulSoupwith open('', 'r') as file: fcontent ...

  7. 今日头条Web端爬虫as,cp值破解

    今日头条Web端爬虫as,cp值破解 请各位转载的朋友请注明出处. 作者:小胖 实验网址:https://www.toutiao.com/ch/news_tech/ 实验环境:Windows10 实验 ...

  8. python_2开发简单爬虫

    2017年12月03日 16:43:01 独行侠的守望 阅读数:204 标签: python爬虫 更多 个人分类: Python 编辑 版权声明:本文为博主原创文章,转载请注明文章链接. https: ...

  9. Golang实现简单爬虫框架(4)——队列实现并发任务调度

    前言 在上一篇文章<Golang实现简单爬虫框架(3)--简单并发版>中我们实现了一个最简单并发爬虫,调度器为每一个Request创建一个goroutine,每个goroutine往Wor ...

最新文章

  1. mysql修改校对集_MySQL 教程之校对集问题
  2. ICMP诊断报文类型
  3. idea 编写javafx_用JavaFX编写图块引擎
  4. 编程 态度目标_对目标持开放态度,从而推动事业发展
  5. SpringBoot2.1.5 (4)---SpringBoot 常用注解说明
  6. Hadoop-2.0命令手册
  7. 匿名对象与非匿名对象的区别
  8. SSO 自动登录 跨站点 解决方案。
  9. 云服务器微信faq,开发者FAQ
  10. 侧信道攻击之模板攻击
  11. OPNET 学习系列(一)
  12. K3 CLOUD返工生产成本方案——循环计算
  13. Orcle中Database Control - orcl打开错误或者打不开的解决办法
  14. 10-N个你可能不知道的Mixly软件操作小技巧 | Mixly技巧系列
  15. ISCC2021—检查一下
  16. 不使用采集卡,实现相机手机多机位直播
  17. 公司用的非标普通自动化用单片机还是plc_自动化专业现在吃香吗?
  18. PHP连接操作sqlserver
  19. html5充值页面(Vue)
  20. 年中总结 | 愿自己更好面对未来 2022/6

热门文章

  1. gitkraken同步建立repository与github上的repository
  2. The disk contains an unclean file system\
  3. oracle 11 导入到 10,oracle11g导入到10g
  4. WordPress4.8.1版本存在XSS跨站攻击漏洞
  5. paramiko -SSH学习
  6. Android自己定义组件系列【4】——自己定义ViewGroup实现双側滑动
  7. How To Make JMeter Behave More Like A Real Browser
  8. 字符串野指针 百练2681
  9. 为什么计算机专业学生要学Linux系统?
  10. IOS开发基础知识--碎片8