用python 写爬虫简要记录
参阅 网络爬虫-Python和数据分析 王澎 中国科技大学
1、python 版本是2.6.6.
2、下载
wget http://www.crummy.com/software/BeautifulSoup/bs4/download/4.0/beautifulsoup4-4.0.0b3.tar.gz
tar -zxvf beautifulsoup4-4.0.0b3.tar.gz
python setup.py install
3、python 代码
cat tryclaw.py
#!/usr/bin
#-*- coding: utf-8 -*-
import re
import urllib2
import MySQLdb
from bs4 import BeautifulSoup
url1="http://www.ygdy8.com"
fp=urllib2.urlopen(url1)
s=fp.read()
soup=BeautifulSoup(s)
polist=soup.findAll('div')
print polist[0].contents[0]
4、
python tryclaw.py >ygdy8.txt
file -bi ygdy8.txt | sed -e 's/.*[ ]charset=//' |tr '[a-z]' '[A-Z'
判断是UTF-8
iconv -f UTF-8 -t ISO-8859-1 ygdy8.txt |more
用python 写爬虫简要记录相关推荐
- 爬虫python 科研有用吗_为什么说用python写爬虫有优势?
之前和做Java的小伙伴聊过对比Java和python,就以这个为开头,跟大家聊聊为什么要学习python,他有哪些优势吧~ 对比Java和python,两者区别: 1.python的requests ...
- python+mysql库+json_用python写爬虫-5.1json用pandas入mysql库
pandas是一个数据处理模块,前面也已经提到了好些,用python写爬虫--4.5pandas存入excel. 这次来统一说一说,使用感想. pandas主要是Seriers和Dataframe,S ...
- 用Python写爬虫有哪些好处?
大家都知道,关于爬虫几乎每种编程语言都可以实现,比如:Java.C.C++.python等都可以实现爬虫,但是之所以会选择python写爬虫,是因为python具有独特的优势.那么用python语言写 ...
- 为什么多迪技术人员都喜欢用python写爬虫?
有更加成熟的一种爬虫脚本语言,而非框架.是通用的爬虫软件ForeSpider,内部自带了一套爬虫脚本语言.很多同学学php的,但是也自学过python,对php了解还是比较深的,为什么多迪技术人员都喜 ...
- python 写爬虫 美女照片(一)
无意中可看到一个爬取煎蛋网的美女照片 博客,感觉很有趣,就仿照写了个,还几个 一.安装必要的库 1.1 beautifulsoup pip install beautifulsoup4 1.2 pip ...
- php和python写爬虫-可以写爬虫的那么多,为什么只有python火了?
原标题:可以写爬虫的那么多,为什么只有python火了? 网络爬虫: 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的 ...
- php和python写爬虫-为什么选择用python做爬虫
什么是网络爬虫? 网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成.传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当 ...
- php和python写爬虫-一个简单的Python写的XML爬虫
一个简单的Python写的XML爬虫 来源:程序员人生 发布时间:2013-11-06 16:22:29 阅读次数:1578次 原理很简单,读XML结构,返回值,判断,根据返回的值得到下一个XML的地 ...
- php和python写爬虫-python和php哪个更适合写爬虫
python和PHP相比较,python适合做爬虫.原因如下 抓取网页本身的接口 相比与其他静态编程语言,如java,c#,C++,python抓取网页文档的接口更简洁:相比其他动态脚本语言,如per ...
最新文章
- 2016-04-28
- IOS,十六进制颜色和RGB颜色的宏定义
- python 装饰器 参数-python函数装饰器之带参数的函数和带参数的装饰器用法示例...
- python 0o-377 -0o377_Python : 反射
- Python中获取字典中最值对应的键
- python如何创建模块教程_Python创建模块及模块导入的方法
- js中null和undefined的区别
- JSP和Servlet里的Cookie处理
- DM365的BSP源码分析-基于2.6.18内核
- .NET 和 Mono 的一点历史
- ICLR 2021 | 腾讯 AI Lab 入选论文解读
- 基于鸿蒙Hi3861和华为云平台的烟雾报警器(附源码)
- springboot filter_SpringBoot(二) :web综合开发
- 微醺的夜,胡乱的文字,迷失的我
- MySQL索引设计与EXPLAIN
- 正则Regex中圆括号()方括号[]大括号{}的区别和用法
- RedHat7安装及小红帽硬盘分区建议
- Java单例模式实现方式
- excel宏实现工作表索引,点击按钮隐藏/显示对应工作表
- LIO-SAM:点云预处理前端---畸变矫正数据预处理
热门文章
- mysql导入SQL大文件报错解决方案
- 这就是你日日夜夜想要的docker!!!---------Dockerfile构建nginx、Tomcat、MySQL镜像
- 基于JAVA在线影视点播系统计算机毕业设计源码+系统+数据库+lw文档+部署
- 西安文理学院计算机系冯丽,张岗亭(计算机科学系)老师 - 西安文理学院 - 院校大全...
- 洛谷P1877-[HAOI2012]音量调节(二维01背包)
- CSS 重新认识 !important 肯定有你不知道的
- 实现路由守卫和token过期处理
- java 配置写成表达式_菜鸟第一天java问题2:请帮我改作业——表达式问题
- r语言 断轴 画图_基于R语言绘制坐标轴截断图
- 网络爬虫原理(概要了解)