参阅   网络爬虫-Python和数据分析 王澎 中国科技大学

1、python 版本是2.6.6.

2、下载

wget http://www.crummy.com/software/BeautifulSoup/bs4/download/4.0/beautifulsoup4-4.0.0b3.tar.gz

tar -zxvf beautifulsoup4-4.0.0b3.tar.gz
      python setup.py install

3、python 代码

cat tryclaw.py
#!/usr/bin
#-*- coding: utf-8 -*-
import re
import urllib2
import MySQLdb
from bs4 import BeautifulSoup
url1="http://www.ygdy8.com"
fp=urllib2.urlopen(url1)
s=fp.read()
soup=BeautifulSoup(s)
polist=soup.findAll('div')
print polist[0].contents[0]

4、

python tryclaw.py >ygdy8.txt

file -bi ygdy8.txt | sed -e 's/.*[ ]charset=//' |tr '[a-z]' '[A-Z'

判断是UTF-8

iconv -f UTF-8 -t ISO-8859-1 ygdy8.txt |more

用python 写爬虫简要记录相关推荐

  1. 爬虫python 科研有用吗_为什么说用python写爬虫有优势?

    之前和做Java的小伙伴聊过对比Java和python,就以这个为开头,跟大家聊聊为什么要学习python,他有哪些优势吧~ 对比Java和python,两者区别: 1.python的requests ...

  2. python+mysql库+json_用python写爬虫-5.1json用pandas入mysql库

    pandas是一个数据处理模块,前面也已经提到了好些,用python写爬虫--4.5pandas存入excel. 这次来统一说一说,使用感想. pandas主要是Seriers和Dataframe,S ...

  3. 用Python写爬虫有哪些好处?

    大家都知道,关于爬虫几乎每种编程语言都可以实现,比如:Java.C.C++.python等都可以实现爬虫,但是之所以会选择python写爬虫,是因为python具有独特的优势.那么用python语言写 ...

  4. 为什么多迪技术人员都喜欢用python写爬虫?

    有更加成熟的一种爬虫脚本语言,而非框架.是通用的爬虫软件ForeSpider,内部自带了一套爬虫脚本语言.很多同学学php的,但是也自学过python,对php了解还是比较深的,为什么多迪技术人员都喜 ...

  5. python 写爬虫 美女照片(一)

    无意中可看到一个爬取煎蛋网的美女照片 博客,感觉很有趣,就仿照写了个,还几个 一.安装必要的库 1.1 beautifulsoup pip install beautifulsoup4 1.2 pip ...

  6. php和python写爬虫-可以写爬虫的那么多,为什么只有python火了?

    原标题:可以写爬虫的那么多,为什么只有python火了? 网络爬虫: 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的 ...

  7. php和python写爬虫-为什么选择用python做爬虫

    什么是网络爬虫? 网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成.传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当 ...

  8. php和python写爬虫-一个简单的Python写的XML爬虫

    一个简单的Python写的XML爬虫 来源:程序员人生 发布时间:2013-11-06 16:22:29 阅读次数:1578次 原理很简单,读XML结构,返回值,判断,根据返回的值得到下一个XML的地 ...

  9. php和python写爬虫-python和php哪个更适合写爬虫

    python和PHP相比较,python适合做爬虫.原因如下 抓取网页本身的接口 相比与其他静态编程语言,如java,c#,C++,python抓取网页文档的接口更简洁:相比其他动态脚本语言,如per ...

最新文章

  1. 2016-04-28
  2. IOS,十六进制颜色和RGB颜色的宏定义
  3. python 装饰器 参数-python函数装饰器之带参数的函数和带参数的装饰器用法示例...
  4. python 0o-377 -0o377_Python : 反射
  5. Python中获取字典中最值对应的键
  6. python如何创建模块教程_Python创建模块及模块导入的方法
  7. js中null和undefined的区别
  8. JSP和Servlet里的Cookie处理
  9. DM365的BSP源码分析-基于2.6.18内核
  10. .NET 和 Mono 的一点历史
  11. ICLR 2021 | 腾讯 AI Lab 入选论文解读
  12. 基于鸿蒙Hi3861和华为云平台的烟雾报警器(附源码)
  13. springboot filter_SpringBoot(二) :web综合开发
  14. 微醺的夜,胡乱的文字,迷失的我
  15. MySQL索引设计与EXPLAIN
  16. 正则Regex中圆括号()方括号[]大括号{}的区别和用法
  17. RedHat7安装及小红帽硬盘分区建议
  18. Java单例模式实现方式
  19. excel宏实现工作表索引,点击按钮隐藏/显示对应工作表
  20. LIO-SAM:点云预处理前端---畸变矫正数据预处理

热门文章

  1. mysql导入SQL大文件报错解决方案
  2. 这就是你日日夜夜想要的docker!!!---------Dockerfile构建nginx、Tomcat、MySQL镜像
  3. 基于JAVA在线影视点播系统计算机毕业设计源码+系统+数据库+lw文档+部署
  4. 西安文理学院计算机系冯丽,张岗亭(计算机科学系)老师 - 西安文理学院 - 院校大全...
  5. 洛谷P1877-[HAOI2012]音量调节(二维01背包)
  6. CSS 重新认识 !important 肯定有你不知道的
  7. 实现路由守卫和token过期处理
  8. java 配置写成表达式_菜鸟第一天java问题2:请帮我改作业——表达式问题
  9. r语言 断轴 画图_基于R语言绘制坐标轴截断图
  10. 网络爬虫原理(概要了解)