php取名字的姓,【更新】爬取姓名大全的名字
接上文,可以不用一个网址一个网址的输入了,能抓取页面http://www.yw11.com/namelist.php
上列出的所有名字大全,不必再像上一个程序一样一个网址一个网址的输入了。嘿嘿。
#coding=utf-8
import urllib2
import re
from bs4 import BeautifulSoup
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
def getHtml(url):
page=urllib2.urlopen(url)
html=page.read()
return html
def getAllUrl(url):
html=getHtml(url)
soup=BeautifulSoup(html,'html.parser')
ul=soup.find_all('ul',attrs={'class':'e3'})[0]
a=ul.find_all('a')
# for i in a:
# urls=i['href']
# print urls
# print "一共有"+str(len(a))
return a
url='http://www.yw11.com/namelist.php'
user_agent='Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_4) AppleWebKit/600.7.12 (KHTML, like Gecko) Version/8.0.7 Safari/600.7.12'
headers={"User-Agent":user_agent}
urls=getAllUrl(url)
f=open('name.txt','a')
for index in range(len(urls)):
lianjie=urls[index]['href']
mingzi=urls[index].text
print "正在抓取姓"+mingzi +"的名字......"
request=urllib2.Request(lianjie,headers=headers)
html=getHtml(request)
soup=BeautifulSoup(html,'html.parser')
divs=soup.find_all('div',attrs={"class":"listbox1_text"})[0]
ul=divs.find_all('ul')[0]
lis=ul.find_all('li')
for index in range(len(lis)):
name=lis[index].text.lstrip()#左对齐
f.write(name)
f.write('\r\n')
print "抓取了"+(str(index)+1)+"个"+mingzi+"名字"
f.close()
f=open('name.txt','r')
lines=f.readlines()
print "当前一共有"+str(len(lines))
f.close()
php取名字的姓,【更新】爬取姓名大全的名字相关推荐
- 【更新】爬取姓名大全的名字
接上文,可以不用一个网址一个网址的输入了,能抓取页面 1 http://www.yw11.com/namelist.php 上列出的所有名字大全,不必再像上一个程序一样一个网址一个网址的输入了.嘿嘿. ...
- Scrapy爬取姓名大全,看看那个名字最受父母青睐
点击上方"AI搞事情"关注我们 最近在做的项目需要用到名字的数据,可哪儿有这么多名字给我用呢?经一通搜索,不仅找到一个神奇的网站姓名大全,还有人开源了爬虫的代码.让我一番修改,得到 ...
- scrapy mysql 词云_利用Scrapy爬取姓名大全作词云分析
scrapy介绍 Scrapy 是一套基于Twisted.纯python实现的异步爬虫框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,相当的方便- 整体架构和组 ...
- 生成osm文件_超酷城市肌理!地理数据信息爬取方法大全(B篇)DEM+POI+OSM
WENWEN:这一弹是对第一弹的补充和深化讲解,上一弹请点击常用的地理数据信息爬取方法大全(前期场地信息获取第一弹),关于DEM获取地形地理空间数据云提交任务一直在排队的问题,这个应该是官网的问题,不 ...
- 爬虫项目实战四:爬取语录大全
爬取语录大全 目标 项目准备 网站分析 反爬分析 每一页的链接分析 代码实现 效果显示 目标 爬取语录,批量下载到本地. 项目准备 软件:Pycharm 第三方库:requests,fake_user ...
- 【更新】比较智能的爬取姓名
接前面的博文,前面不好控制抓取的页数,现在可以较好的控制~~看看代码 #coding=utf-8 import urllib,urllib2 import re from bs4 import Bea ...
- 手把手带你爬虫 | 爬取语录大全
目标 爬取语录,批量下载到本地. 项目准备 软件:Pycharm 第三方库:requests,fake_useragent,re,lxml 网站地址:http://www.yuluju.com 网站分 ...
- python爬取网易云歌曲名字
之前都是按部就班的往下写, 终于尝试在爬虫里写函数了 网址:https://music.163.com/#/artist?id=9272,爬取这50首歌的名字.分析网址:网易云主页是https://m ...
- python爬虫实战之爬取成语大全
业余时间,想学习中华文化之成语,身边没有成语词典,网上一个个翻网页又比较懒,花了半个小时搞定数字成语词典,你值得拥有! 爬取思路 找到首页网址:https://www.chengyucidian.ne ...
- 爬虫基础之爬取豆瓣top250电影名字
这个比较简单,直接上代码,有需要的自己研究,转载注明出处原创地址 import requests from bs4 import BeautifulSoup import reclass P:def ...
最新文章
- postgresql GUC 参数
- JPA入门到精通 - JPA入门
- ppp lcp协商报文有哪些_PPP协议
- ARM64的启动过程之(三):为打开MMU而进行的CPU初始化
- bin文件怎么转换成文本文档_怎么把视频文件转换成MP3?这款工具六步帮你实现...
- webstorm如何自动换行_怎样在word中自动生成目录
- idea 设置导入包不带*
- z01、z02.....怎么解压缩
- java自定义方法使用_Java 自定义方法
- ES6新特性_ES6生成器函数的参数传递---JavaScript_ECMAScript_ES6-ES11新特性工作笔记021
- HDU 1160 FatMouse#39;s Speed DP题解
- 从Logistic Regression 到 Neural Network
- 各层电子数排布规则_电子层排布,电子的排布规律
- error: invalid operands to binary == (have ‘uid_t’ {aka ‘unsigned int’} and ‘kuid_t’
- 如何从苹果手机中导出视频且保证画面不失真
- 生成验证码 大写、小写字母,数字 java
- Web前端人员如何提升能力 提高效率有哪些方法
- Airtestpoco学习历程1——设备连接
- ROS基础(四)——话题消息的定义与使用
- Qt扫盲- QTcpSocket 理论总结
热门文章
- 吴恩达深度学习笔记——改善深层神经网络:超参数调整,正则化,最优化(Hyperparameter Tuning)
- 京东价格监控软件开发技术探讨十五:通过酷Q和ZeroMQ实现推送变价变库消息到QQ群
- 仿手机端京东商城html源码_我用手机写了一个Python爬虫,爬下了凡人修仙传……...
- 软件测试-------三角形逻辑覆盖
- webmagic保存html页面,WebMagic抓取前端Ajax渲染的页面
- 为何QQ突然能注销了?近年推行的大好事知多少
- 我的编程之路点滴记录(五)
- Linux管道相关命令
- oracle 逗号,查询oracle中逗号分隔字符串中所有值
- 浅谈电力系统短路故障的分析