php取名字的姓,【更新】爬取姓名大全的名字

接上文，可以不用一个网址一个网址的输入了，能抓取页面http://www.yw11.com/namelist.php

上列出的所有名字大全，不必再像上一个程序一样一个网址一个网址的输入了。嘿嘿。

#coding=utf-8

import urllib2

import re

from bs4 import BeautifulSoup

import sys

reload(sys)

sys.setdefaultencoding('utf-8')

def getHtml(url):

page=urllib2.urlopen(url)

html=page.read()

return html

def getAllUrl(url):

html=getHtml(url)

soup=BeautifulSoup(html,'html.parser')

ul=soup.find_all('ul',attrs={'class':'e3'})[0]

a=ul.find_all('a')

# for i in a:

# urls=i['href']

# print urls

# print "一共有"+str(len(a))

return a

url='http://www.yw11.com/namelist.php'

user_agent='Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_4) AppleWebKit/600.7.12 (KHTML, like Gecko) Version/8.0.7 Safari/600.7.12'

headers={"User-Agent":user_agent}

urls=getAllUrl(url)

f=open('name.txt','a')

for index in range(len(urls)):

lianjie=urls[index]['href']

mingzi=urls[index].text

print "正在抓取姓"+mingzi +"的名字......"

request=urllib2.Request(lianjie,headers=headers)

html=getHtml(request)

soup=BeautifulSoup(html,'html.parser')

divs=soup.find_all('div',attrs={"class":"listbox1_text"})[0]

ul=divs.find_all('ul')[0]

lis=ul.find_all('li')

for index in range(len(lis)):

name=lis[index].text.lstrip()#左对齐

f.write(name)

f.write('\r\n')

print "抓取了"+(str(index)+1)+"个"+mingzi+"名字"

f.close()

f=open('name.txt','r')

lines=f.readlines()

print "当前一共有"+str(len(lines))

f.close()

php取名字的姓,【更新】爬取姓名大全的名字相关推荐

【更新】爬取姓名大全的名字
接上文,可以不用一个网址一个网址的输入了,能抓取页面 1 http://www.yw11.com/namelist.php 上列出的所有名字大全,不必再像上一个程序一样一个网址一个网址的输入了.嘿嘿. ...
Scrapy爬取姓名大全，看看那个名字最受父母青睐
点击上方"AI搞事情"关注我们最近在做的项目需要用到名字的数据,可哪儿有这么多名字给我用呢?经一通搜索,不仅找到一个神奇的网站姓名大全,还有人开源了爬虫的代码.让我一番修改,得到 ...
scrapy mysql 词云_利用Scrapy爬取姓名大全作词云分析
scrapy介绍 Scrapy 是一套基于Twisted.纯python实现的异步爬虫框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,相当的方便- 整体架构和组 ...
生成osm文件_超酷城市肌理！地理数据信息爬取方法大全（B篇）DEM+POI+OSM
WENWEN:这一弹是对第一弹的补充和深化讲解,上一弹请点击常用的地理数据信息爬取方法大全(前期场地信息获取第一弹),关于DEM获取地形地理空间数据云提交任务一直在排队的问题,这个应该是官网的问题,不 ...
爬虫项目实战四：爬取语录大全
爬取语录大全目标项目准备网站分析反爬分析每一页的链接分析代码实现效果显示目标爬取语录,批量下载到本地. 项目准备软件:Pycharm 第三方库:requests,fake_user ...
【更新】比较智能的爬取姓名
接前面的博文,前面不好控制抓取的页数,现在可以较好的控制~~看看代码 #coding=utf-8 import urllib,urllib2 import re from bs4 import Bea ...
手把手带你爬虫 | 爬取语录大全
目标爬取语录,批量下载到本地. 项目准备软件:Pycharm 第三方库:requests,fake_useragent,re,lxml 网站地址:http://www.yuluju.com 网站分 ...
python爬取网易云歌曲名字
之前都是按部就班的往下写, 终于尝试在爬虫里写函数了网址:https://music.163.com/#/artist?id=9272,爬取这50首歌的名字.分析网址:网易云主页是https://m ...
python爬虫实战之爬取成语大全
业余时间,想学习中华文化之成语,身边没有成语词典,网上一个个翻网页又比较懒,花了半个小时搞定数字成语词典,你值得拥有! 爬取思路找到首页网址:https://www.chengyucidian.ne ...
爬虫基础之爬取豆瓣top250电影名字
这个比较简单,直接上代码,有需要的自己研究,转载注明出处原创地址 import requests from bs4 import BeautifulSoup import reclass P:def ...

php取名字的姓,【更新】爬取姓名大全的名字

php取名字的姓,【更新】爬取姓名大全的名字相关推荐

最新文章

热门文章