接上文,可以不用一个网址一个网址的输入了,能抓取页面http://www.yw11.com/namelist.php

上列出的所有名字大全,不必再像上一个程序一样一个网址一个网址的输入了。嘿嘿。

#coding=utf-8

import urllib2

import re

from bs4 import BeautifulSoup

import sys

reload(sys)

sys.setdefaultencoding('utf-8')

def getHtml(url):

page=urllib2.urlopen(url)

html=page.read()

return html

def getAllUrl(url):

html=getHtml(url)

soup=BeautifulSoup(html,'html.parser')

ul=soup.find_all('ul',attrs={'class':'e3'})[0]

a=ul.find_all('a')

# for i in a:

# urls=i['href']

# print urls

# print "一共有"+str(len(a))

return a

url='http://www.yw11.com/namelist.php'

user_agent='Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_4) AppleWebKit/600.7.12 (KHTML, like Gecko) Version/8.0.7 Safari/600.7.12'

headers={"User-Agent":user_agent}

urls=getAllUrl(url)

f=open('name.txt','a')

for index in range(len(urls)):

lianjie=urls[index]['href']

mingzi=urls[index].text

print "正在抓取姓"+mingzi +"的名字......"

request=urllib2.Request(lianjie,headers=headers)

html=getHtml(request)

soup=BeautifulSoup(html,'html.parser')

divs=soup.find_all('div',attrs={"class":"listbox1_text"})[0]

ul=divs.find_all('ul')[0]

lis=ul.find_all('li')

for index in range(len(lis)):

name=lis[index].text.lstrip()#左对齐

f.write(name)

f.write('\r\n')

print "抓取了"+(str(index)+1)+"个"+mingzi+"名字"

f.close()

f=open('name.txt','r')

lines=f.readlines()

print "当前一共有"+str(len(lines))

f.close()

php取名字的姓,【更新】爬取姓名大全的名字相关推荐

  1. 【更新】爬取姓名大全的名字

    接上文,可以不用一个网址一个网址的输入了,能抓取页面 1 http://www.yw11.com/namelist.php 上列出的所有名字大全,不必再像上一个程序一样一个网址一个网址的输入了.嘿嘿. ...

  2. Scrapy爬取姓名大全,看看那个名字最受父母青睐

    点击上方"AI搞事情"关注我们 最近在做的项目需要用到名字的数据,可哪儿有这么多名字给我用呢?经一通搜索,不仅找到一个神奇的网站姓名大全,还有人开源了爬虫的代码.让我一番修改,得到 ...

  3. scrapy mysql 词云_利用Scrapy爬取姓名大全作词云分析

    scrapy介绍 Scrapy 是一套基于Twisted.纯python实现的异步爬虫框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,相当的方便- 整体架构和组 ...

  4. 生成osm文件_超酷城市肌理!地理数据信息爬取方法大全(B篇)DEM+POI+OSM

    WENWEN:这一弹是对第一弹的补充和深化讲解,上一弹请点击常用的地理数据信息爬取方法大全(前期场地信息获取第一弹),关于DEM获取地形地理空间数据云提交任务一直在排队的问题,这个应该是官网的问题,不 ...

  5. 爬虫项目实战四:爬取语录大全

    爬取语录大全 目标 项目准备 网站分析 反爬分析 每一页的链接分析 代码实现 效果显示 目标 爬取语录,批量下载到本地. 项目准备 软件:Pycharm 第三方库:requests,fake_user ...

  6. 【更新】比较智能的爬取姓名

    接前面的博文,前面不好控制抓取的页数,现在可以较好的控制~~看看代码 #coding=utf-8 import urllib,urllib2 import re from bs4 import Bea ...

  7. 手把手带你爬虫 | 爬取语录大全

    目标 爬取语录,批量下载到本地. 项目准备 软件:Pycharm 第三方库:requests,fake_useragent,re,lxml 网站地址:http://www.yuluju.com 网站分 ...

  8. python爬取网易云歌曲名字

    之前都是按部就班的往下写, 终于尝试在爬虫里写函数了 网址:https://music.163.com/#/artist?id=9272,爬取这50首歌的名字.分析网址:网易云主页是https://m ...

  9. python爬虫实战之爬取成语大全

    业余时间,想学习中华文化之成语,身边没有成语词典,网上一个个翻网页又比较懒,花了半个小时搞定数字成语词典,你值得拥有! 爬取思路 找到首页网址:https://www.chengyucidian.ne ...

  10. 爬虫基础之爬取豆瓣top250电影名字

    这个比较简单,直接上代码,有需要的自己研究,转载注明出处原创地址 import requests from bs4 import BeautifulSoup import reclass P:def ...

最新文章

  1. postgresql GUC 参数
  2. JPA入门到精通 - JPA入门
  3. ppp lcp协商报文有哪些_PPP协议
  4. ARM64的启动过程之(三):为打开MMU而进行的CPU初始化
  5. bin文件怎么转换成文本文档_怎么把视频文件转换成MP3?这款工具六步帮你实现...
  6. webstorm如何自动换行_怎样在word中自动生成目录
  7. idea 设置导入包不带*
  8. z01、z02.....怎么解压缩
  9. java自定义方法使用_Java 自定义方法
  10. ES6新特性_ES6生成器函数的参数传递---JavaScript_ECMAScript_ES6-ES11新特性工作笔记021
  11. HDU 1160 FatMouse#39;s Speed DP题解
  12. 从Logistic Regression 到 Neural Network
  13. 各层电子数排布规则_电子层排布,电子的排布规律
  14. error: invalid operands to binary == (have ‘uid_t’ {aka ‘unsigned int’} and ‘kuid_t’
  15. 如何从苹果手机中导出视频且保证画面不失真
  16. 生成验证码 大写、小写字母,数字 java
  17. Web前端人员如何提升能力 提高效率有哪些方法
  18. Airtestpoco学习历程1——设备连接
  19. ROS基础(四)——话题消息的定义与使用
  20. Qt扫盲- QTcpSocket 理论总结

热门文章

  1. 吴恩达深度学习笔记——改善深层神经网络:超参数调整,正则化,最优化(Hyperparameter Tuning)
  2. 京东价格监控软件开发技术探讨十五:通过酷Q和ZeroMQ实现推送变价变库消息到QQ群
  3. 仿手机端京东商城html源码_我用手机写了一个Python爬虫,爬下了凡人修仙传……...
  4. 软件测试-------三角形逻辑覆盖
  5. webmagic保存html页面,WebMagic抓取前端Ajax渲染的页面
  6. 为何QQ突然能注销了?近年推行的大好事知多少
  7. 我的编程之路点滴记录(五)
  8. Linux管道相关命令
  9. oracle 逗号,查询oracle中逗号分隔字符串中所有值
  10. 浅谈电力系统短路故障的分析