简单爬取百度百科周杰伦所有歌的歌词

这里写自定义目录标题

这里只是学过爬虫的简单练习，其实还可以更简单，不过比较麻烦，简单的部分过几天再发
package HttpClient;

import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.*;

public class HttpClient {
public static void main(String[] args) throws IOException {
//其实根据专辑会更简单，不过暂时没想到好的办法
String album = “jay，范特西，八度空间，叶惠美，七里香，十一月的肖邦，依然范特西，我很忙，魔杰座，跨时代，惊叹号，十二新作，哎吆不错哦，周杰伦的床边故事”;
String[] arr = new String[]{“可爱女人”, “完美主义”,“星晴”,“娘子”,“斗牛”,
“黑色幽默”, “龙卷风”, “反方向的钟”, “伊斯坦堡”, “印第安老斑鸠”,“爱在西元前”,
“爸我回来了”,
“简单爱”,
“忍者”,
“开不了口”,
“上海一九四三”,
“对不起”,
“威廉古堡”,
“双截棍”,
“安静”,“半兽人”, “半岛铁盒”, “暗号”, “龙拳”, “火车叨位去”,
“分裂”, “爷爷泡的茶”, “回到过去”, “米兰的小铁匠” ,“最后的战役”,
“以父之名”, “懦夫”, “晴天”, “三年二班”, “东风破”, “你听得到”,
“同一种调调”, “她的睫毛”, “爱情悬崖” ,“梯田”,“双刀”,
“我的地盘”, “七里香”, “借口”, “外婆”, “将军”,
“搁浅”, “乱舞春秋”, “困兽之斗”, “园游会”,“止战之殇”,
“夜曲”, “蓝色风暴”, “发如雪”, “黑色毛衣”, “四面楚歌”, “枫”,
“浪漫手机”, “逆鳞”, “麦芽糖”, “珊瑚海”, “飘移”, “一路向北”,
“夜的第七章”, “听妈妈的话”, “千里之外”, “本草纲目”, “退后”,
“红模仿”, “白色风车”, “迷迭香”, “菊花台”, “心雨”,
“牛仔很忙”, “无双”, “青花瓷”, “阳光宅男”, “蒲公英的约定”,
“我不配”, “扯”, “甜甜的”, “最长的电影”, “彩虹”,
“龙战骑士”, “蛇舞”, “花海”, “魔术先生”, “说好的幸福呢”, “兰亭序”,
“时光机”, “乔克叔叔”, “稻香”, “流浪诗人”, “给我一首歌的时间”,
“超人不会飞”, “跨时代”, “说了再见”,“烟花易冷”, “好久不见” ,“雨下一整晚”,
“嘻哈空姐”, “我落泪·情绪零碎”, “自导自演”, “爱的飞行日记”, “免费教学录影带”,
“惊叹号”, “迷魂曲”, “MineMine” ,“公主病”, “你好吗”, “疗伤烧肉粽”,
“琴伤”, “水手怕水”, “世界未末日”, “皮影戏”, “超跑女神”,
“四季列车”, “手语”, “公公偏头痛”, “明明就”, “傻笑”, “比较大的大提琴”,
“爱你没差”, “红尘客栈”, “梦想启动”, “大笨钟”, “哪里都是你”, “乌克丽丽”,
“阳明山”,
“窃爱”,
“算什么男人”,
“天涯过客”,
“怎么了”,
“一口气全念对”,
“我要夏天”,
“手写的从前”,
“鞋子特大号”,
“听爸爸的话”,
“美人鱼”,
“听见下雨的声音”,
“床边故事”,
“说走就走”,
“一点点”,
“前世情人”,
“英雄”,
“不该”,
“土耳其冰淇淋”,
“告白气球”,
“NowYouSeeMe”,
“爱情废柴”};

    System.out.println(arr[0]);for (int i = 0; i <=150; i++) {String indexUrl;if(arr[i].equals("七里香")){ indexUrl = "https://www.baidu.com/s?wd="+"周杰伦"+arr[i]+"歌曲百度百科";}else{indexUrl = "https://www.baidu.com/s?wd="+"周杰伦"+arr[i]+"百度百科";}//https://www.bilibili.com/video/av1415480?from=search&seid=12486960560568652116CloseableHttpClient httpClient = HttpClients.createDefault();HttpGet httpGet = new HttpGet(indexUrl);httpGet.setHeader("User-Agent", "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.109 Safari/537.36");CloseableHttpResponse closeableHttpResponse = httpClient.execute(httpGet);int statusCode = closeableHttpResponse.getStatusLine().getStatusCode();if (statusCode == 200) {String html = EntityUtils.toString(closeableHttpResponse.getEntity(), "UTF-8");// Document document = Jsoup.connect(indexUrl).get();Document document = Jsoup.parse(html);System.out.println("111");//result-op c-container xpath-logElements select2 = document.select("div[id=1]");//包含“t“字段Elements select1 = select2.select("h3[class~=^t]");Elements select3 = select1.select("a");String url1 = select3.attr("href");System.out.println(url1);httpGet = new HttpGet(url1);closeableHttpResponse = httpClient.execute(httpGet);html = EntityUtils.toString(closeableHttpResponse.getEntity(), "UTF-8");//entry-itemDocument document1 = Jsoup.parse(html);Elements select4 = document1.select("div[class=para]");System.out.println("24");/* Elements select4 = select.select("a[class=link-inner]");System.out.println("24");System.out.println(select4.attr("href"));*///文件存储位置File file = new File("D:\\ketangggg\\项目\\jielun\\" + arr[i] + ".txt");//建立数据的输出通道// FileInputStream fis=new FileInputStream(file);// OutputStreamWriter osw=new OutputStreamWriter(fis, UTF8Reader);//FileWriter fileWriter = new FileWriter(file,true);//建立缓冲输出流对象OutputStreamWriter fileWriter = new OutputStreamWriter(new FileOutputStream(file), "UTF-8");BufferedWriter bufferedWriter = new BufferedWriter(fileWriter);//关闭资源for (Element element : select4) {String text = element.text();System.out.println(text);if (text.length() <= 18) {System.out.println(text);bufferedWriter.write(text);bufferedWriter.write("\r\n");}bufferedWriter.flush();}bufferedWriter.close();}closeableHttpResponse.close();httpClient.close();}
}

}
接下来看效果

随便看一个爱在西元前

细节部分的不足请指出

简单爬取百度百科周杰伦所有歌的歌词相关推荐

用python 爬取百度百科内容-爬虫实战(一) 用Python爬取百度百科
最近博主遇到这样一个需求:当用户输入一个词语时,返回这个词语的解释我的第一个想法是做一个数据库,把常用的词语和词语的解释放到数据库里面,当用户查询时直接读取数据库结果但是自己又没有心思做这样一个数 ...
实战爬取百度百科1000多个页面，发现惊天大密，你们猜猜看
推荐一下我建的python学习交流qun:850973621,群里有免费的视频教程,开发工具. 电子书籍.项目源码分享.一起交流学习,一起进步! 爬虫最简单的架构就三个方面: 1.URL管理器:主要负 ...
python 爬取百度知道,Python 爬虫爬取百度百科网站
利用python写一个爬虫,爬取百度百科的某一个词条下面的全部链接和每一个链接内部的词条主题和摘要.利用request库爬取页面,然后利用BeautifulSoup对爬取到的页面提取url和关键内容. ...
python 百度百科爬虫_爬虫爬取百度百科数据
以前段时间<青春有你2>为例,我们使用Python来爬取百度百科中<青春有你2>所有参赛选手的信息. 什么是爬虫? 为了获取大量的互联网数据,我们自然想到使用爬虫代替我们完成这 ...
学习开源web知识图谱项目，爬取百度百科中文页面
github上找到的项目,感觉比较适合知识图谱入门源码地址:https://github.com/lixiang0/WEB_KG ubuntu环境(如果在windows下跑改下文件路径,我改了一下还 ...
python爬取百度百科表格_第一个python爬虫（python3爬取百度百科1000个页面）
以下内容参考自:http://www.imooc.com/learn/563 一.爬虫简介爬虫:一段自动抓取互联网信息的程序爬虫可以从一个url出发,访问其所关联的所有的url.并从每个url指向 ...
[python学习] 简单爬取维基百科程序语言消息盒
文章主要讲述如何通过Python爬取维基百科的消息盒(Infobox),主要是通过正则表达式和urllib实现:后面的文章可能会讲述通过BeautifulSoup实现爬取网页知识.由于这方面的文章还是 ...
python爬取百度百科词条-python简单爬虫爬取百度百科python词条网页
目标分析: 目标:百度百科python词条相关词条网页 - 标题和简介入口页:https://baike.baidu.com/item/Python/407313 URL格式: - 词条页面URL: ...
python爬去百度百科词条_python简单爬虫爬取百度百科python词条网页
目标分析: 目标:百度百科python词条相关词条网页 - 标题和简介入口页:https://baike.baidu.com/item/Python/407313 URL格式: - 词条页面URL: ...
python爬取百度百科获取中国高校信息
公众号看到的文章,感觉不错,适合练手.所以就自己做了一遍. 废话不多说开整. 目的:手头有一份<学校名称.xlsx>的表格.想要这些学校的英文名称.描述.简称学校名称.xlsx 最终成果 ...

简单爬取百度百科周杰伦所有歌的歌词

这里写自定义目录标题

简单爬取百度百科周杰伦所有歌的歌词相关推荐

最新文章

热门文章