(一)专业实习主要内容及进程

1.  熟悉大数据的市场与现状,在企业中的应用方向

2.  了解Hadoop的概念和生态圈等。

Hadoop是apache基金会提供的一套开源、可伸缩、可靠的用于分布式存储和计算的框架。

3.  掌握Linux基本命令和VI编辑器。

由林纳斯-托瓦斯在大学期间仿造Unix系统编写的一套免费的操作系统

常见的基础命令、vim文本编辑器、免密登录、 软件包管理

4.  掌握Hadoop的安装和常见错误分析。

5.  掌握MapReduce工作原理和编程模型,并能进行相应的开发。

Hadoop的分布式计算框架,将数据的计算分成了map和reduce两个部分;用于解决海量数据的计算问题。

6.  掌握Hive的安装、常见操作和清洗日志文件。

hive是基于Hadoop的数据仓库框架,提供了一种SQL方言,可以查询存储在HDFS上的数据;底层将SQL查询或插入转换为MR 的job程序在Hadoop集群上运行。

hive将数据组织成数据库表,通过数据库表来操作来为数据赋予结构。

7.  掌握Sqoop的概念、安装。

SQL-TO-HADOOP工具,允许用户将数据从结构化存储器MySQL抽取到Hadoop中,用于后续作进一步的处理,以供MR、hive来使用;也可以使用将数据从Hadoop、hive导出到结构化存储器,给其他的客户端:企业级开发的应用使用。

8.  掌握MySQL和HDFS的双向数据导入。

sqoop命令单独执行没有任何意义,需要使用sqoop提供的一系列的工具以供执行相应的操作

a. export      Export an HDFS directory to a database table :将HDFS上的目录中的文件导出到数据库中

b. import      Import a table from a database to HDFS:将数据库表的数据导入到HDFS指定的文件

9.  能运用Hadoop生态圈的多个组建进行简单的综合开发。

10.   Zebra项目数据处理和展示。

电信运营网络基站:覆盖一定的区域,接收该区域内用户对互联网的访问,基站会将用户的访问转发到对应的服务器,并将服务器的响应传回给用户。但基站并不是仅仅是转发的功能,也会将用户的访问信息记录到全网日志中。

随着移动互联网的发展,大家可以很方便的通过手机、ipad或电脑等智能设备,通过连接基站访问网站,其访问信息会通过基站在网络中传递,并将用户的访问信息记录到全网日志中, 基站每天会记录大量的用户访问日志,我们通过对基站收集的用户上网数据进行分析,得到受欢迎的应用排行、网站表现力等。

因为每天基站记录的日志信息数据量非常巨大,并不能简单的通过单机的程序对该日志文件做处理,这也就成了我们说的海量数据,这个时候我们就需要借助大数据的分布式处理方式对日志文件做分析处理。

(请按专业实习时间或实习内容顺序进行陈述。要求500字(包括图表)以上。表格不够可加页)

(二)主要收获与体会

(请按专以下条目进行陈述。要求1500字(包括图表)以上。表格不够可加页)

1.能够在工程实践、科技活动、实验设计、课程设计、毕业设计(论文)中应用数学、自然科学和专业工程基础解决复杂专业问题

2.能对所设计系统进行功能和性能测试,进行必要的方案改进

3.能够分析评价专业工程实践和复杂工程问题解决方案对社会、健康、安全、法律以及文化的影响,并理解应承担的责任.

4.理解并在工程实践中遵守工程职业道德规范

5.能理解个人与团队的相互作用关系,具有团队意识

6.能够就复杂工程问题进行有效的书面和口头表述,并能与他人进行有效沟通,包括撰写报告和设计文档、陈述发言、清晰表达或回应指令

(三)对专业实习单位的建议

(从专业角度对实践单位的工作提出改进建议)

(四)专业实习成果

应用欢迎度页面效果展示图:

图 4-1

在上图中通过选择日期和指标,点击查询按钮,就能查询到应用大类总流量前10名的饼形图,可以看出浏览下载的总流量是最高的,其次就是视频、即时通信。在即时通信上点击,还可以查看该应用大类下各应用小类的受欢迎度,见图4-2。

图 4-2

由上图可以看到,QQ、微信几乎占了大部分的即时通信总流量,也可以看出在15年6月左右,QQ用户仍然多于微信用户。

网站表现页面效果展示图:

图 4-3

在上图中通过选择日期和指标,点击查询按钮,就能查询到网站总流量前10名的柱形图,可以看出网址为www.icbc.com.cn(中国工商银行)的网站的总流量是最高的。在该网址柱形图上点击,还可以查看该网站一天内各小时的总流量数,见图4-4。因日志文件的数据都是同一个小时的,所以该图只有一个点。

图 4-4

参考文章

《生产实习》实习报告——JAVA大数据工程师相关推荐

  1. Java大数据工程师面试宝典

    Q:你觉得你有什么有点? 1,工作经验丰富:8年大数据开发经验: 2,项目经验丰富:多个大中型项目开发经验: 3,学习能力强:从小学到大学,学习成绩都是排名Top5 4,Troubleshoot能力 ...

  2. python大数据和java大数据的区别-从事大数据工程师 Java和Python哪个编程语言好

    大数据工程师可以选择多种语言学习,其中,Java和Python是做大数据平台开发最常见的两种编程语言,也是当下较为火热的两种语言,Java与Python在做大数据开发时各有优缺点,究竟选择哪种语言好呢 ...

  3. python和java哪个更适合大数据-要做大数据工程师,Java和Python哪个更有优势?

    目前Java和Python是做大数据平台开发最常见的两种编程语言,当然还有Scala和R,下面千锋广州老师简单的分析一下Java与Python在做大数据开发时的优缺点,具体选择哪个可以根据实际情况来判 ...

  4. 越来越多的Java程序员转行Java大数据...

    JAVA的精密,强大,拥有其它语言不可替代的性能和可维护性,早已经是成为最受欢迎的编程语言之一,很多人想进入IT行业,首选的第一门语言就是JAVA. 但是,在未来肯定是大数据的天下,人工智能的爆发,将 ...

  5. JAVA大数据需要学什么

    大数据时代,Java开发的需求量越来越大 大数据已经成为了企业竞争的核心力量.而Java是企业大数据技术的主要支撑语言,Hadoop本身就是用Java编写的.当你需要在运行MapReduce的服务器集 ...

  6. Java和Java大数据有什么区别?

    单单提起java或者大数据,很多人对此都一目了然,但对于Java大数据这样一个新鲜名词,多少有些疑惑.那java和java大数据学习的内容是一样的吗?两者有什么区别呢?今天就从java和java大数据 ...

  7. 选择java大数据开发方向学习,应该怎么规划学习路线

    Java是目前使用广泛的编程语言之一,具有的众多特性,特别适合作为大数据应用的开发语言.Java语言功能强大和简单易用,不仅吸收了C++语言的各种优点还摒弃了C++里难以理解的多继承.指针等概念. J ...

  8. 一直在说的Java和Java大数据,你能搞清楚吗?

    提起Java或大数据,很多人对此都一目了然,但对于Java大数据这样一个新鲜名词,多少有些疑惑. 那Java和Java大数据学习的内容是一样的吗?两者有什么区别呢?今天就从Java和Java大数据的以 ...

  9. Java大数据就业方向有哪些?

    Java大数据应用领域 Java大数据的应用领域非常的广泛,可以简单分为几类: 基础大数据服务平台,大中型的商业应用包括我们常说的企业级应用(主要指复杂的大企业的软件系统).各种类型的网站等. 数据分 ...

  10. 领英2017报告:机器学习、大数据工程师成为最热门的新兴职业

    根据美国劳工统计局的数据,今天进入小学的孩子们中,预估有65%最终将会从事那些尚未出现的工作.LinkedIn的新兴职业报告调查了哪些工作需求正在增加,哪些正在被取代,哪些技能是面向未来的,以及这些趋 ...

最新文章

  1. python制作图形化界面_python图形化界面设计(wxpython)一布局管理
  2. 【opencv】14.cv::cvtColor函数转换颜色空间时使用CV_RGB2BGR与CV_BGR2RGB结果一样的原因
  3. LDA入门级学习笔记
  4. S/4HANA for Customer Management里的搜索分页处理
  5. 用C#编写的代码经C#编译器后,并非生成本地代码而是生成托管代码
  6. 解决:A component required a bean of type ‘javax.jms.Queue‘ that could not be found.
  7. jq 多个div从右向左依次显示_jquery – Animate绝对div到左边:0然后到右边:0和循环...
  8. 施密特正交化_格拉姆-施密特正交化--QR分解法的来源
  9. win10新版本被移除的旧特性
  10. xml文件中““符号报错,无法识别
  11. Windows Mobile 获得 MAC,IP,IMEI,IMSI
  12. 计算机维护岗位主要职责怎么写,计算机维护岗位职责
  13. Axure RP 9 for Mac 中文版 专业产品原型设计工具
  14. 【Lesson 1】 和弦 Chord
  15. 动图图解!既然IP层会分片,为什么TCP层也还要分段?
  16. dw html 浮动窗口,Dreamweaver怎样实现飘浮光球特效
  17. 2小时开发《点球射门游戏》,动画演示思路(上),代码已开源
  18. 112A.Petya and Strings
  19. Mysql学习总结十二:系统变量、用户变量、定义条件和处理程序
  20. Wireshark lua插件

热门文章

  1. 外壳IK防护等级测试
  2. C# winform实现系统托盘NotifyIcon控件右键菜单
  3. RS485接口上的PTC
  4. 2021年谷歌地球专业版使用方法,解决Google Earth无法连接服务器问题。
  5. 非线性动力方程中的解析法和数值法(解析解和数值解)
  6. 盈透IBKR IBAPI Quant | Database | 通过盈透ibapi下载历史数据 Part 01
  7. Android ActivityManager类
  8. 如何批量打印ppt文件
  9. tp-link无线网卡linux下的驱动,Ubuntu14下安装无线网卡驱动(TP-LINK TL-WN823N)
  10. tl-wn821n无线网卡驱动 linux,tlwn821n 300m无线网卡驱动 官方最新版