为了方便后面的使用,我们通常会对刚创建的虚拟机做最小化的处理,安装必要的软件和常用的工具,制作成快照,然后克隆虚拟机,为了后面搭建hadoop集群使用。
注:软件在文章最下面可以下载
常用软件安装
创建software目录,通过XFtp上传常用的软件,如JDK和Tomcat
安装jdk和tomcat
[root@hadoop001 ~]# mkdir /……继续阅读 »
往事如烟
3年前 (2018-07-17) 725浏览 0评论
0个赞
最近工作时间比较轻松,闲着无事,把之前使用到的大数据的知识做了一次系统的整理和总结,从最基础的Linux虚拟机安装,到最后各个大数据相关组件的搭建,以及框架中需要注意的疑难点并统一记录了下来,一来加深自己的记忆,方便以后查看和复习,同时也能让其他同学学习使用,知识贵在分享,如有写的不完善或者错误的地方,欢迎留言指正,谢谢了。
另外,感兴趣的同学,可以加入大数……继续阅读 »
往事如烟
3年前 (2018-07-17) 597浏览 0评论
1个赞
本地使用VMware安装虚拟机,用来搭建搭建hadoop集群,用于练习使用,顺便记录下来每次的操作步骤,如果有异议,欢迎留言,或者加入大数据技术讨论群 822432673,一起交流、学习、成长。
准备工作:
VMware12工具
CentOS-6.5-x86_64-minimal.iso 纯净版操作系统映射,用于快速安装操作系统
CentOS-6.5-x……继续阅读 »
往事如烟
3年前 (2018-07-16) 1100浏览 0评论
0个赞
flatmap算子操作,先对每个元素进行操作,最后在进行扁平化处理。
测试代码
#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Time : 2018/4/8 11:17
# @Author : Relyun、
# @Site :
# @File : T_Spark_FlatMap_Base.py
……继续阅读 »
往事如烟
3年前 (2018-04-08) 1752浏览 1评论
0个赞
map算子对每个元素进行操作处理
测试代码
#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Time : 2018/4/8 10:41
# @Author : itzoo、
# @Site :
# @File : T_Spark_Map_Base.py
# @Software: PyCharm
……继续阅读 »
往事如烟
3年前 (2018-04-08) 1061浏览 0评论
0个赞
Hbase常用API操作,主要包括表的创建,数据的添加,获取,预分区的使用和Filter使用。
环境: Hadoop 2.5, Hbase版本0.98
代码
package net.itzoo;
import java.io.IOException;
import java.math.BigInteger;
import java.text.……继续阅读 »
itzoo
3年前 (2017-08-29) 899浏览 0评论
0个赞
整体架构优化
现在hive的整体框架如下,计算引擎不仅仅支持Map/Reduce,并且还支持Tez、Spark等。根据不同的计算引擎又可以使用不同的资源调度和存储系统。
整体架构优化点:
根据不同业务需求进行日期分区,并执行类型动态分区。
相关参数设置:
0.14中默认hive.exec.dynamic.partition=ture
为了减少磁盘存……继续阅读 »
itzoo
4年前 (2017-05-25) 1020浏览 0评论
0个赞
Hadoop RPC是Hadoop的一个重要部分,提供分布式环境下的对象调用功能,源码在org.apache.hadoop.ipc中。而HBase也几乎完全copy了这部分的源码,只是在配置项上面有所改动。关于Hadoop RPC的机制分析和源码解读,网上已经有许多资料,一搜一大把,这里就不在描述了。本文通过一个小例子,介绍如何调用Hadoop RPC。
1……继续阅读 »
itzoo
4年前 (2017-05-16) 831浏览 0评论
0个赞
条件函数
if函数:if
语法: if(boolean testCondition, T valueTrue, T valueFalseOrNull)
返回值: T
说明: 当条件testCondition为TRUE时,返回valueTrue;否则返回valueFalseOrNull
举例:
hive> select if(1=2,100,200)……继续阅读 »
itzoo
4年前 (2017-03-28) 872浏览 0评论
0个赞
HBase是Hadoop生态圈中的一员,Nosql数据库,能够对大数据提供随机、实时读写访问。他是开源的,分布式的,多版本的,面向列的,存储模型。
Hbase架构
Hbase体系架构
HBase Master是服务器负责管理所有的HRegion服务器,HBase Master并不存储HBase服务器的任何数据,HBase逻辑上的表可能会划分为多个HRe……继续阅读 »
itzoo
4年前 (2017-03-22) 1258浏览 0评论
0个赞
RPC,即Remote Procdure Call,中文名:远程过程调用;
RPC的基础概念
它允许一台计算机程序远程调用另外一台计算机的子程序,而不用去关心底层的网络通信细节,对我们来说是透明的。因此,它经常用于分布式网络通信中。
RPC协议假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。在OSI网络通信模型中,RPC跨越了传输层……继续阅读 »
itzoo
4年前 (2017-03-03) 852浏览 0评论
0个赞
一.Azkaban和Oozie的工作流程
Azkaban工作流程
Azkaban将需要操作的信息打包成zip文件发送给Server端,Server对用户的信息进行存储。用户在Web UI 或者通过HTTP Client发送操作请求后,Server会根据用户定义的*.job文件(KV 匹配),执行zip包中的Jar文件。
源码的执行过程:
1.……继续阅读 »
itzoo
4年前 (2017-03-03) 1238浏览 0评论
0个赞