HBase是Hadoop生态圈中的一员,Nosql数据库,能够对大数据提供随机、实时读写访问。他是开源的,分布式的,多版本的,面向列的,存储模型。
Hbase架构
Hbase体系架构
HBase Master是服务器负责管理所有的HRegion服务器,HBase Master并不存储HBase服务器的任何数据,HBase逻辑上的表可能会划分为多个HRe……继续阅读 »
itzoo
8年前 (2017-03-22) 5224浏览 0评论
0个赞
RPC,即Remote Procdure Call,中文名:远程过程调用;
RPC的基础概念
它允许一台计算机程序远程调用另外一台计算机的子程序,而不用去关心底层的网络通信细节,对我们来说是透明的。因此,它经常用于分布式网络通信中。
RPC协议假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。在OSI网络通信模型中,RPC跨越了传输层……继续阅读 »
itzoo
8年前 (2017-03-03) 4197浏览 0评论
0个赞
一.Azkaban和Oozie的工作流程
Azkaban工作流程
Azkaban将需要操作的信息打包成zip文件发送给Server端,Server对用户的信息进行存储。用户在Web UI 或者通过HTTP Client发送操作请求后,Server会根据用户定义的*.job文件(KV 匹配),执行zip包中的Jar文件。
源码的执行过程:
1.……继续阅读 »
itzoo
8年前 (2017-03-03) 3401浏览 0评论
0个赞
文档
下载地址
百度云盘下载地址(提取密码:yc32):
链接:http://pan.baidu.com/s/1boWJq7X
……继续阅读 »
itzoo
8年前 (2017-03-01) 3849浏览 0评论
0个赞
代码测试环境:Hadoop2.4
应用场景:当需要定制输出数据格式时可以采用此技巧,包括定制输出数据的展现形式,输出路径,输出文件名称等。
Hadoop内置的输出文件格式
FileOutputFormat<K,V> 常用的父类;
TextOutputFormat<K,V> 默认输出字符串输出格式;
SequenceFileOutpu……继续阅读 »
itzoo
8年前 (2017-02-27) 5894浏览 0评论
0个赞
大数据学习整套视频,从Linux基础到云计算,囊括了当下主流的大数据技术,视频是尚学堂随堂视频,价值2W+的资源,这里仅供学习和交流使用,禁止一切商业用途。请大家学完请立刻删除。如需学习可以去尚学堂官网报名。谢谢合作。
入门篇之Linux学习
大数据之Hadoop学习
……继续阅读 »
itzoo
8年前 (2017-02-25) 4535浏览 0评论
2个赞
功能
两者均可以调度mapreduce,pig,java,脚本工作流任务
两者均可以定时执行工作流任务
工作流定义
Azkaban使用Properties文件定义工作流
Oozie使用XML文件定义工作流
工作流传参
Azkaban支持直接传参,例如${input}
Oozie支持参数和EL表达式,例如${fs:dirSize(myInputDir)}
定时……继续阅读 »
itzoo
8年前 (2017-02-24) 3070浏览 0评论
0个赞
最近项目迁移到新集群,试试同事推荐的开源任务调度程序-azkaban(阿兹卡班),没看错,就是哈利波特里的阿兹卡班,azikaban主要用来解决hadoop依赖任务的执行,但是它本身支持linux和java程序,因此适合做小项目的任务调度管理程序。
Azkaban官网 : https://azkaban.github.io/
Azkaban组件
关系数据库……继续阅读 »
itzoo
8年前 (2017-02-23) 4359浏览 0评论
0个赞
spark做当下非常流行的大数据计算框架,网上的资源也非常的多,但是相对完整的视频较少,这里提供有尚学堂Yasaka老师的讲解的spark教程,囊括了scala学习、kafka使用和spark core,spark sql,,spark streaming,以及spark算子优化和故障解决等课程,最后会有一个基于这些技术的项目。仅供大家学习和交流使用。
教程……继续阅读 »
itzoo
8年前 (2017-02-20) 13830浏览 5评论
1个赞
表结构
需求
hive表设计是按天存储数据,每天一个分区,存放全国不同省市的用户数据,省市通不过cityid字段编号的不同做区分,现在需要输出天津每个月的用户总数。
思路
这里仅提供自己的思路,对全表进行查询,并截取日期字段,取前6位,保留到月,对数据按月进行重新分组,并输出总数count和月份。这里使用到了substr函数。
代码
select coun……继续阅读 »
itzoo
8年前 (2017-02-20) 7928浏览 0评论
0个赞
操作信息和口令
1.查询数据库
# show databases;
2.查询表列表
# show tables;
3.模糊查询表
# show tables like ‘*name*’;
4.查看表的结构
# desc formatted 数据库.表名;
# desc 数据库名.表名;
5.查看表分区信息
# show partiti……继续阅读 »
itzoo
8年前 (2017-02-15) 8249浏览 0评论
0个赞
Java核心技术二卷,高级特性篇,此书全面覆盖Java技术的高级主题,包括流与文件、XML、网络、数据库编程、高级Swing、高级 AWT、JavaBean构件、安全、分布式对象、脚本、编译与注解处理等,同时涉及本地化、国际化以及Java SE 7的内容。《JAVA核心技术卷Ⅱ:高级特征》对Java技术的阐述精确到位,叙述方式深入浅出,并包含大量示例,从而帮……继续阅读 »
itzoo
8年前 (2017-02-11) 1931浏览 0评论
1个赞