最近项目迁移到新集群,试试同事推荐的开源任务调度程序-azkaban(阿兹卡班),没看错,就是哈利波特里的阿兹卡班,azikaban主要用来解决hadoop依赖任务的执行,但是它本身支持linux和java程序,因此适合做小项目的任务调度管理程序。
Azkaban官网 : https://azkaban.github.io/
Azkaban组件
关系数据库……继续阅读 »
itzoo
8年前 (2017-02-23) 4338浏览 0评论
0个赞
表结构
需求
hive表设计是按天存储数据,每天一个分区,存放全国不同省市的用户数据,省市通不过cityid字段编号的不同做区分,现在需要输出天津每个月的用户总数。
思路
这里仅提供自己的思路,对全表进行查询,并截取日期字段,取前6位,保留到月,对数据按月进行重新分组,并输出总数count和月份。这里使用到了substr函数。
代码
select coun……继续阅读 »
itzoo
8年前 (2017-02-20) 7899浏览 0评论
0个赞
操作信息和口令
1.查询数据库
# show databases;
2.查询表列表
# show tables;
3.模糊查询表
# show tables like ‘*name*’;
4.查看表的结构
# desc formatted 数据库.表名;
# desc 数据库名.表名;
5.查看表分区信息
# show partiti……继续阅读 »
itzoo
8年前 (2017-02-15) 8220浏览 0评论
0个赞
1.1 YARN 基本架构
YARN是Hadoop 2.0中的资源管理系统,它的基本设计思想是将MRv1中的JobTracker拆分成了两个独立的服务:一个全局的资源管理器ResourceManager和每个应用程序特有的ApplicationMaster。
其中ResourceManager负责整个系统的资源管理和分配,而ApplicationMas……继续阅读 »
往事如烟
8年前 (2017-02-10) 4946浏览 0评论
1个赞