整体架构优化
现在hive的整体框架如下,计算引擎不仅仅支持Map/Reduce,并且还支持Tez、Spark等。根据不同的计算引擎又可以使用不同的资源调度和存储系统。
整体架构优化点:
根据不同业务需求进行日期分区,并执行类型动态分区。
相关参数设置:
0.14中默认hive.exec.dynamic.partition=ture
为了减少磁盘存……继续阅读 »
itzoo
7年前 (2017-05-25) 3631浏览 0评论
1个赞
条件函数
if函数:if
语法: if(boolean testCondition, T valueTrue, T valueFalseOrNull)
返回值: T
说明: 当条件testCondition为TRUE时,返回valueTrue;否则返回valueFalseOrNull
举例:
hive> select if(1=2,100,200)……继续阅读 »
itzoo
8年前 (2017-03-28) 3412浏览 0评论
0个赞
表结构
需求
hive表设计是按天存储数据,每天一个分区,存放全国不同省市的用户数据,省市通不过cityid字段编号的不同做区分,现在需要输出天津每个月的用户总数。
思路
这里仅提供自己的思路,对全表进行查询,并截取日期字段,取前6位,保留到月,对数据按月进行重新分组,并输出总数count和月份。这里使用到了substr函数。
代码
select coun……继续阅读 »
itzoo
8年前 (2017-02-20) 7329浏览 0评论
0个赞
操作信息和口令
1.查询数据库
# show databases;
2.查询表列表
# show tables;
3.模糊查询表
# show tables like ‘*name*’;
4.查看表的结构
# desc formatted 数据库.表名;
# desc 数据库名.表名;
5.查看表分区信息
# show partiti……继续阅读 »
itzoo
8年前 (2017-02-15) 7616浏览 0评论
0个赞