博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Impala数据处理(加载和存储)
阅读量:6508 次
发布时间:2019-06-24

本文共 829 字,大约阅读时间需要 2 分钟。

 

 

 

 

 

 

   与Impala都是构建在之上的数据查询工具,那么在实际的应用中,它们是如何加载和存储数据的呢?

Hive和Impala存储和加载表,和所有的关系型一样,有自己的数据管理结构,从它的Server到Database再到表和视图。

  在其他的数据库中,表都是以自己特定的文件格式来存储的,比如有自己的存储格式,而对Hive而言,一个表就是包含一个或多个文件的HDFS目录,这个文件是属于表下面的内容,默认存储路径:/user/hive/warehouse/<table_name>,支持多种存储格式。

 

  以上就是数据的存储,那么每一个表、每一个结构都有自己的列或者类型定义的信息,这些信息该如何去保存呢?它们存储在Metastore里,而所有的数据都存储在HDFS之上,所以我们想要获得表结构信息,就需要知道hive的元数据中每个表的含义和结构。在hive中,有简单的命令可以大概的查看表的结构信息:describe formatted tableName; hive metastore表结构如下:

    

  因为Hive和Impala使用相同的数据,表在HDFS,元数据在Metastore,所以以上的存储及结构介绍同样适用于Impala。

 

 

 

数据加载及存储示例

        

 

 

 

  在这里呢我们必须要区分两个概念:数据和元数据。数据指的是你存储和处理的信息,比如账单记录、传感器读数和服务日志等。而元数据用来描述数据的形态,比如字段名和顺序等。

        

 

 

与Impala都是构建在之上的数据查询工具,那么在实际的应用中,它们是如何加载和存储数据的呢?

Hive和Impala存储和加载表,和所有的关系型一样,有自己的数据管理结构,从它的Server到Database再到表和视图。

本文转自大数据躺过的坑博客园博客,原文链接:http://www.cnblogs.com/zlslch/p/6785707.html,如需转载请自行联系原作者

你可能感兴趣的文章
使用C#生成随机密码(纯数字或字母)和随机卡号(数字与字母组合)
查看>>
CAS服务器端集群
查看>>
Android内存泄漏的常见场景及解决方案
查看>>
设计模式 之 访问者模式
查看>>
用JS获取地址栏参数的方法
查看>>
JAVA Collections框架
查看>>
更改Windwos server 2003 域用户密码策略默认配置
查看>>
网站白名单可行性分析
查看>>
进制转换
查看>>
反转字符串中的单词
查看>>
html与html5的一些区别
查看>>
ASCII码
查看>>
java常用四种排序源代码
查看>>
win7 下硬盘安装Redhat7
查看>>
Configuring Zookeeper Cluster
查看>>
js图表控件:highcharts的应用
查看>>
Redis 分布式锁的正确实现方式
查看>>
mysqldump 备份命令使用中的一些经验总结
查看>>
Linux下MySql安装配置方法总结
查看>>
本IT博客用于域名投资、互联网、资源下载等相关干货收藏和学习
查看>>