Iceberg从入门到精通系列之二:Iceberg集成Hive

Iceberg从入门到精通系列之二:Iceberg集成Hive

  • 一、Hive引入Iceberg的jar包
  • 二、修改hive-site.xml
  • 三、启动hadoop集群
  • 四、启动hive元数据服务
  • 五、进入Hive数据库
  • 六、创建和管理Catalog
  • 七、使用HiveCatalog
  • 八、指定Catalog类型HiveCatalog
  • 九、指定Catalog类型HadoopCatalog
  • 十、指定路径加载
  • 十一、Hive内部表和外部表的区别

理解Iceberg核心概念可以阅读博主下面这篇技术博客:

  • Iceberg从入门到精通系列之一:Iceberg核心概念理解

一、Hive引入Iceberg的jar包

拷贝Iceberg的jar包到Hive的auxlib目录中

mkdir auxlib
cp iceberg-hive-runtime-1.1.0.jar /opt/module/hive/auxlib
cp libfb303-0.9.3.jar /opt/module/hive/auxlib

二、修改hive-site.xml

<property><name>iceberg.engine.hive.enable</name><value>true</value>
<property><property><name>hive.aux.jars.path</name><value>/opt/module/hive/auxlib</value>
</property>

三、启动hadoop集群

  • 启动hdfs
  • 启动yarn
  • 启动historyserver

四、启动hive元数据服务

Hive的元数据服务是一种存储和管理Hive表格和数据定义的中央服务,它允许用户定义表格、分区和桶等元数据信息,并将其存储在Hive元数据存储库中。Hive元数据服务还提供了一个API,允许用户检索、查询和修改这些元数据信息。Hive元数据服务是Hive的重要组成部分,使用户能够轻松地管理和使用大规模数据集。它还提供了丰富的元数据信息,可以帮助用户优化查询性能,如使用分区和桶来对数据进行分组和排序等。

hive --service metastore

更详细的步骤如下所示:

在启动Hive之前,需要先启动Hadoop的NameNode和DataNode服务。然后,可以通过以下步骤启动Hive元数据服务:

  1. 配置hive-site.xml文件,指定Hive元数据存储库的类型和连接信息。例如,可以使用MySQL数据库作为Hive元数据存储库,需要设置如下属性:
<property><name>javax.jdo.option.ConnectionURL</name><value>jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=true</value>
</property>
<property><name>javax.jdo.option.ConnectionDriverName</name><value>com.mysql.cj.jdbc.Driver</value>
</property>
<property><name>javax.jdo.option.ConnectionUserName</name><value>hive</value>
</property>
<property><name>javax.jdo.option.ConnectionPassword</name><value>hive123</value>
</property>
<property><name>hive.metastore.warehouse.dir</name><value>/user/hive/warehouse</value>
</property>
  1. 启动HiveServer2服务,以提供对Hive的客户端连接,并将Hive元数据服务连接到指定的数据库中。可以使用以下命令启动HiveServer2服务:
hive --service hiveserver2
  1. 启动Hive元数据服务,以提供对Hive元数据存储库的访问。可以使用以下命令启动Hive元数据服务:
hive --service metastore

启动完成后,可以使用Beeline或其他Hive客户端工具连接到HiveServer2服务,并使用Hive元数据服务来管理和查询Hive表格和数据。

五、进入Hive数据库

方式一:直接进入Hive数据库

hive

方式二:
使用Beeline连接到HiveServer2服务,可以使用以下命令:

beeline -u jdbc:hive2://:/dbname -n -p

其中,是HiveServer2服务所在的主机名,是HiveServer2服务监听的端口号,是连接的Hive数据库名,是连接的用户名,是连接的密码。

例如,连接到HiveServer2服务所在的主机名为localhost,端口号为10000,数据库名为default,用户名为hive,密码为hive123的Hive数据库,可以使用以下命令:

beeline -u jdbc:hive2://localhost:10000/default -n hive -p hive123

六、创建和管理Catalog

  • Iceberg支持多种不同的Catalog类型,例如:Hive、Hadoop、亚马逊的AWS Glue和自定义的Catalog

根据不同配置,分为三种情况:

  • 没有设置iceberg.catalog,默认使用HiveCatalog
  • 设置了iceberg.catalog的类型,使用指定的Catalog类型
配置项说明
iceberg.catalog.<catalog_name>.typeCatalog的类型:hive,hadoop,如果使用自定义Catalog,则不设置
iceberg.catalog.<catalog_name>.catalog-implCatalog的实现类,如果上面的type没有设置,则此参数必须设置
iceberg.catalog.<catalog_name>.Catalog的其他配置项
  • 设置iceberg.catalog=location_based_table,直接通过指定的根路径来加载Iceberg表

七、使用HiveCatalog

创建表

CREATE TABLE iceberg_test (i int)
STORED BY 'org.apache.iceberg.mr.hive.HiveIcebergStorageHandler';

插入数据

INSERT INTO iceberg_test values(1);

查看HDFS可以发现,表目录在默认的hive仓库路径下

查看表

describe iceberg_test1;

查看表的详细信息:

describe formatted iceberg_test1;

创建的表会在hive默认的路径下

<!-- Hive默认在HDFS的工作目录 -->
<property><name>hive.metastore.warehouse.dir</name><value>/user/hive/warehouse</value>
</property>

插入数据

insert into iceberg_test1 values(1);

八、指定Catalog类型HiveCatalog

set iceberg.catalog.iceberg_hive.type=hive;
set iceberg.catalog.iceberg_hive.url=thrift://hadoop1:9083;
set iceberg.catalog.iceberg_hive.clients=10;
set iceberg.catalog.iceberg_hive.warehouse=hdfs://hadoop1:8020/warehouse/iceberg-hive;

创建表

CREATE TABLE iceberg_test2 (i int)
STORED BY 'org.apache.iceberg.mr.hive.HiveIcebergStorageHandler'
TBLPROPERTIES('iceberg.catalog'='iceberg_hive');INSERT INTO iceberg_test2 values(1);

查看表的详细信息:

describe formatted iceberg_test1;

九、指定Catalog类型HadoopCatalog

set iceberg.catalog.iceberg_hadoop.type=hadoop;
set iceberg.catalog.iceberg_hadoop.warehouse=hdfs://hadoop1:8020/warehouse/iceberg-hadoop

创建表

CREATE TABLE iceberg_test3 (i int)
STORED BY 'org.apache.iceberg.mr.hive.HiveIcebergStorageHandler'
LOCATION 'hdfs://hadoop1:8020/warehouse/iceberg-hadoop/default/iceberg_test3'
TBLPROPERTIES('iceberg.catalog'='iceberg_hadoop');

插入数据

INSERT INTO iceberg_test3 values(1);

十、指定路径加载

如果HDFS中已经存在iceberg格式表,可以通过在Hive中创建iceberg格式表指定对应的location路径映射数据。

CREATE EXTERNAL TABLE iceberg_test4(i int)
STORED BY 'org.apache.iceberg.mr.hive.HiveIcebergStorageHandler'
LOCATION 'hdfs://hadoop1:8020/warehouse/iceberg-hadoop/default/iceberg_test3'
TBLPROPERTIES ('iceberg.catalog'='location_based_table');
  • 加载已经存在的iceberg表iceberg_test3的数据,要求表结构相同,路径定位到表iceberg_test3
  • TBLPROPERTIES (‘iceberg.catalog’=‘location_based_table’);默认值

查询数据

select * from iceberg_test4;
  • 如果创建的表是内部表iceberg_test4,删除表iceberg_test4,会导致iceberg_test3表的数据被删除。
  • 如果创建的表是外部表,删除表iceberg_test4,不会影响表iceberg_test3表的数据。

十一、Hive内部表和外部表的区别

补充Hive内部表和外部表的区别:

在Hive中,内部表和外部表是两种不同的表格类型。

  • 内部表是通过Hive自己的存储格式存储在Hive仓库目录下的表格,其数据和元数据都由Hive管理。数据和表格的定义存储在Hive仓库的目录结构中。内部表有一个默认的存储位置,当用户删除表格时,Hive会删除表格的数据和元数据。
  • 外部表是基于现有数据文件或表格的定义创建的Hive表格。外部表的数据和元数据都保存在外部数据源中,Hive只是指向这些数据源,并提供表格的结构,作为对数据源的抽象表示。当用户删除外部表时,只有元数据被删除,而不会删除实际的存储数据。

因此,内部表和外部表的主要区别在于数据和元数据的存储位置和管理方式。内部表由Hive管理数据和元数据,而外部表只由Hive管理元数据,实际的存储数据由外部数据源维护。

本文链接:https://my.lmcjl.com/post/10023.html

展开阅读全文

4 评论

留下您的评论.