Spark SQL 与 Hive 的小文件调优
创始人
2024-03-14 06:10:09
0

文章目录

    • 小文件危害
    • 表的缓存
    • shuffle 分区数调整
    • Spark SQL 客户端设置合并
    • Hive 客户端处理小文件合并

小文件危害

小文件会造成 nn 处理压力变大,大大降低了读取性能,整个 HDFS 文件系统访问缓慢,大量的小文件还会导致 nn 内存溢出,无法正常使用。

表的缓存

# 缓存某个表
spark.catalog.cacheTable("tableName")# 释放缓存的表
spark.catalog.uncacheTable("tableName")

shuffle 分区数调整

# 指定在进行 shuffle 操作时的分区数量,默认:200
spark.sql.shuffle.partitions

Spark SQL 客户端设置合并

我的建议是,不如直接调用方法coalesce 来得实在。

那么如何设置 coalesce 参数的个数呢?

可以先查看我们操作的数据量大小,然后用它去除以我们的集群块Block Size 即可。

Hive 客户端处理小文件合并

方法一:

-- 是否开启分区调整功能,默认:false
set spark.sql.adaptive.enabled=true;-- 开启分区调整后,在 reduce 阶段每个 task 最少处理的数据量,默认:64M,单位:B
-- 一般改成和集群块一样的大小,Hadoop2.7.2版本及之前默认64MB,Hadoop2.7.3版本及之后默认128M
set spark.sql.adaptive.shuffle.targetPostShuffleInputSize=128000000;-- 开启分区调整后,最小的 reducer 个数,默认:1
set spark.sql.adaptive.minNumPostShufflePartitions=1;-- 开启分区调整后,最大的 reducer 个数,默认:500
set spark.sql.adaptive.maxNumPostShufflePartitions=500;-- 开启分区调整后,在 reduce 阶段每个 task 最少处理的条数,默认:20000000
set spark.sql.adaptive.shuffle.targetPostShuffleRowCount=20000000;

一般情况数据量小的话,只需要设置前面两个参数就可以了。

参数调整前:

在这里插入图片描述

参数调整后:

新建了一个和其结构一样 test 表,然后导入数据,成功的合并了小文件:

在这里插入图片描述


方法二:

-- 执行 Map 前进行小文件合并,默认开启
set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;-- 合并为一个 split 的最大值(单位byte),当超过该值时新建一个split,256MB
set mapreduce.input.fileinputformat.split.maxsize=268435456;-- 在第一步合并后每个节点剩余的文件,如果大于该值(单位byte),单独创建一个split,256MB
set mapreduce.input.fileinputformat.split.minsize.per.node=268435456;-- 在第二步处理完,每个机架上剩余的文件,如果大于该值(单位byte),单独创建一个split,256MB
set mapreduce.input.fileinputformat.split.minsize.per.rack=268435456;

参数调整前:

在这里插入图片描述

参数调整后:

新建了一个和其结构一样 test 表,然后导入数据,成功的合并了小文件:

在这里插入图片描述

以上参数调优都是临时调优,仅限于本次会话,如果想要永久设置的话只需要将参数配置到 hive-site.xml 文件中即可。

相关内容

热门资讯

汽车油箱结构是什么(汽车油箱结... 本篇文章极速百科给大家谈谈汽车油箱结构是什么,以及汽车油箱结构原理图解对应的知识点,希望对各位有所帮...
美国2年期国债收益率上涨15个... 原标题:美国2年期国债收益率上涨15个基点 美国2年期国债收益率上涨15个基...
嵌入式 ADC使用手册完整版 ... 嵌入式 ADC使用手册完整版 (188977万字)💜&#...
重大消息战皇大厅开挂是真的吗... 您好:战皇大厅这款游戏可以开挂,确实是有挂的,需要了解加客服微信【8435338】很多玩家在这款游戏...
盘点十款牵手跑胡子为什么一直... 您好:牵手跑胡子这款游戏可以开挂,确实是有挂的,需要了解加客服微信【8435338】很多玩家在这款游...
senator香烟多少一盒(s... 今天给各位分享senator香烟多少一盒的知识,其中也会对sevebstars香烟进行解释,如果能碰...
终于懂了新荣耀斗牛真的有挂吗... 您好:新荣耀斗牛这款游戏可以开挂,确实是有挂的,需要了解加客服微信8435338】很多玩家在这款游戏...
盘点十款明星麻将到底有没有挂... 您好:明星麻将这款游戏可以开挂,确实是有挂的,需要了解加客服微信【5848499】很多玩家在这款游戏...
总结文章“新道游棋牌有透视挂吗... 您好:新道游棋牌这款游戏可以开挂,确实是有挂的,需要了解加客服微信【7682267】很多玩家在这款游...
终于懂了手机麻将到底有没有挂... 您好:手机麻将这款游戏可以开挂,确实是有挂的,需要了解加客服微信【8435338】很多玩家在这款游戏...