博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
BlazingSQL运用GPU创造比Apache Spark高20倍运算效率
阅读量:5737 次
发布时间:2019-06-18

本文共 1441 字,大约阅读时间需要 4 分钟。

分布式GPU SQL引擎BlazingSQL最新版本应用程序与Apache Spark测试比较,在执行相同工作负载且维持相同成本的条件下,BlazingSQL的执行效能是Apache Spark的20倍。在去年10月才对外发布的BlazingSQL,是采用RAPIDS数据科学框架的GPU加速SQL引擎,RAPIDS为一个全GPU端到端资料科学工作管线的开源函式库集,BlazingSQL扩展了RAPIDS,并让用户以Apache Arrow在GPU内存中执行SQL查询。在一月的时候,BlazingSQL先进行了一次效能实验,他们在网络大厂云端平台上建立了Apache Spark以及BlazingSQL两个丛集,为维持相同成本配置,Apache Spark丛集使用8个8 CPU的节点,在BlazingSQL丛集使用一个搭载Tesla V1000 GPU与10个CPU的节点,官方提到,这两种硬件配置每月的支出约都在1500美元左右。

官方在GitHub公开了测试程序代码,他们让这两个丛集执行相同的端到端分析工作负载,对数据进行特征萃取工程,并以机器学习函式库XGBoost进行训练。对两种大小的数据集进行测试,BlazingSQL的执行速度比Apache Spark快了5倍。而现在他们又再次对新版BlazingSQL做了一次基准检验,执行与上次相同的工作负载并在成本相当的条件下,BlazingSQL的执行速度是Apache Spark的20倍。在新测试中,除了BlazingSQL丛集用了Nvidia的T4 GPU,还改善了BlazingSQL中的SIMD Expression Interpreter。

官方表示,虽然T4是一颗入门级的GPU,价格较便宜但是却拥有良好的效能,比起前一个实验他们所使用的V100,价格便宜许多,因此将成本列入比较的限制时,这次Apache Spark丛集使用的节点也降低至4 CPU,以维持相同的成本支出。

不过,官方表示,这次试验大部分的效能增加,是来自于引擎的改进。BlazingSQL正在发展一个专为GPU DataFrames(GDF)打造的GPU执行核心SIMD表达式直译器(SIMD Expression Interpreter)。SIMD表达式直译器可以让系统同时接收多重输入,包括GDF字段、文字,并在未来将能支持函式。当系统加载这些输入时,SIMD表达式直译器能够优化GPU上缓存器的配置,因此能进一步优化GPU线程的占用率以及效能,让虚拟机能同时处理多重输入以及输出,官方举例,过去BlazingSQL处理SELECT colA + colB * 10, sin(colA) — cos(colD) FROM tableA,会将该查询转换成+、*、 sin、cos和—等5个单独的运算,最后产生两个输出,SIMD表达式直译器则使用colA、colB和colD三个输入,并在单个核心执行全部5种运算,而后产生两个输出。官方表示。以这样的方式系统只需要加载一次colA、colB和colD,而非原本的两次。目前SIMD Expression Interpreter的进度只能支持过滤器和投影运算,但已经能加速大多数的热门SQL运算。由于BlazingSQL仍处在发展初期,目前仍在0.2版本,官方也坦承说,BlazingSQL目前只能以单节点和单GPU执行,因此他们在实验上限制了运算数据量。信息及图片来源至:乐彩爱公益

转载地址:http://prwzx.baihongyu.com/

你可能感兴趣的文章
分区交换 alter table exchange partition 在线表 历史表交换
查看>>
zabbix详解:(二)添加被监控机器
查看>>
设计模式单列
查看>>
人像模式的灯光效果?iPhone 8开挂袭来
查看>>
Linux下MongoDB安装与配置
查看>>
DSL配置(PPPOA)
查看>>
WEBRTC执行流程
查看>>
Spring Boot 入门系列
查看>>
Spring Cloud版——电影售票系统<六>使用 Spring Cloud Config 统一管理微服务配置
查看>>
Java not support java EE1.3
查看>>
iptables规则备份及恢复、firewalld九个zone,service的操作
查看>>
www.conf配置文件的参数详解
查看>>
如何实现邀请好友帮抢票功能?
查看>>
深圳联通特邀湖北籍企业参观公司总部大楼举行
查看>>
告警系统主脚本、告警系统配置文件、告警系统监控项目
查看>>
Python 和 PyCharm 在 windows10 环境的安装和设置
查看>>
C语言入门基础之数组——数学和编程的完美结合(图)
查看>>
《远见》的读后感作文1000字范文
查看>>
重置密码、单用户模式、救援模式
查看>>
LAMP环境搭建1-mysql5.5
查看>>