技术党超爱的来了!瑞芯微RK3288 GPU技术细节深度分析

2022-01-24 09:00:18 6210

2014年香港电子展,瑞芯微盛大发布了誉为“跑分王、游戏王、超清王”的RK3288处理器。该处理器采用MALI T764(ARM产品序列为T760)GPU,为当前ARM MALI序列最高规格。在性能上极为强悍,下文对RK3288 GPU性能进行全面分析。

一、GFXBench表现神勇 中国芯首入TOP3排名

根据现场媒体实测数据显示,RK3288采用的MALI T764 GPU,在GFXBench获得TOP3性能排名。这也是中国芯首次进入GFXBench TOP3排名,表现极为神勇。在国产芯史上最强跑分结果的背后,有RK3288 GPU全新的AFBC( ARM Frame Buffer Compression)、ASTC( Adaptive Scalable Texture Compression)、TE(Transaction Elimination)三大技术支撑与全新图像引擎之功。

现场,瑞芯微还展示了基于RK3288的超高清平板;基于RK3288,无需外挂高清屏驱动芯片,3288就可以运行4K×2K的超高清屏幕。至此,RK3288是目前市面少有一颗支持所有分辨率屏幕的芯片。另外,瑞芯微还展示了采用RK3288处理器的盒子产品,支持H.265硬解、完美支持4K输出及HDMI2.0三大特性极具看点。

二、先进内存压缩技术 RK3288 GPU成全球领先4Kx2K 硬解H.265处理器

视频和图形是内存带宽的消耗重点。随着分辨率的不断提高(720P、1080P、2560*1920、2K、4K),内存带宽压力越来越大,但任何减少内存带宽的技术都会同时提高功耗。因此与桌面GPU动辄256bit甚至384bit的位宽、1.2-1.5GHz的高频显存相比,手持设备通常搭配 RAM 的是低功耗、窄带宽的 LPDDR 、 LPDDR2 等特殊内存——普遍使用的是双32bit位宽、LPDDR2-800或1066左右的内存系统,总带宽普遍在10GB/s以内。没有高带宽就没有大容量纹理数据,也就不会有高画质。

在内存带宽有限的限制下,移动GPU厂商关心重点是如何在尽可能小的带宽需求下提升GPU性能及画质。那么RK3288处理器实现支持4Kx2K背后的秘密武器是什么呢?一切皆因拥有ARM最新、最强的Mali-T764 GPU!

作为ARM新一代GPU产品,Mali-T764 GPU除了拥有16个着色引擎外,另一大特色就是还引入了多项内存压缩技术,如ARM 帧缓冲压缩格式(ARM Frame Buffer Compression)、ASTC纹理压缩技术、以及Transaction Elimination智能消除技术。

1、ARM 帧缓冲压缩格式(ARM Frame Buffer Compression)。

怎么节省带宽需求?ARM 帧缓冲压缩格式最大特点是引入了Transaction Elimination智能消除技术,该技术能够提供快速、实时的无损压缩与解压缩,最大限度地减少SoC 内不同 IP 块之间的数据传输量,在减少了整个系统的带宽同时将相应功耗降低至多达50% 。

正如你看到的那样,带宽有了明显下降。与此相关的功耗节约完全取决于SoC的设计和使用的内存系统,但在移动系统中,带宽消耗的功率通常可达到 150mW每GB/s,因此,这项节约是很值得的。

2、支持ASTC 纹理压缩技术

ASTC技术是OpenGL ES 3.0引入的新纹理压缩技术。我们都知道,OpenGL、OpenGL ES和DirectX APIs均支持3D纹理,但它们的利用率并不高。原因不难解释——它们较占空间。256x256的RGB纹理较小,未压缩情况下占据192KiB空间。要在3D中获得同样的像素解决方案,要求纹素为256x256x256,其所占空间较大,为48MiB。

对于多数应用程序而言,这已经 “太大”。显然,我们不是要求压缩技术支持3D纹理,而是要让3D纹理能够被压缩。因此,之前不少压缩方案都是通过简单地压缩2D切片已可以全面支持3D。比如256x256x256,我们简单地将它作为256个独立的切片,每条切片均为256x256像素点,然后单独压缩每条切片,并将它们连成矩阵,但这样做在性能和质量两方面存在弊端。

而ASTC技术引入了一种新理念——压缩数据中一个128比特的单元块可以覆盖一个3D足迹(从3x3x3像素点到6x6x6像素点,梯度在二者之间)。这相当于将比特率从4.7调低至 0.56比特每像素。由于单元块是立方体(或接近立方体,类似于4 x 4 x 5的规格也可操作),无论从哪个方向看,它们都是相似的。通过切片方法查看,几乎完全消除了性能方面的较大差异。

更值得称道的是,ASTC 最精彩之处在于它允许压缩你能想象到的任何纹理。目前常用的格式(S3TC、PVRTC、ETC1 和 RGTC)仅提供有限数量的比特率,颜色组件数量的选择也不多。ASTC 几乎可提供所需要的任何比特率,以及喜欢的任何颜色组件数量,可以选择标准(8 位)或 HDR(浮点),所有这一切的质量只有 BPTC 等外来高端格式才能与之媲美。这意味着,开发人员将第一次能够考虑将应用程序使用的所有纹理都进行压缩。覆盖面上毫无“漏洞”;无论像素格式或质量要求为何,ASTC 都有与之匹配的格式,进一步减少了Mali GPU的内存带宽和内存占用,并同时提高了移动设备的电池续航时间,带来“永远连线、持续运作”的体验。

结合这两招秘技,ARM宣称可以节省50%的带宽。特别是采用Mali-T764的RK3288结合双通道内存甚至直奔向4K最强显示规格——可以通过HDMI2.0接口同时支持本地4K视频播放及外置4K显示器.而视频解码方面,RK3288更是提供了硬件H.265解码,在未来超高清视频播放方面再次领先其对手。

3、Transaction Elimination智能消除技术

相对于ARM 帧缓冲压缩格式,Transaction Elimination智能消除技术是一项有意思的技术,它可以智能消除渲染区块的重复渲染问题,真正实现按需渲染。借助Transaction Elimination智能消除技术,每次 GPU 解析一整个区块的颜色样本时,它会计算出一个签名,并将各个签名写入到与输出颜色缓冲区关联的列表。下一次渲染到该缓冲区时,在解析各个区块后,它将新的签名与旧签名对比。如果签名没有变化,就会跳过写出该区块,因为像素已发生变化的可能性是非常、非常小的。

举个例子,在玩《愤怒的小鸟》的过程中,当我们瞄准弹弓时,运动很少,只需要写入一些区块。当我们发射小鸟时,整个画面平移,许多区块会变化,但我们最终依然能跳过大约 50% 的区块写操作。最后,当小鸟击中时,滚动变慢并且最终停止,活动区块的数量逐渐消失。

图 说:瞄准,TE功能可以免除 96% 的区块写操作

三、超级引擎 游戏性能比肩XBOX、PS次世代游戏主机

当然,拥有优秀的内存压缩技术后,光应用在高分辨率输出方面显然有点大材小用了,拥有Mali-T764的RK3288更大的应用舞台是游戏领域。Mali-T764显然就是这未来游戏准备的新引擎。

RK3288上的Mali-T764使用ARM最新的第三代Midgard架构,采用统一渲染设计,不再区分PS、VS单元,Shader计算单元为可编程USSE2浮点单元,每个着色核心都能执行渲染任务,效率更高。更让人惊讶的是Mali -T764拥有16个着色器,每个着色器配有四个ALU簇,同时各个shader均拥有独立的线程调度,可对各自的管线分配来自各个线程的程序指令,从而使得各个管线可灵活用于执行来自各自线程的指令,拥有更高效的性能。

写在最后:

在多核心和新架构以及更高频率的支撑下,ARM处理器的性能突飞猛进,已经接近目前中低端x86处理器的水平。在多核架构成为主流的今天,多媒体应用的并行机制十分显著,例如图像处理、音频/视频转码以及文件压缩等等。这些应用可以利用对称多重处理以及CPU+GPU结合,配备性能更强的图形处理核心无疑对用户体验提供更加立竿见影的效果。

转载:瑞芯微电子

声明:本文内容由易百纳平台入驻作者撰写,文章观点仅代表作者本人,不代表易百纳立场。如有内容侵权或者其他问题,请联系本站进行删除。
红包 点赞 收藏 评论 打赏
评论
0个
内容存在敏感词
手气红包
    易百纳技术社区暂无数据
相关专栏
置顶时间设置
结束时间
删除原因
  • 广告/SPAM
  • 恶意灌水
  • 违规内容
  • 文不对题
  • 重复发帖
打赏作者
易百纳技术社区
您的支持将鼓励我继续创作!
打赏金额:
¥1易百纳技术社区
¥5易百纳技术社区
¥10易百纳技术社区
¥50易百纳技术社区
¥100易百纳技术社区
支付方式:
微信支付
支付宝支付
易百纳技术社区微信支付
易百纳技术社区
打赏成功!

感谢您的打赏,如若您也想被打赏,可前往 发表专栏 哦~

举报反馈

举报类型

  • 内容涉黄/赌/毒
  • 内容侵权/抄袭
  • 政治相关
  • 涉嫌广告
  • 侮辱谩骂
  • 其他

详细说明

审核成功

发布时间设置
发布时间:
是否关联周任务-专栏模块

审核失败

失败原因
备注
拼手气红包 红包规则
祝福语
恭喜发财,大吉大利!
红包金额
红包最小金额不能低于5元
红包数量
红包数量范围10~50个
余额支付
当前余额:
可前往问答、专栏板块获取收益 去获取
取 消 确 定

小包子的红包

恭喜发财,大吉大利

已领取20/40,共1.6元 红包规则

    易百纳技术社区