人工智能学习可视化广泛的数据集_专栏

易百纳社区

使用 Matlab 间谍函数可视化实验数据集的相似性矩阵 P，其中行和列按手动聚类标签排序。蓝点表示矩阵中的 1，白点表示 0。由于分辨率有限，这些数字显示了统一的子样本10%的数据点

芬兰人工智能中心的研究人员开发了一种新的人工智能算法，旨在尽可能清晰地可视化数据集。该项目表明，算法独立选择的解决方案通常非常接近人类最常青睐的解决方案。

人类大脑具有惊人的能力，甚至可以从大量的视觉信息中观察特征。例如，这种能力用于研究大数据，其内容必须压缩成人类智能可以理解的形式。这种降维问题是可视化分析的核心。

在芬兰人工智能中心（FCAI），隶属于阿尔托大学和赫尔辛基大学的研究人员测试了最著名的可视化分析方法的功能，发现当数据量显着增长时，没有一种方法有效。例如，当观测数量达到数十万时，t-SNE、LargeViz和UMAP方法不再能够区分数据中观测分组的极强信号。该研究发表在《统计与计算》杂志上。

希格斯玻色子数据激发了新算法的创建

例如，与发现希格斯玻色子相关的实验数据集包含超过11万个特征向量。

“从它们中提取的可视化就像一团纱线，没有揭示数据中包含的粒子行为的显着特征，”赫尔辛基大学的统计和概率教授Jukka Corander说。

“这一发现为开发一种新方法提供了动力，该方法利用类似于现代AI方法进行神经网络计算的图形加速。

研究人员设计的人工智能算法旨在可视化，以便数据集群和其他人类易于观察和理解的宏观特征尽可能独特。

在该项目中，几名志愿者测试了该技术。事实证明，算法独立选择的解决方案通常非常接近人类最常青睐的解决方案;在这种情况下，根据个人观念，人类智能清楚地区分了由类似观察组成的数据集群。当将该技术应用于希格斯玻色子数据时，它们最重要的物理特征被清楚地突出了。

“这是可视化分析领域名副其实的巨大飞跃。除了比以前的方法快几个数量级外，我们的技术在具有挑战性的应用中也更加可靠，“Corander说。

在Corander团队的指导下，还设计了一个单独的界面，以便在基因组学应用中尽可能有效地利用该技术。这样，用户甚至可以通过将文件直接上传到 Web 浏览器来交互式分析他们的数据集。这项进一步的研究利用全球细菌和SARS-CoV-2数据集，说明了如何使用新工具快速检查多达数百万个基因组并确定相关特征。

这项研究是FCAI主任Sami Kaski教授和Jukka Corander小组之间的合作。挪威科技大学杨志荣教授担任项目负责人。杨教授拥有阿尔托大学的博士学位，随后在阿尔托大学和赫尔辛基大学担任科兰德教授小组的研究员。

人工智能学习可视化广泛的数据集

希格斯玻色子数据激发了新算法的创建

艾

审核成功

审核失败