微软推出理解图像内容、解决视觉难题的人工智能模型_专栏

易百纳社区

周一，微软的研究人员推出了Kosmos-1，这是一种多模态模型，据报道，它可以分析图像中的内容，解决视觉难题，执行视觉文本识别，通过视觉智商测试，并理解自然语言指令。研究人员认为，整合文本、音频、图像和视频等不同输入模式的多模态人工智能是构建人工通用智能（AGI）的关键一步，该智能可以在人类水平上执行一般任务。

研究人员在其学术论文《语言不是你所需要的一切：将感知与语言模型相结合》中写道：“作为智能的基本组成部分，多模态感知是实现人工通用智能的必要条件，在知识获取和现实世界的基础上。”

Kosmos-1论文中的视觉示例显示了该模型分析图像并回答有关图像的问题，从图像中读取文本，为图像编写字幕，并以22%–26%的准确率进行视觉智商测试。

虽然媒体都在讨论大型语言模型(LLM)的新闻，但一些人工智能专家指出，多模态人工智能是通往通用人工智能的潜在途径，这种假设的技术表面上能够取代人类完成任何智力任务(以及任何智力工作)。AGI是OpenAI的既定目标，OpenAI是微软在人工智能领域的关键业务合作伙伴。

在这种情况下，Kosmos-1似乎是一个没有OpenAI参与的纯微软项目。研究人员称他们的创造为“多模态大语言模型”(MLLM)，因为它的根源在于自然语言处理，就像纯文本的LLM，如ChatGPT。它表明:为了让Kosmos-1接受图像输入，研究人员必须首先将图像翻译成LLM可以理解的一系列特殊符号(基本上是文本)

微软使用来自网络的数据训练了Kosmos-1，训练后，他们评估了Kosmos-1在几个测试中的能力，包括语言理解、语言生成、光学字符识别自由文本分类、图像字幕、视觉问题解答、网页问题解答和零镜头图像分类。根据微软的说法，在这些测试中，Kosmos-1的表现优于目前最先进的模型。

特别令人感兴趣的是Kosmos-1在Raven的渐进推理中的表现。它通过呈现一系列形状并要求应试者完成序列来衡量视觉智商。为了测试Kosmos-1，研究人员进行了一次一次的填写测试，每个选项都完成了，并询问答案是否正确。Kosmos-1在Raven测试中只有22%的时间能正确回答一个问题（微调后为26%）。这绝不是一次扣篮，方法上的错误可能会影响结果，但Kosmos-1在Raven IQ测试中击败了随机机会（17%）。

尽管如此，虽然Kosmos-1代表了多模态领域的早期步骤（其他人也在采用这种方法），但很容易想象，未来的优化可能会带来更显著的结果，使AI模型能够感知任何形式的媒体并对其进行操作，这将大大增强人工助理的能力。在未来，研究人员表示，他们希望在模型大小上扩大Kosmos-1，并整合语音能力。

微软推出理解图像内容、解决视觉难题的人工智能模型

tomato

审核成功

审核失败