微软推出理解图像内容、解决视觉难题的人工智能模型

微软推出理解图像内容、解决视觉难题的人工智能模型 tomato 2023-03-02 15:29:16 522

易百纳社区

周一,微软的研究人员推出了Kosmos-1,这是一种多模态模型,据报道,它可以分析图像中的内容,解决视觉难题,执行视觉文本识别,通过视觉智商测试,并理解自然语言指令。研究人员认为,整合文本、音频、图像和视频等不同输入模式的多模态人工智能是构建人工通用智能(AGI)的关键一步,该智能可以在人类水平上执行一般任务。

研究人员在其学术论文《语言不是你所需要的一切:将感知与语言模型相结合》中写道:“作为智能的基本组成部分,多模态感知是实现人工通用智能的必要条件,在知识获取和现实世界的基础上。”

Kosmos-1论文中的视觉示例显示了该模型分析图像并回答有关图像的问题,从图像中读取文本,为图像编写字幕,并以22%–26%的准确率进行视觉智商测试。

虽然媒体都在讨论大型语言模型(LLM)的新闻,但一些人工智能专家指出,多模态人工智能是通往通用人工智能的潜在途径,这种假设的技术表面上能够取代人类完成任何智力任务(以及任何智力工作)。AGI是OpenAI的既定目标,OpenAI是微软在人工智能领域的关键业务合作伙伴。

在这种情况下,Kosmos-1似乎是一个没有OpenAI参与的纯微软项目。研究人员称他们的创造为“多模态大语言模型”(MLLM),因为它的根源在于自然语言处理,就像纯文本的LLM,如ChatGPT。它表明:为了让Kosmos-1接受图像输入,研究人员必须首先将图像翻译成LLM可以理解的一系列特殊符号(基本上是文本)

微软使用来自网络的数据训练了Kosmos-1,训练后,他们评估了Kosmos-1在几个测试中的能力,包括语言理解、语言生成、光学字符识别自由文本分类、图像字幕、视觉问题解答、网页问题解答和零镜头图像分类。根据微软的说法,在这些测试中,Kosmos-1的表现优于目前最先进的模型。

特别令人感兴趣的是Kosmos-1在Raven的渐进推理中的表现。它通过呈现一系列形状并要求应试者完成序列来衡量视觉智商。为了测试Kosmos-1,研究人员进行了一次一次的填写测试,每个选项都完成了,并询问答案是否正确。Kosmos-1在Raven测试中只有22%的时间能正确回答一个问题(微调后为26%)。这绝不是一次扣篮,方法上的错误可能会影响结果,但Kosmos-1在Raven IQ测试中击败了随机机会(17%)。

尽管如此,虽然Kosmos-1代表了多模态领域的早期步骤(其他人也在采用这种方法),但很容易想象,未来的优化可能会带来更显著的结果,使AI模型能够感知任何形式的媒体并对其进行操作,这将大大增强人工助理的能力。在未来,研究人员表示,他们希望在模型大小上扩大Kosmos-1,并整合语音能力。

声明:本文内容由易百纳平台入驻作者撰写,文章观点仅代表作者本人,不代表易百纳立场。如有内容侵权或者其他问题,请联系本站进行删除。
tomato
红包 点赞 收藏 评论 打赏
评论
0个
内容存在敏感词
手气红包
    易百纳技术社区暂无数据
相关专栏
置顶时间设置
结束时间
删除原因
  • 广告/SPAM
  • 恶意灌水
  • 违规内容
  • 文不对题
  • 重复发帖
打赏作者
易百纳技术社区
tomato
您的支持将鼓励我继续创作!
打赏金额:
¥1易百纳技术社区
¥5易百纳技术社区
¥10易百纳技术社区
¥50易百纳技术社区
¥100易百纳技术社区
支付方式:
微信支付
支付宝支付
易百纳技术社区微信支付
易百纳技术社区
打赏成功!

感谢您的打赏,如若您也想被打赏,可前往 发表专栏 哦~

举报反馈

举报类型

  • 内容涉黄/赌/毒
  • 内容侵权/抄袭
  • 政治相关
  • 涉嫌广告
  • 侮辱谩骂
  • 其他

详细说明

审核成功

发布时间设置
发布时间:
是否关联周任务-专栏模块

审核失败

失败原因
备注
拼手气红包 红包规则
祝福语
恭喜发财,大吉大利!
红包金额
红包最小金额不能低于5元
红包数量
红包数量范围10~50个
余额支付
当前余额:
可前往问答、专栏板块获取收益 去获取
取 消 确 定

小包子的红包

恭喜发财,大吉大利

已领取20/40,共1.6元 红包规则

    易百纳技术社区