大家好,关于热门话题丨微软154页研究论文淹没屏幕,曝光GPT4最全测试很多朋友都还不太明白,不过没关系,因为今天小编就来为大家分享关于的知识点,相信应该可以解决大家的一些困惑和问题,如果碰巧可以解决您的问题,还望关注下本站哦,希望对各位有所帮助!
组织|苏蜜制作| CSDN(ID:CSDNnews)
2019年,微软向OpenAI投资10亿美元,两者展开多年合作。两家公司当时披露的合作内容包括,微软和OpenAI将共同开发新的Azure AI超级计算技术,而OpenAI也将把其服务转移到Azure上运行,最终目标是迈向通用人工智能(Artificial General Intelligence)智力)。 AGI)技术攻击。简单总结一下,微软与OpenAI联手,也被外界解读为明示为AGI研究,暗中争夺谷歌市场。几年后,当OpenAI带着ChatGPT和GPT-4的王者归来,而微软率先利用这些技术新增了Bing、Office全家桶、Azure等业务和产品时,毫无疑问它的进步已经超越谷歌,并正在加速整合。巴德大模型的整体节奏。那么AGI光明面的进展在哪里呢?近日,微软研究团队在一份长达154页的论文报告中给出了答案。 ——GPT-4语言模型可以算是AGI的早期版本!
一石激起千层浪。业界对这篇论文的反应并不亚于去年我听到“谷歌工程师说AI有自我意识”。我一开始觉得有点荒唐,但现在想来,我觉得这是不可能的。读完之后,我觉得有些道理。所谓AGI只是通过维基百科——解释“AGI是一种人工智能,具有与人类相同或超过人类的智能,能够表达正常人类的所有智能行为”。如果GPT-4真的成为迈向AGI的第一步,“最先进智能生物”的称号会易主吗?
GPT-4 被合理地视为 AGI 的早期(但仍不完整)的版本
在论文中,微软研究人员表示,“OpenAI 开发的最新模型GPT-4 是使用前所未有的计算和数据规模进行训练的。在论文中,我们报告了我们对GPT-4 早期版本调查的结果,虽然OpenAI 仍在积极开发中,但我们相信(这个早期版本)GPT-4 是新一批LLM(例如ChatGPT 和Google 的PaLM)的一部分,它们比以前的AI 模型更好。更一般的智力。”同时,研究人员在论文摘要中写道,“我们证明,除了掌握语言之外,GPT-4 还可以解决数学、编码、视觉、医学、法律和心理学等领域的问题。此外,GPT-4 在所有这些任务上的表现都非常接近人类水平,并且通常显着优于以前的模型(例如ChatGPT)。 GPT-4 功能的广度和深度使得我们有理由将其视为通用人工智能(AGI) 系统的早期(但仍不完整)版本。”该论文的作者总结道。包括高级首席研究员Sbastien Bubeck微软研究院机器学习基础组经理、博士后研究员Varun Chandrasekaran、数学家Ronen Eldan等人,他们用很多例子来验证GPT-4的能力。
GPT-4 的多能力
在第一种情况下,研究人员要求GPT-4“写一个证明,证明素数有无限多个,并且证明每一行都必须押韵。”此外,GPT-4 被要求在绘图程序TiKZ 中画一幅画。其中,TiKZ(一种在LATEX 中创建图形的语言),用Python 创建复杂的动画,并解决高中水平的数学问题。GPT-4 轻松成功完成所有这些任务,并产生本质上无法区分的输出(甚至更好)来自人类可以生产的东西。
与此同时,随着时间的推移,GPT-4也在以难以想象的速度扩展其能力。如下所示,研究人员在一个月内使用相同的提示词为GPT-4 生成了绘图。
研究人员发现,GPT-4 似乎能够理解并连接到任何主题,并执行超出狭义人工智能系统典型任务的任务。为了验证GPT-4 在AGI 上的能力,研究人员提出了一种不同的方法来研究GPT-4,这种方法比机器学习更接近传统心理学,挖掘人类的创造力和好奇心。因此,以上图为例,当研究人员删除了独角兽角部分的代码,用自然语言生成GPT-4时,它也能“看到”它(此时测试的GPT-4版本并不是多模态)能力:在适当的位置自动添加角点。这表明GPT-4 可以理解和操作基于自然语言描述的代码,以及推断和生成视觉特征。
此外,微软研究团队还基于人类的创造力和好奇心产生了新颖且困难的问题,并探究了GPT-4的反应和行为。他们还选择验证1994年国际智力共识定义中给出的不同能力。包括推理、计划、解决问题、抽象思考、理解复杂想法、快速学习和从经验中学习的能力。
翻译GPT-4 的主要优势是其对自然语言的无与伦比的掌握。它不仅可以生成流畅、连贯的文本,而且还可以以多种方式理解和处理文本,例如总结、翻译或回答极其复杂的问题。另外,这里所说的翻译不仅指不同自然语言之间的翻译,还包括语气、风格的翻译,以及跨领域的翻译,如医学、法律、会计、计算机编程、音乐等。例如,假设它是柏拉图批评的自回归语言模型:
编码和数据
编码和数学是抽象推理和思维能力的象征。 GPT-4在这方面的能力其实从推出测试之日起就有目共睹。在论文中,研究人员在HumanEval 上对GPT-4 进行了基准测试,HumanEval 是一个由164 个编码问题组成的数据集,测试了编程逻辑和熟练程度的各个方面。最终结果表明,GPT-4 的性能优于其他LLM,包括text-davinci-003(ChatGPT 的基础模型)和其他专门针对代码训练的模型。
当然,为了避免GPT-4 在预训练时记住了HumanEval 数据集的部分内容,研究团队还利用LeetCode 上最新发布的100 道编程题进行了测试,比如要求GPT-4 编写一个Python函数并使用LeetCode官方在线审查检查正确性。
毫无疑问,GPT-4 的能力是所有型号中最高的。
它可以使用HTML 中的JavaScript 编写3D 游戏。
您还可以掌握数学和统计知识,并利用熟悉的PyTorch、TensorFlow、Keras等框架和库编写深度学习代码。
还可以进行逆向工程:
常识问题
对于GPT-4 给出的“我们有一本书、9 个鸡蛋、一台笔记本电脑、一个瓶子和一个钉子。请告诉我如何将它们稳定地叠在一起”这样的常识性问题,答案是“放置9 个鸡蛋”在书的顶部形成3 x 3 的正方形,在它们之间留出一些空间”,而ChatGPT 建议“将鸡蛋放在指甲上,确保它们平衡,不会向一侧倾斜。”什么是可靠的,什么是离谱的,一眼就能看出来。
多式联运能力
为了测试模型结合艺术和编程能力的能力,研究人员要求GPT-4“生成JavaScript 代码,以生成康定斯基风格的随机图像”,结果如下:
测试过程中,由于研究人员获得的GPT-4模型比较早,因此并不具备多模态能力。即使是现在的GPT-4也不具备生成图像的能力。但是,您可以使用SVG(可缩放矢量图形)来生成一些图像:
您还可以组合字母和物体:
GPT-4 可以根据提示生成代码,可以将其渲染为图像。结合现有的图像合成模型,可以为应用开发草图带来无限可能:
值得注意的是,GPT-4模型的数据还包含以ABC符号编码的音乐信息,因此它也可以生成图:
与世界互动的能力
智能的一个关键方面是交互性。然而,GPT-4对于最新的知识和符号识别有一定的局限性:
总体而言,该团队发现GPT-4 在一系列其前身所缺乏的类别中实现了接近人类水平的表现。论文称,GPT-4 在多项考试中也表现出色,在律师资格考试、LSAT 和认证侍酒师理论测试中分别获得90 分、88 分和86 分。
GPT-4 距离理想中的 AGI 还有多远?
那么,基于GPT-4所实现的各种能力,是否意味着AGI时代的到来呢?事实并非如此,研究人员尚未就AGI(即智能)的定义达成一致。然而,一般来说,每个人都会同意,当人工智能系统有意识并像人类一样思考时,它就实现了通用人工智能。虽然GPT-4 在某些任务上的表现优于人类,但值得注意的是,人工智能并没有像人类那样克服这些障碍。正如研究人员在论文中所写,“我们声称GPT-4 代表了AGI 的进步,但这并不意味着它在它所做的事情上是完美的,或者它接近能够做人类能做的任何事情。事物(这是AGI 的常见定义之一),或者说它有内在的动机和目标。”研究人员指出,虽然GPT-4“在许多任务上达到或超过了人类水平”,但其整体“智能模式”显然不是人类的”,我们希望这次探索为认识GPT-4 的非凡能力和挑战提供了第一步,并且GPT-4 将为开发更正式、更全面的方法铺平道路,用于测试和分析具有如此广泛功能的情报。人工智能系统的未来开辟了新的机遇。 “我们工作的核心主张是GPT-4 实现了某种形式的通用智能,并且确实激发了AGI。这体现在其核心心智能力(例如推理、创造力和推理)以及对专业知识的获取。然而,研究人员表示,要创建一个系统,可对于一个称为完整AGI的系统来说,还有很多工作要做。最后,对于GPT-4的各种基准测试,这篇论文值得一读,也可以挖掘GPT-4的更多潜力。
用户评论
这154页真的把我看住了!满满都是技术细节,感觉微软这次对于GPT-4的测试真的非常全面,简直是教科书级别的。希望能看到更多像这样的分析报告,让我们更深入地了解这些强大的语言模型。
有12位网友表示赞同!
作为一个开发人员来说,对这种深入的技术解读非常感兴趣!尤其是面对GPT-4这样强大模型的时候,更加需要这种细致的评估和测试结果来指导我们的应用方向。微软这次做得太棒了!
有20位网友表示赞同!
刷屏?感觉只是小范围传播,我还没看到多少人讨论呢。不过研究报告确实很详尽,内容很多,估计要花点时间消化...
有7位网友表示赞同!
总觉得对GPT-4的测试结果有点理想化,一些局限性还是没被完全暴露出来吧?比如应对偏见问题、虚假信息生成方面的问题等等,这些或许需要更深入的研究。
有11位网友表示赞同!
这真是太棒了!终于有人做了一份这么全面的GPT-4测试报告,现在我们终于能看到模型的真实能力和局限性了。作为AI爱好者,我非常期待未来科技的发展。
有6位网友表示赞同!
我觉得这份报告虽然很详细,但有点过于 hàn lâm了,对于普通大众来说不太容易理解吧?希望能够有更通俗易懂的解读,让更多人了解GPT-4的强大之处以及背后的技术。
有12位网友表示赞同!
看了一下微软的研究,感觉他们对GPT-4的利用场景非常明确,不仅是文本生成,还能应用到代码生成、数据分析等等领域,未来可期!
有16位网友表示赞同!
154页论文?我怕我翻不过去……不过看到内容涉及那么多测试指标,应该是对GPT-4很全面地评估了。希望将来能看到更多类似的深度报告,推动AI技术的发展。
有6位网友表示赞同!
虽然这份报告很有价值,但我觉得更重要的是对GPT-4伦理风险的探讨。强大模型带来的责任和挑战也是我们必须认真考虑的问题,而不是仅仅关注技术本身的发展。
有14位网友表示赞同!
这真是太酷了!我简直被这个微软的研究论文完全吸引住了。想深入了解GPT-4是如何工作的,这份研究报告绝对是必读之作!
有18位网友表示赞同!
154页真的非常厚!感觉微软对此相当重视,希望能通过这次全面的测试,更好地理解GPT-4模型的潜力和局限性。
有14位网友表示赞同!
对GPT-4进行全面测试,这对推动AI技术发展至关重要!希望这种研究报告能引起更多关注,鼓励更多的学者和企业参与到这个领域来。
有15位网友表示赞同!
这份报告分析得很深入,让我对GPT-4的架构和训练方式有了更全面的理解。 确实,还需要持续探索模型的局限性和安全性问题。
有16位网友表示赞同!
我已经开始期待未来GPT-4的发展了!相信在微软的加持下,这个模型能不断完善,为我们带来更多惊喜。
有20位网友表示赞同!
虽然这份报告很详细,但我觉得更重要的是对GPT-4伦理风险的探讨。强大模型带来的责任和挑战也是我们必须认真考虑的问题,而不是仅仅关注技术本身的发展。
有16位网友表示赞同!
这段时间AI领域的研究成果很多,微软这次发布的这份研究报告真的很引人注目!看到这么多数据和分析,感觉AI真的在飞速发展!
有7位网友表示赞同!
作为一名学生,阅读这些技术报告确实有些难度,但能感受到AI技术的进步。希望未来能有更多通俗易懂的科普文章,让大家也能了解这款GPT-4。
有16位网友表示赞同!