全球最强大模型易主,GPT-4被超越丨看天下
创始人
2024-03-05 13:38:28
0

原标题:全球最强大模型易主,GPT-4被超越丨看天下

全球最强AI模型一夜易主。

人工智能初创公司Anthropic4日发布Claude 3 新模型家族。该公司声称,Claude 3 “已经实现了接近人类的理解能力”——在推理、数学、编码、多语言理解和视觉方面,全面超越GPT-4在内的所有大模型。

据悉,这次的Claude 3包括三个模型,Claude 3 Haiku、Claude 3 Sonnet与Claude 3 Opus,能力依次从低到高。

以Claude 3 Opus为例,它在多项AI系统常用评估标准,包括本科级别专业知识(MMLU)、研究生级别专家推理(GPQA)、基础数学(GSM8K),均取得领先业界LLM的性能。

此外,拒绝回答人类问题方面,Claude 3的进步不止一点点,拒绝回答的可能性显著降低。三款模型都在10%左右,Claude 3 Opus更是达到8%左右。

同时,跟Claude 2.1相比,Opus在复杂的开放性问题上,准确度直接翻倍提升,错误答案大大减少。

比如问Claude 3 Opus:Kindle最初的代号指的是什么?

它就会给出正确的回答:Kindle最初的代号是“菲奥娜”,参考了尼尔-斯蒂芬森的《钻石时代》一书中的人物FionaHackworth。

而这个问题,Claude 2.1却答不出来。

在响应时间上,Claude 3大幅缩短,做到近乎实时。官方介绍,即将发布的Haiku能够在3秒内阅读并理解带有图表的长度约10k token的arXiv论文。而Sonnet能够在智能水平更高的基础上,速度比Claude 2和Claude 2.1快2倍,尤其擅长知识检索或自动化销售等需快速响应的任务。Opus的智能水平最高,但速度不减,与Claude 2和Claude 2.1近似。

除了“跑分”战胜了GPT-4,在具体模型能力方面,Claude 3 和 GPT-4 的差别到底在哪呢?

首先是多模态理解与处理能力,Claude 3能够处理和理解图像和视频帧输入,从而解决超出简单文本理解的复杂多模态推理挑战。

在长文本处理方面,Claude 3 模型支持至少1M个 token的上下文,而目前在生产中仅提供最多200ktoken的上下文。在长文档理解、跨文档分析、金融数据分析等方面提供了更详细和可操作的用例。这一点在处理大规模文本数据时,相对于GPT-4可能更有优势,尤其是在需要综合分析和提取大量信息的场景中。

此外,Claude 3的多语言能力也被Anthropic认为是一大亮点。Claude 3 Opus在多语言数学(MGSM)基准测试中达到了超过90%的0-shot成绩,并在8种语言中实现了超过90% 的准确率,包括法语、俄语、简体中文、西班牙语、孟加拉语、泰语、德语和日语。

Anthropic在Claude 3系列模型中首次放出了多模态能力,用户可以上传各类非结构化数据如照片、图表等供AI分析。这三个模型均支持200K token的长上下文窗口,并向特定客户开放超过100万token的上下文输入能力。

不过,Claude 3模型的定价也高于GPT-4。能力最强的Claude 3 Opus比GPT-4 Turbo贵得多:GPT-4 Turbo每百万token 输入价格为10美元,输出价格为30美元,Claude 3 Opus每百万token输入5美元,输出75美元。

其实,作为直接竞争对手,Anthropic与OpenAI颇有“恩怨”。

Anthropic的创始者,就是曾因安全理念不合而从OpenAI“叛逃”出来的员工(Daniela Amodei、Dario Amodei 和 Jared Kaplan)。

Claude发布前月余,业界一直有传闻认为,OpenAI将在Claude 3发布之际,迅速跟进发布最新的GPT-4.5(5),或是秘密研发的 Q* 模型。

不过就在2月29日,特斯拉CEO马斯克突然对OpenAI提起诉讼,指控OpenAI首席执行官奥特曼为了追求商业利益,违背了OpenAI“确保AI造福人类” 的非盈利性初衷。马斯克要求法院强制OpenAI回归开源,并阻止公司及其创始人以及微软等背后支持者从中获利。

所以,在网友们不停跑去奥特曼社交平台留言,喊他“快点开发GPT-5”时,奥特曼或许正焦头烂额应对马斯克呢。

文|记者 冷爽(参考虎嗅APP、环球网科技等)

图|网络

相关内容

热门资讯

美国2年期国债收益率上涨15个... 原标题:美国2年期国债收益率上涨15个基点 美国2年期国债收益率上涨15个基...
汽车油箱结构是什么(汽车油箱结... 本篇文章极速百科给大家谈谈汽车油箱结构是什么,以及汽车油箱结构原理图解对应的知识点,希望对各位有所帮...
嵌入式 ADC使用手册完整版 ... 嵌入式 ADC使用手册完整版 (188977万字)💜&#...
重大消息战皇大厅开挂是真的吗... 您好:战皇大厅这款游戏可以开挂,确实是有挂的,需要了解加客服微信【8435338】很多玩家在这款游戏...
盘点十款牵手跑胡子为什么一直... 您好:牵手跑胡子这款游戏可以开挂,确实是有挂的,需要了解加客服微信【8435338】很多玩家在这款游...
senator香烟多少一盒(s... 今天给各位分享senator香烟多少一盒的知识,其中也会对sevebstars香烟进行解释,如果能碰...
终于懂了新荣耀斗牛真的有挂吗... 您好:新荣耀斗牛这款游戏可以开挂,确实是有挂的,需要了解加客服微信8435338】很多玩家在这款游戏...
盘点十款明星麻将到底有没有挂... 您好:明星麻将这款游戏可以开挂,确实是有挂的,需要了解加客服微信【5848499】很多玩家在这款游戏...
总结文章“新道游棋牌有透视挂吗... 您好:新道游棋牌这款游戏可以开挂,确实是有挂的,需要了解加客服微信【7682267】很多玩家在这款游...
终于懂了手机麻将到底有没有挂... 您好:手机麻将这款游戏可以开挂,确实是有挂的,需要了解加客服微信【8435338】很多玩家在这款游戏...