什么是hr

全网大语言模型AI,到底谁最强悍?主流大模型全方位深度评测
2025-08-07 14:29 市场资讯
百度 体验过中式教学法的英国学生表示,中国老师确保每位同学都能学会,并让他们做很多练习来确保学习效果。

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

  来源:石头科技视频博客  

  大家好,本次我们将对全网13款大语言模型进行全面测评,揭示哪款性能最为出色。

  首先公布测评结果:综合能力最强的依然是GPT-4。除综合能力外,我们还测试了写作、数学、信息提取、编程等多项能力,这些将在后续视频中详细分析。

  本期文章内容分为三部分: 1. 各模型的基本介绍

  2. 大语言模型的工作原理

  3. 详细的测评流程

  我们先来了解这些模型。GPT-4由国外公司开发,该公司虽然不是大语言模型的开创者,但却是最早向公众开放使用的商业公司。其次是Claude Opus,同样来自国外公司,与Claude Sonnet同属一家。官方宣称Opus性能更强,Sonnet稍弱。GPT-4与GPT-3.5也属于同一家公司。

  为便于理解,部分模型名称我们进行了中译,同时保留了英文原名以避免歧义。国内公司的模型则直接使用中文名称。

  文心一言4.0与文心一言3.5均为百度公司旗下产品。

  讯飞星火,顾名思义,是讯飞的产品。智普AI则属于智普公司。360超级智脑由360开发。双子座精英版双子座是谷歌的模型。此外,腾讯混元通义千问也是两个独立的模型。这些模型的信息均可通过互联网查询,此处不再赘述。

  接下来,我们简要探讨大语言模型的原理。许多人认为大语言模型非常神奇,甚至担忧其可能产生自我意识并取代人类。实际上,这种情况不太可能发生。让我们从数学函数的概念讲起。

  以函数为例,给定任意输入,都能得到相应的输出。例如,当时,。这种对应关系称为函数。

  大语言模型本质上是一个极其复杂的函数。其工作原理是:将输入文字转换为数字,经过这个复杂函数处理后,生成新的数字序列,再转换回文字输出。有人可能会问,文字如何转换为数字?以英文为例,可以用1代表A,2代表B,以此类推。中文虽字符众多,但理论上也可用数字编码表示,尽管实际应用中这种方法效果欠佳。

  文字数字化后,这些数字被输入到一个极其复杂的函数中运算,最终结果再转换回文字。这就是大语言模型的全部工作流程。它没有自我意识,也不理解语言含义,仅仅是基于数学函数进行数字转换和计算。

  人工智能无法取代人类,也不具备自主意识。有人可能会质疑量变是否会引起质变,但答案是否定的。因为其本质只是一个函数。例如, 是一个简单函数, 稍显复杂, 则更为复杂。但无论函数多么复杂,都不会产生自主意识,也不可能取代人类。大语言模型同样如此,既不会产生意识,也不会对人类构成威胁。

  接下来分析具体能力维度。本次测评主要考察了编程能力、逻辑能力、中文分析能力、数学能力、中文写作能力和英文写作能力。在众多模型中,GPT-4表现最为突出,其编程能力与Claude Opus、文心一言4.0并列满分。其他模型存在一定差距,其中通义千问、双子座精英版和360超级智脑表现较差,智普AI排名垫底,但在其他方面有所弥补。

  需要说明的是,本次测评仅针对官网开放且存在价格差异的模型,目前展示的样本数量有限。

  此外,还有一些未展示的内容,但均已进行测试。所谓官网开放,以文心一言为例,文心3.5和文心4.0均在官网开放使用。

  我未购买普通会员,而是选择使用百度平台的文心4.0。普通会员存在使用限制,每月额度有限,用尽即止。因此,我更倾向于购买开发者平台,采用按量计费的方式。后续内容均可在该平台获取。

  对于没有价格差异的模型,我没有进行测试。例如360智脑,它提供了多个对话角色,包括360智脑、埃隆·马斯克和超级智脑,这些功能都是免费的。由于没有价格差异,我选择了看起来功能较强的超级智脑进行测评。同理,智谱AI也是如此。

  这是我之前的测评记录。该平台提供了多种模型,目前均免费开放使用。因此,我测试了官方宣称性能最强的GLM4模型。但部分模型如文心一言4.0,其具体评分标准如下。

  文心一言3.5与其他模型存在价格差异,因此我对两者都进行了测评,以评估其性价比。

  在逻辑能力方面,GPT-4表现最优,双子座Gemini次之,Claude Opus稍显逊色。

  文本分析能力的排名较为特殊,文心一言在中文信息分析中表现最佳。由于缺乏合适的英文素材,本次仅测评中文分析能力。Claude Opus在此项表现良好,百度和通义千问也表现优异,但仅限于文本分析。GPT-4的表现尚可。

  在普通数学能力测试中,各模型表现相当,并列第一。

  中文写作能力方面,GPT-4意外夺冠,百度以0.5分之差紧随其后,其他模型表现明显落后,双子座Gemini仅得6.5分。评分采用百分比制,满分为15分,但具体分值并不重要,重在相对比较。

  英文写作能力的差距更为显著。GPT-4领先,Claude Opus次之,双子座Gemini两个版本随后,讯飞星火和文心一言表现较差。

  文心一言4.0的英文写作能力表现不佳,主要原因在于其生成内容多为中文。这一点我们后续会详细讨论,腾讯混元也存在类似情况。最后我们通过计算各项指标的平均值得出综合能力评分。

  具体计算过程如下:首先评估代码能力,我们采用了一个长代码问题作为测试用例。

  从这里开始内容较为繁琐,不感兴趣的读者可以跳过。

  现在已过去13分钟。关于长代码部分,我就讲到这里,感兴趣的可以自行查看。这些题目中英混合,旨在测试模型的综合能力。对于GPT和Claude等模型,它们在中文和英文上的表现都非常出色。其他语言未进行测试,原因是我个人不熟悉这些语言,且大多数人可能同样如此。

  接下来,我们不看长代码,先看一个有趣的逻辑问题——数字逻辑题。这个题目原本少了一个减5分项,现在看看调整后评分是否有变化。综合能力评分基本保持不变。有趣的是,减5分后,双子座的表现变为最差,这与其一贯表现相符。

  数字逻辑题是一个猜数字游戏,来源于网络。题目中未标注的部分表示未扣分,已标注的则是扣分项。

  这是一道来自搜狐网的题目。题目描述如下:

  向甲、乙、丙三人各发一个正整数,三个数字之和为14。甲对乙和丙说:“你们的数字一定不相等。”乙对甲说:“我们俩的数字之差一定比丙的数字大。”而丙始终保持沉默。

  需要注意的是,三人都非常聪明,只要能够推断出各自的数字,就会立即说出来。这道题的难点在于此。题目附有解析,但我没有复制过来。感兴趣的同学可以自行搜索查看。

  我记得可以直接用这段话在百度上进行搜索。

  可以通过搜索获取相关信息,此处不再赘述。

  这个问题确实颇具难度,我经过长时间思考仍未得出答案。

  只有GPT-4模型能够答对这个问题,但并非每次都能答对。其他模型经过多次测试,均未能答对,可见GPT-4的逻辑能力确实非常出色。

  接下来我们分析长代码问题。这段代码本身并不复杂,难点在于其中一句存在歧义的语句。这种设计是为了模拟现实中的复杂问题,因为实际场景中不可能每句话都表述得非常清晰。虽然这句话的歧义并不严重,对人类而言理解起来毫无困难,但对AI来说却极具挑战性。例如“早上叫姐姐,晚上姐姐叫”这样的句子就存在明显歧义,人类可以轻松理解,但对AI的分析能力是很大考验。最终只有少数几个模型能够正确完成这个任务。

  智谱AI双子座Pro接近完成但最终失败。在后续的鸡汤逻辑和宴会逻辑测试中,大多数模型表现良好,但令人不解的是Claude居然无法正确回答如此简单的鸡汤逻辑问题,而许多小型模型反而能够答对。

  古诗默写测试中,百度表现最佳,其他模型存在不同程度的错误。GPT-4也表现不错,仅错一处。Claude在这个环节完全无法作答,14行诗测试同样失败,显示出该模型仍存在明显缺陷。

  以下是几道阅读题。

  这些题目均选自历年语文考试真题,来源于网络。如需测试,可私信获取相关文件。

  在阅读能力方面,讯飞星火等模型表现欠佳,主要原因是其处理长文本的能力有限。当文章超过1000至2000字时,这些模型往往无法正常工作,或者难以保持上下文的连贯性。以GPT-3.5为例,它在回答问题时经常无法完整回应,导致评分较低。

  举例来说,假设我们需要进行超长文写作,根据现有资料撰写剧本。这些资料均来源于网络,内容较为冗长。多数模型仅能对文本进行简单总结,而无法准确记忆并执行“撰写剧本”的指令,这充分考验了模型的上下文记忆能力。

  在测评中,360质朴AI双子座的表现相对较差。数学部分尤为有趣,但未纳入最终评分,因其难度过高。题目包括一道函数求导及极值问题,以及一道三角函数问题,均源自网络原题。这两道高考难度题目对多数人颇具挑战性,答案已附于文末。

  第八号模型是讯飞火星和360智脑,它们碰巧答对了一个问题。然而,由于题目难度过高,我认为这次结果缺乏参考价值。后续重新提问时,它们的答案又出现了变化,因此我并未将此次结果纳入评分体系,并特别标注了红色标记。

  此外,我还设置了一些编程题目,这些题目选自力扣平台,难度较高。但这也反映出一个现象:当前编程竞赛题目(如ICPC、ACM等)的实际意义有限。这类题目在网上都能找到现成答案,更像是测试记忆而非能力。

  本次测评中,AI的表现进一步验证了我的观点。三个模型在编程题上均获得满分,且代码的时间复杂度空间复杂度表现优异。这表明算法问题已无需人工解决。

  最后,我还准备了两道英文超长写作题目。

  首先是英文短文写作部分,基于之前的雅思考试题目,各模型表现均较为出色,因此未在此详细列出,均给予满分10分。

  接下来是英文长文写作测评,我搜集了相关资料并设定为剧本创作任务。测评结果显示,各模型在此项表现差异显著。例如,百度4.0尽管被明确要求用英文回答,却仍使用中文回复,因此扣除全部12分。

  GPT模型表现优异,剧本设计人物生动、情节合理且趣味性强。相比之下,多数模型仅简单概括文章内容,未能达到电影情节设计的要求,整体表现欠佳。其中百度4.0因语言不符成为最差案例。

  最后进行总结。

  若需处理中文内容,文心一言4.0是最佳选择,其信息提取能力尤为突出,适用于文章总结或要点归纳等任务。在中文写作方面,GPT-4表现更优,但文心一言同样出色。对于中文文本相关需求,文心一言4.0完全能够胜任,且其3.5版本与4.0版本差距显著,会员费用物有所值。相比之下,360和腾讯的模型表现欠佳。

  在逻辑分析方面,无论是数学能力还是逻辑推理,GPT-4均为最强选择。若无法使用GPT-4,文心一言4.0是最佳替代方案。智普AI虽在逻辑能力上有所建树,但数学能力较弱,综合表现不及文心一言。

  编程方面,文心一言表现卓越,完全不逊色于GPT和克劳德模型。至于英文写作,GPT-4仍为首选,若无法使用,讯飞星火是次优选择,但其处理长文本的能力有限。

  文心一言4.0表现最差,因其总是提供中文回答,令人不甚满意。

  接下来总结各模型是否值得开通会员:

  - GPT-4现已免费,无需开通会员。

  - 克劳德的Opus与Sonnet版本在综合能力上存在显著差距,因此会员服务具有一定价值。

  - 文心一言与3.5版本差距较大,会员服务意义重大。文心一言可媲美克劳德巨著,而3.5版本则与克劳德十四行诗相当。

  - GPT系列中3.5和4版本仍保持领先地位。

  综合能力最强的当属文心一言4.0,使用最为便捷。若辅以讯飞星火处理英文文案,则完全够用。

  至于智普AI等模型,无论中文、英文能力,还是算法、逻辑及数学表现均不尽如人意,不建议使用。

  本次测评的价值显而易见。

  这是智谱AI官方公布的模型能力展示。

  该模型号称性能可比肩GPT-4,声称达到其90%的水平。然而,根据我的测评结果,它与GPT-4的实际差距相当显著。究其原因,问题出在测试数据集上。这些数据集说实话我此前闻所未闻,但为何被广泛采用作为评测标准呢?这本质上是一个系统性漏洞。

  以学术论文为例:最初学者撰写论文是为了记录重要研究成果,但后来论文数量逐渐演变为衡量标准。于是人们无论有无实质贡献都开始大量产出论文,最终导致学术灌水现象。

  同理,这些测试数据集本应用于评估模型性能,但部分企业却专门针对这些特定数据集进行优化。虽然模型在这些数据集上表现优异,但实际应用效果却不尽如人意,因为其优势仅限于特定测试场景。

  可以说,这个系统基本涵盖了日常生活中常用的功能,如文案撰写,这已包含在中英文写作模块中。此外,编程、逻辑分析、数学等常见需求也都包含在内。有人可能会问,为何不包含生物、医药、法律等领域的内容?因为这些领域的核心本质仍是信息提取和分析,与阅读理解题的性质相同。

  对于这个模型,不应将其视为人类,而要理解其知识储备是无限的,只是缺乏运用知识的能力。因此,询问金融问题与语文问题的效果是相同的。

  一个有趣的现象是,某些模型如360超级智脑会出现抄袭答案的情况。这些抄袭答案的模型在测评中都被判为零分。抄袭答案表明模型对题目缺乏独立理解,若更换题目便无法解答。允许的做法是上网搜索后自行总结,或至少改变表述方式以证明理解。直接抄袭答案或拒绝回答的模型均被判为零分,因为这对实际应用毫无意义。

  接下来,我们继续分析智谱AI的测评结果。

  从测评能力来看,无论是中文还是英文,该模型的表现似乎都超越了GPT-4。然而,这一结论仅基于特定数据集。在实际应用层面,智谱AI的表现仍有较大提升空间。

  无论是中文还是英文,其表现均不及GPT出色。以中文信息分析与提取能力为例,其水平远逊于GPT,甚至不及百度。中文写作能力同样不尽如人意。

  他怎敢在此宣称能够超越GPT4?或许仅在某些对齐能力或特定任务上有所突破,但实际应用并无显著价值。本文章仅针对文本能力进行了测评。

海量资讯、精准解读,尽在新浪财经APP

责任编辑:尉旖涵

VIP课程推荐

加载中...

APP专享直播

1/10

热门推荐

收起
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

股市直播

  • 图文直播间
  • 视频直播间
  • 08-05 志高机械 920101 17.41
  • 08-01 广东建科 301632 6.56
  • 07-29 酉立智能 920007 23.99
  • 07-28 天富龙 603406 23.6
  • 07-25 汉桑科技 301491 28.91
  • 新浪首页 语音播报 相关新闻 返回顶部
    cordura是什么面料 尿路感染吃什么药消炎 坐围和臀围有什么区别 免疫球蛋白e高说明什么 自燃是什么意思
    女人梦见自己掉牙齿是什么征兆 罗文和甄妮什么关系 乙肝三抗体阳性是什么意思 prada是什么品牌 蝴蝶是什么意思
    灰指甲应该挂什么科室 freeze是什么意思 被马蜂蛰了用什么药 微量元素检查挂什么科 abob白色药片是什么药
    女人为什么会出轨 心脏难受是什么原因 属相兔和什么属相最佳 钓是什么意思 排骨炖什么补血补气
    宫颈糜烂是什么原因引起的hcv8jop7ns7r.cn 一月份生日是什么星座hcv8jop1ns6r.cn 老年人腿无力是什么原因导致的hcv7jop7ns2r.cn 什么地回答hcv9jop0ns0r.cn 血沉高忌口什么hcv9jop6ns9r.cn
    军校出来能干什么hcv8jop5ns6r.cn 周公解梦梦见蛇是什么意思hcv9jop1ns1r.cn 眼黄瘤什么方法治疗最好hcv8jop2ns7r.cn 伏藏是什么意思hcv9jop8ns1r.cn 喜字五行属什么hcv8jop5ns7r.cn
    男性结扎是什么意思hcv9jop2ns6r.cn 阑尾炎能吃什么hcv9jop4ns8r.cn 脚扭了挂什么科hcv7jop4ns7r.cn 知鸟吃什么zhiyanzhang.com 尿培养能查出什么病hcv8jop0ns0r.cn
    在圣是什么生肖hcv9jop1ns9r.cn hrd是什么hcv8jop4ns0r.cn vca是什么牌子luyiluode.com 湿气重可以吃什么水果hcv8jop0ns3r.cn 胃溃疡是什么意思hcv9jop7ns4r.cn
    百度