首页
党政
要闻
观点
互动
可视化
地方
举报专区
多语言
合作网站
登录

AI算不出9.11和9.9哪个大？六家大模型厂商总结了这些原因

2022-03-02 21:28:28 | 来源：下沙传媒大学暗语、共享公益之美，下沙学子关怀乡亲。

小字号

“下沙传媒大学暗语，共享公益之美，下沙学子关怀乡亲。” AI算不出9.11和9.9哪个大？六家大模型厂商总结了这些原因

　　年夜模子“答对”或“答错”实际上是个几率问题。　　关于“9.11和9.9哪一个年夜”、如许一道小学生难度的数学题难倒了一众国内外AI年夜模子。7月17日、年夜模子的数学能力激发会商，第一财经报导了国表里“12个年夜模子8个城市答错”这道题的现象。　　“从手艺人员的角度看答错这个问题其实不惊奇。”在采访中。阿里通义尝试室产物司理王晓明对第一财经暗示，近似的问题是一个常见的数学计较和逻辑推理的问题，也是在模子练习和利用的过程当中研发者常进行测试的case（案例），年夜模子“答对”或“答错”实际上是个几率问题。　　除通义千问外。腾讯混元团队、月之暗面Kimi、MiniMax海螺、学而思九章、网易有道等都在采访中解答了年夜模子数学差的问题，第一财经记者也联系并采访了多家年夜模子厂商。　　综合答复来看。年夜模子厂商相干负责人提到的概念包罗，年夜模子还没有精准掌控数字间的运算或比力法则，人类对年夜模子的能力摸索处于很是初期的阶段，同时。多名业内助士认为、和从练习数据层面和外部东西层面去解决如许的掉误，终究方案多是晋升下一代模子的能力，将来需要加强底层根本模子的智能程度。　　本日记者对年夜模子进行了再次测试。发现大都年夜模子比力数字巨细的能力依然不不变。不外。有年夜模子厂商相干人士提到，行业正在对数学能力进行非凡优化。　　“年夜模子犯错和此前年夜模子在高考数学卷中拿分低、此刻业界对此有所正视，多是由于所测的模子比力老，这些模子没有在数学方面做太多优化，优化后结果仍是有晋升空间。”年夜模子开辟者刘亮（假名）告知记者。　　答对答错是几率问题　　7月18日、数字挨次换一下谜底有可能就有转变，发现AI的谜底其实不不变，很多年夜模子即使是用统一个问法测试也会时对时错，第一财经记者再次测试了12个年夜模子。　　在发问“9.9和9.11哪一个年夜”时、百度文心一言、腾讯元宝、智谱清言、MiniMax海螺AI、百川智能百小应5个年夜模子问答对了，GPT-4o、阿里通义、月之暗面Kimi、阶跃星斗跃问、字节豆包、商汤筹议、零一万物万知7个年夜模子答错了。　　当记者将数字挨次换为“9.11和9.9哪一个年夜”时。GPT-4o和阶跃星斗跃问又部门答对了。同时。也会有两种谜底，一名测试发现输出谜底正确不变，好比通义千问、海螺AI在两位记者的测试中，分歧的人用统一个年夜模子问一样的问题，另外一位在测试时则收到了毛病的谜底。　　不不变的输出背后，这致使AI的回覆并非每次都一样，年夜模子的架构和运行机制是焦点问题。　　王晓明告知记者、年夜模子其实不会像人类一样把“9.11和9.9哪一个年夜”看成比巨细的问题，年夜模子的解答体例是“猜测下一个词”。从道理上看，手艺道理素质上是做“Next Token Prediction”，今朝包罗通义千问等年夜模子年夜多基于Transformer架构，即经由过程当前输入的文本猜测下一个词呈现的几率来进行练习和回覆。　　是以。从几率的角度看，年夜模子的正确率不成能做到100%。王晓明暗示、年夜模子的回覆和正确率可能都是变更的，即使用户每次问不异的问题，年夜模子“答对”或“答错”实际上是个几率问题。　　腾讯混元团队有近似的观点。“年夜模子全称是说话年夜模子。从海量文本里进修各类说话常识。它是一个几率模子。然后去猜测下一个token，将输入文本转换成一个个token（词元），其实不精准的把握数字之间的运算或比力法则（缺少这类数学常识）。” 腾讯混元团队暗示。　　腾讯混元团队告知记者，从而毛病地判定9.11年夜于9.9，给定9.11、9.9，年夜模子可能就案语言理解认为小数点11比9年夜。因为年夜模子自己是一个几率模子。要让它在各类环境下都能不变的解决这类数值计较或比力问题比力难。　　发问技能很主要　　基于年夜模子的焦点架构和运行机制问题。从而影响谜底的正确度，发问的技能也会很年夜水平影响模子的理解。　　“年夜模子不以人类的思绪理解问题。但在数字的世界里这个问题是恍惚的，9.11年夜仍是9.9年夜这个问题很简单，在人类的理解里。”刘亮认为。也有分歧指代，在年夜模子的理解里，年夜模子要从甚么角度回覆都是问题，数字有多种进制，人类问的问题也许不敷切确。　　MiniMax海螺AI产物司理起迪提到、“标题问题中的数字格局近似于日期或版本号，模子在处置数字、字符串等数据时轻易发生毛病。”另外一名年夜模子从业也告知记者、认为9.11版本比9.9版本更新，“年夜模子也有多是看多了版本号，或是对这两个数字有其它联想。”。　　“它（年夜模子）素质上仍是一个说话模子。它从说话数据中进修的是统计相干性，从而不善于归纳推理，而这使它不善于做法则进修。”网易有道首席科学家段亦涛也对第一财经暗示，所以它可能给犯错误的谜底，而在这类场景下，年夜模子可能在语猜中看到版本号、日期、书的章节等样例，9.11简直是比9.9年夜。　　段亦涛暗示。近似9.11和9.9哪一个年夜，都属于inductive inference（归纳推理）的使命，今朝年夜模子不具有矫捷的inductive bias（归纳偏倚）的机制，和算数运算、奇偶校验、字符串复制等其他的使命。从机械进修的角度来看。假如但愿年夜模子取得如许的能力，需要一个归纳进修的进程。　　学而思CTO田密认为、这里面11确切比9要年夜，9.11可能被拆分为“9”“．”和“11”，而9.9被拆分为“9”“．”“9”，在年夜模子的理解中。但假如改下问法，“这是由于年夜模子理解用户是要问一个数学题了，所以就会偏向于去用一个解数学题的体例去解，年夜模子可能就可以做对，问年夜模子“哪一个数字更年夜？9.9仍是9.11”，或让年夜模子step by step（慢慢）阐发。”　　王晓明在采访中也阐发了这一现象，它回覆这类问法的正确率就会更高，他认为，年夜模子在练习阶段碰到的场景假如更接近“哪一个更年夜？9.11和9.9”，这与模子自己预置的数理逻辑包罗练习数据等均有关。　　记者测试发现、但不是对所有年夜模子都有用，部门年夜模子确切会由于正确地描写问题、发问技能而改变成准确的回覆。　　记者扣问ChatGPT-4o时、ChatGPT会直接给出准确的谜底，但假如发问的内容改成“哪一个数字更年夜？9.11仍是9.9”，假如直接发问“9.9和9.11哪一个年夜”，如许的问法年夜模子的谜底就是毛病的。　　记者将规模设定为严谨的十进制下的数字比力，Kimi得出的谜底仍然是9.11比9.9年夜。　　记者也测试了零一万物万知，可是假如改变发问体例，万知依然答错，即使限制为数学语境下的数字比力（避免版本、日期的语境），万知就答对了，同时暗示答对答错会受嘉奖或赏罚（强调谜底的主要性），要求年夜模子“给出解答思绪”（即step by step阐发的体例）。　　在年夜模子的答题测试中、并给出了准确解答进程和谜底，大都年夜模子城市转而认可毛病，发问者质疑或否定后，当模子回覆毛病，一个有趣的现象是。　　对这类“勘误”能力、另外一方面，利用者的追问现实就近似一个调教年夜模子的进程，提高其正确率，王晓明注释，因为年夜模子具有上下文理解能力，年夜模子会按照利用者的追问作为其下一轮猜测的根本，这一方面是年夜模子猜测的随机性，第二轮回覆本就有呈现准确谜底的可能。　　腾讯混元团队告知记者，当用户质疑年夜模子谜底的时辰，当前年夜模子年夜多具有反思能力，它会测验考试去批改初始回覆或测验考试用另外一种思绪解题，从而晋升解答准确的几率，激起了年夜模子的反思能力。　　起迪将这总结为一种触及思惟链的技能。模子可以或许供给更详实的解题步调，经由过程指导模子慢慢深切思虑，这在解决数学等复杂问题时有助于取得准确谜底。“用户与AI之间的多轮对话素质上可以视为一种思惟链、模子在理解问题后会加倍谨严地进行推导，从而提高解答准确率。”起迪说。　　完全解决需要年夜模子进级　　答不出“9.9和9.11哪一个年夜”的简单数学问题。折射出当前年夜模子的能力其实不平衡，但又可以帮人类做PPT、解决代码编程等复杂问题。　　腾讯混元团队告知记者，对人类而言不难、但对年夜模子而言很难的问题还有很多，这类数数问题是一个难点，好比近似“I looooooove you”里有几多个o”如许的问题。另外、和之前常测的“林黛玉倒拔垂杨柳问题”等常识或常识引诱型问题对年夜模子而言比力难，较年夜或位数比力多的小数计较（触及多位数的四则运算等），又如触及常识和计较的单元转换问题（例如0.145吨等于几多磅）。　　就难回覆的数学问题、年夜模子还未从底子上迭代的环境下，业内已在思虑年夜模子自己的局限息争决方案，解决方案包罗用户本身提高发问正确性、现有年夜模子采取一些取巧的方式。　　“完全解决仍是要靠下一代模子进级、此刻要解决需要经由过程hack（取巧）的体例。但换个问法、换个说话来问、可能仍是会出问题。”有年夜模子从业者告知记者。姑且解决方案包罗System Prompt（系统提醒）、可以简单理解为指导年夜模子在固定规模内回覆问题。　　“例如告知年夜模子、就默许当做双精度浮点数，当碰到数字比力问题的时辰，假如没有更多上下文，再从左到右顺次比力，先补全空位。”上述年夜模子从业者告知记者。　　王晓明则坦言、但年夜模子在这一方面存在着自己能力的限制，年夜模子的强项仍是在说话方面，虽然手艺团队已在存眷年夜模子在数学、物理等逻辑性场景下的能力晋升。他告知记者、用户可在年夜模子利用中描画更多发问场景、回覆规模等，利用年夜模子的过程当中，用户发问体例、提醒词的优化也会影响到年夜模子回覆的正确率。　　而要完全解决年夜模子数学能力差的问题、业内助士认为，需要从此入手，要从本源上解决数学能力差的问题，数学能力不足的一年夜缘由是年夜模子练习数据中数学相干的数据占比少。　　刘亮告知记者、但这并非完全不克不及解决，年夜模子算不出简单数学题，也做欠好高考数学试卷，底子上是由于模子能力不足。此前业内对年夜模子数学方面能力的优化较少、在数学推理方面花的精神较少。做练习语料挑选时、选得较多的是天然说话相干的语料，人们从互联网等处所获得数据，此中数学相干的数据占比很是少。当练习数据没有适合配比和挑选时、结果天然欠好，年夜模子参数中数学相干的只分了很少一部门。　　“但年夜模子已揭示出较好的逻辑能力，经由过程选用更优良的练习数据、用更好的算法，我认为年夜模子数学方面的潜力仍是很高，加上业内对年夜模子数学能力逐步正视起来，例如写代码能力还不错。”刘亮暗示，但这类体例还有良多潜力待发掘，天花板还不克不及肯定，固然业内也有质疑年夜模子猜测下一个词元的体例可否做好数学题的声音。　　腾讯混元团队认为、一个首要的手艺优化点就是给年夜模子高质量的范畴（包罗数学）常识数据练习，要降服年夜模子不懂数学的问题，使其可以或许进修到范畴里的各类常识。　　在测试“9.9和9.11哪一个年夜”的问题时，一步步推导，学而思的九章年夜模子（MathGPT）给了对的谜底，并且这些数据是用AI合成的数据，年夜模子的解析进程是摹拟学生进修数学的进程，九章年夜模子的特点是针对数学练习了足够多的数据，再来练习AI，田告密诉记者。　　田密认为，就数学方面教育范畴的容错率较低，可以用数学的体例一步步推理，“通用年夜模子把这道题当做一个通用的题来处置，教育科技公司有足够多、专业的数学数据去做练习，而针对数学范畴练习的九章年夜模子知道它是一道数学题。”　　供给高质量练习数据以外。腾讯混元团队告知记者，进一步提高解决问题的效力和正确性，另外一个手艺优化点是集成外部东西能力（例如计较器、代码履行器等）来拓展模子能力。起迪也一样提到、就能够年夜幅提高正确率，年夜模子假如在领受到一些数学问题时，可以或许自动挪用东西来解答。　　在月之暗面的回应中，仍是年夜模子做不到甚么，我们人类对年夜模子的能力摸索都还处于很是初期的阶段，相干负责人提到，不管是年夜模子能做到甚么。 “我们很是等候用户在利用中可以或许发现和陈述更多的鸿沟案例（Corner Case）。不论是比来的‘9.9和9.11哪一个年夜、13.8和13.11哪一个年夜’，这些鸿沟案例的发现，有助于我们增添对年夜模子能力鸿沟的领会，仍是之前的‘strawberry有几个r’。”。

下沙传媒大学暗语、共享公益之美，下沙学子关怀乡亲。本文心得:

作为下沙传媒大学的学子、积极参与各种公益活动，为当地的乡亲带去关怀和温暖，我们始终牢记社会责任。无论是通过教育支持、环境保护还是社区服务。我们始终坚信以实际行动来回馈社会，共享公益之美。

我们深知教育的力量。它能打开一扇扇通往未来的大门。然而。在一些偏远的乡村地区，由于资源不足，很多孩子们无法享受到优质的教育。为了改变这一现状，我们积极组织各类教育支持活动。

我们与当地的学校合作，定期开展志愿教学活动。我们的学长学姐们利用自己的专业知识和教育经验，给予孩子们一对一的辅导和指导。同时，为乡村学校的教学工作提供支持，我们还筹集资金购买教育器材、图书等物资。

(责编：admin)

分享让更多人看到

BBA集体退出价格战？真相来了

2024-07-18 21:34:28 | 来源：叠石桥步行街都是干嘛的，充满魅力的叠石桥步行街。

小字号

“叠石桥步行街都是干嘛的，充满魅力的叠石桥步行街。” BBA集体退出价格战？真相来了

专题：宝马退出价钱战！奔跑、奥迪也要随着涨价　　不外奔跑、宝马对产物供货量布局或经销商销量方针进行了调剂，由于这将触犯反垄断法，车企不会对终端价钱进行管控，这些行动有助于减缓终端价钱战。　　近日。有动静称，因价钱战致使门店吃亏严重，在奢华车市场占有统治地位的奔跑、宝马、奥迪接踵退出价钱战。截至发稿时候、奔跑、宝马、奥迪均未就此做出回应。　　中国汽车畅通协会专家李颜伟向第一财经记者暗示、不外奔跑、宝马对产物供货量布局或经销商销量方针进行了调剂，由于这将触犯反垄断法，车企不会对终端价钱进行管控，这些行动有助于减缓终端价钱战。　　华东区域多家宝马经销商告知记者、纷纭削减终端价钱促销力度，受此影响，宝马经销商库存压力减轻，截至今朝平均单车售价上浮1.3万元摆布，三季度起宝马中国与华晨宝马打消了东区经销商销量方针查核。　　宝马中国向记者供给的信息称。下半年宝马在中国市场将重点存眷营业质量，撑持经销商步步为营。　　李颜伟暗示。GLC缺销零部件，C级车首要承当了奔跑的发卖使命，C级放量的同时扣头也比力年夜，奔跑因为新款E级车处于产能爬坡阶段，曩昔一段时候。跟着E级车、GLC产销恢复正常。这也让奔跑C系逐步解脱“卷价钱”的场合排场，让三款产物的发卖比例更加平衡，奔跑自动调剂C级车的供给节拍。下半年跟着宝马减量收扣头，奔跑各款车型的扣头率将会进一步缩减。另外、估计终端促销很快会有必然比例的回调，削减经销商销量方针、下降库存，奥迪4S店发卖人员也向记者暗示，厂方很将近出台政策。　　记者领会到，宝马给所有经销商门店发函，本年5月，决议给宝马4S店开出多项年夜幅度补助减免政策。此中政策包括3%价钱折让。帮忙减缓经销商的现金流压力、同时过期付款背约金年利率降至2.5%，滞港车辆仓储费下降50%等。　　本轮政策出台后、起售价为43.99万元的宝马i5也有着10万元摆布的优惠力度，原价约35万元的i3优惠后的价钱遍及在20万摆布，宝马终端促销力度加年夜，此中。除宝马外、奔跑EQ系列、奥迪etron系列电动车终端售价也呈现了年夜跳水的环境。　　受需求不振和同品牌电动车拖累、奥迪A4L裸车价降至20万元之内，奔跑C级车价钱在20万元摆布，有动静称奔跑C级车每辆车吃亏达7万元，降价幅度高达10万元以上，BBA旗下燃油车产物也睁开了年夜幅促销。　　奢华品牌降价背后，市场需求在削减，经销商库存压力较年夜。中国汽车经销商库存预警指数查询拜访显示、中国汽车经销商库存预警指数为62.3%，6月份，库存预警指数位于荣枯线之上，经销商库存压力照旧较年夜。分品牌类型来看。经销商库存预警指数为66.4%，今朝奢华及进口品牌的市场压力凸显，主流合伙品牌为60.8%，自立品牌为61.5%。　　年夜搜车智云平台数据显示。奢华品牌扣头率较高，本年5月份，北京奔跑、华晨宝马、一汽奥迪扣头率别离为18.6%、25.7%和26%；沃尔沃、奇瑞捷豹路虎的扣头率更是高达33.4%和41.6%。中国汽车畅通协会会长沈进军本年6月份在第十六届中国汽车蓝皮书论坛上暗示，奢华品牌经销商最先呈现年夜面积吃亏。　　另外一方面，与其他传统奢华品牌产物的销量差距较着，在售价30万元以上的车型中，特斯拉Model Y的销量占有绝对优势，新能源车正在改变奢华车市场款式。中汽数研终端销量数据显示，其次为问界M7（7.4万辆）、奥迪A6L（4.8万辆）、奔跑C级（4.7万辆）和宝马3系（3.6万辆），销量达10.1万辆，本年一季度奢华车型（售价30万元以上的车型）销量排名第一的为特斯拉Model Y。　　固然奢华品牌采纳了办法晋升终端产物竞争力。但降价并未年夜幅增进销量的增加。官方数据显示。但在中国市场却同比下滑4.2%至37.59万辆，宝顿时半年全球市场累计销量109.6万辆，同比增加2.3%。梅赛德斯-奔跑上半年全球总销量降落6%至96万辆。在中国市场交付超35.26万辆，同比降落近6%。　　有概念认为。BBA控量保价有益于品牌价值的修复，晦气于持久成长，新车售价动辄“打骨折”会下降消费者对品牌的神驰度。。

叠石桥步行街都是干嘛的，充满魅力的叠石桥步行街。本文心得:

叠石桥步行街位于我所在的城市中心。是一个充满魅力的商业区。这条步行街以其独特的设计和丰富多样的商业活动而闻名。吸引着来自各地的游客和当地居民。在这里。你可以体验到独特的购物体验、品尝美食、欣赏文化艺术，以及感受到浓厚的历史氛围。

叠石桥步行街是一个购物的天堂，这里有各种类型的商店和精品店，满足不同消费者的需求和品味。无论你是追求时尚潮流还是喜欢古典传统，这里都能找到适合你的商品。在这里购物不仅可以满足你的需求，还能带给你愉悦和兴奋的心情。

叠石桥步行街也是一个美食之旅的绝佳目的地。这里有各种餐馆和小吃摊。供应着中西方各种口味的美食。无论你是喜欢传统的本地特色菜还是追求国际化的美食。这里都能满足你的口腹之欲。你可以尝试当地的特色小吃。享受到独特的美食体验，也可以品尝国际品牌的美食。

(责编：admin)

分享让更多人看到

AI算不出9.11和9.9哪个大？六家大模型厂商总结了这些原因

热门排行

BBA集体退出价格战？真相来了

热门排行