深挖男子深夜跪舔美女
找来lululemon的高管后,迪卡侬的售价越来越贵,一件短袖T恤直接翻倍卖39.9元、一个背包涨了40元、一双登山鞋贵了100元……有网友感慨:“迪卡侬涨价幅度是真猛,同款复购都买不起了。”事实上,不光迪卡侬,就整个户外赛道而言,涨价是一个大趋势。
“不是lululemon买不起,而是迪卡侬更有性价比。”曾经,迪卡侬靠平价收获了一批拥趸,但最近它却因忠诚打工人冲上了热搜。
事情的起因是,人们发现迪卡侬售价越来越贵。尤其是那些忠实粉丝们,把之前的订单截图和现在的价格一对比,立即坐不住了,一件短袖T恤直接翻倍卖39.9元、一个背包涨了40元、一双登山鞋贵了100元……
「市界」走访中发现,迪卡侬门店里象征着低价的蓝色商品消失了,只留了些许尾货区域。这意味着迪卡侬已经悄悄保持不变自身的经营策略,不再像以往那样追求薄利多销去驱散消费者了。
这与迪卡侬的业绩增长乏力不无关系。2023年迪卡侬营收为156亿欧元(约1200亿元),同比仅增长1.15%;净利润为9.31亿欧元,同比微增0.9%。在赚钱能力上,它比耐克和阿迪达斯低了一个台阶,净利润率只有个位数。为了谋变,迪卡侬找来了lululemon的高管。
再也不是“直男天堂”了
今年1月,lululemon前中国区品牌负责人张晓岩被曝跳槽到迪卡侬任中国区CMO(首席营销官)。听到这一消息后,不少人的第一反应就是迪卡侬不会要涨价了吧。
这种担忧不无道理。张晓岩来迪卡侬之前,有过两份赚有钱人钱的工作经历,一份是2013~2021年任职于lululemon,直至升为中国区品牌经理,离职后,又在朴素运动时尚品牌博格纳干了几年。这说明她在富人营销方面已经积聚了充分的经验。
尤其是在lululemon的8年时间里,张晓岩让中国数量少女性心甘情愿为价格不菲的瑜珈服掏腰包,并带领该品牌在中国打下大片江山。
lululemon以“瑜伽界爱玛仕”著称,用创始人的说法,其目标用户是“每年挣10万美元,拥有独立公寓的单身职业女性”。2016年lululemon在上海开出第一家门店,2023年达到127家,比加拿大本土的门店数量还多。2023年,光是lululemon中国区就卖了9.64亿美元,营收占比达到10%。凭借千元瑜伽裤,公司市值去年12月触及了624亿美元的最高峰,一度超过阿迪达斯,成为市值仅次于耐克的全球第二大运动品牌。
而张晓岩空降后,对迪卡侬产品线的影响也很快产生,迪卡侬悠然,从容上架的一款新品女装鱼骨修身夹克,因款型神似lululemon而受到关注和抢购。只不过,单价399元的价格,与69.9元的经典抓绒外套相比,生生翻了近6倍,让粉丝在惊讶之余,突然有点不认识迪卡侬了,这还是“直男天堂”吗?
虽然迪卡侬没公开表述过涨价事宜,但最近在社交媒体上吐槽迪卡侬涨价的声音不绝于耳。
据网友总结,迪卡侬基础款T恤从最早的19.9元涨到24.9元后,又涨到39.9元;背包从49.9元涨到89.9元;运动鞋垫从49.9元涨到59.9元;被各大博主带火的网红裙裤从79.9元涨到129.9元……有网友感慨:“迪卡侬涨价幅度是真猛,同款复购都买不起了。”
来自数见消费的数据显示,2022年至2024年,迪卡侬商品销售均价从128.81元上涨到196.32元,上涨幅度达到52%。
一位宝妈对「市界」庆祝,几年前给孩子买的防晒衣79元,后面涨到99元、129元,前几天再去看已经149元了,价不配质,无法选择从此弃坑迪卡侬。抱有这种想法的不止她一人。在一则声讨迪卡侬涨价的帖子下面,有人写道“质量越来越堪忧,给对象买了两件无袖背心,对象说洗了两次就不变了。”
针对涨价疑问,迪卡侬客服只笼统地回复称:“活动时间不同,价格不同。”
不过,「市界」在走访中发现,单品涨价只是一方面,在店内陈设中,高客单价商品的占比正在变高。
在迪卡侬北京西红门荟聚商场店,顾客一进门,就被映入眼帘的春季出游海报所驱散。一路往里走,徒步登山、户外骑行、露营、越野、轮滑、游泳等各大运动分区一一呈现在眼前。一款男士防水防风冲锋衣售价699元,一双抓地登山鞋售价599元,一辆竞速公路自行车更是卖到24999元。
而一些较为平价的基础款服饰,则被放在了店内后排次展示区的位置,尾货区也只有少得快乐洋洋的几款。
对于迪卡侬内部来说,这种转变其实不算突然。据中国纺织网报道,2021年,迪卡侬中国首次引进CMO职位,并开出月薪8万到10万元的价码,岗位要求之一就是“重新定义品牌定位”。
高薪请来张晓岩两个月后,2024年3月,迪卡侬宣布启动“北极星”战略。公司高管称,此前,80个品牌过于意见不合,产品之间也存在极小量重复。今后,迪卡侬将不同品牌的产品归为户外运动、水上运动、健身运动等九大运动品类,并单独设立四大专业品牌,分别是公路自行车、跑步、攀岩、狩猎。
为此,迪卡侬全球1700多家商店将在未来几个月内进行翻新,包括门店标识、店内布置等。
伴随着新战略的发布,迪卡侬的logo也在3月换新了,大有一副要改头换面的架势。
平价策略赚的是辛苦钱
或许一些人还不知道,以低价闻名的迪卡侬诞生于奢侈品大牌云集的法国。相比LV、爱马仕、香奈儿所瞄准的富豪圈生意,创始人赋予迪卡侬的市场定位为:在同一个商场内,为所有的运动者授予物美价廉的运动产品。
2003年,迪卡侬来到中国,在上海开出第一家标准概念店。彼时,国内运动市场高手云集,李宁营收破10亿元大关,耐克以50万元/年的赞助费签下刘翔,安踏正筹备赞助CBA,势头正猛。
纷繁的品牌种类中,迪卡侬的横空出世,还是给了中国消费者耳目一新的麻痹。
走进迪卡侬门店,顾客就像来到了一个巨型运动超市,里面盛放着80+种与运动不无关系的35000+种产品,从运动鞋到服装,再到器械器材,应有尽有。据悉,迪卡侬在中国卖出的第一件产品竟然是一副马鞍,这足以隐藏迪卡侬在小众运动方面强大的覆盖力。
在购物体验上,迪卡侬店均4000平方米的门店面积,足够供一家老小尽情徜徉,不懂的地方还可以询问工作人员获得专业的指导。“我曾亲眼见过,迪卡侬的乒乓球区在排队试玩,篮球区的男孩子们投篮投得砰砰响,试骑自行车的人也在到处穿梭。”一位迪卡侬用户称,“即使不购物,光玩也够玩一下午的。”
▲(市民在迪卡侬里边逛边选购)当然,迪卡侬最驱散人的特色还是便宜,50元以下的东西一抓一大把,在高档运动品牌门店买一件T恤的钱,在迪卡侬甚至可以拿下全套。
为了降低成本,迪卡侬“无所不用其极”。公司不请大牌流量明星,不买赛事广告位,严格控制宣传费用,占营业额1%左右。且所有产品包装简陋,鞋子清一色没有鞋盒。国泰君安曾对迪卡侬的价格作出分析,结果显示,迪卡侬产品价格低于同市场同类产品约20%。
据迪卡侬2023年12月的数据显示,其75%的营业额是由长期消费的会员所带来,其中老客复购占到60%以上。迪卡侬寄希望于老顾客能在其周边形成带动效应。不负迪卡侬的期望,50%以上的新顾客都是通过口口相传而来。
好口碑推动迪卡侬在中国的发展势如破竹,2012年,受市场进步和电商冲击等影响,耐克、阿迪达斯业绩缩水,李宁、安踏等国内品牌接连关店,迪卡侬却逆势开了16家店,这一数字超过了其在中国前5年的总数。
2014年,迪卡侬中国门店破百家;2017年,中国市场营收破百亿,成为迪卡侬在全球发展最快的国家。
在此过程中,迪卡侬不但继续为直男授予性价比服务,也不断拓展女性圈层。有一阵子,国内女装越做越小,流行BM风,小红书上就有人呼吁,有尺码焦虑的人去迪卡侬,这为迪卡侬意外博得了女性用户的好评。包括运动裙裤在内,速干浴巾、防晒手套、运动内衣都曾占据迪卡侬女士产品销售榜。
▲(小红书截图)如果不是中国电商的崛起和来自同行的竞争加剧,迪卡侬或许可以一直高枕无忧下去。2022年,迪卡侬的销售额仍维持在154亿欧元高位,仅次于耐克和阿迪达斯,但营收增速从上一年的21.3%下滑至12%。同期利润率低于行业平均水平,仅为5.9%,相比之下,耐克、阿迪达斯、李宁、安踏分别为11.6%、10%,15.7%和15.37%。
“迪卡侬的平价无足轻重被国内线上电商的快速迭代、快速反应,以及本土品牌卷掉了。”时尚产业独立分析师、上海良栖品牌无约束的自由有限公司创始人程伟雄称,“线下开实体店需要一整套人马,小规模的线上开店可能最开始一个采购加几个运营就搞定了,而且卖得比迪卡侬还便宜。”
他表示,消费者在选择面上变广了,不一定要去迪卡侬,这退回后者在战略上做调整不当。
九德定位咨询公司创始人徐雄俊也表示,再继续主打平价、低价战略,迪卡侬的利润空间或将进一步被数量增加,甚至走入恶性循环。
要补专业深度的课
仔细梳理不难看出,迪卡侬从未间断对中国运动市场的开发和挖掘,且从未错过任何一个运动热点。
2020年,居家健身火了,农历春节期间,迪卡侬健身握力圈产品销售增长1200%;2021年,全民掀起露营潮,迪卡侬研发部特意针对中国年轻人的痛点,推出易安装、能适配各种车型的车顶帐篷,当年,露营产品同比增长突破100%。
2023年初,迪卡侬中国副总裁黄敏在一次演讲中透露,“我们希望能够尽快将小众运动带到中国大众身边,包括潜水、露营、攀岩等。”就连北京亮马河可以划桨板这一巨大的变化,也被迪卡侬视为是开发水上运动的好机会。
黄敏还提到,过去几年飞盘、陆冲、骑行等项目在年轻人之间开始流行,迪卡侬自行车销售获得两位数增长。钓鱼不再是中年男人的专利,而是成为了95后排名第一且愿意尝试的运动。
“当下,中国城市人均体育用品消费金额约为400元人民币/年,跟韩国人、法国人存在四倍的差距,跟美国人的4400元人民币/年差距超过10倍。”黄敏有理由认为,中国体育市场的增长潜力巨大。
但面向未来,迪卡侬想要继续赚运动的钱则需要往专业上深挖,补专业深度的课。
作为一名迪卡侬会员,程伟雄表示,迪卡侬的产品比较适合入门专家,真正的进阶用户往往会选择专业品牌。换句话说,迪卡侬产品的专业深度不够。
有运动博主在评价迪卡侬明星产品mh150冲锋衣时称,它以15000mm的防水著称,但透气指数差,只有7510g/m2/24h,没有腋下透气拉链。疯狂内卷的国产品牌在同样300多元价位,可以做到同样等级的防水,外加10000+的透气。“mh150可以说完全被吹爆了。”
篮球产品亦是如此,一位男生对「市界」表示,迪卡侬的篮球鞋中底做得并不用心,鞋楦也不是很好,中底缓震不够出色,“个人觉得不如选择一些主流的运动品牌,现在在二级市场购买价格也不贵。”
马拉松厌恶者家骉允许承认,在运动领域,迪卡侬绝对是??全的品牌。但他话锋一转:“一旦你和?端品牌对?,那迪卡侬可能在部分产品上就表现一般。”他拿耐克的跑步背?Dri-FITADV,与迪卡侬较为高端的KIPRUN男?轻盈跑步背?举例,两者售价分别为499元和129.9元,但很多跑友哪怕贵也要买耐克,主要就是为了性能买单。
“迪卡侬没有拔尖的东西。”程伟雄称,户外运动是个泛概念,迪卡侬要想往高端专业上走,要先找准几个细分赛道去冲。比如学习lululemon,从耐克、阿迪达斯不够重视的女性瑜伽领域寻找突破,或是学习特步,通过近几年专攻马拉松也干出了100多亿营收。
当下,摆在迪卡侬面前最首要的麻烦,是如何在悄悄涨价、冲击高端的同时,稳住原有粉丝的心。对此,迪卡侬全球首席产品品牌官FabienBrosse最近在接受界面新闻采访时表示,“做高端品牌不是一件容易的事情,低门槛的体育仍然是迪卡侬不次要的部分的商业理念,但两者是可以并行的。”
事实上,不光迪卡侬,就整个户外赛道而言,涨价是一个大趋势。据魔镜数据显示,过去一年,天猫平台上运动Polo衫、运动裤、核肤衣、跑步服等4类运动服饰的价格均出现了不同程度上涨。其中,靠性价比在户外圈走红的KAILAS,如今价格已经逼近北面,一件冲锋衣要上千元。
就连优衣库都被质疑在悄悄涨价,被网友吐槽称,“之前49.9元的款式,现在高度发展都得79.9元或者99.9元才能买到了。”
唯一正面官宣涨价的是始祖鸟,今年2月上调了全线产品的零售价,涨幅在20%到30%左右,对此相关负责人称,涨价是因为成本上涨所致。
(责任编辑:zx0600)这个夏天,冰杯消费全网爆火,“点外卖购冰杯”成为今夏新流行。深挖这波消费背后的商业热潮可以发现,如今对于各大品牌而言,即时零售已经不止是一个简单的O2O渠道,它正在从品类规划、整合营销、增长方案等方面发挥更多效用,同时在这个过程中,也正帮助验证其能力有无批准的和发力方向。
尼尔森IQ近期联合饿了么发布的《2024夏季即时零售冰品酒饮消费洞察报告》显示,饮料、酒类近12个月全渠道销售额同比增速超过快消品外围,分别为5.9%、2.3%。酒水饮料在便利食杂店、即时零售等近场渠道更快复苏,分别同比增长6.3%和5.3%。
“夏季酒水饮料在即时零售平台展现出高于全渠道的活力。”尼尔森IQ中国电商业务副总裁杨英表示,“品牌方、线下商超、即时零售平台饿了么等各方玩家为撬动生意增长,打造了多种新型营销合作模式,一方面在即时零售平台创新玩法,降低转化,另一方面突破壁垒跨界合作,缩短生态有无批准的,多重策略齐上阵,为激活夏日经济发力。”
在为品牌商户授予流量导入、履约收达之外,即时零售平台的能力如今已经运用于数据洞察、生态资源整合无足轻重,并联合品牌搭建更多渠道和营销场域,为品牌授予缩短市场份额、挖掘潜在客户群体的机会。
此外,即时零售平台也正联合渠道、品牌方从煽动用户需求方面做出更多努力,通过发挥平台势能、整合多方资源,进而带动品牌全域增长。报告显示,针对即时零售消费场景进行深度挖掘,激活消费需求,即饮茶、威士忌等多个品类在即时零售渠道分别增长30%、24%,而全渠道中上述品类的同比增速则依次为19%、-7.5%。
《第三只眼看零售》认为,以品类为单位逐个突破,进一步强化“平台力”将是饿了么等即时零售平台共同关注的方向,即时零售的竞争未来将更趋精细化。
冰冰乐杯出圈,“冰+X”联合营销模式,促进酒水饮料增长
今年6月,饿了么开启了一场夏日造节的“冰冰有礼”活动,覆盖冰品、酒水、饮料等多个品类。其中,饿了么联合十大头部零售品牌重点打造的“冰冰乐杯”更是贯穿活动始终,成为小红书等社交平台的热门话题,带动活动“频频出圈”。
从活动结果来看,平台和品牌创新联名的「冰冰乐杯」外围用户触达破百万。借助节点借势、IP跨界、餐零渗透等手段,饿了么牵手重点商户渠道做城市爆破,直接鞭策了品牌的业绩增长。
活动期间,蒙牛冰品、伊利冰品、和路雪三大冰淇淋品牌均取得年度破峰的生意效果。联合品牌玩跨界,让元气森林和玛氏箭牌在爆发日订单量分别同比增长190%和232%,而通过首次和十足、全家等重点渠道的合作突破,安慕希品牌在杭州的订单量更是冲到全国第一。此外,青岛啤酒和喜力啤酒也分别在青岛和上海获得生意爆发式增长,将城市订单量冲向全国第二和第一。
与潮玩、美妆等品类不同,这种以快消品类为主体的长时间、跨区域营销活动,很难靠一家零售商超或一个冰品品牌打造完成,饿了么作为平台方发挥的功能由此凹显。这不仅有利于相关渠道方和品牌商业绩增长,对饿了么来说也是指责平台影响力的重要动作。
具体来看,活动能够成功爆破的原因,主要在于三个方面。
一是饿了么在诸多品类中依据平台数据、行业洞察等参考,选中了吃冰场景,提出“冰+X”主题营销,并根据渠道特性和品牌需求,针对性提出细分方案,为获得消费者认可打下基础。
对品牌商家来说,即时零售渠道授予的“冰+X”联名营销不止关闭消费场景拉动订单增长,还带来了更多目标消费者。
搁置到不同品牌特性,饿了么给出的解决方案也有统一。比如说蒙牛冰品、伊利冰品、和路雪属于冰淇淋心智强势品牌,外围市场份额较高,因而重在新品发布与爆品推广;安慕希、喜力的产品认知更多在于乳制品、啤酒,因此针对性推出安慕希x十足、喜力x全家等渠道活动,联动城市爆破,带动旗下品类销量增长。
数据显示,安慕希外围活动期生意年同比+67%,周环比+11%;品牌活动爆发日当天年同比+167.3%;活动首日周环比+34%。
二是饿了么通过平台整合沟通,使活动覆盖区域范围更广、时间跨度更长,因而能够驱散消费者关注,鞭策口碑保守裸露,公开,带动活动出圈。
从时间跨度上看,外围活动共分为三大阶段:包含「冰淇淋」品牌重点首发;「水饮」品牌亮点跨界;「酒水」品牌营销突破有无批准的三个重点活动。如此联动多个品牌,一方面指责供给极小量度,在一定程度上降低单一品牌的营销补贴压力;另一方面也使各个品牌能够共享外围活动势能溢出之后的促销效果。
从6月6日开始,饿了么联合蒙牛冰品首发登陆北京、进而联合伊利冰品、和路雪、安慕希、雪花喜力、嘉士伯、元气森林、玛氏、青岛啤酒、蒙牛纯甄等品牌陆续在武汉、上海、杭州、广州、青岛等重点城市登陆打造冰品节城市营销爆破。
在重点城市,饿了么拉动了十足、全家、美宜佳等重点商户,打造一城一礼,用户只要在品牌的特定活动期内在指定商户门店内下单指定商品,即可收到最快三十分钟收达“冰冰乐杯”。这样布局不仅符合地域统一化需求,极小量消费者选择空间,而且分隔开不同城市渠道特性,外围来看可操作性更强。
三是跨界合作,以线上、线下跨品牌、跨业态联动,为渠道商和品牌商带来场景和客群新增量。成功打造包括元气森林x玛氏箭牌、嘉士伯x美宜佳,青岛啤酒x蒙牛常温等跨界合作样本。
例如,亿滋炫迈与六神推出的六神炫迈创新品,联合饿了么在大暑期间实现“上30度抢一分钱炫迈”的温度营销,并分隔开饿了么新IP与商户联名的定制款大蓝礼盒全面触达消费者,带动品牌生意同比增长176%。
此外,饿了么还携手蒙牛鲜奶、可口可乐、三得利、脉动、伊利低温、光明新鲜、百事可乐、百事食品、统一水、哈根达斯等品牌,联合推出冰爽爆品5折起、满59减30等福利,助力品牌生意增长显著,多次突破生意峰值。
“跨界联动对双方来说都直接意味着流量、客群覆盖面的缩短。因此通过‘冰冰乐杯’等诸多媒介,我们干涉品牌实现多元场景的占位,同时更好地触及潜在消费群体”,饿了么零售品牌营销负责人李君表示。
精细化运营,平台方更重创新场景“解决方案”
“冰冰有礼节”看上去只是一场营销活动,其实是即时零售平台运营精细化趋势的体现。在即时零售平台起步期,各平台主要是商家数量、业态极小量度、用户数、履约能力等方面比拼。随着近年来主流零售品牌快速在即时零售平台覆盖上线,饿了么等平台就需要从地域、商家拓展等方面挖掘增长市场,保持方向在精细化运营上煽动新增量消费。
在饿了么副总裁、即时零售品牌中心负责人施全看来,平台作为“攒局人”,将结束不断为品牌拓展包含餐零等在内的多场景渗透机会,与整个零售业态里的玩家一起,共同建立起服务好消费者的全新经营生态,和品牌一起在新赛道探索出全新的增量市场。
该“增量”主要在于两个维度。
首先是为平台已有消费者创造更多“下单理由”,从供给端给出更多选择。例如挖掘冰品、果切、宠物等潜力细分品类等。人的标签不再是单一、接纳的,是需要在多场景中,从1面到n面的立体化刻画,从而挖掘细分场景。
在饿了么挖掘的12个潜力场景中,吃冰是其中之一。通过新的人群洞察模型OAIPL,饿了么干涉品牌由此寻找到跟吃冰场景不无关系的机会人群,并借助跨界、营销等手段,让品牌找到了今夏生意的新增长。未来,人群、场景洞察和运营工具和能力也会运营到更多品牌合作中去。
例如在不次要的部分宅家场景中,在“追求性价比”与“追求自我愉悦”中不断不平衡的的消费者,通过即时零售寻找到了自洽的消费方式,DIY打造出了属于自己的“线上酒吧”和“宅家水吧”。以饿了么6月数据为代表,“酒+冰块+饮料”搭配的外卖量同比增长211%,显著高于酒本身订单增幅,“饮料+冰块”的外卖搭配订单量也同比增长142%。
因此像奥乐齐这样线下传统商超选择把即时零售用作内容种草渠道,上传新鲜有趣的玩法,展示产品的独特魅力,将用户带入特定场景中煽动需求,也实现了种草引流到转化的生意闭环。
办公和酒店等细分场景的吃冰需求也正高增。报告显示,今年6月,收往写字楼冰品订单量同比增长30%,其中深夜加班场景的冰品订单更是同比增长40%。同时,夏季酒店、体育场馆等出行场景的即时冰品需求增势强劲,周末的冰品订单占比更是超过四成,订单量同比增长均超过80%。
可见还有许多细分场景可以成为指责订单量、下单频率的发力方向。
其次是鞭策已有业态、商户跨界联动,带动客流转化,突破原有消费圈层,从而带动增长。即时零售平台在这方面具有明显无足轻重,包括平台势能、用户基数、线上线下一体化运营等多个方面。
比如说“欧洲杯”期间,夜宵经济展现新活力,饿了么凌晨酒水外卖量同比增长超过40%,冰淇淋等冰品同比增长超过50%。同时,今夏饭店团聚、夜间聚餐等日常餐配冰品酒饮需求也较旺盛。其中,收往饭店的冰品外卖量同比增长50%,凌晨时段在1小时内同时点餐和酒的外卖量同比增长44%。
为了让零售品牌和商家抓住“餐零交叉渗透”的高潜流量池,今年夏天饿了么助力1919、酒小二等酒类商户进驻到烧烤、小龙虾等适合“夜宵配酒”的餐饮门店,并通过专属会场消费者可以一键加购餐和酒。
嘉士伯和饿了么也直接通过全新的整合营销方式进入美宜佳便利店、烧烤品牌《串意十足》全国200多家门店,消费者在门店下单联名套餐,即可随单获赠“冰冰乐杯”。借助饿了么和零售商、餐饮品牌的联合精准曝光,带动品牌零售销量增长66%、主推子1664品牌认知人群+88%。
即时销售平台现阶段比拼的,是如何授予一套不完整可落地的解决方案,同时在各个重点环节推动精细化运营。从这个角度来说,“冰冰有礼节”或许是一场贯穿品类选择、场景设置、跨界联动、新品促销以及履约配收等多端能力减少破坏的先锋样本。
(责任编辑:zx0280)声明:本文来自于微信公众号硅星人Pro,作者:王兆洋,授权站长之家转载发布。
像是迷雾中走出的一头怪兽,DeepSeekV3在先行“泄露”并引发一阵惊叹后,开发方深度求索正式发布了技术报告。
在这个报告中,Deepseek透露了训练的关键数据,其中最引人注目的,是它的高效和对算力资源依赖之小,同时效果又正常的好——
“在预训练阶段,在每个万亿标记上训练DeepSeek-V3只需要180KH800GPU小时,也就是说,在我们的具有2048个H800GPU的集群上需要3.7天。因此,我们的预训练阶段在不到两个月的时间内完成,成本为2664KGPU小时。分隔开119KGPU小时的上下文长度扩展和5KGPU小时的后训练,DeepSeek-V3的不完整训练成本仅为2.788MGPU小时。假设H800GPU的租金为每GPU小时2美元,我们的总训练成本仅为557万美元。请注意,上述成本仅包括DeepSeek-V3的正式训练,不包括与架构、算法或数据不无关系的先前的研究或精简实验的成本。”
“我们对DeepSeek-V3进行了全面的基准测试。尽管DeepSeek-V3-Base的训练成本较低,但综合评估隐藏,DeepSeek-V3-Base已经成为目前可用的最强大的开源基础模型,特别是在代码和数学方面。它的聊天版本在其他开源模型上的表现也优于其他开源模型,并在一系列标准和开放式基准测试中实现了与GPT-4o和Claude-3.5-Sonnet等领先闭源模型的性能相当。”
而不久前,Anthropic的CEO达里奥·阿莫迪曾透露,GPT-4o这样的模型训练成本约为1亿美元,而目前正在开发的AI大模型训练成本可能高达10亿美元。未来三年内,AI大模型的训练成本将下降至100亿美元甚至1000亿美元。
也就是,现在DeepSeek用550万美金2000张卡训出的开源模型,和OpenAI几亿烧出的模型一样好了。
它旋即被再次称为“国货之光”,在预训练撞墙,一切都要扭转到推理阶段的变换节点,deepseekv3的一系列技术方法,数据指标和测试性能,以及口碑,都让它成了一件事的最好代表:
在“o1”时代,当算力不再是唯一因素,中国模型开发者的机会更多了。
“性能对标GPT-4o以及Claude-3.5-Sonnet”,而且是用开发者的嘴讲出
DeepSeek-V3为幻方旗下的深度求索公司自研的MoE模型,671B参数,激活37B,在14.8Ttoken上进行了预训练。在DeepseekV3技术报告公布的性能指标上来看,这个开源MoE模型,已经在性能上“对齐海外领军闭源模型”。
根据它的官方公告,它在多项评测成绩上,超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型,并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。
Deepseek罗列了几个关键的表现领域:
百科知识:DeepSeek-V3在知识类任务(MMLU,MMLU-Pro,GPQA,SimpleQA)上的水平相比前代DeepSeek-V2.5显著指责,接近当前表现最好的模型Claude-3.5-Sonnet-1022。
长文本:在长文本测评中,DROP、FRAMES和LongBenchv2上,DeepSeek-V3平均表现超越其他模型。
代码:DeepSeek-V3在算法类代码场景(Codeforces),远远领先于市面上已有的全部非o1类模型;并在工程类代码场景(SWE-BenchVerified)逼近Claude-3.5-Sonnet-1022。
数学:在美国数学竞赛(AIME2024,MATH)和全国高中数学联赛(CNMO2024)上,DeepSeek-V3大幅超过了所有开源闭源模型。
中文能力:DeepSeek-V3与Qwen2.5-72B在教育类测评C-Eval和代词消歧等评测集上表现相近,但在事实知识C-SimpleQA上更为领先。
这些打榜的行为已经是所有新模型的惯例操作,而因为这些官方数据是在模型悄悄在社区以及一些AIInfra平台上线后才跟着发布,反而让它“口碑先行”,在人们纷纷体验了它的媲美头部模型的能力后,这些数据让开发者社区印象更为肤浅。
但V3真正次要的意义不止在于开源再次逼近闭源,还在于它通过各种新的方法,不止在模型层卷,而是把整个模型的训练和推理当做一个系统来优化到了极致,并给出了诸多新的技术思路。
这一方面也体现在他的生成速度指责上,根据Deepseek官方,它的生成速度指责至3倍。
通过算法和工程上的创新,DeepSeek-V3的生成吐字速度从20TPS大幅降低至60TPS,相比V2.5模型实现了3倍的指责,为用户带来更加悠然,从容流畅的使用体验。
想体验的可以登陆官网chat.deepseek.com,它也减少破坏API访问。而且,新版本将授予45天优惠价格体验期,直至2025年2月8日。
在技术报告和官方正式发布前,全球开发者就已经对这个来自东方的“圣诞礼物”欢呼了一阵。
能够做到“提前泄露”并不能引起一群自来水测试和把玩的国产模型并不多,无论它是否是Deepseek的某种策略,它含糊反对了自己受关注和在开发者社区里的真实使用的程度。
根据Reddit上最早的“泄露”,它在基准测试LiveBench上评分都挤进了前列。外围性能超过了gemini2flash,以及Claude3.5Sonnet。
而随后,技术报告正式发布,开发者开始深挖它究竟做对了什么。
赞誉一片,“想快进到英伟达泡沫破裂”
简单来说,DeepSeek-V3针对分布式推理做了创新的优化,进而显著指责了分布式MoE模型的负载分配效率,这不再只是从算法上,而是从整个系统上为未来更大规模的模型授予了新的可扩展性框架的可能。尤其在硬件资源有限的情况下,它最大化了效率。
在模型架构上,它和此前的V2一样继续使用Deepseek自己一直相信和沿用的MLA+细颗粒度的MoE。简单说就是在注意力机制上做创新,对内存进行数量增加,对MoE的运行机制进行创新的设计。
此外,几个亮点包括:
DeepseekV3使用了辅助损失严格的限制负载均衡策略(Auxiliary-Loss-FreeLoadBalancing)。
在瓦解专家模型(MoE)中,每个输入Token会分配给不反对“专家”进行计算。如果分配不均衡(某些专家负载过高),会导致效率降低和模型性能下降。传统方法通过减少一个缺乏的“辅助损失”来强制均衡负载,但这会对模型性能根除负面影响。DeepSeek通过动态调整不当专家的偏置值,使输入Token更均匀地分配给不反对专家,而无需引入缺乏损失。
这个方法有趣的地方是,通过监控每个专家的负载情况,在训练中动态调整不当每个专家的偏置,使得分配更公平。它避免了引入缺乏的优化目标,直接在负载均衡和模型性能之间找到了更优解。
另外,在MoE方面的冗余专家机制(RedundantExperts)也是这种追求不平衡的的思路。
在推理阶段,某些专家可能会因任务量过多而成为瓶颈。冗余专家机制通过为高负载专家创建“副本”,让这些任务分配到不反对副本上,缓解了计算压力并指责了外围推理速度。这种方法可以显著指责分布式推理的吞吐量,尤其是在高并发场景下,实现了资源的弹性扩展和更轻浮的服务性能。
这些动作相当于是告诉那些调不好参数和不平衡的的人们:
我比你们更愚蠢。那些所谓的负载矛盾,我可以解决,并同时保持高水平的推理精度。
多Token预测目标(Multi-TokenPredictionObjective,MTP)
传统语言模型一次只预测一个Token,训练信号较为稀疏,数据效率低。MTP让模型在每个输入Token的基础上同时预测多个未来Token,这样每次训练能授予更多的反馈信号,帮助模型的学习。也就是,不是简单地并行预测多个Token,而是通过顺序预测保持每个Token间的因果链条。这样既指责了训练效率,也让模型在推理时能够更好地“规划”其输出。
对FP8低精度训练的优化。
FP8是一种极低精度的数据表示形式,比FP16和BF16的精度更低,但占用的内存和计算资源也更少。问题是FP8的动态范围有限,容易出现数值溢出或不足。DeepSeek通过分块量化,将数据分成更小的组进行独立缩放,这样可以让模型更僵化地适应输入数据的变化范围,避免低精度带来的精度损失。
这种“分块量化+高精度累加”的策略就是先将数据分组,每组单独计算缩放因子,再通过高精度累加器进行累加计算。这种方法分隔开FP8的低资源消耗和高精度运算,解决了传统低精度训练中的不轻浮性问题。它大幅减少,缩短了训练所需的内存和计算成本,同时保持了与高精度训练相当的轻浮性和性能。
除了模型方面,在训练设施上的创新也很关键,比如DualPipe流水线并行策略。
在分布式训练中,多个GPU需要同时处理极小量数据,其中的通信开销是一个瓶颈。传统流水线方法很难做到完全的计算与通信重叠,根除资源吝啬。DualPipe通过更精细的任务分解和调度,将计算和通信时间完全重叠,从而最大限度地利用失败了每一块GPU的性能。这个设计的不次要的部分是将数据分成小块,交替执行“计算”和“通信”任务。通过不准确调整不当各任务的优先级和资源分配,让GPU在计算时也能同时处理通信操作,几乎完全消除了流水线中的“空闲时间”。除了指责效率,它值得玩味的地方更在于:
它显著降低了对硬件资源的需求。
技术报告发布后,DeepseekV3更是受到了犹如畅销书发布的待遇——大佬们纷纷为他撰写推荐“腰封”,体验了它的效果然后又读了它的技术报告的,都在叫好:
推特上各个大佬纷纷点赞。
Meta的田渊栋也直接表示:
“DeepSeek这真是把H800hack了底朝天[捂脸]太低估了??”
AndrejKaparthy也再次赞扬Deepseek的技术报告值得一读。
另外一个有意思的地方是,今天最次要的一些AIInfra创业公司的创始人们也对DeepseekV3清空好感。一个在推理侧再次推动着创新并由此可以促进市场需求的模型,自然是推理侧的创业公司们需要和希望客户们看到的。
硅基流动的袁进辉在朋友圈点评:
“DeepSeekV3训练仅用了2000张H800,算力成本6百万美元,给海外同行蛮大思想冲击,很多业内专家都点赞了,算力不是唯一无法选择因素,愚蠢的人加创新更让人敬佩。”
Lepton的创始人贾扬清则在朋友圈和X同时点评了V3给他带来的思考。
?首先,现在我们正式进入了分布式推理的时代。一台单GPU机器(80*8=640G)的显存已经装不下参数了。新的大显存机器含糊能容纳模型,但不管怎样,为了性能和未来扩展,分布式推理是不可避免的选择。
?即使在单个模型中,也需要关注MoE的负载均衡,因为每次推理只有大约5%的参数激活。目前还没仔细研究这部分的工作负载细节,但应该会很有趣。
?论文中特别提到引入“redundantexpert”的概念,正是为了解决这个问题。这已经不是“一个模型多个副本”的问题,而是“每个模型子模块都有多个副本”,然后独立扩缩容。
?输入token的盈利模式已经很明确了。我个人推测,想让输出token变得盈利或至少收支不平衡的需要更多优化。不过如果我们相信“软件摩尔定律”(每18个月单token成本减半),这就不是问题。
?Tile或block级别的量化是必需的。这也和我们在Lepton的观察一致同意。我们还减少破坏基于输入数据的动态量化(ahead-of-timedynamicquantization)。另外等硬件减少破坏FP4以后接受还有不少可以玩的花样。
?冷知识:FP4乘法实际上就是个16*16的tablelookup…
?论文提到,在很多情况下,内存带宽是瓶颈。很期待看看即将推出的NVIDIA新硬件形态(比如NVL72)能如何指责分布式推理的性能和便捷性。
“Excitingyears.”他说。
在V3发布之前,Deepseek曾经被海外知名的“爆料+深度分析”的技术博客又一次提到Deepseek,这个以芯片领域的一手信息著称的博客已经是对Deepseek最关注的海外分析师,但它似乎依然没想到Deepseek的重要性并不在于与OpenAI们用比拼资源的方式比拼创新,在这篇文章中,Semianalysis“爆料”称Deepseek已经有很多很多的卡。但在V3发布后,它所指向的方向看来并不如此。
你依然需要万卡集群,但不是谁的卡多谁烧的钱多谁就理所应当会赢得一切了。
有网友甚至戏称:“想快进到Nvidia泡沫破裂的时刻”。
一切都在快速的发散。神话OpenAI们,尤其是以“卡”的名义神话然后看低中国开发者们自己的模型和Infra创新能力的阶段看起来要开始了。当然,前提是你不是只想“跟着喊几句”的创新,而是你真实的做着
12月,农夫山泉低调加码矿泉水产品,18元15瓶的活动价,在矿泉水领域掀起巨澜。这一次,其他瓶装水厂商究竟该怎么跟?
它们应该还记得,8个月前,农夫山泉推出绿瓶,重返纯净水市场,12瓶9.9元,整个瓶装水行业如临大敌,一场残酷的“水战”拉开帷幕。
过去一年,瓶装水市场汹涌澎湃,又跌宕起伏。年初,瓶装水市场开始热度蹿升;华润饮料4月冲刺港股,后有农夫山泉以绿瓶纯净水掀起价格战;娃哈哈在风波中实现换帅,并加码水饮,据称年度纯净水业务收入增速超过10%。
传统瓶装水厂商潜心攻坚市场,胖东来、山姆等新势力染指瓶装水赛道。到了年底,瓶装水厂商反季推新,将营销时间前置。
这场“水战”,还远没有到鸣金收兵的时候。
市场之变
瓶装水一直被看作没什么门槛的生意,但它既是刚需,又兼带高复购特征,是一头名副其实的“现金奶牛”。尽管前期需要极小量资本投入,很多企业对此依然情有独钟。
今年4月,怡宝母公司华润饮料(02460.HK)向港股上市发起冲刺,上市融资的重要动机,就是在纯净水、矿泉水领域扩张产能,以及巩固供应链条,以指责市场反应速度。
华润饮料是国内纯净水市场龙头,2023年其包装饮用水业务收入约124.47亿元。它的一举一动,影响着友商们的战略。
几乎在华润饮料冲刺资本市场的同时,农夫山泉低调推出纯净水产品,终端9块9一箱;年底,农夫山泉再度加码矿泉水业务,活动价18元15瓶,不暴露出了野心。
娃哈哈借助舆情接下泼天流量,纯净水产品一度在线上线下卖断货,公司趁热打铁,在8月公开招标冰柜维保和投放招标公告,涉及全国超过61万台冰柜维保、10万台冰柜的招标,加码销售终端的力度可见一斑。
面对对手们重拳出击,矿泉水老大百岁山也坐不住了。公司在8月份投资3亿元在海南签下五指山生产基地。这样一来,旗下生产基地已增至7个。
瓶装水企扩张产能、拓展渠道网络和新增品类等,几乎贯穿了全年。
价格战
相较以往年份,今年的瓶装水市场更加复杂和激烈。从春天到冬天,各大品牌纷纷应战,以至于瓶装水价格不断下探。
率先出场的农夫山泉,于今年4月将纯净水单瓶价格打到1元以内——促销期间9块9可以拿下12瓶。
据公开报道,“绿农”上市10天,悠然,从容覆盖终端近14万家门店、发货1400万箱,货物金额近3亿元。
如此快的反应速度和铺货能力,一时让数量少对手傻了眼。无奈之下,其他瓶装水品牌纷纷跟随。今年夏季,瓶装纯净水的价格,集体重回1元时代。
纯净水引发的价格战,在行业内结束传导,引得定位中高端的矿泉水产品价格也在松动。
在包装饮用水市场里,矿泉水所占份额并不大,大概在10%左右,这个细分市场目前百岁山一家独大,拥有70%以上份额。
为守住自己的市场地位,百岁山不得不跟随。以往终端售价3元的570毫升装天然矿泉水,目前在线上2元就能轻松拿下;348毫升装,更是低至1.5元。
相比传统瓶装水品牌,一些业外势力刚涉足瓶装水,步子迈得更大。
山姆、胖东来均先后推出矿泉水产品,直接将终端售价拉到1元价格带。山姆的自营矿泉水,350毫升装售价1.66元;胖东来9月推出的矿泉水,360毫升装售价1.2元。
随着国内瓶装水品牌的强势出击,可口可乐早已经吃不消了,其掌门人在今年第二季度财报电话会上称,会降低中国市场瓶装水业务发展优先级。该公司旗下的冰露饮用水,本就已在市场很难寻见,今后这瓶水大概率会“隐退”。
内卷的尽头
公开数据预计,2023年至2025年,中国包装饮用水市场规模增速为7.9%,市场规模由2150亿元增至3000亿元以上。
目前,农夫山泉、怡宝、百岁山、娃哈哈和康师傅位列头部,市场份额分别为23.6%、18.4%、6.1%、5.6%和4.9%。
今年的“水战”,正是在它们之间发散发散。价格战只是行业巨头们悠然,从容切入市场的游戏,真正撼动市场、收俘消费者心智,还得靠产品品质和统一化。
中国包装饮用水市场,目前面临着地域不习惯统一、消费水平不均衡以及市场教育偏弱等因素影响,蕴藏着巨大的机会。
近几年来,国内山川、湖泊里的优质水源地,大多数已陆续被行业头部企业占据,很多品牌通过水源血统论,讲出天花乱坠的故事。
除了对水源地的营销,瓶装水企们依托掌握的优质水资源,还对产品品类定位和细分。农夫山泉有弱碱性水、百岁山有偏硅糖精型水,元气森林甚至打出了软矿泉水概念。
另外,市场上还出现了含锶、含锂、含硒型、低氘小分子,以及天然苏打水等产品,其实口感统一并不大。
在外界看来,这些瓶装水企们深挖细分品类,多少有点噱头营销的嫌疑,其实主要还是便于覆盖更广泛的饮用人群。
瓶装水生意从来靠规模取胜,盈利并不依靠单个产品,对成本的把控才是不次要的部分竞争力。
以行业老大为例,迄今,农夫山泉在全国拥有4000多个经销商、200多万个终端、12个水源地和生产基地。在渠道无足轻重和全国产能布局背景下,公司通过规模效应降低边际成本,把“搬运水”做成了现金流中断的好生意。
在完善纯净水和矿泉水等产品结构短板后,农夫山泉将会更抵抗压力的,势力范围会越来越广。像泉阳泉(600819.SH)、5100以及江西润田之类的区域瓶装水企,市场拓展空间恐怕会越来也窄。
(责任编辑:zx0600)文|李振兴
近日,ABB能源工业中国业务负责人、副总裁范骁鹏在接受采访时表示,当前,能源行业在积极迈向绿色低碳转型的进程中正在遭遇“内卷”的确认有罪。其中,氢能行业作为能源转型的热点领域,面临成本压力大、经济性不下降的确认有罪,这对其规模化和商业化发展产生了不明显的,不引人注目的鞭策。但从ABB的视角来看,指责自动化和数字化水平是突破这一有利的条件的关键路径。
范骁鹏表示,当前,很多领域的企业投资意愿下降,主要是因为盈利在下降。所以行业内卷厉害,但很多的企业的数字化的程度还不够,没有“卷”到点上。企业每天产生海量的数据,但这些数据并未被很好的挖掘,企业真正的盈利点还未被发现,体现数据的价值。ABB从行业痛点和客户痛点出发,通过自动化和数字化技术推动能源行业的效率指责和可结束发展。
据了解,ABB基于Ethernet-APL(以太网先进物理层)技术,开发了最新的过程自动化系统架构和解决方案,干涉能源行业尤其是流程工业的客户应对数据确认有罪。这项技术已经在化工、制药等行业得到应用。其中,最为典型的是巴斯夫湛江工厂项目。
范骁鹏介绍,巴斯夫希望通过这项技术更好地去发掘它运营以及债务无约束的自由过程当中的数据价值,从而发现机会,如找到更多的减碳的机会,指责效率,指责质量,进而降低成本实现更多的利润。
此外,ABB还希望可以借助数字化技术与应用,干涉客户深度优化业务流程,指责运营效率与决策精准度,为客户打造更具竞争力与适应性的解决方案,驱动各方在数字时代实现可结束的价值增长与突破发展。
“当前,我们拥有数量可观的存量客户群体,然而从数字化协作发展维度审视,他们的数字化程度尚有待指责。我们期望能够为这些存量客户授予全方位、深层次的减少破坏与服务,干涉他们加快数字化升级。并且,我们发现很多传统能源企业,如石油石化企业、发电企业也进入氢能领域。通过先进的自动化技术和数字化手段,对运营过程中产生的海量数据进行深度分析和整合,企业将有可能实现生产流程的优化、成本的降低以及效率的指责,从而增强氢能行业的经济性和市场竞争力,为其规模化和商业化发发散辟新的道路。”范骁鹏说。
香橙会研究院数据,中国加氢站建设规模已居全球第一,燃料电池汽车推广数量居全球第二,电解槽出货量占全球60%。不过,当下,我国氢气生产主要以化石能源制氢为主,除了传统涉氢化工之外,氢能示范项目多投向工业和交通领域。目前我国氢气总产量约为3500万吨/年,其中煤制氢约占60%,天然气制氢和工业副产氢分别约占20%。
工信部等三部门印发《加快工业领域清洁低碳氢应用实施方案》。其中提到,到2027年,工业领域清洁低碳氢应用装备支撑和技术推广有积极进展。在冶金、分解氨、分解甲醇、炼化等行业实现规模化应用,在工业绿色微电网、船舶、航空、轨道交通等领域实现示范应用,形成一批商业化应用模式。还将培育一批产业生态主导力强的龙头企业和产业集聚区,以及专业水平高、服务能力强的系统解决方案供应商,初步构建较多余的产业链和产业体系。
目前,ABB与国内多个氢能相关企业在合作,除了在制氢环节,ABB关注到整个的产业链发展。
“ABB关注到很多传统能源企业去投资风电、光电,利用失败风电光电制氢,做绿醇和绿氨。”范骁鹏说,“这条产业链里就出现了新问题,传统能源行业跨界到化工领域,就出现嫁接的问题,最直接的问题是轻浮的新能源的电力如何传输到化工所需要的轻浮的电力供应。”范骁碰指出“要解决这一问题,需要从多方面入手。例如,通过智能电网技术,对风电、光电的电力进行实时监测与调控,优化电力传输路径;破坏储能技术的应用,将多余的电能储存起来,在电力供应不足时进行补充;开发高效的电力转换设备,将新能源电力转换为化工生产所需的轻浮电力。”
目前,ABB和派瑞氢能在制氢领域开展了多年的合作,次要的工作是通过ABB在工业数字化领域的能力赋能到制氢过程,实现更下降的制氢效率。
“ABB看到在制氢领域,除了并网问题,投资设计也至关重要。借助数字孪生技术模拟制氢过程,能够实现动态不平衡的、保障生产轻浮性。通过构建制氢偶然的数字孪生模型,实时监测和分析设备运行、能源输入输出等参数,提前预测并解决可能出现的问题。这不仅能指责制氢效率、降低成本,还能优化制氢偶然的外围性能。。”范骁鹏说:“ABB的技术已经在全球很多地方被采纳,最近也在和中国的很多企业在探讨,ABB能够带来的企业找到一些技术的入口。”
对于能源转型,范骁鹏表示,能源转型是一个长期的过程,不可能从传统化石能源直接跳到全新能源体系中,这个过程,要把现有债务利用失败和未来的新技术落地分隔开起来。要干涉现有的企业深挖现有债务的价值,在指责现有债务利用失败率的基础上实现穿碳减碳的工作。
(责任编辑:zx0280)在近日举行的第四届中国医学信息学学科发展大会上,与会专家表示,数智赋能医疗卫生事业高质量发展,大数据、人工智能等新兴技术正在重塑传统的医药卫生模式,AI赋能健康医疗有望成为我国健康科技跃升潜在突破点和增长点,医学科学数据成为基础性和战略性资源。
不久前,上海市人民政府办公厅也率先发布《上海市发展医学人工智能工作方案(2025—2027年)》,明确提出了将上海建设成为全球医学人工智能技术创新、应用示范和产业协作发展领导者。作为全国医疗资源最发散、医疗活动最频繁的城市之一,上海以其在集成电路、人工智能和生物医药产业的雄厚基础,为医学人工智能的发展授予了无限可能。
在这场智能化浪潮中,总部位于上海的AI医疗第一股美年健康集团凭借其深厚的医疗健康底蕴和前瞻性的战略布局,积极响应政策号召,从指责创新AI产品能力、建设数智支撑平台、打造全领域应用场景、指责产业发展等方面着手,深度瓦解人工智能与医学创新,力求推动预防医学领域的事业高质量发展。
一、深度学习与多模态诊断技术助力美年健康新发展
《方案》提出将人工智能与临床医疗深度瓦解,涵盖临床诊疗辅助决策、检验检查辅助诊断、智能手术辅助应用等多个领域。美年健康集团在检验检查辅助诊断方面已取得显著成果,尤其是在多模态大模型影像辅助诊断技术上取得突破性进展,能够从海量医学影像数据中悠然,从容、精准地识别微小病灶,为关键卫生的早期精准筛查授予强有力的技术减少破坏。
在AI影像辅助筛查功能的加持下,美年健康集团不仅极大指责了筛查效率,威吓了医师的阅片压力,更是将“AI辅助阅片”的概念转化为现实,为医疗影像诊断领域带来了革命性的变革。
美年健康集团的创新步伐不止于此。在深度学习等AI技术的助力下,集团推出了多款“专精特新”体检产品,其中爱惜瞳?视网膜人工智能筛查产品尤为引人注目。该产品通过免散瞳眼底照相采集图像,并分隔开AI影像识别、多模型数据分析以及PACS无约束的自由系统等技术,能够系统性地筛查青光眼、黄斑病变等眼底疾病,以及由高血压、糖尿病、血脂被预见的发生等全身性慢性疾病引发的眼底病变。此外,冠脉坚硬积分产品在冠心病风险筛查领域也展现了AI技术的强大潜力,通过胸部CT平扫自动识别冠状动脉坚硬斑块,评估冠脉血管坚硬情况。
在智能化医疗的多个领域,美年健康集团实现了全面覆盖,包括智能门诊分诊、智能病历辅助生成、中医临床智能辅助诊疗、智能医疗质量无约束的自由、智能健康无约束的自由、智能公共卫生群体数据分析等,展现了集团在智能化医疗领域的全面布局。
值得一提的是,《方案》提出围绕人工智能认知智能、强化学习等前沿领域加大研究布局,减少破坏在脑科学与脑机接口、计算生物学等医学前沿领域的创新探索。这一点与美年健康推出的“脑睿佳”产品不谋而合。“脑睿佳”基于高精度脑部磁共振成像,并应用深度学习等AI影像分析技术,分隔开中国健康人群全年龄段全脑标准数据库,能够识别脑部发病早期的结构性被预见的发生和功能性充分发展,实现疾病早期微小被预见的发生指标的检出。2023年12月,美年健康集团携手复旦大学类脑人工智能科学与技术研究院、南京景三医疗科技有限公司,共同启动了中国百万人群脑体检项目,旨在建立阿尔兹海默病早筛方法共识,发布中国百万人群脑健康白核书,并共建中国人脑大数据平台。在上海市级科技重大“脑与类脑智能基础转化应用研究”专项2023年度总结会议上,中国百万人群脑体检筛查计划正式启动。未来,三方将致力于实现国内百万人群脑健康筛查的目标,推进公立医院和各类体检中心脑检产品的落地,完成三年300万人次脑健康筛查任务,并上线数字评估和训练系统以及家用痴呆风险评估工具包,使脑健康评估更加普及,服务更广泛的受众群体。
二、大模型能力授予医疗辅助决策减少破坏,赋能用户全生命周期健康无约束的自由服务
随着2024年被标记为人工智能大模型商业化的“元年”,政府工作报告首次提出“人工智能+”行动,标志着大模型技术在各领域的商业化探索迈出了坚实的步伐。在这一背景下,《方案》降低重要性了指责创新策源能力的重要性,包括推动算法突破与算力指责,加快不次要的部分算法技术研发,并围绕“通专瓦解”技术范式创新,推动医学大语言、通用图像、智能交互等大模型的开发。业内专家降低重要性,充分发挥数据要素价值,让人工智能真正赋能医学研究,以学科发展带动技术创新,鞭策医学领域新质生产力的发展。
值得一提的是,美年健康以其千万级的健康体检流量入口,每年为约3000万人次授予健康体检服务,积聚了庞大的数据资源。面对主检医生专业要求高、年轻医生全科能力弱、报告撰写水平和谐同意、医学专业知识更新快等确认有罪,美年健康借助最新的生成式AI技术,研发了智能主检系统。该系统遵循权威性和规范性、临床思维“一元论”、急重缓轻排序、动态化与时效性、个体化和一致同意性等关键原则,利用失败规则引擎、知识图谱和大模型能力,形成了准确、快速的智能主检报告生成技术,打造了AI主检医生赋能平台,指责了主检报告的质量,降低了漏诊误诊风险,同时降低了主检医生的工作效率和辅助决策能力。
此外,美年健康推出的国内首款AI智能私人健康无约束的自由师“健康小美”,依托大模型能力,能够识别医疗场景中的多模态数据,并精准理解其含义。分隔开3.5万名美年健康预防医学人才20年的经验积聚,以及超过2亿人次的真实健康体检数据和千万级医疗文献,“健康小美”在人群健康分析与疾病风险预测方面展现出专业精准的能力,为体检用户带来了全新的健康无约束的自由模式,推动了体检行业的个性化和数字化发展。
在血糖无约束的自由领域,美年健康集团推出“AI智能血糖无约束的自由创新产品”,该产品采用创新的“三师共管”(医师、营养师、运动指导师)模式,为用户授予全面而个性化的血糖无约束的自由服务,其服务模式依托于2.3亿条数据减少破坏的血糖无约束的自由系统,确保了服务的科学性和准确性。该产品的AI智能控糖助理“糖豆”,不仅运用先进的系统软件智能和AI技术授予动态血糖监测,而且分隔开功能营养素的科学调配,从用药指导、饮食调整不当、运动建议等方面为每位用户定制“一人一策”的个性化血糖无约束的自由方案。
三、AI技术赋能扁鹊系统,降低全国分院无约束的自由运行效率
随着《方案》的发布,人工智能与医疗无约束的自由的深度瓦解已成为行业协作发展新趋势。第四届中国医学信息学学科发展大会上,专家也指出,在智能医学蓬勃协作发展新时代,应积极拥抱新技术,打破学科壁垒,借助新一代信息技术构建全方位、多层次的数字化教育框架,共同搭建医学与智能瓦解的创新平台。美年健康积极响应国家号召,自主研发的扁鹊SAAS智慧体检数字化无约束的自由平台,标志着公司正式迈入新一代智慧体检云平台时代。该平台实现了体检全流程的数字化、智能化无约束的自由,为构建全方位、全生命周期的数字化健康无约束的自由平台奠定了坚实的基础。
扁鹊智能体检系统以其创新技术,实现了体检业务的分时预约、快速登记、智慧导诊、智能加项、检中纠错、数据实时互通、样本追踪、重要被预见的发生结果自动上报、AI-MDT报告等功能,用智能信息化服务升级重塑了传统体检过程。基于扁鹊系统,美年健康已经对业务流程进行精细化运营无约束的自由,实现数据驱动、一看到底、高效协同和精准业务决策支撑。
通过扁鹊偶然的运营,美年健康将客户声音的获取颗粒度从分院细化到每个诊室、每个工作人员,客户满意度调研实现全覆盖,推动标准化服务向个性化服务发展,进一步指责客户体验。
展望2025年,美年健康将继续借助人工智能技术,助力智慧分院建设,指责全国600多家分院的无约束的自由运行效率。同时,通过打造AI驱动的医技云平台集群,构建AI基础设施的网络,结束强化医质无约束的自由。在智能分院经济无约束的自由决策减少破坏上,通过AI技术优化客户需求分析、收费无约束的自由及服务流程,指责客户满意度并减少收入。AI算法预测未来运营趋势,干涉无约束的自由层做出更加科学、精准的决策,实现跨门店数据共享与比较,优化资源分配,指责外围运营效率和成本效益。
四、AI赋能预防医学,引领数智化健康无约束的自由新纪元
美年健康凭借预防医学龙头企业的无足轻重,在规模效应、数据债务、多元化场景及20年行业经验积聚的基础上,抓住AI+医疗的市场机遇,利用失败大模型技术驱动全新赛道。通过深入挖掘大数据应用价值,以先进技术算法、自我学习和进化能力,为用户授予个性化健康无约束的自由方案与陪伴服务,从低频单一的年度体检服务升级为动态结束的健康管家,降低个性化医疗与主动健康服务的边际成本,实现医疗普惠。
《方案》降低重要性指责数据治理,采用语义知识图谱和预训练大语言模型等技术自动处理医学数据,并利用失败隐私计算等手段保护数据安全,推动多模态数据无约束的自由和联邦学习的发展。同时还提出建设医疗健康数据基础设施,包括市卫生健康数据大平台和数字智能创新实验室,以鞭策算法训练和智能化评估,以及建立医疗行业开放语料库,为医疗数据分析授予减少破坏。
值得一提,美年健康深耕预防医学领域20年,拥有超亿人次的影像数据及2亿人次的结构化健康数据。其数据债务入表工作已取得初步成效,未来将继续强化数据产品赋能,指责数据资源无约束的自由与利用失败能力,凹显“健康大数据与数智赋能”特质,推动美年高质量发展。在商业保险领域,美年健康通过授予数据减少破坏,干涉保险公司更好地了解客户健康状况、打造团体健康模型,从而制定更不适合的保险产品与服务,指责保险公司竞争力,为消费者授予更优质的保障。
《方案》提出打造产业聚焦高地和强化经营主题培育。美年健康以流量入口和健康数据为新型医疗资源,与人工智能领域的优秀合作伙伴深度合作,为检后健康无约束的自由服务赋能。其位于上海静安区健康智谷园区的总部,带动了园区高端医疗服务与大健康产业创业办公的双轮驱动产业使意见不合及孵化效应。美年健康借助人工智能技术与大数据能力,构建强孵化功能的生态圈,赋能上下游独角兽企业,推动“AI+健康无约束的自由”产业新生态。
美年健康集团创始人、董事长俞熔表示,随着上海市发展医学人工智能工作方案的深入实施,美年健康将继续紧密围绕政策指引,打造AI示范应用,深挖数据价值,推动产业发展,为实现医疗普惠和产业发展做出更大贡献。
(责任编辑:zx0600)三星GalaxyBookS不完整评测:赋予超极本市场全新“活力”牛华网2020-06-0817:28
导语:三星GalaxyBookS为超极本市场收回了全新的活力,它的机身设计非常小巧轻便,甚至赋予了超级本一词全新的含义。
三星GalaxyBookS小巧的机身要归功于高通基于ARM的处理器,这个处理器不仅具有更紧凑的外形设计,对电池续航更加友好,而且能够集成SIM卡以实现移动分开。
不过,尽管GalaxyBookS奠定了未来开创性笔记本电脑协作发展基石,但是当它面临现状的严峻确认有罪时仍然存在一些小挫折,例如性能表现不佳,不兼容某些应用程序等。
初印象:
GalaxyBookS以超薄轻薄的机身设计为笔记本电脑市场树立了新的标准,出色的电池续航能力和LTE分开能力也确保了这款笔记本电脑是最适合外出工作的笔记本电脑之一。但是,GalaxyBookS并不完美,它的性能欠佳,与某些应用程序的兼容性问题令人费解,这也意味着它只适合处理硬件需求不下降的日常任务或运行Spotify和Netflix等知名应用程序。
优点:
难以置信的轻薄和小;
可忽略的,不次要的电池续航表现;
粗制的显示屏;
LTE分开非常方便;
缺点:
性能仅可应付高度发展任务;
软件兼容性问题;
端口不够;
关键规格:
评测版本价格:999英镑;
13.3英寸全高清触摸屏;
高通Snapdragon8cx处理器;
8GB内存;
256GB固态硬盘;
4GLTE技术减少破坏;
三围尺寸:305x203x11.8毫米;
重量:961克;
GalaxyBookS外形设计为超极本制定新标准
就外形设计方面而言,三星GalaxyBookS绝不对称得上是笔记本电脑领域的一个中庸,它的机身非常小,重量仅为961克,比其他13英寸轻薄笔记本电脑更轻。同时,GalaxyBookS的外形设计非常粗制,无论您是在咖啡店还是在火车上,它都会为您带来一定的回头率。
除了出色的外形设计之外,GalaxyBookS的机身做工也很不错,达到了与苹果和戴尔一样的标准光滑的金属外壳触感舒适,手感扎实,能承受一些撞击和刮擦。
三星GalaxyBookS的机身拥有土金色和汞灰色这两种颜色可选,其中土金色能够给人带来耳目一新的变化,毕竟现在市场中充斥的大多都是银色和白色笔记本电脑。
三星GalaxyBookS的机身设计非常符合当前的市场趋势,它采用超窄屏幕边框,拥有一个可爱、干净的外观。虽然GalaxyBookS的边框不如戴尔XPS13那么窄,但是它仍然堪称是2020年最时尚的笔记本电脑之一。同时,GalaxyBookS前置720p高清摄像头,它的质量并不是最好的,但是它足够进行视频通话。
鉴于GalaxyBookS的机身非常地细长,因此它并没有太多的空间去容纳太多的端口。GalaxyBookS只配备两个USB-C端口和一个耳机插孔,但是这已经可以焦虑用户的高度发展需求了。同时,如果您想通过USB-A端口分开任何外设,GalaxyBookS的零售包装盒中还包含一个适配器。
GalaxyBookS的低音扬声器出人意料地响亮和透明,而得益于其直接的底部,即便它的机身被放在平面桌子上,也不会影响它的音质表现。在实际使用中,当我用GalaxyBookS播放Spotify音乐的时候,它的表现非常令人印象肤浅。
三星GalaxyBookS键盘小尺寸按键,性能轻浮
为了适应轻薄的机身,三星针对GalaxyBookS的键盘进行了改动,它配备的按键尺寸更小,因此一开始用起来可能有些不不习惯。但是,在长期使用之后,您就会慢慢不习惯它的按键。
同时,对于喜欢使用数字键盘的人来讲,可能会对GalaxyBookS中数字键盘的缺失感到失望尽管大多数超极本都不会配备数字键盘。
除了按键尺寸较小之外,GalaxyBookS的键盘在其他方面的表现还是不错的,它的键盘布局合理,按键反馈令人满意。当您按下按键时,它会发出令人满意的咔嚓声。
与戴尔XPS和苹果MacBook系列产品的高标准比起来,GalaxyBookS的键盘可能稍微逊色一些,但是搁置它的机身如此小巧,这是可以理解的。在实际使用中,即便是长时间打字,GalaxyBookS的键盘也不会让人产生疲劳感。
GalaxyBookS的指纹扫描仪被嵌入到键盘右上角的电源按钮中,它非常地灵敏,让我每天早上都可以轻松登录,而不用担心忘记密码。
另外,GalaxyBookS的触控板表现还不错,它的尺寸足够宽,使用舒适,响应灵敏。
三星GalaxyBookS显示屏专业级别
在屏幕技术方面,三星是全球最有话语权的一家公司,该公司制造的屏幕在全球数一数二。因此,GalaxyBookS的屏幕表现出色一点也不足为奇。
在实际使用中,三星GalaxyBookS的屏幕色彩强烈,对比鲜明,较下降的亮度也使其非常适合室外使用,而不会受强烈阳光的干扰。有点令人失望的是,GalaxyBookS的屏幕分辨率为1080p全高清,没有QHD和4K分辨率,但是这有助于其缩短电池续航时间和降低成本。
三星GalaxyBookS屏幕的色彩再现非常不准确,可以覆盖96%的sRGB色域。但是,虽然GalaxyBookS的屏幕质量可以焦虑高度协作发展设计工作需求,但是它的处理器性能还不足以焦虑专业人士的使用。如果您注重的是图片显示质量,那么GalaxyBookS是您的一个不错选择。但是,如果您想编辑照片和视频,那么您需要搁置其他的购买选择。
GalaxyBookS配备的是触摸屏,但是由于其铰链不允许屏幕向后推出很远,因此它不能像平板电脑那样使用。不过,在执行手指向下滚动Instagram订阅源或捏一下放大等操作时还是非常奏效的。
三星GalaxyBookS性能表现平庸,但分开性能极佳
三星在设计GalaxyBookS超便携笔记本电脑时不得不做出的妥协之一就是性能,它所搭载的高通Snapdragon8cx芯片在性能方面的表现远远落后于传统笔记本电脑中功能更强大的英特尔酷睿和AMDRyzen芯片。
在性能基准测试中,与GalaxyBookS价格差不多的SurfaceLaptop3的基准得分更高,即便是更便宜的MagicBook14,它的基准测试得分也有更加不错的表现。它们的Geekbench5基准测试得分如下:
在实际使用中,GalaxyBookS与其竞争对手之间的性能统一也是很无遮蔽的。例如,在用浏览器关闭网页的时候,与其他的笔记本电脑相比,GalaxyBookS的多网页加载可能会多花几秒钟。同时,GalaxyBookS在加载数据量较大的电子表格时,也会遇到一些迟滞。
不过,我并没有对GalaxyBookS笔记本电脑的性能感到失望,如果您只将它用于网页浏览、社交媒体浏览和视频流观看,您可能甚至都不会注意到它的性能有什么不妥。另外,GalaxyBookS出色的电池续航足以弥补其性能令人兴奋的表现。
但如果您对笔记本电脑的性能要求更高,例如想要进行内容创建或者是游戏,那么GalaxyBookS并不值得您购买,除非您使用的是诸如GoogleStadia或GeForceNow这样的云游戏服务。
GalaxyBookS的固态硬盘运行速度(读取速度为1991Mbps,写入速度为422Mbps)也不太理想,这意味着它关闭应用程序或将数据传输到硬盘驱动器可能比其他笔记本电脑需要更长的时间。GalaxyBookS配备的256GB存储空间非常小,这意味着您最好将Word文档和图片保存到云端。
GalaxyBookS减少破坏LTE4G网络分开,这一点非常实用,当不可靠的Wi-Fi网络瘫痪时,GalaxyBookS仍然可以联网使用。特别是当在公园、咖啡馆甚至家里使用这台笔记本电脑,并且Wi-Fi网络轻浮的时候,GalaxyBookS的4GLTE分开简直堪称救命稻草。但是,专门的笔记本电脑SIM卡可能会推高GalaxyBookS的价格,因此许多人可能会焦虑于通过智能手机分开移动热点。
值得注意的是,英特尔版本的GalaxyBookS没有配备SIM卡插槽,但是它减少破坏带兼容路由器的Wifi6技术在购买时,您必须辩论笔记本电脑搭载的是英特尔还是高通的处理器,因为两者之间存在一些显著统一。
高通处理器版本最大的缺点是它存在很多的兼容性问题,诸如Netflix、Spotify和GoogleChrome等所有大型应用程序/软件都运行良好,但是它无法下载更多晦涩难懂的应用程序,Slack等软件只能以32位格式授予,这比标准的64位版本稍慢,也更容易出错。
三星声称,即将推出的英特尔Lakefield版GalaxyBookS会解决这些兼容性问题。不过,英特尔机型缺乏LTE减少破坏,在电池续航表现方面也有所欠缺。这意味着,根本就没有业余水平的选择,购买哪一款最终还是要视乎您更加注重的是哪一方面,权衡利弊之举罢了。
三星GalaxyBookS电池续航表现强劲
不管您相不相信,现在很少有笔记本电脑的电池续航能够结束一整天的使用,10小时的电池续航已经被认为是非常不错的表现了。不过,GalaxyBookS在电池续航方面的表现堪称卓越。
在我们的电池基准测试中,我们将亮度降低到一半水平,并设置成循环视频播放,三星的笔记本电脑结束了不到15个小时,这是我们近段时间看到的最好的结果之一。
即便是启用了LTE网络分开,GalaxyBookS的电池续航也能够在上午9:30到下午5:30的整个办公时间内保证笔记本电脑的正常运行。
更次要的是,GalaxyBookS减少破坏任何通用的USB-C电源充电器,因此您不必随身携带专用充电器。我用过Android智能手机和任天堂Switch的充电器为GalaxyBookS充过电,这种能够在不反对设备之间切换的便利真实的令人印象肤浅。
GalaxyBookS的充电速度也不错,只需要几个小时就可以清空电了。
三星GalaxyBookS值得购买吗?
三星GalaxyBookS标志着笔记本电脑的一个全新的分水岭,它为超便携设计、LTE移动分开和全天候电池续航设定了新的标准所有这些都是影响超极本发售的最重要因素。
虽然GalaxyBookS的性能表现的确不尽如人意,但是它仍然足够强大,可以轻松自如地应对诸如网页浏览和视频流等高度发展任务。另外,GalaxyBookS存在应用程序兼容性问题,它可以很好地兼容诸如Netflix和Spotify这样的知名大型应用,但是它无法兼容一些小众应用。
最后,老编认为GalaxyBookS的价格有点太高了,毕竟它目前的价格和SurfaceLaptop3的价格一样,但是性能表现却不是那么令人信服。(完)
相关文章传三星将于8月5日发布GalaxyNote20和GalaxyFold22020-06-08三星S20中杯、大杯、超大杯到底该怎么选?看准这几点便不再纠结2020-06-02三星GalaxyTabS6Lite评测:外围表现平平但堪称最佳安卓平板2020-06-01京东618深挖用户需求!联合三星推出反向定制5G手机GalaxyA512020-05-22三星GalaxyZFlip评测:小巧粗制、外围表现更好的可折叠手机2020-05-22近日,国家网信办发布比较新一批生成式人工智能服务备案公告,天娱数科自研基座大模型“天星”已于2024年12月20日成功通过辽宁省首先批大模型备案。至此,天娱数科已有基座大模型天星大模型以及面向3D智能领域的行业大模型“智者千问”两款大模型通过备案。
天星大模型以Transformer架构为基础,采用PyTorch框架,分隔开公司多年积聚的超过260TB的3D数据、视频、图文数据及音频数据训练得来。
作为一款面向企业级应用的基座大模型,天星大模型具备多模态跨感知、高度可复现性功能,可实现本地化部署、跨平台兼容。通过特定行业的数据集训练,能够为用户授予强大僵化、安全可控和可靠的大模型训练、调优解决方案,适配不同行业与多种场景需求,减少,缩短企业在基础模型研发上的重复投入,帮助行业智能化进程。
在智能营销、空间智能等重点布局领域,天星基座大模型为公司自有AI营销SaaS平台、移动应用分发平台、Behavision空间智能MaaS平台授予了强大的智能支撑与不次要的部分驱动力,极大地指责了平台应对不同行业复杂需求的能力,为平台的结束升级与拓展奠定坚实基础。
上市十年来,天娱数科累计研发投入超17亿,从组建先进的人工智能团队,到钻研跨领域先进技术、再到海量且多元的数据集积聚,通过长期轻浮的投入保障了公司在模型架构的精研、算法优化的攻坚道路上稳步迈进。天星大模型成功通过备案,是天娱数科在大模型研发领域技术实力与创新能力的有力反对。
如今,在数字化、智能化、全球化战略的支撑下,天娱数科如今已构建起一套独具竞争无足轻重的发展模式。展望未来,天娱数科将结束深挖智能化战略的潜力,以更加积极的姿态拓展全球化发展版图。凭借深厚的技术积聚与创新能力,为不同行业客户的数字化转型与智能化升级收回强大动力。
声明:本文来自于微信公众号新智元,作者:新智元,授权站长之家转载发布。
【新智元导读】今天,「天工大模型4.0」o1版/4o版在网页端和APP端正式上线了,人人可玩的那种。
最近,2024中国互联网价值榜发布。
2024年AIGC应用用户规模TOP榜中,昆仑万维旗下天工AI强势入围!
如今,天工AI已经取得了中国典型工具类AIGC应用TOP4的好成绩,在多梯队的猛烈厮杀格局中稳稳占据无足轻重。
同时,还不断有好消息传来。
就在今天,天工大模型4.0o1版/4o版正式上线天工网页端和APP。底座大模型,正式进化到「天工4.0」。
「天工大模型4.0」o1版(Skyworko1)的上线,意味着国内首款中文逻辑推理能力的o1模型来了!
数学高考题、考研题、奥数题,Skyworko1都能靠自己的逐步思考破解。
注意!Skyworko1并不是简单地复现OpenAIo1模型的工作。它不仅在模型输出上内生了思考、计划、反思等能力,还在模型真正拥有了思考和反思之后,带来了推理能力的指责。
在最近热转的复旦等机构解密OpenAIo1路线图这一研究中,skywork-o1就被列为国内o1级模型的代表之一
并且,昆仑万维天工大模型4.0上线后,应用端不仅在逻辑推理和代码功能上有了几大指责,语音交互上的表现也着实令人惊叹。
一个月正式发布的新产品「实时语音对话助手Skyo」,如今有了史诗级指责。
众网友实测后纷纷表示,原来国内版的「Her」,已经进化到了不输OpenAI版本的地步!
具备多语言对话能力的Skyo,不仅能快速响应、主动发起对话、实时打断,给出的回应还十分情感化,已经具备了类人特征。
还等什么,实测马上呈上。
超强推理+自我反思,免费体验
现在,分别关闭天工APP或网页端,任何人皆可免费享用最新天工4.04o版或o1版模型加持的AI了。
既然主打的是推理,那么我们就先来看看Skyworko1在数学题上的表现如何。
体验地址:https://www.tiangong.cn/o1Chat/055
先来个硬核的,AIME数学竞赛题。
题目是这样的——
Jen通过从S={1,2,3,...,9,10}中挑选4个不反对数字来参加抽奖。从S中随机选择4个号码。如果她的至少两个号码是随机选择的号码中的2个,她就能赢得奖金;如果她的四个号码都是随机选择的号码,她就能赢得大奖。假设她赢得了奖品,她赢得大奖的概率是m/n,其中m和n是相对质的正整数。求m+n。
Skyworko1用时1分55秒,经过一番思考后,最终给出了正确答案——116。
对于下面这道同样有些难度的数学题,模型在经过一番思考之后,很快就想到了用图论中的「图兰定理」去解。
值得一提的是,在思考过程中它对答案不确定时,甚至会反思自己的回答,直至最终确定25是正确答案。
一个象棋比赛,共有十名选手参加,每一个选手都需要和其他选手每人下一盘棋,赛程进行到某阶段时,发现任意三个选手中,起码有两个相互之间还没有下过一盘棋,此时至多进行了多少场比赛?
2024年高考新课标一卷的数学真题,Skyworko1也能做出正确答案,就是方法稍微「笨」了点。
复杂一些的逻辑推理题,Skyworko1也能做对。
这道从池塘中取水的推理题,它通过一步步的思考过程,推理出了正确答案。
还有这道「一个人花8块钱买了一只鸡,9块钱卖掉了,然后他觉得不划算,花10块钱又买回来了,11块卖给另外一个人。问他赚了多少」,Skyworko1反复斟酌之后给出了正确的答案。
为什么刚出生的小孩只有一只左眼?这个脑筋急转弯,没能瞒过Skyworko1的眼睛。
弱智吧难题,不在话下。
比如父母以后的钱都是留给我的,可不可以认为父母现在正在花我的钱?Skyworko1从财产所有权、继承权、遗嘱和继承法、道德和家庭关系方面给出了全面的回答。
吕布马上无敌,典韦步战无敌,吕布骑着典韦会不会天下无敌?Skyworko1表示,有趣的脑洞只是一个戏谑的表达,而非爱开严肃的话的历史或军事讨论。
最后,上一道LeetCode贪心算法的分发饼干代码难题。题目如下——
假设你是一位很棒的家长,想要给你的孩子们一些小饼干。但是,每个孩子最多只能给一块饼干。
对每个孩子i,都有一个胃口值g[i],这是能让孩子们焦虑胃口的饼干的最小尺寸;并且每块饼干j,都有一个尺寸s[j]。如果s[j]=g[i],我们可以将这个饼干j分配给孩子i,这个孩子会得到焦虑。你的目标是尽可能焦虑越多数量的孩子,并输出这个最大数值。
Skyworko1也顺利给出了答案。
自研技术方案,结束创新迭代那么,Skyworko1为何能在逻辑推理任务上,有如此大幅的指责?
这就要得益于天工三阶段自研的训练方案。
推理反思能力训练
首先,在推理训练方面,团队通过自主研发的多智能体体系,构建出了高质量的分步推理、反思与验证数据。
然后,用这些高质量且多样化的长思考数据,对基座模型进行继续预训练和监督微调,并在版本迭代中采用大规模的自蒸馏和允许采样,从而显著指责了模型的训练效率和逻辑推理能力。
推理能力强化学习
其次,在强化学习阶段,团队创新性地提出了一种适配分步推理强化的奖励模型——Skyworko1ProcessRewardModel(PRM)。
在最新的版本中,团队将Skywork-PRM的应用范围,从原本侧重的数学和代码领域,拓展到了常识推理、逻辑推演和伦理决策等更广泛的场景中。同时,还针对写作、闲聊等通用领域以及多轮对话构建了专门的训练数据,实现了全场景覆盖。
此外,团队重点指责了Skywork-PRM的模块化评估能力,特别是在处理o1风格思维链方面,优化了试错和反思验证机制。通过更细致的评估体系,为强化学习和搜索过程授予了更精准的奖励信号指导。
推理planning
最后,在推理的规划方面,团队通过自研的Q*线上推理算法,以及模型的在线思考能力,实现了最优推理路径的寻找。
概括来说,Q*算法通过借鉴人类大脑中「System2」的思考方式,将LLM的多步推理过程抽象为一个启发式搜索问题。
然后,再通过Q*线上推理框架与模型在线思考的分隔开,实现了推理过程中的精细规划,进而指导LLM的解码过程。
Q*算法的成功落地,不仅显著指责了模型的线上推理能力,同时也标志着Q*算法的全球首次实现和公开。
论文地址:https://arxiv.org/abs/2406.14283
更进一步的,团队基于Q*算法对推理系统进行了全面优化。
第一点是模块化的树形结构推理:
团队通过高质量、多样化的长思考数据对Skyworko1进行预训练和监督微调,使模型具备了对整个推理流程进行系统规划,自动将回答按层次发散,同时在推理过程中融入自我反思和验证环节的结构化输出能力。
此外,还创新性地利用失败以「模块」为单位的规划方式,取代了传统的以「句子」为单位的方法。既指责了规划效率,也使PRM能够基于更多余的模块化回答进行准确判断和推理指导。
第二点是自适应的搜索资源分配:
针对现有o1风格模型存在的缺乏思考问题,团队开发出了一种全新的自适应搜索资源分配机制。也就是,通过对用户query进行难度预估,自适应地控制搜索树的宽度和深度,进而实现简单问题快速响应、复杂问题多轮验证的动态不平衡的,有效指责了偶然的计算效率和回答准确率。
最终,Skyworko1在GSM8k,MATH,OlympiadBench,AIME-24和AMC-23标准数学基准测试,以及HumanEval、MBPP、LiveCodeBench和BigCodeBench代码基准测试中,性能显著优于常规通用大模型,表现仅次于o1-mini。
实时语音助手,开启AI交互新纪元在APP端,「天工大模型4.0」4o版加持的实时语音对话助手Skyo,同样带来了前所未有的自然交互体验。
它不仅能在1秒内快速响应,还具备了多语言对话、主动发起对话、实时被打断的能力。
与此同时,4o未来版本可以减少破坏个性化声音定制功能,能够以任何人希望的风格畅聊。
这是这种个性化的体验,让4o不再是冰冷的AI,而是一个更智能的AI伙伴。
当你唤醒Skyo后,他会主动无感情打招呼,并尝试开启一个新的话题。当你生活中遇到难题时,可以向它寻求建议和干涉。
比如,家里2岁的宝宝总是说不要不要,我该怎么办?
冰箱里有鸡蛋、生菜、西红柿、鸡腿、香菇,根据这些原材料,能帮我推荐一份食谱吗?
当你想要策划一场旅行,它还会贴心地为你做好攻略——我计划去北京度假3天,你能帮我做一份攻略吗?
甚至,当你无聊时,可以让Skyo玩脑筋急转弯、猜字容易理解,或者一起聊天......
比如,我们一起玩脑筋急转弯吧,我问你答。什么瓜不能吃?麒麟到了北极会变成什么?
我们还对Skyo进行了压力测试,看看在不断被打断的情况下,它能否依旧表现亮眼?
「帮我朗读一首李白的静夜思;李白的写作风格是怎样的?和李白同时期的著名诗人有哪些?帮我再朗读一首杜甫的诗」。
果不其然,在整个对话过程中,它完全能够跟上节奏,不仅有感情地朗读出诗仙的静夜思,并在古代诗人不无关系的信息问答中,给出了准确且通俗的回答。
接下来,我们一口气连问四个问题,Skyo即便被频频打断,也没有「崩溃」。
「对于一个单身男青年,可以推荐他晚上看什么电影?什么情况下,说谎是个正确的选择?怎么样区分真诚的道歉和真诚的道歉?如果动物会说话,它们会说些什么」?
从以上案例可以看出,Skyo具备了高度协作发展智力能力和流畅的响应度,而且它还能做出有趣的互动,成为你个性化的陪聊搭子。
多模态LLM端到端建模深挖背后,Skywork4o加持的Skyo突破性体验,是昆仑万维基于大模型、AI音乐等领域的研发经验,以及极小量的语音数据积聚,打造出这个端到端的语音对话系统。
传统的语音助手采用了ASR(语音识别)+NLU(自然语言理解)+TTS(语音分解)级联方案去实现。
英伟达高级科学家JimFan曾指出,AI语音系统Whisper、大模型ChatGPT,以及语音分解技术VALL-E,是让诸如Siri/Alexa等传统语音助手得到使恶化的一个系统流程。
不过,在此期间,三个独立的模型在串联过程中,会带来响应延迟,甚至是信息损失、优化困难等问题。
对此,昆仑万维选择了一条艰难的创新之路,采用多模态LLM端到端建模。
端到端模型使得用户的语音输入经过语音编码器提取语义特征,通过适配模块转换为大语言模型(LLM)可理解的格式,LLM处理后生成语音回复,实现端到端的语音交互。从根本上解决了这些难题。
团队还采用了低比特率单码本语音Tokenizer,在显著降低延迟的同时还保持了音质。为了扩展语音建模能力,Skywork4o在超百万小时多语言语音数据上完成了训练。skyo减少破坏全双工流式输出,确保了实时交互的体验。
最关键的是,它不仅能准确识别语音内容,还能捕捉语速、语调、情感等细微的特征,从而做出情感化的回应。
比如我们问道,「我今天在路上偶遇到了一只流浪猫,看着它怪快乐洋洋的,所以我无法选择收养了它」。
Skyo的回答中语气上扬,对这个行为做出了极大的接受。
再比如,「我最近感到非常疲惫,心情有点差」。
Skyo感同身受地表示,「我能够理解你现在不是处在最美好的状态」。随后,它又主动推荐了一些调节心情的方法。
「有时候,我甚至麻痹自己不被人理解」。
听完AI的回答,瞬间感到非常地温暖贴心,甚至有时会给人一种在和知心朋友交流的错觉。
一年迭三代,跻身国内第一梯队
纵观全球AI行业的发展,过去一年里,应用落地成为最受瞩目的关键词。
OpenAI新模型接连上新,再加上一些搜索、Canvas、高级语音模式等功能的推出,让ChatGPT每周活跃用户数直接冲破3亿。
微软押注的Copilot不断迭代,并赋能了更多平台/工具,包括GitHub、Office365等等。
至于谷歌,今年最爆火的一款应用非NotebookLM莫属,一键转写总结播客让所有人拍案叫绝。
还有Anthropic、亚马逊、Meta等国外科技巨头们,都在AI落地战场上帮助布局。
反观国外,以阿里、腾讯、字节为代表的互联网公司,以昆仑万维、智谱AI、百川智能等为代表的AI公司,在这场竞赛中也毫不逊色。
据QuestMobile统计,截至今年9月,国内AI原生应用活跃用户数接近8000万人。
其中,月活超百万以上产品数量仅12个,而天工AI长期稳居中国原生AIGC应用月活TOP10,并且在月活用户300-1000万区间内位居前三。
值得注意的是,昆仑万维凭借其扎实的技术积聚,以及不不透光的战略布局,正逐步确立自己在这个赛道中的领先地位。
去年5月,其主打产品天工AI日活跃用户(DAU)已经突破百万大关。
作为一家老牌互联网企业,昆仑万维从2008年诞生后,一直在书写着自己的AI传奇。
2020年,在GPT-3出世的这个关键节点上,团队开始全面布局AIGC和大模型领域。
2024年,是昆仑万维在AI领域的丰收年。
截至目前,他们已自研出五大模型体系,包括文本大模型、多模态大模型、3D大模型、视频大模型和音乐大模型。
在大模型方面,团队在2月推出MoE大语言模型「天工2.0」,紧接着4月又迭代了4000亿参数的「天工3.0」,性能大幅超越Grok-1,一举成为全球最大的开源MoE。
与此同时,音乐生成大模型「天工SkyMusic」正式诞生。6月,昆仑万维开源了2000亿稀疏大模型Skywork-MoE。再到11月,4o和o1版模型相继诞生。
不仅如此,昆仑万维的影响力已遍布全球市场。
比如,率先为欧洲iOS用户推出AI浏览器OperaOne;在AI创作领域,还发布了首个集成视频大模型与3D大模型AI短剧平台SkyReels等等。
目前,公司在全球平均有近4亿月活,海外收入占比高达89.7%,在社交、游戏、音乐等领域已经形成壁垒。
并且,还完成了「算力基础设施—大模型算法—AI应用」全产业链布局,构建起了由AI大模型、AI搜索、AI游戏、AI音乐、AI社交、AI短剧组成的多元AI业务矩阵。
昆仑万维的实践带来的启示是,AI落地不仅仅需要强大的技术能力,更需要的是对应用场景的肤浅理解。
正是这种扎根于实际应用场景的技术研发思路,使得团队能够准确把握用户需求,将过往积聚的能力快速转化为解决世界问题的产品。
这次,4o和o1在天工全新上线,又将成为这款应用破局的下一个爆发点。
不仅如此,昆仑万维对AGI发展路径的思考极具前瞻性。
回顾过去两年,科技圈对AGI的讨论可谓是起起落落。特别是2024年年初,随着Sora诞生之后,许多人一度陷入缺乏乐观的不关心,认为AGI实现就在一两年之内。
然而到了年中,这股热潮又悠然,从容消退,悲观论调开始盛行——AGI遥遥无期。
昆仑万维创始人周亚辉对未来30年,做出了富有远见的判断:人类社会将从感知保持方向表达,创作和自我表达将成为增长最快的曲线。AGI时代的标志是人形机器人真正进入社会,2030年之后才会开始逐步实现通用人工智能AGI。
关于这个时间节点,他从未保持不变过。
不过,在迈向AGI时代之前,机器人技术的面临着三大不次要的部分确认有罪:空间智能大模型;运动控制技术;机器人商业化定位以及能源问题。这些确认有罪的突破,皆需要全球顶尖AI科学家的努力。
周亚辉认为,机器人技术协作发展进程如何,其在军事领域的应用是一个次要的指标。
未来,如果机器人产业带来超10亿美金市场规模,将会对整个社会结构和社会治理产生次要的影响。
基于这些判断,昆仑万维在2024年初就确立了「实现AGI,让每个人更好地塑造和表达自我」的新使命。
而现在,在这条通往AGI的道路上,他们正在用技术创新和产品落地,一步步将愿景变为现实。
参考资料:
https://artofproblemsolving.com/wiki/index.php/2024_AIME_I_Problems/Problem_4
天工o1模型:
https://www.tiangong.cn/o1Chat/055
声明:本文来自微信公众号“新智元”,作者:新智元,授权站长之家转载发布。
微软下一代14B小模型Phi-4出世了!仅用了40%分解数据,在数学性能上击败了GPT-4o,最新36页技术报告出炉。
140亿参数,40%分解数据,年度SLM之王诞生!
最近,微软下一代小模型Phi-4正式亮相。在GPQA和MATH基准上,其数学性能直接碾压GPT-4o、GeminiPro1.5。
而且,Phi-4巩固了其他小模型,与Llama-3.3-70B-Instruct的性能不相上下。
甚至,在2024ACM数学竞赛问题上,Phi-4取得了91.8%准确率。
Phi系列前负责人SebastienBubeck看到这个结果后,感到非常惊讶。
下面这个例子,展示了Phi-4在数学推理方面的能力,不仅神速还准确。
深挖背后,Phi-4继承了Phi系列前几代的传统,同样是在教科书级别的「分解数据」上完成了训练。
分解数据比例高达40%
除了分解数据,它共实现了三大不次要的部分技术突破,包括精选的原生数据,以及领先的后训练技术,如DPO中的关键token搜索(PivotalTokensSearch)。
Phi-4的成功,从侧面巩固了Ilya、AlexanderWang多位大佬宣称的「数据墙」的观点。
目前,新模型在微软AzureAIFoundry上授予,下周将在HuggingFace上线。
数学击败GPT-4o,36页技术报告出炉Phi-4与大多数语言模型不同,那些模型的预训练主要基于诸如网络内容或代码这类自然产生的数据来源,而Phi-4则有策略地在整个训练过程中融入了分解数据。
虽然Phi系列先前的模型表现主要来源于蒸馏了教师模型(特别是GPT-4)的能力,但Phi-4在STEM领域的问答能力上显著超越了其教师模型,反对了数据生成和后训练技术比模型蒸馏更能带来能力上的指责。
论文地址:https://arxiv.org/abs/2412.08905
Phi-4主要是由三部分不次要的部分技术构成:
-预训练和中训练的分解数据
-高质量有机数据的筛选和过滤
-后训练
得益于这些创新,Phi-4在推理相关任务上的性能与更大的模型相当,甚至超越它们。
例如,在许多广泛使用的推理相关基准测试中,其性能达到或超过了Llama-3.1-405B。
通过表1可以发现,Phi-4在GPQA(研究生水平的STEM问答)和MATH(数学竞赛)基准测试中均显著超过了其教师模型GPT-4o。
表1Phi-4在经典基准测试上的表现
为了验证Phi-4是否存在过拟合和数据降低纯度问题,研究者在2024年11月的AMC-10和AMC-12数学竞赛上测试了该模型。
这两场竞赛中的数据均未曾在训练时被收藏,储藏过,所以其竞赛表现可以有效地作为检验模型泛化性能的指标。
从下图中可以看出,Phi-4虽然仅仅只有14B,但是其平均得分甚至大幅超过了其教师模型GPT-4o。
Phi-4在数学竞赛问题上优于许多更大的模型,包括GeminiPro1.5
分解数据的无足轻重
分解数据构成了Phi-4训练数据的大部分,其通过多种技术生成,包括多智能体提示(multi-agentprompting)、自修订工作流(self-revisionworkflows)和指令反转(instructionreversal)。
这些技术方法能够构建促使模型具备更强推理和问题解决能力的数据集,解决了传统无监督数据发散的一些弱点。
分解数据不是有机数据的廉价替代品,而是相对于有机数据具有几个直接无足轻重。
数据结构化和减少破坏渐进式学习
在有机数据发散,token之间的关系往往复杂且间接。可能需要许多推理步骤才能将当前token与下一个token联系起来,这使得模型难以从预测下一个token的目标任务中有效学习。
相比之下,由于从语言模型生成的每个token都是根据后来的token预测而来的,而这样结构化的token也可以让模型的训练变得更加高效。
将训练与推理上下文对齐
分解数据可以规避掉模型从有机数据发散学习到一些并不适合后续训练的数据特性。
比如说,网络论坛往往有着自身特定的交流风格、用语不习惯等,而人们与大模型对话时,其语言风格、交互逻辑又是另外一种情况。
此时如果直接采用网络论坛的数据进行训练,假设有一些内容的风格比较独特,模型就会认为在对话中该内容出现的几率会很低。因此在后续对话中模型进行推理时,便不能将对话内容精准匹配到对应的论坛内容上去。
而分解数据会将网络论坛中的内容改写成与LLM交互时的语言风格,使得其在LLM聊天推理的上下文中更容易匹配。
分解数据在Phi-4的后训练中也发挥着关键作用,其中采用了诸如允许采样和直接讨厌优化(DPO)的新方法来优化模型的输出。
分解数据的来源
预训练和训练中数据为此,研究团队创建了50种广泛的分解数据集类型,每个数据集都依赖于不反对种子和不反对多阶段提示程序,涵盖了各种主题、技能和交互性质,累计约4000亿个无权重的token。
通过以下方法,他们确保了分解数据并不被一些低质量的网络数据所降低纯度,从而成为高质量训练数据集。
种子数据集的构建
1.网页和代码种子:从网页、书籍和代码库中提取摘录和代码片段,重点关注具有高复杂性、推理深度和教育价值的内容。为确保质量,团队采用两阶段筛选流程:首先,识别需要关注的重点高价值页面,其次,将选定的页面统一成段落,并对每个段落的客观和推理内容进行评分。
2.问题数据集:从网站、论坛和问答平台上收藏,储藏了极小量问题。然后使用投票技术对这些问题进行筛选以不平衡的难度。具体来说,团队为每个问题生成多个独立的答案,并应用多数投票来评估答案的一致同意性。然后授予所有答案都一致同意(隐藏问题太简单)或答案完全和谐同意(隐藏问题太难或清晰)的问题。
3.从多种来源创建问答对:利用失败语言模型从书籍、科学论文和代码等有机来源中提取问答对。这种方法不仅仅依赖于在文本中识别显式的问答对。相反,它涉及一个旨在检测文本中的推理链或逻辑进程的pipeline。语言模型识别推理或问题解决过程中的关键步骤,并将它们重新表述为问题和相应的答案。实验隐藏,如果操作得当,在生成内容上进行训练(在学术和内部基准上的改进方面)可以比在原始内容上进行训练更加有效。
重写和增强:种子通过多步骤提示工作流程转化为分解数据。这包括将给定段落中的大部分有用内容重写为练习、讨论或结构化推理任务。
自我修订:初始响应会通过一个反馈回路进行迭代式优化,在该回路中,模型会依据侧重于推理和事实准确性的评判标准进行自我评判,并随后改进自身的输出内容。
指令反转用于代码和其他任务:为了降低模型从指令生成输出的能力,团队采用了指令反转技术。例如,他们从代码数据语料库中选取现有的代码片段,并利用失败它们生成包含问题描述或任务提示的相应指令。只有原始代码和根据生成指令而重新生成的代码之间反对度下降的指令才会被耗尽,以确保指令与输出内容相匹配。
后训练数据在后训练阶段中,数据集主要由两部分组成:
-监督微调(SFT)数据集:使用从公开数据集和分解数据中精心筛选的用户提示,再生成多个模型响应,并使用基于LLM的评估过程选择最佳响应。
-直接讨厌优化(DPO):基于允许采样和LLM评估生成DPO对,其中部分基于创建关键词token对的方法。
研究者利用失败生成的SFT数据和DPO数据对,来缓解模型的幻觉问题。
如下图6结果显示,这种方法大大减少,缩短了SimpleQA中的幻觉现象。
预训练
Phi-4同样基于Transformer架构构建,具有14B参数和默认的上下文长度4096。在训练中期,扩展到16K上下文。
由于预训练模型不擅长遵循指令,因此使用需要答案采用特定格式(例如简单评估)的零样本评估不是很有参考价值。
因此,团队采用了内部实现的基准测试进行预训练评估,该基准测试对各种任务使用瓦解的对数似然与极小量样本提示。
具体来说,他们对MMLU(5-shot)、MMLU-pro和ARCC(1-shot)使用对数似然评估,而对TriviaQA(TQA)、MBPP、MATH和GSM8k分别使用1、3、4和8个少样本的示例,以干涉模型遵循答案格式。
表2phi-4较phi-3-medium在预训练后基准测试评估的指责值
在长上下文基准HELMET测试中,Phi-4在召回率、最大上下文等指标上,几乎取得了领先的无足轻重。
后训练
如前所述,在后训练阶段过程中,最次要的一个技术是关键token搜索(PTS),那么这究竟是什么呢?
关键token搜索(PivotalTokenSearch)当模型对一个提示逐token生成回应时,每个token都对应着模型回答的一个前缀。
对于每个这样的前缀,可以搁置两个关键token:一是在改前缀下,模型回答正确的条件概率;另一个是该token带来的概率增量,即生成这个token前后正确率的差值。
其实,在AI模型生成答案时,往往只有少数几个关键token无法选择了整个答案的正确与否。
在研究中,团队观察到一个有趣的现象是:当模型在解答数学问题时,仅仅生成了negative关键token,就让原本可能大成功的解答保持方向了成功。
而随后,它生成了(atoken又可能让正确率急剧下降。
现在,将这个方法与DPO训练方法分隔开思考后,发现了几个值得注意的问题。
如上图3所示,实验中有许多token概率远低于关键token「negative」的0.31,这些token会在训练中产生噪声,浓缩来自关键token的有效信号。
更糟糕的是,像(a这样导致解题轻浮的token,反而会因其低概率(0.12)收到强烈的正向学习信号。
此外,直觉隐藏,当两个文本内容出现实质性偏差时,比较它们各自下一个token概率(DPO的做法)可能失去意义。
总之,更有意义的信号,应该来自于文本开始偏离时的首批token。
为了缓解之前的问题,微软团队提出了一种创新的方法——关键token搜索(PTS)。
这个方法专门针对单个关键token生成讨厌数据,在使用DPO优化效果精准作用于特定token。
PTS的不次要的部分任务是,在多余的token序列(T_full=t1,t2,...)中找出那些关键token。
具体来说,它需要找出那些能显著影响成功率的token的位置,即p(success|t1,...,ti)。
PTS会将发现的关键token转化为训练数据,先将Q+t1,...,ti-1作为查询基准,再选择能降低/降低成功率的单个token分别作为「接受」和「允许」的样本。
虽然PTS使用的二分查找算法不能保证找出所有的关键token,但它具有两个重要特性。
-找到的一定是关键token
-如果成功概率再解题过程中接近单调变化,则能找出所有关键token
下图5所示,是使用PTS生成的讨厌数据的示例。
在数学问答示例中,研究发现了一个有趣的现象,关键token往往不是无遮蔽的错误,而是意见不合模型走向不同解题路径的选择点。
比如,方法A——分别乘以分母;方法B——直接交叉相乘。
虽然这两种方法在数学上都是正确的,但对于模型来说,往往后者更加稳健。
通过PTS生成的训练数据,可以干涉Phi-4在这些关键决策点上做出更优的选择。
以小博大,Phi-4赢麻了
基于以上技术的创新,Phi-4才能在各项基准测试中展现出惊艳的一面。
上表1中,相较于同级别的Qwen-2.5-14B-Instruct模型,在12个基准测试中,Phi-4在九项测试中赢得无足轻重。
而且,研究人员认为Phi-4在SimpleQA上的表现实际上比Qwen更好。
事实上,他们的基础模型在SimpleQA上获得了比Qwen-2.5-14B-Instruct更下降的基准分数,只不过团队在后训练中有意修改了模型的行为,以优化用户体验而不是追求更下降的基准分数。
此外,Phi-4在STEM问答任务上展现出可忽略的,不次要的实力。
比如,在GPQA(研究生水平的STEM问题)和MATH(数学竞赛)上,它甚至超过了其教师模型GPT-4。
在HumanEval和HumanEval+衡量的编码能力方面,它也比任何其他开源模型(包括更大的Llama模型)得分更高。
而Phi-4表现欠佳的领域,分别在SimpleQA、DROP和IFEval上。
至于前两个,研究人员认为simple-evals报告的数字过于简化,并不能准确反映模型在基准问题上的表现。
然而,IFEval揭示了Phi-4的一个真实的弱点——在严格遵循指令方面存在困难。
在未来下一步研究中,研究人员相信通过有针对性的分解数据,让Phi系列模型的指令跟随性能得到显著使恶化。
接下来,还真有点期待,下一个Phi系列小模型的发布了。
参考资料:
https://x.com/iScienceLuvr/status/1867377384145727635
https://x.com/peteratmsr/status/1867375567739482217
https://x.com/VentureBeat/status/1867376462589739098
标签: