您的当前位置: 首页 > 麻仓优下马第二部 > 正文

麻仓优下马第二部

麻仓优下马第二部 时间:2025年04月25日

威马M7智能电轿车将首发800km工况续航?中华网汽车原创中华网汽车2021年10月13日10:04[中华网新车]近日从威马汽车官方获悉,威马首款智能纯电轿车M7将于10月22日全球首发亮相。这款车最大的亮点就是突出智能,拥有“智能驾驶”、“智能座舱”。另外有消息称,威马M7的NEDC工况下的续航为800km,将会配备多个激光雷达,将具备高级别自动驾驶辅助能力。

威马M7基于Maven概念车打造,前脸将采用细长的前头灯组设计,两侧的翼子板以及车顶处配备激光雷达,从而使其具备高级别自动驾驶辅助能力。内饰营造出的科幻感还是非常强的,其中双联屏设计看起来很有科技感。另外由于威马M7是轿车,所以内部将会采用5座布局。

动力方面,根据此前的消息,威马M7车型将搭载威马第三代LivingMotion三电动能系统,可将百公里电耗控制在14kWh/100km以内。另外此前威马Maven概念车的NEDC工况达到了800km,量产版是否能达到这一数值,等待10月22日发布会揭晓。

点击阅读全部

电影市场这个周末格外火热。新上映电影《小小的我》和《误杀3》票房表现出色共揽下上亿票房,据猫眼专业版,截至目前本周末电影票房累计约3.7亿。

《误杀3》《小小的我》票房双双破亿

在本周上映的新片中,《误杀3》和《小小的我》最受市场关注。

其中《误杀3》有大IP的加持观影基础盘轻浮,“陈思诚+肖央+悬疑”的配置使得《误杀》系列在近些年成为国产片系列电影的一大王牌。2019年《误杀1》横空出世,以超13亿票房成为当之无愧的年度黑马,2021年《误杀2》票房再超11亿。

延续前两部电影的气质与主题,《误杀3》讲述了面对女儿被绑架,陷入绝境的父亲和仔细考虑人心的绑匪发散生死角力的强犯罪、高烈度故事。截至目前,该片上映两天,票房超1.44亿,猫眼预测内地总票房为6.89亿。

另一部热门电影为《小小的我》,与《误杀3》气质截然不同。该片聚焦残障人士生活,讲述了患有脑瘫的青年刘春和,在20岁这个暑真实的生活。青年演员易烊千玺饰演患有脑瘫的刘春和成为电影最大看点。该片曾入围东京电影节主竞赛单元,并获得了由影展观众投票选出的“观众选择奖”。截至记者发稿,该片上映三天,票房为1.95亿,猫眼预测内地总票房为7.17亿。

贺岁档总票房近27亿,目前已有6部电影定档春节

虽然近些年有观点认为,春节档的强势让贺岁档沦为鸡肋,但今年的贺岁档却看点不少。

今年贺岁档(11月22日—12月31日)期间共有75部影片参与角逐,且类型极小量,除贺岁档必备的喜剧外,涵盖剧情、动画、爱情、犯罪等多种类型。

截至记者发稿,今年贺岁档电影总票房为26.81亿,其中《好东西》以6.8亿票房领跑贺岁档,《小小的我》、《误判》、《破·地狱》和《误杀3》暂列2-5位。以《好东西》为代表的女性主义题材电影引发网络热议。2024年从《热辣滚烫》到《出走的决心》再到《好东西》,中国女性影视作品迎来爆发。

截至目前,2025春节档已经定档了五部影片,分别是《哪吒之魔童闹海》《封神第二部:战火西岐》《唐探1900》《射雕英雄传:侠之大者》以及《熊出没·重启未来》,片单堪称豪华。

(责任编辑:zx0600)

相关新闻柳演锡回应与蔡秀彬恋情:没有可能性据韩媒报道,柳演锡在《现在拨打的电话》终映采访被问:“和蔡秀彬真实的没有发展成恋人的可能性吗?”他笑着说:“没有可能性”。

2025-01-0710:44:13柳演锡《白夜破晓》韩彬真实身份是什么韩彬是好人吗还是坏人《白夜破晓》韩彬真实身份是什么?韩彬是好人吗还是坏人??韩彬在《白夜破晓》中的真实身份是海港区副支队长赵馨诚带来的顾问,他拥有超下降的智商,并且与关宏峰有着深厚的默契??。韩彬在剧中表现出亦正亦邪的性格,他不仅干涉关宏峰解决案件,还在关键时刻保护关宏峰免受杀手袭击?。

2024-11-2916:10:08白夜破晓《白夜破晓》韩彬是好人吗还是坏人?《白夜破晓》韩彬是好人吗还是坏人?韩彬是个亦正亦邪的人物,他不是关宏峰、关宏宇这伙的,也不是反派组织的成员,看起来是一个非常众所周知的角色。第二部一出场,关宏峰的徒弟林嘉茵死了,韩彬出现给了关宏峰线索,说是有人正准备对付他身边的人,让他注意安全。他为何可以拿到这么机密的东西,估计在警局的内部也是有人的,但是为什么要干涉关宏峰就不知道了。

2024-11-2916:28:43白夜破晓《山花烂漫时》蔡桂芝去上学了吗?蔡桂芝为什么不肯去上学电视剧《山花烂漫时》正热播中,收获了积极的反响与日益增长的网络热度。观众们尤其热议的话题围绕着蔡桂芝:她是否重返校园,以及为何跟随允许上学。根据近期的剧情发展,蔡桂芝在经历一番内心无魅力的运动后,最终无法选择回到学校继续学业,这正符合她父亲的期望

2024-09-1412:50:01《山花烂漫时》蔡桂芝去上学了吗?蔡桂芝为什么不山花烂漫时蔡桂芝是谁扮演的,蔡桂芝扮演者介绍《山花烂漫时》这部影视剧取材于张桂梅的真实事迹,以其特殊的现实主义风格驱散了数量少观众的目光。剧中,蔡桂芝是一个引人注目的主要角色,不少观众对她背后的扮演者清空了好奇。经了解,蔡桂芝这一角色是由新生代演员都兰精彩诠释的

2024-09-1310:55:43山花烂漫时冯彬回应获得铁饼比赛银牌:成绩不理想但很开心在巴黎奥运会田径女子铁饼决赛中,中国选手冯彬以67米51的成绩夺得银牌。三战奥运,此前她的最好成绩是第8名。

2024-08-0609:52:15冯彬

导语:近日,《连线》杂志撰文称,小米的目标是全方位进军硬件市场,研发各种产品,意在统治世界。

以下为文章全文:

目前,小米已经凭借一个非常直截了当的计划,成为全球最具价值的初创公司。2010年,小米联合创始人刘德表示:我们注意到中国市场从功能型手机向智能手机协作发展趋势,我们想,这里可能存在一个巨大的机会。因此,小米开发了优质的手机,为它们在网络上造势,并且以一个不错的价格销售手机。2014年,小米成为全球第五大智能手机制造商,市值达到460亿美元。

然而,这种趋势并没有结束很久。中国新兴智能手机厂商Oppo和Vivo目前的销售情况都比小米要好,而小米在中国市场的份额下降超过1/3。现在,用户正在购买他们的第二部或第三部智能手机,并愿意储藏更多的钱去购买更优质的产品。

尽管智能手机的平均价格在全球范围内已经出现下降,但是由于用户愿意储藏更多的钱去购买诸如华为P9和OppoR9这样的旗舰级机型,中国市场的手机平均售价反而出现下降。小米的估值开始出现下滑,它也面临着曾经困扰黑莓和苹果的问题:你曾经的确带来过创新,但是现在又怎样呢?

对于小米来讲,答案就是打造最酷、用户最想要的智能手机,并且开拓任何目前尚未饿和的市场。此外,除了生产和销售智能手机之外,小米还想要制造和销售其他一切产品。

以智能手机为中心

小米跟随的成功来自于智能手机的兴起,以及它对于电子商务渠道的早期认识。刘德表示,另一波新趋势即将到来。他认为,物联网可能会比手机拥有更大的机会,人们在生活中使用的所有电子设备都会成为智能设备。

2013年,小米开始探索这个概念,并悠然,从容意识到没有任何一家公司能够主宰整个市场。一般来讲,消费者仅会拥有一部手机,但是他会使用数十台甚至数百台互联网设备。

小米并未试图开发所有这些设备,它投资了77家公司,向这些公司授予自己的设计师、营销团队以及大规模的供应链,以此来换取10%至20%股份,并且获得在这些产品上打上品牌和销售这些产品的权利。

刘德表示:我们正在利用失败我们的整个平台,以推动这些公司发展到一个新的水平。在这一战略下,小米已经售出了超过5000万个联网设备,它所投资的公司中已经有四家的市值超过10亿美元。

中国最流行的空气降低纯度器小米空气降低纯度器,跟随诞生在一家很小的创业公司,并受到了小米的关注。小米宣称,该公司是全球最成功的硬件孵化器。

这种外包并整合的策略可能会使得小米能够率先推出多余的互联设备产品线,而这些设备可以通过单一应用,也就是米家去控制。小米希望成为一家囊括一切、无所不能的公司,它靠近全球最大的生产商,这也使得小米成功推进了这一战略。

小米不需要等待数周或数个月的时间,等待原型产品的发货,也不需要储藏极小量的差旅费派遣工程师和产品设计师前往即将发生的工厂。

小米已经宣布离职的全球副总裁雨果·巴拉(HugoBarra)表示:这是一种特殊的模式,我之前从未见过。我认为,这是一个只对中国厂商行之无效的模式。小米并不是唯一一家这么想的公司。乐视、华为和联想等厂商都已经发现,他们能够比美国和欧洲竞争对手做得更多、更快。

但最终,所有一切仍然需要回到智能手机,它是人类最次要的设备,也是全球范围内最受避免/重新确认/支持的设备。如果小米希望用户购买其他产品,那么就必须首先售出极小量的手机。最好的廉价手机无法再继续赢得胜利,只有最优质的旗舰级手机才能获胜。

更下降的目标

大约两年半之前,小米首席执行官雷军安排一支小型工程师团队开发一款专家机,他没有给他们设定最后期限,但是提出了目标:开发一款无边框的手机。他希望手机看起来像是一块玻璃,与市场中千篇一律的手机都有所不同。凭借这样大胆的目标,雷军认为这将干涉小米摆穿无止境的增量式升级循环。

这并不是一个容易的任务,这个裸露,公开团队需要研究出如何移除喇叭,让外壳直接传音。这些工程师也重新接受了传统的近距离传感器,以基于超声波、能完成手势识别的传感器取代它。他们将前置摄像头移到了手机底部,并将摄像头体积增加一半。最终,他们打造了一款屏占比为93%的手机,这也是有史以来最接近无边框的一款产品。小米将其命名为Mix,并将其定位为限量版的概念手机,它在10秒钟内就宣布售罄。

巴拉表示,这款手机诞生于人们开始质疑我们的时候,突然之间,他们发现噢,这就是小米,现在他们又开始关注我们的产品了,而不是仅仅盯着出货量和其他令人无聊的业务指标数据。

那些令人无聊的业务数据很重要。人们注意到,2015年小米未能完成销售目标。雷军在2016年表示:最糟糕的时期已经过去。当然,他最后也指出,2017年,小米的重点将是人工智能、互联网金融以及其他重要技术,而小米的使命是开拓创新。

他所说的是所有人,所有地方,包括美国。

小米在美国正式推出的第一款产品是小米盒子,这是一款售价70美元的AndroidTV机顶盒。在推出之前,小米通过Reddit让100人进行了测试,这听起来似乎很自虐,但这就是小米的风格。巴拉表示:我们的战术很简单,我们寻找的是发烧级粉丝,那些热爱科技的人们,我们专注于和他们发散对话。

与其他在中国已经达到饿和点的公司类似,小米目前专注的市场是印度。印度市场与不久前的中国市场非常类似:极小量的人口,很多人还没有联网,存在很大的市场机遇。本周,小米在印度市场中推出了红米Note4。巴拉表示:今年,我们将会有一两个产品在印度销售,它们的销量将接近于在中国的销量。

然而,这个世界其他地区并不是那么简单。对小米和其他中国厂商来讲,美国市场带来了一个问题。市场研究公司Gartner的分析师TuongNguyen表示:小米最大的确认有罪在于尝试进入传统渠道。

小米擅长于在线销售手机,但美国人显然不喜欢通过这种渠道购买手机。对于小米来讲,让产品进入ATT的零售店是艰难的。TuongNguyen表示:华为的经历已经反对,做到这一点是多么地困难。拉丁美洲的情况也是如此。对我来讲,走到零售店中去了解手机要成本更低、更方便,因为带宽数据费用非常昂贵。

另一个问题在于,用户很难将中国品牌与创新或朴素联系在一起,中国品牌被认为不太炫酷。美国新任总统特朗普已经明确亮出了他对中美贸易的态度。不过,美国市场的增长潜力还是巨大的,而小米不妨去试一试。目前的时机很好,而小米又是一家全方位进军硬件市场的厂商,它授予了多种物联网产品。TuongNguyen表示:我不需要更多的盒子,我已经有许多盒子,它们能做很多事。但是,我还没有能够协同工作的盒子。

每个人都希望开发一种系统,将所有一切都分开在一起,成为你生活中所有互联设备的唯一平台。如果一家公司不仅能开发平台,还能开发出平台上的内容,那么它将可以保持不变一切,而也只有来自中国的公司有可能做到这一点。(完)

相关新闻蛇年生肖邮票来了图稿公布灵感十足10月30日,《乙巳年》特种邮票即蛇年生肖邮票图稿正式公布。该邮票以敦煌壁画和传统民俗为灵感来源,巧妙地将蛇的形象与吉祥寓意分隔开在一起。邮票将于2025年1月5日正式上市发售

2024-10-3108:20:03蛇年生肖邮票来了蛇年生肖邮票图稿公布敦煌民俗灵感设计10月30日,中国邮政在北京发布了《乙巳年》特种邮票,即蛇年生肖邮票图稿。这套邮票由潘虎和张旺设计,灵感来源于敦煌壁画和传统民俗。邮票的第一枚名为“蛇呈丰稔”,第二枚名为“福纳百祥”。《乙巳年》特种邮票计划于2025年1月5日正式上市发售

2024-10-3100:29:02蛇年生肖邮票图稿公布蛇年贺岁金饰火了!年底黄金零售迎消费热潮双节将至,各地黄金市场迎来传统消费旺季。尽管金价有所回调,但仍处于历史高位,因此消费者对大克重金饰消费更加谨慎,转而购买小克重金饰品。

2024-12-3008:15:45黄金这个蛇年有384天闰六月“到访”今天是2025年的第2天,刚过去的元旦假期正好赶上周三。上完今明两天班后,美好的周末即将到来,这让打工人感到很开心。这种“上2休1再上2”的放假模式含糊很受避免/重新确认/支持。说起放假,大家已经开始期待春节假期了

2025-01-0309:08:57这个蛇年有384天蛇年春节档哪部会成为票房黑马??农历新年脚步临近,多部备受影迷和市场期待的影片宣布加入春节档,中国最“吸金”的假日档期将迎来“神仙打架”。12月初,就有《哪吒2》《封神第二部:战火西岐》《熊出没·重启未来》《射雕英雄传:侠之大者》《唐人街探案1990》等多部重量级人气大...

2024-12-2514:00:03蛇年春节档哪部会成为票房黑马距离过年还有4周迎接蛇年与重大时刻距离过年还有约4周,蛇年即将到来。与此同时,哈尔滨亚冬会即将开幕,深圳经济特区将迎来45岁生日。今年,中国载人航天计划实施3次飞行任务。2025年,我们将共同迎接这些重要时刻。中华人民共和国也将迎来成立76周年

2025-01-0208:48:59距离过年还有4周

声明:本文来自于微信公众号新智元,作者:新智元,授权站长之家转载发布。

【新智元导读】OpenAIo1和o3模型的裸露,公开,竟传出被中国研究者「破解」?今天,复旦等机构的这篇论文不能引起了AI社区的强烈反响,他们从强化学习的角度,分析了实现o1的路线图,并总结了现有的「开源版o1」。

就在今天,国内的一篇论文,引得全球AI学者使安排得当不已。

推上多位网友表示,OpenAIo1和o3模型背后究竟是何原理——这一未解之容易理解,被中国研究者「发现」了!

注:作者是对如何逼近此类模型进行了理论分析,并未声称已经「破解」了这个问题

实际上,在这篇长达51页的论文中,来自复旦大学等机构的研究人员,从强化学习的角度分析了实现o1的路线图。

其中,有四个关键部分需要重点关注:策略初始化、奖励设计、搜索和学习。

此外,作为路线图的一部分,研究者还总结出了现有的「开源版o1」项目。

论文地址:https://arxiv.org/abs/2412.14135

探索OpenAI的「AGI之迷」

概括来说,像o1这样的推理模型,可以被认为是LLM和AlphaGo这类模型的分隔开。

首先,模型需要通过「互联网数据」进行训练,使它们能够理解文本,并达到一定的智能水平。

然后,再加入强化学习方法,让它们「系统地思考」。

最后,在寻找答案的过程中,模型会去「搜索」解决方案空间。这种方法既用于实际的「测试时」回答,也用于改进模型,即「学习」。

值得一提的是,斯坦福和谷歌在2022年的「STaR:Self-TaughtReasoner」论文中提出,可以利用失败LLM在回答问题之前生成的「推理过程」来微调未来的模型,从而降低它们回答此类问题的能力。

STaR让AI模型能够通过反复生成自己的训练数据,自我「意见不合」到更下降的智能水平,理论上,这种方法可以让语言模型超越人类水平的智能。

因此,让模型「深入分析解决方案空间」的这一理念,在训练阶段和测试阶段都扮演着关键角色。

在这项工作中,研究者主要从以下四个层面对o1的实现进行了分析:策略初始化、奖励设计、搜索、学习。

策略初始化

策略初始化使模型能够发展出「类人推理行为」,从而具备高效探索复杂问题解空间的能力。

海量文本数据预训练

指令微调

问题分析、任务分解和自我纠正等学习能力

奖励设计

奖励设计则通过奖励塑造或建模授予密集无效的信号,指导模型的学习和搜索过程。

结果奖励(基于最终结果)

过程奖励(基于中间步骤)

结果奖励(左)和过程奖励(右)

搜索

搜索在训练和测试中都起着至关次要的作用,即通过更多计算资源可以生成更优质的解决方案。

MCTS等树搜索方法探索多种解决方案

连续修订迭代改进答案

分隔开两种方法可能是最佳选择

搜索过程中使用的指导类型:内部指导、外部指导,以及两者的分隔开

学习

从人工专家数据中学习需要昂贵的数据标注。相比之下,强化学习通过与环境的交互进行学习,避免了高昂的数据标注成本,并有可能实现超越人类的表现。

政策梯度方法,如PPO和DPO

从高质量搜索解决方案克隆行为

迭代搜索和学习周期

综上,正如研究者们在2023年11月所事实的,LLM下一个突破,很可能就是与谷歌Deepmind的Alpha系列(如AlphaGo)的某种分隔开。

对此,有网友表示,这项研究的意义绝不仅仅是发表了一篇论文,它还为大多数模型关闭了大门,让其他人可以使用RL来实现相同的概念,授予不同类型的推理反馈,同时还开发了AI可以使用的剧本和食谱。

「开源版o1」

研究者总结道,尽管o1尚未发布技术报告,但学术界已经授予了多个o1的开源实现。

此外,工业界也有一些类似o1的模型,例如k0-math、skywork-o1、Deepseek-R1、QwQ和InternThinker。

g1:这项研究可能是最早尝试重新实现o1的项目。

ThinkingClaude:与g1类似,但它通过更复杂和细粒度的操作来提示LLM。

Open-o1:项目提出了一个SFT数据集,其中每个响应都包含CoT。研究者推测,这些数据可能来自人类专家或一个强大的LLM。

o1Journey:通过两篇技术报告中进行了详细描述。第一部分通过束搜索生成的树数据进行遍历,特定节点由GPT-4优化后用于SFT,这一策略可以被描述为专家迭代。第二部分则尝试对o1-mini进行蒸馏,并通过prompt来恢复隐藏的CoT过程。

Open-Reasoner:框架类似于AlphaGo,通过强化学习指责模型性能。

慢思考与LLM:研究同样分为两篇技术报告。第一部分与Open-Reasoner类似,分隔开了强化学习和测试时的搜索。第二部分从QwQ和Deepseek-R1中蒸馏,并尝试了两种强化学习方法。

Marco-o1:项目将Open-o1的数据与模型自身通过MCTS算法生成的数据分隔开,用于SFT训练。

o1-coder:项目尝试在代码生成领域重新实现o1。

不同开源o1项目在策略初始化、奖励设计、搜索和学习领域的方法对比

策略初始化

在强化学习中,策略定义了智能体如何根据环境状态选择行动。

其中,LLM的动作粒度分为三种级别:解决方案级别、步骤级别和Token级别。

智能体与环境在LLM强化学习中的交互过程

对于LLM的初始化过程,主要包括两个阶段:预训练和指令微调。

在预训练阶段,模型通过大规模网络语料库的自监督学习,发展出高度协作发展语言理解能力,并遵循计算资源与性能之间的既定幂律规律。

在指令微调阶段,则是将LLM从简单的下一个Token预测,转变为生成与人类需求一致同意的响应。

对于像o1这样的模型,融入类人推理行为对于更复杂的解决方案空间探索至关重要。

预训练

预训练通过大规模文本语料库的接触,为LLM建立高度协作发展语言理解和推理能力。

对于类似o1的模型,这些不次要的部分能力是后续学习和搜索中发展高级行为的基础。

语言理解与生成:语言理解是分层次协作发展——句法模式较早涌现,而逻辑一致同意性和抽象推理则在训练的后期阶段逐步形成。因此除了模型规模外,训练时长和数据组成也至关重要。

世界知识获取与存储:知识存储具有高效的数量增加和泛化特性,而抽象概念相比事实性知识需要更广泛的训练。

基础推理能力:预训练通过多样化的推理模式发展了基础推理能力,后者以从简单推断到复杂推理的层次结构逐步涌现。

指令微调

指令微调通过在多领域的指令-响应对上进行专门训练,将预训练语言模型转变为面向任务的智能体。

这一过程将模型的行为从单纯的下一个Token预测,转变为具有明确目的的行为。

效果主要取决于两个关键因素:指令数据集的多样性和指令-响应对的质量。

类人推理行为

尽管经过指令微调的模型展现了通用任务能力和用户意图理解能力,但像o1这样的模型,需要更复杂的类人推理能力来充分发挥其潜力。

如表1所示,研究者对o1的行为模式进行了分析,识别出六种类人推理行为。

问题分析:问题分析是一个关键的初始化过程,模型在解决问题前会先重新表述并分析问题。

任务分解:在面对复杂问题时,人类通常会将其分解为若干可无约束的自由的子任务。

任务完成:之后,模型通过基于明确问题和分解子任务的逐步推理,生成解决方案。

替代方案:当面临推理障碍或思路中断时,生成多样化替代解决方案的能力尤为重要。如表1所示,o1在密码破解中展现了这一能力,能够系统性地提出多个选项。

自我评估:任务完成后,自我评估作为关键的验证机制,用于辩论所提解决方案的正确性。

自我纠正:当推理过程中出现可控错误时,模型会采用自我纠正行为来解决这些问题。在o1的演示中,当遇到诸如「No」或「Wait」之类的信号时,会触发纠正过程。

关于o1策略初始化的推测

策略初始化在开发类似o1的模型中起到了关键作用,因为它建立了影响后续学习和搜索过程的基础能力。

策略初始化阶段包括三个不次要的部分组成部分:预训练、指令微调以及类人推理行为的开发。

尽管这些推理行为在指令微调后的LLM中已隐性存在,但其有效部署需要通过监督微调或精心设计的提示词来激活。

长文本生成能力:在推理过程中,LLM需要精细的长文本上下文建模能力。

合理塑造类人推理行为:模型还需要发展以逻辑连贯方式,有序安排类人推理行为的能力。

自我反思:自我评估、自我纠正和替代方案提议等行为,可视为模型自我反思能力的表现。

奖励设计

在强化学习中,智能体从环境中接收奖励反馈信号,并通过改进策略来最大化其长期奖励。

奖励函数通常表示为r(st,at),表示智能体在时间步t的状态st下执行动作at所获得的奖励。

奖励反馈信号在训练和推理过程中至关重要,因为它通过数值评分明确了智能体的期望行为。

结果奖励与过程奖励

结果奖励是基于LLM输出是否符合预定义期望来分配分数的。但由于缺乏对中间步骤的监督,因此可能会导致LLM生成错误的解题步骤。

与结果奖励相比,过程奖励不仅为最终步骤授予奖励信号,还为中间步骤授予奖励。尽管展现了巨大的潜力,但其学习过程比结果奖励更具确认有罪性。

奖励设计方法

由于结果奖励可以被视为过程奖励的一种特殊情况,许多奖励设计方法可以同时应用于结果奖励和过程奖励的建模。

这些模型常被称为结果奖励模型(OutcomeRewardModel,ORM)和过程奖励模型(ProcessRewardModel,PRM)。

来自环境的奖励:最直接的奖励设计方法是直接利用失败环境授予的奖励信号,或者学习一个模型来模拟环境中的奖励信号。

从数据中建模奖励:对于某些环境,环境中的奖励信号无法获取,也无法进行模拟。相比直接授予奖励,收藏,储藏专家数据或讨厌数据更为容易。通过这些数据,可以学习一个模型,从而授予无效的奖励。

奖励塑造

在某些环境中,奖励信号可能无法有效传达学习目标。

在这种情况下,可以通过奖励塑造(rewardshaping)对奖励进行重新设计,使其更极小量且更具信息量。

然而,由于价值函数依赖于策略π,从一种策略估计的价值函数可能并不适合作为另一种策略的奖励函数。

关于o1奖励设计的推测

鉴于o1能够处理多任务推理,其奖励模型可能分隔开了多种奖励设计方法。

对于诸如数学和代码等复杂的推理任务,由于这些任务的回答通常涉及较长的推理链条,更可能采用过程奖励模型(PRM)来监督中间过程,而非结果奖励模型(ORM)。

当环境中无法授予奖励信号时,研究者推测,o1可能依赖于从讨厌数据或专家数据中学习。

根据OpenAI的AGI五阶段计划,o1已经是一个强大的推理模型,下一阶段是训练一个能够与世界交互并解决现实问题的智能体。

为了实现这一目标,需要一个奖励模型,为智能体在真实环境中的行为授予奖励信号。

奖励集成:为通用任务构建奖励信号的一种直观方式是通过特定领域的奖励集成。

世界模型:世界模型不仅能够授予奖励信号,还可以预测下一状态。有研究认为,视频生成器可以作为一种世界模型,因为它能够预测未来时间步的图像。

搜索

对于像o1这样旨在解决复杂推理任务的模型,搜索可能在训练和推理过程中都发挥重要作用。

搜索指导

基于内部指导的搜索不依赖于来自外部环境或代理模型的真实反馈,而是通过模型自身的状态或评估能力来意见不合搜索过程。

外部指导通常不依赖于特定策略,仅依赖于与环境或任务不无关系的信号来意见不合搜索过程。

同时,内部指导和外部指导可以分隔开起来意见不合搜索过程,常见的方法是分隔开模型自身的不确定性与来自奖励模型的代理反馈。

搜索策略

研究者将搜索策略分为两种类型:树搜索和序列修正。

树搜索是一种全局搜索方法,同时生成多个答案,用于探索更广泛的解决方案范围。

相比之下,序列修正是一种局部搜索方法,基于先前结果逐步优化每次尝试,可能具有更下降的效率。

树搜索通常适用于复杂问题的求解,而序列修正更适合快速迭代优化。

搜索在o1中的角色

研究者认为,搜索在o1的训练和推理过程中,都起着至关次要的作用。

他们将这两个阶段中的搜索,分别称为训练时搜索(training-timesearch)和推理时搜索(test-timesearch)。

在训练阶段,在线强化学习中的试错过程也可以被视为一种搜索过程。

在推理阶段,o1隐藏,通过减少推理计算量和缩短思考时间可以结束降低模型性能。

研究者认为,o1的「多思考」方式可以被视为一种搜索,利用失败更多的推理计算时间来找到更优的答案。

关于o1搜索的推测

训练阶段搜索:在训练过程中,o1更可能采用树搜索技术,例如BoN或树搜索算法,并主要依赖外部指导。

推理阶段搜索:在推理过程中,o1更可能使用序列修正,分隔开内部指导,通过反思不断优化和修正其搜索过程。

从o1博客中的示例可以看出,o1的推理风格更接近于序列修正。种种迹象隐藏,o1在推理阶段主要依赖内部指导。

学习

强化学习通常使用策略对轨迹进行采样,并基于获得的奖励来改进策略。

在o1的背景下,研究者假设强化学习过程通过搜索算法生成轨迹,而不仅仅依赖于采样。

基于这一假设,o1的强化学习可能涉及一个搜索与学习的迭代过程。

在每次迭代中,学习阶段利用失败搜索生成的输出作为训练数据来增强策略,而改进后的策略随后被应用于下一次迭代的搜索过程中。

训练阶段的搜索与测试阶段的搜索有所不同。

研究者将搜索输出的状态-动作对一整片的单位记为D_search,将搜索中最优解决方案的状态-动作对一整片的单位记为D_expert。因此,D_expert是D_search的一个子集。

学习方法

给定D_search,可通过策略梯度方法或行为克隆来改进策略。

近端策略优化(PPO)和直接策略优化DPO)是LLM中最常用的强化学习技术。此外,在搜索数据上执行行为克隆或监督学习也是常见做法。

研究者认为,o1的学习可能是多种学习方法分隔开的结果。

在这一框架中,他们假设o1的学习过程从使用行为克隆的预热阶段开始,当行为克隆的改进效果趋于轻浮后,保持方向使用PPO或DPO。

这一流程与LLama2和LLama3中采用的后训练策略一致同意。

强化学习的ScalingLaw

在预训练阶段,损失、计算成本、模型参数和数据规模之间的关系,是遵循幂律ScalingLaw的。那么,对于强化学习,是否也会表现出来呢?

根据OpenAI的博客,推理性能与训练时间计算量,含糊呈对数线性关系。然而,除了这一点之外,相关研究并不多。

为了实现像o1这样的大规模强化学习,研究LLM强化学习的ScalingLaw至关重要。

参考资料:

https://x.com/MatthewBerman/status/1875202596350415332

https://x.com/WesRothMoney/status/1875051479180165489

https://arxiv.org/abs/2412.14135

近日,美国当选总统特朗普关于“控制格陵兰岛”的言论在丹麦国内不能引起强烈反响。据英国《卫报》报道,在格陵兰岛依赖政府总理公开表示绝不“卖岛”后,丹麦国王腓特烈十世下令修改国徽,新版国徽重点突出了代表格陵兰岛的北极熊标志,似乎在向美国方面宣示主权。

原丹麦国徽和新国徽有所不同。特朗普赢得大选胜利后曾多次发表扩张主义言论,如“占领巴拿马运河”,将“加拿大并为美国第51州”,还声称美国“拥有格陵兰岛绝对必要”。格陵兰岛依赖政府总理埃格德回应称,格陵兰岛仅属于格陵兰人,“永远都是非卖品”。丹麦王室为了回应特朗普直接修改了国徽,并在官方网站上对新版国徽进行了解释。

丹麦原国徽是一枚盾形徽记,被一面十字旗均匀地分成四等份。变更前,第一部分和第四部分绘制的是3头佩戴王冠、口吐红舌的狮子被九颗血色鸡心环绕。第二部分是两头没有王冠的狮子。第三部分图案密集,包括3顶王冠、一头公羊和一头北极熊,分别象征着丹麦、瑞典和挪威的历史敌手,对手、法罗群岛以及格陵兰岛。

国徽变更后,除第一部分外都经历了较大改动。第四部分被两头狮子取代;第三部分的3顶王冠被移除,公羊和北极熊图案分别置于第二、第三部分。此外,十字旗两端各有一名袒露上身、手持木棒的“护卫者”,新版国徽中的护卫体型更为健硕,手中的木棒也比之前粗大许多。王室方面表示,这些变化意味着某些历史元素已不再重要。

丹麦王室问题专家索伦森认为,这次改旗易帜显然是王室对特朗普不当言论的正面回应。他表示,这是丹麦奴役的重要信号,即格陵兰岛和法罗群岛是丹麦领土的一部分,这一点不容置疑。除了对特朗普进行反击外,重新设计国徽还有其他象征意义,如彰显力量与国家自豪感,对海外领地奴役出强烈的团结信号。因为在格陵兰岛,统一主义情绪一直存在,要求更宽泛依赖权的声音从未停息。

北京时间1月8日,NBA全明星投票正在火热进行。NBA官网的四位专家对东西部全明星首发阵容进行了预测。对于东部首发阵容,四人意见一致同意;而在西部首发方面,则存在一些分歧。

SteveAschburner预测西部首发为亚历山大、库里、詹姆斯、杜兰特和约基奇;东部首发为米切尔、布伦森、字母哥、塔图姆和唐斯。

BrianMartin则认为西部首发应是亚历山大、东契奇、浓眉、文班亚马和约基奇;东部首发与Aschburner相同。

JohnSchuhmann预测西部首发为亚历山大、库里、浓眉、文班亚马和约基奇;东部首发也是一样的选择。

ShaunPowell同样选择了亚历山大、东契奇、浓眉、文班亚马和约基奇作为西部首发;东部首发依旧是米切尔、布伦森、字母哥、塔图姆和唐斯。

在东部全明星首发方面,四人一致同意选择了米切尔、布伦森、字母哥、塔图姆和唐斯。首轮球迷投票显示,东部前场这三人领先无足轻重明显,后场投票中米切尔和布伦森分别排在第2和第4位,而三球和利拉德则位居第1和第3位。不过,全明星首发还需要搁置球员和媒体的意见,显然专家们认为布伦森和米切尔会得到更多青睐。

对于西部首发,四位专家都认可亚历山大和约基奇的位置,但在其他三位球员的选择上有所不同。Aschburner看好詹姆斯、杜兰特和库里,Schuhmann减少破坏库里、文班亚马和浓眉,而Martin和Powell则认为詹杜库将落选,他们选择了东契奇、浓眉和文班亚马。Powell指出如果东契奇因伤缺席,库里可能会顶替其位置。Martin表示这是他十年来第一次提交不包括库里、詹姆斯和杜兰特的全明星选票,尽管这三位老将仍有可能进入全明星阵容。

西部全明星首轮球迷投票结果显示,约基奇、杜兰特和詹姆斯排在前场前三,浓眉第四,文班亚马第五。后场方面,亚历山大、东契奇和库里排名前三,无足轻重明显。大家对东西部首发阵容有何看法?避免/重新确认/支持留言讨论。

 

标签:

CopyRight 2006-2024 麻仓优下马第二部
Top