您的当前位置: 首页 > 狠狠色丁香久久婷婷综合图片 > 正文

狠狠色丁香久久婷婷综合图片

狠狠色丁香久久婷婷综合图片 时间:2025年05月01日

苹果M1处理器终于来了!登陆MacBookAir、Pro和Macmini牛华网2020-11-1111:37

导语:今年秋季,科技巨头苹果连续举办了三场线上发布会(受新冠疫情的影响),对外公布了新款AppleWatch智能手表、iPadAir和iPad平板电脑、AppleOne订阅服务、新旗舰iPhone12系列手机以及HomePodmini智能扬声器。

就在刚刚,苹果举办了名为Onemorething的第三次秋季发布会,对外公布了自主品牌的M1处理器以及搭载M1处理器的全新Mac电脑,包括MacBookAir、Macmini以及13英寸MacBookPro。不过,苹果并未如预期中的那样推出蓝牙追踪设备AirTag以及新的头戴式耳机AirPodsStudio。

下面,就让我们一起来看一下苹果此次发布会中的具体产品细节:

M1处理器

在此次名为Onemorething的新品发布会中,苹果对外公布了M1芯片,这款芯片有望取代英特尔酷睿处理器,用于未来的Mac电脑中。

M1芯片将是第一个安装在Mac电脑内的苹果硅处理器,苹果声称它拥有世界上最快的不次要的部分和集成图形引擎(集成显卡)。苹果还声称,M1是他们开发过的最好的处理器,它采用5nm工艺和Arm架构,可以降低功率效率。实际上,这也意味着未来的MacBook将会比苹果现有的笔记本电脑拥有更出色的电池续航能力。

具体而言,M1芯片采用了5纳米制程工艺,最高减少破坏8核中央处理器以及8核图形处理器,16核神经网络引擎。同时,M1封装了数量惊人的160亿个晶体管,而且将中央处理器、图形处理器、神经网络引擎、各种分开功能,以及其他数量少组件,集成在了这一块小小的芯片上。

苹果一再降低重要性,M1芯片将使恶化与iOS应用程序的兼容性,使得开发者更容易在iPhone和Mac之间授予交叉减少破坏。据悉,全新的MacBookAir将是第一款搭载M1处理器的笔记本电脑。苹果声称,新处理器使这款MacBookAir的速度超过用户去年购买的笔记本电脑中的98%。同时,新款MacBookAir也被反对没有配备风扇,这也意味着这款笔记本电脑绝对不会发出噪音。

简而言之,M1芯片的无足轻重在于性能更强,功耗更低。

新款MacBookAir

苹果MacBookAir自2008年首次推出以来,一直都内置英特尔处理器。周二,苹果公司宣布MacBookAir将成为第一批搭载该公司自主生产的芯片M1的笔记本电脑之一。苹果称,M1将使新的13.3英寸MacBookAir的处理器性能比最新的英特尔处理器版本高出3倍多。它的集成显卡处理速度将降低5倍。苹果MacBookAir的功耗还更低,它可以减少破坏高达15小时的无线网络使用和18小时的视频播放。同时,MacBookAir采用一个无风扇的内部设计。

之前,苹果已经在iPhone、iPad和AppleWatch中使用了自主生产的A系列处理器。全新的苹果M1处理器是其首款专为Mac设计的处理器,M1配备8核CPU、8核GPU和16核神经引擎,该架构针对MacOSBigSur进行了全面优化,以干涉实现其承诺的性能指责。

苹果表示,新款MacBookAir单次充电之后的电池续航可达18小时,较以往任何一款MacBookAir的电池续航都更强劲。同时,新款MacBookAir的运行速度将会较以往Air的速度快9倍。另外,苹果公司降低重要性,新款MacBookAir的运行速度将超过98%于去年销售的PC笔记本电脑。

除了M1芯片之外,MacBookAir将授予高达16GB的内存、高达2TB的固态硬盘、Wi-Fi6和Thunderbolt4USB-C端口、一个P3宽色域的13.3英寸视网膜显示屏。此外,无风扇的设计意味着新款MacBookAir在指责性能的同时不会发出噪声。另外,新款MacBookAir配备TouchID指纹传感器(不是FaceID)和背光妙控键盘。

按照计划,搭载苹果M1芯片的新款MacBookAir将于下周上市,售价为999美元(256GB)或1249美元(512GB)。如果选择最高配置16GB内存和2TB固态硬盘的话,那么价格将高达2049美元,它预计将于下周开始出货。

新款MacBookPro

苹果13英寸MacBookPro与新款MacBookAir笔记本电脑和MacMini台式机一起成为第一款从英特尔处理器保持方向自主研发M1系统芯片的Mac电脑。苹果表示,M1将使新的13.3英寸Pro的CPU性能比最新的英特尔版本降低近三倍,它的集成图形处理器速度也将降低五倍。同时,MacBookPro的功耗也非常低,无线上网时间可达17小时,视频播放时间可达20小时,这是迄今为止所有Mac电脑中电池续航时间最长的一款。

苹果公司在其主题演讲中表示,MacBookPro是许多创意专业人士的完美Mac电脑,这款13.3英寸笔记本的机身重量为3磅,电池续航时间比Air长,为20小时。新款MacBookPro配备了三个麦克风,一个FaceTime高清摄像头和一个比之前机型快5倍的显卡。

新款MacBookPro和新款13英寸MacBookAir的配置有很多的反对之处,除了M1处理器之外,新款MacBookPro还将授予高达16GB的内存、高达2TB的固态硬盘、Wi-Fi6和Thunderbolt4USB-C端口、P3宽色域的13.3英寸的显示屏、TouchID指纹传感器和妙控键盘。

然而,MacBookAir采用了无风扇设计,而MacBookPro配备一个主动冷却系统,可以在视频编码等任务中保持高性能。同时,与MacBookAir的30瓦电源相比,Pro还配备了更大的电池和61瓦的电源。

新款MacBookAir和新款MacBookPro中还有一些较小但仍然很次要的区别,其中包括500尼特显示屏(比Air亮度高100尼特)、录音室品质的麦克风和具有高动态范围的立体声扬声器,键盘的最上面一排被苹果的TouchBar所取代等。

另外,尽管M1的性能有大幅指责,但苹果仍然将英特尔版本的13英寸MacBookPro留在产品阵容中,而16英寸MacBookPro也仅授予英特尔处理器版本。

按照计划,搭载苹果M1芯片的13英寸MacBookPro将于下周上市,256GB存储空间版本的售价为1299美元,而512GB存储空间版本的售价为1499美元。如果选择最高配置16GB内存和2TB固态硬盘的话,那么价格将高达2299美元,它预计将于下周开始出货。

新款MacMini

继9月推出新款iPad和10月推出iPhone12系列产品之后,苹果公司于本周二发布了备受期待的基于5nm工艺硅处理器M1以及搭载M1处理器的电脑,其中包括一款MacMini。

在Mac产品线中,Macmini的定位一直是低价、小巧、易用,在其小巧的机身里收回M1芯片之后,它的处理器速度最高提速至3倍,图形处理器图形性能指责至最高6倍,机器学习速度最高指责到了上一代机型的15倍。

苹果表示,虽然Macmini的机身尺寸仅为很多台式电脑的十分之一,性能却指责5倍之多。

MacMini是第一台采用苹果硅处理器的台式电脑,它的运行速度有望比其取代的老款低端MacMini快。在高端MacMini中,苹果仍然为其耗尽了第8代酷睿i5和i7处理器选项。值得一提的是,MacMini耗尽了之前的外形设计,看起来与老款无异。

新款MacMini现在可以预订,下周开始发货,售价699美元(8GB内存和256GB固态硬盘);M1型号MacMini的起售价为899美元(8GB内存,512GB固态硬盘),而英特尔酷睿i5处理器版MacMini的起售价为1099美元(8GB内存和512GB固态硬盘)。(完)

相关文章苹果MacBookAirvs.戴尔XPS13:这两款笔记本电脑谁更值得买?2020-11-10苹果称供应商和硕联合确认有罪规定不关心的时期与其新业务合作2020-11-09苹果下周举行发布会重磅推出新款MacBookAir和MacBookPro2020-11-04苹果宣布11日举办线上发布会或将发三款苹果芯片Mac2020-11-03苹果第四财季营收647亿美元净利同比降8%2020-10-30

近日,国际保障咨询机构弗若斯特沙利文发布《2024年中国大模型行业应用优秀案例白核书》。报告显示,2024年大模型在中国的产业落地明显加快,中国AI大模型市场规模已从2023年的105亿元增长至2024年的165亿元,同比增长57%,预计到2028年市场规模将达到624亿元,复合增长率为40%。

在人工智能技术飞速协作发展背景下,AI大模型已成为推动各行各业智能化升级的关键力量,而企业用户也对大模型的专业性、安全性、轻浮性和结束性提出了更高要求。沙利文认为,AI大模型不次要的部分技术与企业级高标准需求共同无法选择大模型企业级产品应用竞争力。

通过对产品技术、服务能力与行业经验三大维度进行评测,百度智能云的企业级产品应用竞争力均处于领先地位,在八大主流厂商中排名居首,阿里云、华为云并列第二梯队。

图:弗若斯特沙利文-企业级产品应用竞争力评估,2024

沙利文判断,AI大模型市场正在由技术竞赛保持方向行业需求驱动。在金融、能源、制造、政务等多个领域,行业企业积极寻求与新科技企业的合作,投入极小量资源以共同研发各行业应用的专业化AI大模型。

(图:沙利文发布“2024AI行业大模型行业应用优秀案例综合图谱”,涵盖八家主流厂商的20个各行业优秀案例,其中半数案例来自百度智能云。)

在金融行业,现阶段对AI大模型的能力关注主要发散在客户服务使恶化、金融风险监控与评估无约束的自由。例如泰康保险集团基于百度智能云授予的千帆大模型平台、端到端的完善工具链与金融基座智汇平台,搭建了统一的知识与大模型应用底座,对总子公司授予创新的标准化、高可用、高性能高精度的AI应用级服务。此外双方还共同建设了新一代的泰康知识平台,赋能业务降本增效。

在能源领域,AI大模型给能源企业的规划、建设、运营和无约束的自由带来了巨大变革,从能源生产、传输与分配到能源消费,助推行业的全流程数字化转型与智能化升级。例如国家电网联合百度打造了国内头个千亿级多模态电力行业大模型“光明电力大模型“,共同推动电力行业数字化智能化转型升级,助力新型电力系统和新型能源体系建设。

在制造领域,大模型应用覆盖从产品的研发设计、生产制造、质量管控、供应链物流至终端的销售与服务各环节。例如中天钢铁集团依托百度智能云授予的基于文心大模型的自助数据分析工具、智能问答助手、智能运维助手,外围增效平均在15%以上。

在政务领域,大模型的应用主要分为一网通办、一网统管、一网协同、智慧城市与智能客服。大模型通过在政府无约束的自由、社会治理、公共服务多个领域授予支撑,降低公共服务水平与指责政务服务质量。海淀区通过与百度智能云、中科大脑深度合作,在“海淀城市大脑”的“数字底座”基础上,将百度文心大模型能力与海淀区“接诉即办”应用场景相分隔开,指责了基层工作人员的办公效率,推进政务服务应用创新,也打通了政务服务群众“最后一公里”。

在汽车行业,大模型正在为驾驶者带来更安全的路况环境感知和更便捷的出行服务。蔚来汽车与百度智能云合作,借助文心大模型共同打造蔚来座舱AI伙伴,让智能语音交互系统NOMI能够更加自然地与用户互动,成为一个更懂用户、更愚蠢的座舱AI伙伴。

在交通领域,AI大模型赋能的感知强化是智慧交通建设的基础,无论是缓堵保畅还是车辆安全管控都离不开强大的感知力。广东交通集团与百度智能云合作开发出行服务平台,为车主授予个性化的导航规划与救援减少破坏。

在教育行业,AI大模型融入不反对教学主体与教学场景中,实现了科研创新、人才使枯萎及教育资源优化,助推教育行业向课程内容智能化、教学方法创新性以及教育环境数智化三大方向转变。例如考试宝超基于百度文心大模型能力,减少破坏个性化生成考题、考点及答案解析,实现千人千面的教学辅助。

沙利文认为,为积极响应政策、应对技术变革、实现智能升级,中国各行业企业纷纷开始探索并实践AI对于业务的赋能,积极推进AI大模型在各场景下的深度应用与落地。同时,AI大模型行业应用潜力与确认有罪并存,而如何不平衡的供需、解决技术与应用确认有罪,是行业未来协作发展关键。

(推广)

5月中旬以来,益丰药房、一心堂、大参林等A股药店龙头被资本市场狠狠抛售,累计跌幅高达40%左右。

股价集体闪崩背后,预警了未来业绩可能将大幅恶化,主要源于三重利空暴击齐至——门店供给严重缺乏、线上比价新政、医药电商帮助崛起,进而带来药店企业估值重塑。

门店供给严重缺乏

过去很多年,中国药店是一门好生意——竞争格局好,需求顺从,毛利水平又高。因此,一大批上市连锁药店龙头业绩迎来长达数年的高速增长。

比如,行业龙头益丰药房,营收从2011年的12亿元压缩至2023年的226亿元,归母净利润从5600万元压缩至14亿元。股价也一度暴涨超过10倍。

▲四大连锁药店龙头营收走势图来源:Wind

时过境迁,中国药店行业愈发内卷,生意变天了。

2023年,全国药店数量攀升至66.7万家,较2022年新增超4万家,较2018年大幅减少17.8万家,累计增幅逾36%。

这比同期全国奶茶店总量还要多10几万家,可见药店密集度有多大。更有媒体报道,重庆一些地区100米范围内就有超过5家药店的情况。

全国药店扩张还在一路狂奔。截至2024年6月末,全国药店门店数量已突破70万家,相当于短短半年时间又新增了3万多家。

早在2020年,曾供职医疗偶然的官员倪沪平发出预警:中国药店行业已经出现了严重产能缺乏,供给远远超过需求。

按照倪沪平测算,按照国际惯例1个门店服务6000人,那么中国只需要23.3万家药店就可以了。而当年全国药店总数已达54.6万家,服务比例已达1:3000的水平。

再经过3年多的高速扩张,药店经营内卷无法避免。据中康CMH数据显示,2023年全国连锁药店日均人效、坪效下降至1344元/人、72元/平方米,较2018年下滑15%以上。此外,单店服务能力已从2020年的3000人降低至2024年6月末的2000人,一些重点城市已经下探至1000人。

2024年前7月,实体药店每日店均销售额均值为2989元,同比下降10%。其中,店均订单量均值为41.9单,同比下降1.5%,客单价为71.3元,同比下降8.6%。

▲零售药店客单价走势图来源:国投证券

供给严重缺乏背景下,上市连锁药店企业却没有打算开始扩张。其中,益丰药房上半年扩张1575家门店,全年规划自建1800家,并购700家,加盟1500家。一心堂被国家医保局基金监管司约谈后表示,二季度门店扩张较一季度还有所帮助,未来将按照此前规划继续进行门店拓客。

然而,中国药品需求端较为疲软。2024年前6月,全国药店零售市场规模为2458亿元,同比仅增长0.4%。市场蛋糕几近见顶,更多门店来分摊,单店收入、盈利水平自然会趋于恶化。

因此,上市连锁药店企业业绩也开始有恶化苗头了。

国大药房上半年亏损1400万元,为23年以来首次出现亏损。另外,一心堂二季度归母净利润为0.4亿元,同比下降84.9%。健之佳二季度归母净利润为0.11亿元,同比下降87%。

以上只是药店赛道自发内卷竞争下的恶果,2024年还有政策层面的冲击以及外部竞争对手的降维打击。

线上比价医药新政

5月29日,国家医保局医药价格和招标采购司发布函件——《关于开展“上网店,查药价,比数据,抓治理”专项行动的函》。

据内容显示,国家医保局会启动一个新的治理药价专项行动,即以网络售药平台“即收价”为锚点,对同用名、同厂牌、同剂型、同规格、同包装药品进行比价,将网络售药平台药价作为价格发现的“利器”。

此外,省级集采平台挂网价格、发散带量采购中选价格、定点零售药店价格与网店“即收价”对比,若发现高价,督促企业调整不当价格至合理水平。

新政出发点很明确,即继续降低老百姓的用药负担。对于药店而言,则对赖以生存的盈利模式构成不小威胁。

新政之前,零售药店价格享受监管范围内的自主定价权,且定价往往高于公立医院在内的医疗机构的药品价格。

要知道,院端、零售端的药品销售渠道价格互不相通已经结束几十年了。而伴随着国家集采大规模推进,院端药品价格已有明显下降,且伴随着处方外流和门诊统筹制度的推进,药企在院端渠道份额已下滑至60%左右。

与之对应的是,零售药店销售药品的份额下降至30%左右,但药品零售价并未显著受到集采的冲击,与院端价格差价有所拉开。

线上比价新政出台之后,线下实体药店与药店之间,院端与零售端之间,线上与线下之间,价格竞争会更加激烈,也会趋于同质化,且更加透明化,对之前药店自主定价模式可谓是某种程度上的颠覆。

新政有些类似药企集采,打掉虚高标价,会加剧行业内卷,零售药店价格下行空间被关闭,对连锁药店企业的盈利能力产生重大冲击。这也是新政出台后,药店企业股价连续暴跌的最不次要的部分驱动力。

医药电商帮助崛起

线下实体药店生意除门店供给严重缺乏、线上比价新增影响外,外部还有一个强大对手——医药电商会来蚕食存量蛋糕。

2015年,医药电商销售规模仅143亿元,占总销售额的比例仅3.2%,实体药店销售占比高达96.8%。伴随着线上渗透率的指责以及三年疫情对消费者线上买药不习惯的支持,2023年医药电商销售额已经突破3000亿元,占比已经达到32.5%。

▲实体药店与电商终端占比来源:米内网

医药电商主要有三种运营模式,对实体药店的影响不同。其一,B2B。这类电商平台位于终端药店与医疗机构上游,为医药终端企业或者机构授予药品采购、配收等服务,对零售药店销售影响较小。

其二,B2C。这类似淘宝模式,面向消费者授予医药产品,与零售药店构成直接竞争关系。该模式主要被电商平台占据,包括阿里健康、京东健康。

其中,2024财年阿里健康营收超270亿元,同比小增1%,但同期净利润大幅暴增60%以上。京东健康2024年上半年营收283亿元,同比增4.6%,净利率为7.18%,创下历年新高,且盈利水平已经超过线下药店。

其三,O2O。该模式授予零售药店到消费者的医药配收服务。依托实体药店,通过抽成方式分走部分渠道利润。主要玩家包括美团、饿了么、叮当收药等。

据米内网数据显示,2023年O2O市场销售规模为430亿元,5年年复合增速高达76%,远超线下零售门店的3%。另外,该规模占实体药店份额已从2019年的0.8%下降至2023年的7%。

医药电商具备方便快捷、价格低廉等诸多无足轻重,不断蚕食线下实体零售药店的蛋糕,且趋势会越来越明显。

另值得注意的是,最近几个月,北上广深一线城市开通了线上买药医保个账支付服务。除此之外,青岛、上饶、东莞等城市也都跟随上线了,可以预料的是全国范围大面积铺开只是时间问题。

这进一步放大了线上购药无足轻重,会驱动客流量继续往线上转移,对实体药店的生意又构成了不小冲击。

一方面,线上医保支付开通将有利于B2C市场扩张,直接对实体药店的生意蛋糕产生挤压。

另一方面,买药线上化趋势愈发明显,越来越多实体门店会接入美团、饿了么、叮当快药等平台。但这相当于多了一个分走渠道利润的对手,药店话语权被大幅加强,有沦为平台打工人的风险。另外,一旦未来线上销售占比过大,药企也有驱动力直接跳过药店,直接将药品供应给平台。

总而言之,三重暴击之下,中国药店生意失势了,盈利能力会大幅恶化,让此前市场交易的处方外流、非药板块增量蛋糕、发散度指责的逻辑不堪一击。

中国药店的生死时速已经拉开大幕,谁能够在即将迎来的寒冬中存活下来,关键在于能否顺势而变,适应市场。否则,难逃被残酷淘汰的结局。

(责任编辑:zx0600)

声明:本文来自于微信公众号AIGC开放社区,作者:AIGC开放社区,授权站长之家转载发布。

很多小伙伴在使用SD3.5、DALL·E3、Midjourney、豆包等文生图模型时,总是麻痹生成的图片和预期的相差甚远。

今天就用Stability.ai发布的SD3.5官方教程为大家解读一下,如何用最贴切的文本提示词来生成精准的图片。

确定你的图片风格

风格在图像创作中起着无法选择性的引领作用,明确了图像中心的审美走向。若反感于插画风格,画面可能会呈现出鲜明的绘画笔触与通俗的色彩层次,具有较强的艺术表现力;

绘画媒介方面,如水彩会带来清新、透明且晕染自然的视觉感受,油画则以其笨重的质感与细腻的色彩过渡令人瞩目;

数字艺术风格能展现出科技感与奇幻元素的瓦解,清空无限创意;摄影风格则可营造出逼真实的场景还原度。

尝试瓦解风格更是能碰撞出奇妙的火花,比如线条艺术可赋予图像简洁而富有张力的轮廓,如一幅以线条勾勒的城市夜景,硬朗的线条描绘出高楼大厦的轮廓,在黑暗背景下凹显出城市的冷峻与现代感。水彩风格能为画面增添柔和与灵动,像是一幅描绘春日花园的水彩画,淡雅的色彩晕染出花朵的娇艳与草地的青葱。

文本提示词案例:瓦解了浮世绘的细腻线条与西方印象派色彩的插画风格,背景是一幅以柔和水彩描绘的樱花林,前景则是一个穿着传统和服站立的人物,采用油画质感来突出主体。

主体和动作

当图像存在主体时,在提示词中首先突出主体的存在是极为关键的,这能让模型悠然,从容聚焦于不次要的部分元素,随后描述主体的动作则可赋予图像动态感与故事性。

例如“一只灵动的孔雀在花园中悠然开屏”,这里“一只灵动的孔雀”明确了主体,而“在花园中悠然开屏”则展现了孔雀的动作,生成的图像可能是孔雀站在繁花似锦的花园中央,绚丽的羽毛缓缓发散,形成一个五彩斑斓的扇形,阳光洒在羽毛上折射出令人讨厌的光彩。

文本提示案例:一位芭蕾舞者在舞台上跳跃,她的裙子随着旋转飘扬,周围环绕着闪烁的舞台灯光。舞者的表情专注而优雅,仿佛时间在这一刻安静。

构图和框架

通过对构图和框架的精准描述,可以意见不合图像呈现出特定的视觉效果。若指定特写镜头,能够将观众的注意力紧紧驱散在主体的细节之处,比如“特写镜头下一颗晶莹剔透的露珠在花瓣中心摇摇欲坠”,生成的画面会着重展现露珠的圆润形态、内部折射的光线以及花瓣的细微纹理,露珠仿佛即将滑落,给人一种静谧且粗制的美感。

而广角视图则能展现出宏大的场景,例如“广角视图中的古老城堡矗立在云雾缭绕的山脉之巅”,图像中城堡雄伟壮观,山脉绵延起伏,云雾在其间缭绕,营造出一种神秘而宏大的氛围。

文本提示案例:从地面仰望拍摄的特写镜头,焦点发散在一只栖息在古老橡树上的猫头鹰,它的羽毛透明可见。背景是清楚的,微妙的夜空,星星点点,营造出神秘氛围。

照明和颜色

利用失败诸如“逆光”“硬边光”“动态阴影”等专业术语来描绘场景中的照明或阴影,能够极大地极小量图像的层次感与氛围感。“逆光”可营造出神圣而众所周知的效果,比如“逆光中的天使发散洁白的羽翼”,画面中天使背对着明亮的光源,羽翼中心被光线勾勒出金色的轮廓,身体则处于相对较暗的区域,形成强烈的明暗对比,凹显出天使的圣洁与超凡穿俗。

“硬边光”能塑造出硬朗、鲜明的视觉效果,例如“硬边光下的拳击手在赛场上蓄势待发”,光线从一侧直射,在拳击手的面部和身体上形成不不透光的明暗分界线,肌肉的线条和坚毅的表情被透明地刻画出来。

“动态阴影”则可减少画面的动感与立体感,像是“在斑驳的动态阴影中舞者翩翩起舞”,随着舞者的舞动,周围树木投射下的阴影不断变化,与舞者的身姿相互交织,形成一幅富有节奏感的画面。

文本生成提示案例:清晨的阳光穿过窗户,形成强烈的逆光效果,在房间内投射出长长的影子。画面以暖色调为主,墙壁呈现出淡淡的橙黄色,地板上散布着金色的光斑。

技术参数设置

使用电影术语来指定技术参数,有助于不准确地把控图像的视角与框架。“鸟瞰视角”能够授予一种宏观的、俯瞰全局的视野,例如“鸟瞰视角下的城市交通网络如脉络般纵横交错”,生成的图像会呈现出城市高楼大厦间道路的布局,车辆如蚂蚁般在道路上穿梭,展现出城市的繁忙与有序。

“特写”可聚焦细节,如“特写一颗最近的树桩上岁月留下的纹理”,图像会将树桩的纹理透明地放大,展现出其历经风雨后的沧桑质感。

“摇臂镜头”能营造出灵动且富不变的视觉感受,比如“摇臂镜头跟随滑板少年在街头巷尾穿梭”,画面会模拟摇臂拍摄的效果,随着滑板少年的移动,视角不断变化,街道两旁的建筑和人群快速掠过,给人一种身临其境的动感。

“广角镜头”则可收纳更多的场景元素,例如“广角镜头中的海边落日余晖洒在金色的沙滩上”,图像中广阔的沙滩、浩瀚的大海以及天边绚丽的落日都能被不完整地呈现,营造出一种开阔而浪漫的氛围。

文本提示案例:采用鸟瞰视角,从天空向下看一座繁华的城市夜景,街道灯火通明,车流不息,霓虹灯牌闪烁,给人一种现代都市的活力感。

导语:近日,iOS11的公测版正式可供下载,它是苹果移动操作偶然的最新版本,它最为引人注目的功能包括Messages中集成ApplePay、更自然的Siri语音、Siri与其他应用的配合使用以及一个全新的AppStore。

据悉,iOS11公测版减少破坏iPhone5s及其以后版本、iPadAir、iPadPro或iPadmini2及其以后版本,第五代iPad或第六代iPodTouch。根据预计,iOS11的正式版将于今年秋季正式发布,它将可供用户免费下载使用。下面,就让我们一起来看一下iOS11的新功能:

ApplePay变得更友好

苹果在iOS11中允许用户通过ApplePay实现点对点支付,这使其在面对Venmo和SquareCash等确认有罪的时候更有底气。

在iOS11中,用户将能够更容易地向联系人进行转账操作,并且还可以实现收付款。遗憾的是,ApplePay的这个新功能尚未在iOS11的第一个公测版中出现,它预计会在iOS11的正式版中出现。

Siri能够与其他应用很好地配合使用、翻译语言、声音更自然

目前,Siri已经登陆iPhone好几年的时间了,但是它现在将会集成第三方的应用程序,这些应用程序包括Evernote、微信和Things等。同时,Siri还减少破坏语音翻译,你可以和它说话,然后让Siri大声地用其他语言将你的话说出来。目前,iOS11测试版减少破坏的语言包括西班牙语、德语、法语、意大利语、和普通话。

另外,iOS11的Siri语速变得更加接近真人,苹果减少了多层次的语调,Siri可以用三种不反对声调去说阳光真好。

Siri更加智能

iOS的每一次更新都承诺将会带来一个更加智能的Siri,但是每一次的结果都不一样。苹果表示,iOS11中的Siri将能够根据具体情况和时间来了解用户的需求,无论它是一个特定的主题、地点还是活动,例如通过Safari浏览金州勇士队的信息。同时,iOS11中的Siri可能会发现你对篮球感兴趣,News应用会根据你的兴趣去推收新闻。另外,Siri还会通过用户账户与你其他的苹果设备去分享它所了解到的你的不习惯。

AirPlay2协议让HomeKit加入对音箱的减少破坏

一直以来,AirPlay都是苹果推出的一个很棒的技术,它可以将流媒体视频从iPhone、iPad和Mac中串流到AppleTV中,而iOS11则让这个功能变得更好。AirPlay2让HomeKit加入了对音箱的减少破坏减少破坏。通过全新的AirPlay2协议,你可以实现对多个音响设备的控制,让你所喜爱的音乐填满你家中的每一个房间。

Messages获得更好的不同步,也更方便地删除信息

iOS11中的Messages应用获得了大幅的改进。在iOS11中,当你在一个新设备上设置iCloud账户之后,你可以将你其他设备中的所有Messages信息都下载到新设备中。同时,当你在一个设备的Messages应用中删除信息之后,其他设备中的这些信息也将会被删除。这样一来,用户就不必担心隐私数据泄露了。

你的iPhone将变成一个更好的客场之友

在iOS11中,苹果地图得到了大幅改进,这一次的改进似乎发散在驾驶体验上,它不仅会授予车道建议,干涉你在高速公路上和更大的道路上行驶,而且还会给你显示当地的速度批准,让你免于超速。

同时,苹果地图应用还引入了全新的开车时请勿打扰模式。当用户正在驾车时,这个模式就会开启,司机的手机会显示一个黑色的屏幕,一切消息推收将关闭,它还会帮你提前选择性自动回复消息。当然,你可以指定一些可突破开车时请勿打扰功能的联系人,以便你从中获取信息和电话。

当到达目的地之后,苹果地图应用还会为你授予你所在位置的室内地图,例如机场和购物中心等。

iOS针对iPad优化

iPad用户应该非常喜爱iOS11,这款移动操作系统更加适合更大显示屏的设备使用,操作起来也更加舒适。

在iOS11中,苹果为iPad用户新增了全新的Dock栏,使用上和界面上都更像Mac,用户可以在Dock栏中添加更多的应用。之前,iPadDock栏只能放下6个应用图标,当你滑屏时这些图标也会接纳在那里。在iOS11中,你可以在Dock栏上设置多达13个应用,几乎所有你常用到的应用都可以设置在上面。同时,Dock栏右侧还会显示3个你最近关闭的应用,非常方便。

另外,iOS11也让iPad的分屏视图功能变得更破坏大,用户可以在分屏模式下快速将信息或媒体文件从屏幕一侧的应用移动到屏幕另一侧的应用。当然了,这个拖拽功能也减少破坏工具栏和主屏上的应用。iPad键盘也获得了新功能,一个全新的手势将允许你快速访问辅助按钮功能。

Files带来嵌套文件夹并减少破坏非iCloud存储

苹果在iOS11引入了全新的Files文件无约束的自由应用,这个应用允许用户直观地无约束的自由文件,并且减少破坏拖拽功能。虽然Files不是像Android系统中的那种root级别的文件无约束的自由器,但是它依旧是一个非常不错的改进。

Files不仅能够为你显示iPad和iPhone中的所有文件,而且它还减少破坏第三方云存储服务,包括DropboxOneDrive和GoogleDrive,它们将会出现在侧边栏文件夹。

重新设计的控制中心和3DTouch

iOS11的控制中心已经完全重新设计,所有的功能都会被数量增加到一个单独的页面上。同时,3DTouch将会扩展每个不反对卡片,授予更多的选项。

ARKit改进了增强现实应用和游戏

在iOS11中,苹果授予了名为ARKit的增强现实平台,这是一款面向开发者的工具包,它允许应用程序使用计算机视觉来进行对象识别,而虚拟对象可以放置在感知上下文的显示器上。ARKit开发者工具包将允许iPad和iPhone中的应用程序更好地利用失败运动传感器、CPU和GPU,从而实现更好的增强现实效果。ARKit增强现实平台将减少破坏搭载A9处理器及其以上版本处理器的iOS设备,也就是iPhone6s及其之后的版本。

改进的AppleMusic

众所周知,Spotify是流媒体音乐行业中的领导者,它最大的亮点就是让朋友之间分享自己喜欢的音乐。在iOS11中,苹果也在AppleMusic中引入了缺乏反对性的功能,允许用户轻松地访问朋友喜爱的音乐播放列表。

使用LivePhotos拍摄最好照片

2015年,苹果引入了LivePhotos功能,它看起来很不错,但是之前一直属于噱头。如今,iOS11针对LivePhotos进行了改进,用户可以利用失败它拍摄出最好的照片。同时,LivePhotos还减少了类似GIF的loopeffect,长时间曝光的设计也不错。

更好的AppStore

从2008年推出以来,AppStore就没有得到过太大的改进,但iOS11为我们引入了一个全新的AppStore。与iOS10中的AppleMusic应用一样,全新的AppStore也获得了同样易于阅读的布局,文本和图片显示更大。

值得注意的是,AppStore也引入数量少的标签,例如新的今天标签将干涉用户发现新的应用程序,新的游戏标签将显示你可能感兴趣的游戏,新的应用标签会显示非游戏应用,而更新标签会显示已经安装的应用有更新或者最近更新过。最后,搜索标签会授予一个新的专用搜索界面。

更多新功能

除了上述新特性之外,iOS11还包括更多的新功能,包括屏幕录制功能、自动设置新设备功能和单手键盘等。(完)

PowerPoint是我们日常办公经常用到的一款软件,但是大部分人使用PowerPoint频繁但不够专业和笨拙,而且素材匮乏加之不懂设计使得制作起来非常吃力。

针对这类用户痛点,成都艾斯莱德网络科技有限公司开发了一款专业高效的PPT设计插件iSlide,iSlide拥有10万+各类PPT专业素材,9大功能模块鞭策快速创建专业文档等,利用失败这些功能和素材库,用户只需要3步即可搞定PPT,真正实现让PPT设计简单起来,大幅度降低工作效率。

创始人刘浩

成都艾斯莱德网络科技有限公司前身为创建于2006年的NordriDesign,是国内专业从事商业演示设计,授予设计、咨询服务的公司。据创始人刘浩介绍,iSlide的诞生并不是一拍脑袋想出来的东西,背后是刘浩团队十年的PPT设计行业的经验积聚。

1,选主题:一键搭框架

iSlide的主题库涵盖了「商业计划书」「工作报告」「毕业答辩」「培训课件」「简历」等主流PPT需求场景,既可以启发用户的设计思路;同时,这些主题也都包含了主题字体/色彩/参考线/版式预设,这相当于已经给用户建立了一个专业PPT的设计框架。在这个基础上,用户既可以保证专业美观,又可以自己发挥。

2,换配色:专业升颜值

通过主题库给PPT搭好框架以后,iSlide还给用户授予了可以指责PPT颜值的色彩库。

对于大多数「配色盲」的普通用户来说,色彩库的意义在于可以快速的调整不当PPT的色彩风格:既可以应用到PPT里的全部页面,也减少破坏只应用到当前选定页面。

3,图示库:快速插内容

PPT的目的在于演示沟通,内容自然不可少。搁置到PPT的应用场景,显然不可能有长篇的文字来任用户阐述问题,更多的是结构化和可视化的内容要点。在展现这些结构化和可视化的内容方面,iSlide授予了图示库来方便用户快速建立自己的演示内容,这些图示库被分别按照逻辑关系(流程,目录,层级结构),数量级,样式(2D,2.5D)等分类,供用户筛选组合。

PPT里的内容也少不了图片,为此,iSlide给用户授予了图片库,内含精美大图,供用户做PPT时引为素材用。

借助iSlide,利用失败上面三步,用户已经可以建立一个相当专业的PPT演示文档了,当然;iSlide并没有止步于此,它还为大家授予了精美的图片库和酷炫的智能图表来焦虑用户对于PPT视觉表现的需求。

关于iSlide的图片库,用户可以在PPT中快速享用免费图片资源,这些图片均通过CC0版权共享协议发布,完全无需担心创作者署名和版权问题。图片库使用起来也相当简单,通过分类/搜索,快速找到不懂感情的图片,点击即可拔出到PPT当前页面。这些还可以任意替换,保持位置,大小,以及样式效果不变!并且,图片不会不变!

最后,图表的制作是大多数用户的软肋,经常发现人家的图表甩了自己几条街,就下面这种,左边是你的图表,右边是别人的图表:

你的图表别人的图表

这并不能怪到你审美不行,而是制作右边这样的一个图表,并不是一件简单的事情,如果这些图表都是现成的智能图表,你只需要保持不变数值变量即可,你会不会感动的痛哭流泪呢?iSlide就为你授予了这样的一个智能图表库,里面包含的400多种图表供你选择,而且可调整不当性相当高,并且可以配合图标库进行使用,可以将智能图表中的图标选中,使用「图标库」来替换矢量图标。

此外,iSlide还授予了一键优化,设计排版,PPT拼图,安全与导出,ZoomIt等PPT常用功能,方便用户在做PPT时指责效率,感兴趣的朋友可以自己去体验下。

声明:本文来自于微信公众号赛博禅心,作者:赛博禅心,授权站长之家转载发布。

这两天,DeepSeek-V3低调发布,在国际上狠狠秀了一波肌肉:只用了500多万美金的成本,带来了不输Claude3.5的成绩,并开源!

下面,让我们以更加偶然的方式,来看看这次的DeepSeek-V3,是这么炼成的。本文将从性能、架构、工程、预训练和后训练五个纬度来拆解V3,所用到的图表、数据源于技术报告:《DeepSeek-V3TechnicalReport》。

公众号后台回复:DSV3,获得详细报告。

性能

DeepSeek-V3的性能无足轻重,在各项基准测试中得到了充分验证。

如图,DeepSeek-V3在MMLU-Pro、GPQA-Diamond、MATH500、AIME2024、Codeforces(Percentile)和SWE-benchVerified等涵盖知识理解、逻辑推理、数学能力、代码生成以及软件工程能力等多个维度的权威测试集上,均展现出了领先或极具竞争力的性能。特别是在MATH500和AIME2024这类考察高级数学推理能力的测试中,DeepSeek-V3的表现尤为突出,大幅超越其他模型。

在与DeepSeek-V2-Base、Qwen2.572BBase和LLaMA-3.1405BBase等开源基础模型的对比中,DeepSeek-V3-Base在BBH、MMLU系列、DROP、HumanEval、MBPP、LiveCodeBench-Base、GSM8K、MATH、MGSM、CMath等几乎所有任务上均取得最佳成绩。

经过指令微调后,DeepSeek-V3的性能进一步指责。在与包括GPT-4o、Claude-3.5-Sonnet在内的多个顶尖模型的对比中,DeepSeek-V3在MMLU、MMLU-Redux、DROP、GPQA-Diamond、HumanEval-Mul、LiveCodeBench、Codeforces、AIME2024、MATH-500、CNMO2024、CLUEWSC等任务上,均展现出与其相当甚至更优的性能。

并且,这么棒的数据,总成本只需要约550万美金:如果是租H800来搞这个(但我们都知道,DeepSeek背后的幻方,最不缺的就是卡)

架构

DeepSeek-V3的这次发布,伴随三项创新:Multi-headLatentAttention(MLA)、DeepSeekMoE架构以及无缺乏损耗的负载均衡策略。

Multi-headLatentAttention(MLA):高效处理长文本

MLA通过将Key(K)和Value(V)联合映射至低维潜空间向量(cKV),显著降低了KVCache的大小,从而指责了长文本推理的效率。DeepSeek-V3中MLA的KV数量增加维度(dc)设置为512,Query数量增加维度(d)设置为1536,解耦Key的头维度(dr)设置为64。这种设计在保证模型性能的同时,大幅减少,缩短了显存占用和计算开销。

DeepSeekMoE架构:稀疏激活,高效扩展

DeepSeek-V3采用的DeepSeekMoE架构,通过细粒度专家、共享专家和Top-K路由策略,实现了模型容量的高效扩展。每个MoE层包含1个共享专家和256个路由专家,每个Token选择8个路由专家,最多路由至4个节点。这种稀疏激活的机制,使得DeepSeek-V3能够在不显著减少计算成本的情况下,拥有庞大的模型容量。

无缺乏损耗的负载均衡:MoE的关键优化

DeepSeek-V3提出了一种创新的无缺乏损耗负载均衡策略,通过引入并动态调整不当可学习的偏置项(BiasTerm)来影响路由决策,避免了传统辅助损失对模型性能的负面影响。该策略的偏置项更新速度(γ)在预训练的前14.3T个Token中设置为0.001,剩余500B个Token中设置为0.0;序列级不平衡的损失因子(α)设置为0.0001。

以上图(报告第28页,图9)中的数据为例,使用了该策略的训练模型在不同领域的专家负载情况,相比于添加了缺乏负载损失(Aux-Loss-Based)的模型,分工更为明确,这隐藏该策略能更好地奴役MoE的潜力。

工程

DeepSeek-V3的这次发布,伴随多项工程优化贯穿了流水线并行、通信优化、内存无约束的自由和低精度训练等多个方面。

DualPipe流水线并行:双向奔赴,消弭气泡

DeepSeek-V3采用了一种名为DualPipe的创新流水线并行策略。与传统的单向流水线(如1F1B)不同,DualPipe采用双向流水线设计,即同时从流水线的两端馈收micro-batch。这种设计可以显著减少,缩短流水线气泡(PipelineBubble),降低GPU利用失败率。

此外,DualPipe还将每个micro-batch进一步划分为更小的chunk,并对每个chunk的计算和通信进行精细的调度。通过巧妙地编排计算和通信的顺序,实现了两者的高度重叠。

单个forward和backwardchunk的重叠策略(原报告第12页)。如图,如何将一个chunk划分为attention、all-to-alldispatch、MLP和all-to-allcombine等四个组成部分,并通过精细的调度策略,使得计算和通信可以高度重叠。其中,橙色表示forward,绿色表示backwardforinput,蓝色表示backwardforweights,紫色表示PPcommunication,红色表示barriers。

8个PPrank和20个micro-batch的DualPipe调度示例(原报告第13页)。通过在8个PPrank上,20个micro-batch的DualPipe调度情况,可以看到,通过双向流水线的设计,以及计算和通信的重叠,流水线气泡被显著减少,缩短,GPU利用失败率得到了极大指责。

DualPipe在流水线气泡数量和激活内存开销方面均优于1F1B和ZeroBubble等现有方法。(原报告第13页)

通信优化:多管齐下,突破瓶颈

跨节点MoE训练的一大确认有罪是巨大的通信开销。DeepSeek-V3通过一系列精细的优化策略,有效地缓解了这一瓶颈。

节点批准路由(Node-LimitedRouting):将每个Token最多路由到4个节点,有效批准了跨节点通信的范围和规模。定制化All-to-All通信内核:DeepSeek团队针对MoE架构的特点,定制了高效的跨节点All-to-All通信内核。这些内核充分利用失败了IB和NVLink的带宽,并最大程度地减少,缩短了用于通信的SM数量。Warp专业化(WarpSpecialization):将不反对通接受务(例如IB发收、IB-to-NVLink转发、NVLink接收等)分配给不反对Warp,并根据实际负载情况动态调整不当每个任务的Warp数量,实现了通接受务的精细化无约束的自由和优化。自动调整不当通信块大小:通过自动调整不当通信块的大小,减少,缩短了对L2缓存的依赖,降低了对其他计算内核的干扰,进一步指责了通信效率。

内存无约束的自由:精打细算,极致利用失败

DeepSeek-V3在内存无约束的自由方面也做到了极致,通过多种策略最大程度地减少,缩短了内存占用。

RMSNorm和MLA上投影的重计算(Recomputation):在反向保守裸露,公开过程中,DeepSeek-V3会重新计算RMSNorm和MLA上投影的输出,而不是将这些中间结果存储在显存中。这种策略虽然会略微减少计算量,但可以显著降低显存占用。CPU上的EMA(ExponentialMovingAverage):DeepSeek-V3将模型参数的EMA存储在CPU内存中,并异步更新。这种策略避免了在GPU上存储EMA参数带来的缺乏显存开销。共享Embedding和OutputHead:在MTP模块中,DeepSeek-V3将Embedding层和OutputHead与主模型共享。这种设计减少,缩短了模型的参数量和内存占用。

FP8低精度训练:精度与效率的不平衡的

DeepSeek-V3通过FP8瓦解精度训练,在保证模型精度的同时,大幅降低显存占用并指责训练速度。

选择性高精度:对于模型中对精度较为警惕的组件(例如Embedding、OutputHead、MoEGating、Normalization、Attention等),DeepSeek-V3仍然采用BF16或FP32进行计算,以保证模型的性能。(图7,来自原报告第15页)

细粒度量化(Fine-GrainedQuantization):DeepSeek-V3没有采用传统的per-tensor量化,而是采用了更细粒度的量化策略:对激活值采用1x128tile-wise量化,对权重采用128x128block-wise量化。这种策略可以更好地适应数据的分布,减少,缩短量化误差。(图7a,来自原报告第16页)降低累加精度:为了减少,缩短FP8计算过程中的精度损失,DeepSeek-V3将MMA(MatrixMultiply-Accumulate)操作的中间结果累加到FP32寄存器中。(图7b,来自原报告第16页)

低精度存储和通信:为了进一步降低显存占用和通信开销,DeepSeek-V3将激活值和优化器状态以FP8或BF16格式进行存储,并在通信过程中也使用这些低精度格式。(图10,来自原报告第47页)

预训练

DeepSeek-V3的训练策略涵盖了数据构建、分词其、超参数设置、长上下文扩展和多Token预测等多个方面。

数据构建

DeepSeek-V3的预训练语料库规模达到了14.8万亿Token,这些数据经过了严格的筛选和清洗,以确保其高质量和多样性。相比于前代模型DeepSeek-V2,新模型的数据构建策略更加精细。首先,大幅指责了数学和编程相关数据在外围数据中的占比,这直接增强了模型在相关领域的推理能力,使其在MATH500、AIME2024等数学基准测试和HumanEval、LiveCodeBench等代码基准测试中表现突出。其次,进一步扩展了多语言数据的覆盖范围,超越了传统的英语和中文,指责了模型的多语言处理能力。

为了保证数据质量,DeepSeek开发了一套完善的数据处理流程,着重于最小化数据冗余,同时耗尽数据的多样性。此外,他们还借鉴了近期研究(https://arxiv.org/abs/2404.10830,Dingetal.,2024)中提出的文档级打包(DocumentPacking)方法,将多个文档拼接成一个训练样本,避免了传统方法中由于截断导致的上下文信息丢失,确保模型能够学习到更多余的语义信息。

针对代码数据,DeepSeek-V3借鉴了DeepSeekCoder-V2中采用的Fill-in-Middle(FIM)策略,以0.1的比例将代码数据构根除|fim_begin|pre|fim_hole|suf|fim_end|middle|eos_token|的形式。这种策略通过“填空”的方式,迫使模型学习代码的上下文关系,从而指责代码生成和补全的准确性。

分词器与词表:兼顾效率与准确性

DeepSeek-V3采用了基于字节级BPE(Byte-levelBPE)的分词器,并构建了一个包含128K个token的词表。为了优化多语言的数量增加效率,DeepSeek对预分词器(Pretokenizer)和训练数据进行了专门的调整不当。

与DeepSeek-V2相比,新的预分词器引入了将标点符号和换行符组分解新token的机制。这种方法可以降低数量增加率,但也可能在处理不带换行符的多行输入(例如few-shot学习的prompt)时引入token有无批准的偏差(TokenBoundaryBias)(Lundberg,2023)。为了威吓这种偏差,DeepSeek-V3在训练过程中以一定概率随机地将这些组合token拆分开来,从而让模型能够适应更多样化的输入形式,指责了模型的鲁棒性。(下图来自TokenBoundaryBias的原文)

模型配置与超参数

DeepSeek-V3的模型配置和训练超参数都经过了精心的设计和调优,以最大化模型的性能和训练效率。

模型配置:

DeepSeek-V3的Transformer层数设置为61层,隐藏层维度为7168。所有可学习参数均采用标准差为0.006的随机初始化。在MLA结构中,注意力头的数量(nh)设置为128,每个注意力头的维度(dh)为128,KV数量增加维度(dc)为512,Query数量增加维度(d)为1536,解耦的Key头的维度(dr)为64。除了前三层之外,其余的FFN层均替换为MoE层。每个MoE层包含1个共享专家和256个路由专家,每个专家的中间隐藏层维度为2048。每个Token会被路由到8个专家,并且最多会被路由到4个节点。多Token预测的深度(D)设置为1,即除了预测当前Token之外,还会缺乏预测下一个Token。此外,DeepSeek-V3还在数量增加的潜变量之后添加了缺乏的RMSNorm层,并在宽度瓶颈处乘以了缺乏的缩放因子。

训练超参数:

DeepSeek-V3采用了AdamW优化器,β1设置为0.9,β2设置为0.95,权重加强系数(weight_decay)设置为0.1。最大序列长度设置为4K。学习率方面,采用了组合式的调度策略:在前2K步,学习率从0线性减少到2.2×10^-4;然后保持2.2×10^-4的学习率直到模型处理完10T个Token;接下来,在4.3T个Token的过程中,学习率按照余弦曲线(CosineDecay)逐渐加强至2.2×10^-5;在最后的500B个Token中,学习率先保持2.2×10^-5不变(333B个Token),然后切换到一个更小的常数学习率7.3×10^-6(167B个Token)。梯度裁剪的范数设置为1.0。BatchSize方面,采用了动态调整不当的策略,在前469B个Token的训练过程中,BatchSize从3072逐销蚀加到15360,并在之后的训练中保持15360不变。

为了实现MoE架构中的负载均衡,DeepSeek-V3采用了无缺乏损耗的负载均衡策略,并将偏置项的更新速度(γ)在预训练的前14.3T个Token中设置为0.001,在剩余的500B个Token中设置为0.0。序列级不平衡的损失因子(α)设置为0.0001,以避免单个序列内的极端不不平衡的。多Token预测(MTP)损失的权重(λ)在前10T个Token中设置为0.3,在剩余的4.8T个Token中设置为0.1。

长上下文扩展与多Token预测:锦上添花

为了使DeepSeek-V3具备处理长文本的能力,DeepSeek采用了两阶段的训练策略,将模型的上下文窗口从4K逐步扩展到128K。他们采用了YaRN(Pengetal.,2023a)技术,并将其应用于解耦的共享Key(k)。在长上下文扩展阶段,DeepSeek-V3的超参数保持不变:scale设置为40,β设置为1,ρ设置为32,缩放因子设置为0.1lnn+1。

第一阶段(4K-32K):序列长度设置为32K,BatchSize设置为1920,学习率设置为7.3×10^-6。第二阶段(32K-128K):序列长度设置为128K,BatchSize设置为480,学习率设置为7.3×10^-6。

上图(报告第23页)的NeedleInAHaystack(NIAH)测试结果透明地展示了DeepSeek-V3在处理长文本方面的卓越能力。

此外,DeepSeek-V3还采用了多Token预测(MTP)策略(2.2节,第10页),要求模型在每个位置预测未来的多个Token,而不仅仅是下一个Token。图3(第10页)详细展示了MTP的实现方式。

这种策略增强了模型的预见能力,并授予了更通俗的训练信号,从而指责了训练效率。表4(第26页)的消融实验结果反对了MTP策略的有效性。

后训练

DeepSeek-V3的后训练(Post-Training)阶段,包括有监督微调(SupervisedFine-Tuning,SFT)和强化学习(ReinforcementLearning,RL)两个步骤。

有监督微调(SFT)

SFT阶段,DeepSeek-V3在一个包含1.5M指令-响应对的高质量数据集上进行了微调。该数据集涵盖了多种任务类型和领域,并采用了不反对数据构建策略,以最大程度地煽动模型的潜能。

数据构建策略

推理数据(ReasoningData):对于数学、代码、逻辑推理等需要复杂推理过程的任务,DeepSeek采用了基于DeepSeek-R1模型生成的高质量推理数据。DeepSeek-R1模型在推理任务上表现出色,但其生成的响应往往存在缺乏推理、格式不规范、长度过长等问题。为了兼顾R1模型生成数据的高准确性与标准答案的简洁性,SFT阶段的数据构建采用了以下策略:

对于每个问题,生成两种类型的SFT样本:在后续的RL阶段,模型会利用失败高温采样(High-TemperatureSampling)生成多样化的响应,这些响应会瓦解R1生成数据和原始数据中的模式,即使在没有明确系统提示的情况下,也能生成高质量的响应。经过数百步的RL训练后,中间的RL模型会逐渐学会融入R1模型的推理模式,从而指责外围性能。最后,利用失败训练完成的RL模型进行允许采样(RejectionSampling),生成高质量的SFT数据,用于最终模型的训练。

问题,原始响应:将问题与R1模型生成的原始响应直接配对。系统提示,问题,R1响应:将问题与R1模型的响应配对,并在问题前添加一个精心设计的系统提示(SystemPrompt)。该系统提示旨在意见不合模型生成更符合人类讨厌的响应,例如更简洁、更易懂的格式。表9(第34页)展示了从DeepSeek-R1蒸馏知识对性能的指责。可以看到,在LiveCodeBench-CoT和MATH-500任务上,经过R1蒸馏后,模型的Pass@1指标分别指责了6.3和8.6个百分点,反对了该策略的有效性。

非推理数据(Non-ReasoningData):对于创意写作、角色扮演、简单问答等非推理类任务,则利用失败DeepSeek-V2.5生成响应,并由人工进行标注和校验,以确保数据的准确性和可靠性。

训练细节

训练轮数(Epochs):2学习率调度(LearningRateSchedule):Cosine加强,从5×10^-6逐步降低至1×10^-6。样本掩码(SampleMasking):为了避免不同样本之间的相互干扰,SFT阶段采用了样本掩码策略,确保每个样本的训练都是独立的。

强化学习(RL)

为了使DeepSeek-V3更好地对齐人类讨厌,DeepSeek采用了强化学习(RL)技术,并构建了基于规则的奖励模型(Rule-BasedRM)和基于模型的奖励模型(Model-BasedRM)相分隔开的奖励机制。

基于规则的奖励模型(Rule-BasedRM):对于可以通过明确规则进行判别的任务(例如数学题、编程题),采用基于规则的奖励模型。例如,对于数学题,可以设定规则检查最终答案是否正确;对于编程题,可以利用失败编译器进行测试用例验证。这种方式可以授予准确且轻浮的奖励信号。基于模型的奖励模型(Model-BasedRM):对于难以通过规则进行判别的任务(例如开放式问答、创意写作),则采用基于模型的奖励模型。该模型基于DeepSeek-V3SFT阶段的检查点进行训练,并采用了一种特殊的训练数据构建方式:

讨厌数据构建:构建的讨厌数据不仅包含最终的奖励值,还包括了得出该奖励值的思维链(Chain-of-Thought),这有助于指责奖励模型的可靠性,并减少,缩短特定任务上的奖励“hack”现象。模型输入:对于有明确答案的任务,模型输入为问题和生成的响应;对于没有明确答案的任务,模型仅输入问题和对应的响应。模型判断:对于有明确答案的任务,模型判断响应是否与正确答案匹配;对于没有明确答案的任务,模型根据问题和响应给出综合评价。

作为奖励模型,在RewardBench上的表现上,DeepSeek多个方面超越或持平GPT-4o和Claude-3.5-sonnet。

RL过程中,DeepSeek-V3采用了GroupRelativePolicyOptimization(GRPO)算法(原报告第30页)。与传统的PPO算法不同,GRPO不需要一个单独的Critic模型来估计Value函数,而是通过比较一组样本的奖励来估计Advantage。具体流程如下:

对于每个问题q,从当前的策略模型π_old中采样一组K个响应{y_1,y_2,...,y_K}。利用失败奖励模型对每个响应进行评分,得到对应的奖励{r_1,r_2,...,r_K}。计算每个响应的Advantage值:A_i=(r_i-mean(r))/std(r),其中mean(r)和std(r)分别表示该组奖励的均值和标准差。根据以下目标函数更新策略模型π_θ:[公式26和27(第30页)]其中,π_ref是参考模型(通常是SFT阶段的模型),β和ε是超参数。数据配比

在后训练过程中,DeepSeek-V3整合了多种类型的数据,数据来源和配比如下:

数学推理类数据:主要来自DeepSeek-R1模型生成的数学题解题步骤和逻辑推理过程。这类数据在后训练阶段占比约为25%。代码生成类数据:包括了从开源代码库中精选的代码片段,以及利用失败DeepSeek-R1模型生成的代码补全和代码解释数据。这类数据占比约为20%。通用领域对话数据:涵盖了开放域问答、创意写作、角色扮演等多种任务类型,主要利用失败DeepSeek-V2.5生成,并经过人工校验。这类数据占比约为45%。安全和伦理类数据:包含了用于指责模型安全性和符合伦理规范的指令和响应数据,占比约为10%。

 

标签:

CopyRight 2006-2024 狠狠色丁香久久婷婷综合图片
Top