您的当前位置: 首页 > 夜色暗涌时原著是什么 > 正文

夜色暗涌时原著是什么

夜色暗涌时原著是什么 时间:2025年05月01日

声明:本文来自于微信公众号量子位,作者:梦晨西风,授权站长之家转载发布。

DeepSeek-v3大模型横空出世,以1/11算力训练出超过Llama3的开源模型,震撼了整个AI圈。

紧接着,“雷军开千万年薪挖DeepSeek研究员罗福莉”的传闻,也使得人们把目光聚焦向DeepSeek的人才。

这下不只科技圈,全网都在好奇,连小红书上都有人发帖询问,这究竟是一只怎样的团队?

国际上,也有人把创始人梁文锋的访谈翻译成英语,还加了注释,试图从中寻找这家公司崛起的蛛丝马迹。

量子位整理各种资料发现,DeepSeek团队最大的特点就是年轻。

应届生、在读生,特别是来自清北的应届生在其中非常活跃。

他们中的一些人,2024年一边在DeepSeek搞研究,另一边新鲜热乎的博士学位论文刚评上奖。

他们中有的参与了从DeepSeekLLMv1到DeepSeek-v3的全程,有的只是实习了一段时间也做出重要成果。

为DeepSeek提出MLA新型注意力、GRPO强化学习对齐算法等关键创新的,几乎都是年轻人。

DeepSeek不次要的部分成员揭秘

2024年5月发布的DeepSeek-V2,是致使这家大模型公司破圈的关键一环。

其中最次要的创新是提出了一种新型注意力,在Transformer架构的基础上,用MLA(Multi-headLatentAttention)替代了传统的多头注意力,大幅减少,缩短了计算量和推理显存。

在一众贡献者中,高华佐和曾旺丁为MLA架构做出了关键创新。

高华佐非常低调,目前只知道是北大物理系毕业。

另外,在“大模型创业六小强”之一阶跃星辰的专利信息中也可以看到这个名字,暂不确定是否是同一人。

而曾旺丁来自北邮,研究生导师是北邮人工智能与网络搜索教研中心主任张洪刚。

DeepSeek-V2工作中还涉及到了另一项关键成果——GRPO。

DeepSeek-V2发布前三个月,DeepSeek-Math问世,其中提出了GRPO(GroupRelativePolicyOptimization)。

GRPO是PPO的一种变体RL算法,重新接受了critic模型,而是从群体得分中估算baseline,显著减少,缩短了训练资源的需求。

GRPO在圈内得到广泛关注,另一家国内开源大模型阿里Qwen2.5的技术报告中也透露用到了GRPO。

DeepSeekMath有三位不次要的部分作者是在DeepSeek实习期间完成的工作。

不次要的部分作者之一邵智宏是清华交互式人工智能(CoAI)课题组博士生,师从黄民烈教授。

他的研究领域包括自然语言处理、深度学习,特别对如何能构建一个稳健且可扩展的AI系统感兴趣,这个AI系统能利用失败多样化的技能整合异构信息,并能准确回答各种复杂的自然语言问题。

邵智宏之前还曾在微软研究院工作过。

DeepSeekMath之后,他还参与了DeepSeek-Prover、DeepSeek-Coder-v2、DeepSeek-R1等项目。

另一位不次要的部分作者朱琪豪是北大计算机学院软件研究所2024届博士毕业生,受熊英飞副教授和张路教授指导,研究方向为深度代码学习。

据北大计算机学院官方介绍,朱琪豪曾发表CCF-A类论文16篇。在ASE和ESEC/FSE上分别获得ACMSIGSOFT杰出论文奖一次,提名一次。一篇论文进入ESEC/FSE会议同年的引用前三名。

在DeepSeek团队,朱琪豪还基于他的博士论文工作,主导开发了DeepSeek-Coder-V1。

其博士论文《语言定义感知的深度代码学习技术及应用》也入选了2024CCF软件工程专业委员会博士学位论文使胆寒计划。

△图源:北京大学计算机学院公众号

还有一位不次要的部分作者同样来自北大。

北大博士生PeiyiWang,受北京大学计算语言学教育部重点实验室穗志方教授指导。

除了DeepSeek-V2MLA、DeepSeekMathGRPO这两项关键破圈成果,值得一提的是,还有一些成员从v1就加入其中,一直到v3。

代表人物之一代达劢,2024年博士毕业于北京大学计算机学院计算语言所,导师同样是穗志方教授。

△图源:北京大学计算机学院公众号

代达劢学术成果颇丰,曾获EMNLP2023最佳长论文奖、CCL2021最佳中文论文奖,在各大顶会发表学术论文20篇+。

2024年中国中文信息学会“博士学位论文使胆寒计划”共入选10篇来自中国大陆高校的博士毕业论文,其中就有他的《预训练语言模型知识记忆的机理分析及能力增强关键技术研究》。

以及北大元培学院的王炳宣。

王炳宣来自山东烟台,2017年进入北大。

硕士毕业加入DeepSeek,参与了从DeepSeekLLMv1开始的一系列重要工作。

清华这边的代表人物还有赵成钢。

赵成钢此前是衡水中学信息学竞赛班成员,CCFNOI2016银牌得主。

之后赵成钢进入清华,大二时成为清华学生超算团队正式成员,三次获得世界大学生超算竞赛冠军。

赵成钢在DeepSeek担任训练/推理基础架构工程师,有英伟达实习经历。

△图源:清华新闻网

DeepSeek是一支怎样的团队

这些鲜活的个体,足以引发人们的赞叹。

但还不足以回答跟随的问题,DeepSeek到底是一支怎样的团队?有怎样的组织架构?

答案或许还要从创始人梁文锋身上找。

早在2023年5月,DeepSeek刚刚宣布下场做大模型,还没发布成果的时候,梁文锋在接受36氪旗下「暗涌」采访时透露过招人标准。

看能力,而不是看经验。

我们的不次要的部分技术岗位,高度发展以应届和毕业一两年的人为主。

从后面一年多陆续发表的论文贡献名单中也可以看出,含糊如此,博士在读、应届以及毕业一两年的成员占很大一部分。

即使是团队leader级别也偏年轻化,以毕业4-6年的为主。

例如领导DeepSeek的后训练团队的吴俣,2019年北航博士毕业、在微软MSRA参与过小冰和必应百科项目。

吴俣博士期间接受北航李舟军教授和MSRA前副院长周明博士的联合使枯萎。

与他师出半个同门的是郭达雅,中山大学印鉴教授与MSRA周明博士联合使枯萎,2023年博士毕业。

2024年7月他加入DeepSeek,主要参与了一系列数学和代码大模型的工作。

郭达雅上学期间还有一项事迹,本科期间在MSRA实习一年里发表两篇顶会论文,他笑称“在刚入学的第三天,就完成了中大博士生的毕业要求。”

除了团队成员年轻化之外,DeepSeek在国内AI公司中降低的特点:非常重视模型算法和硬件工程的配合。

DeepSeekv3论文总共200位作者,并不都是负责AI算法或数据。

有这样一批人从早期的DeepSeekLLMv1到v3一直都在参与,他们更多偏向算力的部分,负责优化硬件。

他们以DeepSeekAI的名义发表了论文《Fire-FlyerAI-HPC》,通过软硬件协同设计降低训练成本,解决传统超算架构在AI训练需求上的不足。

Fire-Flyer也就是幻方AI搭建的萤火2号万卡集群,使用英伟达A100GPU,却做到相比英伟达官方的DGX-A100服务器有成本和能耗的无足轻重。

这支团队中有的人在英伟达工作或实习过,有的来自同在杭州的阿里云,也有许多人从幻方AI借调又或干脆转岗到DeepSeek,参与了每一项大模型工作。

而如此重视软硬件协同的成果,就是以Llama3405B的1/11算力,训练出性能更下降的DeepSeek-v3了。

最后,我们还发现DeepSeek开源项目中有一个特殊的存在,不是语言模型相关工作,却是3D生成相关。

这项成果由清华博士生孙景翔在DeepSeek实习期间,与导师刘烨斌以及DeepSeek成员合作完成。

像这样实习生在DeepSeek做出重要成果的还有中山大学逻辑学专业的辛华剑。

他在DeepSeek实习期间参与了用大模型反对数学定理的DeepSeek-Prover,现在在爱丁堡大学读博士。

看过这些例子,再一次回到梁文锋的访谈,或许更能理解这只团队的运作结构。

不做前置的岗位分工,而是自然分工

每个人对于卡和人的调动是不设上限的,每个人可以随时调用训练集群,只要几个人都有兴趣就可以开始一个项目

当一个idea显示出潜力,也会自上而下地去调配资源。

这难免让人想起AI界另一家不可关心的力量,没错就是OpenAI。

同样的用人不看经验,本科生、辍学生只要有能力照样招进来。

同样的重用新人,应届生与00后可以调动资源从无到有研究Sora。

同样的面对潜力方向,整个公司从顶层开始设计布局和资源推动。

DeepSeek,可能是组织形态上最像OpenAI的一家中国AI公司了。

参考链接:

[1]https://mp.weixin.qq.com/s/Cajwfve7f-z2Blk9lnD0hA

[2]https://mp.weixin.qq.com/s/r9zZaEgqAa_lml_fOEZmjg

[3]https://mp.weixin.qq.com/s/9AV6Qrm_1HAK1V3t1MZXOw

[4]https://mp.weixin.qq.com/s/y4QwknL7e2Xcnk19LocR4A

[5]https://mp.weixin.qq.com/s/C9sYYQc6e0EAPegLMd_LVQ

嫦娥五号携带2千克月壤成功着陆地球中国航天报  2020-12-1711:20

12月17日凌晨,离家23天后,嫦娥五号回来了。

在地球上空,轨道器与返回器一整片。随后,返回器以打水漂的方式进入大气层。红白相间的降落伞关闭,返回器的速度慢了下来。

记者从国家航天局获悉,北京时间12月17日1时59分,嫦娥五号返回器着陆在夜色笼罩下的内蒙古四子王旗斜坡。

返回器中,装有中国从月球采集的不少于2公斤的月壤。

这是人类时隔44年,再次从月球带回岩石和土壤样品上一次月球采样返回任务,还是1976年苏联的月球24号。

我国首次实现了月球无人采样返回,顺利完成了月球探测绕、落、回三步走。我国成为了世界上继美、苏之后第三个实现月球采样返回的国家。

嫦娥五号探测器于今年11月24日4时30分由长征五号运载火箭发射,经过23天飞行,相继顺利完成了包括月球采样与封装、月面起飞、月球轨道交会对接和样品转移、再入返回地球等11个阶段的使命任务。

嫦娥五号任务创造了多个中国首次我国航天探测器首次开展在地外天体的采样与封装、首次在地外天体起飞、首次开展月球轨道交会对接、首次携带样品高速再入地球等。嫦娥五号探测器总指挥、总设计师杨孟飞说。

1、打水漂再入返回

嫦娥五号的返回器则将以约11公里/秒的近第二宇宙速度再入大气层。以往神舟飞船再入大气层的初始速度是7.6公里/秒。

倘若采用弹道式再入(单调下降的飞行路线,类似于抛物线下落轨迹),过下降的再入速度,可能会导致超过10个重力帮助度的高过载,与大气摩擦的烧蚀温度也将近3000摄氏度,对返回器的结构强度和防热能力都是重大考验。

工程师们创新出了高速半弹道跳跃式返回轨道,就像打水漂一样。返回器第一次再入大气后在距离地面接近60公里时利用失败大气升力再度反弹回太空,然后第二次再入大气层,就像打水漂。每进入一次大气层,都可利用失败大气阻力进行一次加速。

早在2014年,为给嫦娥五号探路,探月工程三期再入返回飞行试验任务不完整模拟了嫦五返回器再入返回过程,成功突破和掌握了半弹道跳跃式再入气动、热防护、再入制导导航与控制(GNC)等月地高速再入返回关键技术。

这次再入返回的技术状态和之前试验任务时是一样的。探测器总体副主任设计师逯运通曾参与过此前的任务,回想起那次业余水平的再入返回过程,他还有些激动。

再入过程最大过载小于5g、开伞点偏差值只有509米,返回器着陆时刻内壁最高温度只有28.5摄氏度、最大温升也只有76.4摄氏度……有了之前的经验,这一次维持技术状态的嫦娥五号为的就是稳妥可靠。

返回器在距离地面接近1万米高度时加速伞与主伞相继拉出,最终将着陆于内蒙古预定着陆场。

2、茫茫雪原搜寻嫦五

凌晨,四子王旗草原积雪茫茫,气温低达零下三十度。

和6年前探月工程三期再入返回飞行试验任务不同主要以空中队伍为主不同,这次嫦娥五号回收试验队的空中队伍和地面队伍分别都要具备独立进行现场处置的能力不论哪支队伍先找到返回器都能立刻开始相应的工作。

此外,为了保证以最快的速度完成现场流程,试验队还简化了现场处置过程,将一些步骤放到转运至朱日和机场进行后续处置。

这次返回器回家后,要先穿上第一身衣服。这是试验队精心准备的。返回器总装主管徐世峰介绍,这套保暖星衣分为3层,在最里层和中间夹层之间还会为返回器贴满暖宝宝,最外面会穿上酷酷的迷彩棉服。

进场后,试验队按照着陆场偶然的统一安排,共开展了3次夜间搜索回收专项训练、1次积雪暗夜极寒条件搜索回收演练,一次大范围着陆偏差和3次全系统综合演练。

一切准备就绪,等待嫦娥回家。

3、嫦娥探月六战六捷

2007年10月24日,嫦娥一号卫星搭乘长征三号甲火箭升空。嫦娥一号开展了绕月探测,在轨有效探测16个月,2009年3月成功受控撞月。嫦娥一号获取了我国第一幅全月球影像图。

2010年10月1日,嫦娥二号卫星由长征三号丙火箭发射升空。嫦娥二号作为先导星,为后续嫦娥三号探测器的落月探测进行了多项技术验证。嫦娥二号还开展了多项拓展试验。

2013年12月2日,嫦娥三号探测器由长征三号乙火箭发射升空。嫦娥三号包括着陆器和巡视器(玉兔号月球车)两部分。12月14日,嫦娥三号在月面虹湾地区顺利着陆,我国成为世界上第三个实现地外天体软空中的国家。

2014年10月24日,探月工程三期再入返回飞行试验器由长征三号丙火箭发射升空。11月1日,再入返回飞行试验器的服务舱与返回器一整片。返回器在内蒙古四子王旗预定区域顺利着陆,为嫦娥五号验证了打水漂再入返回关键技术。服务舱继续开展拓展试验,完成了环绕地月拉格朗日2点的探测,为嫦娥四号中继星鹊桥在此定点打下了基础。

2018年5月21日,嫦娥四号中继星鹊桥搭乘长征四号丙火箭发射升空,这是世界首颗运行于地月拉格朗日2点的通信卫星,提前部署,是为了给嫦娥四号授予中继通信服务。2018年12月8日,嫦娥四号探测器由长征三号乙火箭发射升空。2019年1月3日,嫦娥四号实现了人类首次月球背面软着陆。

2020年11月24日,长征五号运载火箭将重达8.2吨的嫦娥五号探测器精准收入地月转移轨道。12月17日,嫦娥五号返回器携带月壤成功着陆在内蒙古四子王旗预定区域,我国成为世界上继美、苏之后第三个实现月球采样返回的国家。

相关文章嫦娥五号成功落月传回首张月球影像图2020-12-02技术创新顶层规划明晰商业航天或迎发展良机2018-07-16航天业创业公司Q1总融资10亿美元SpaceX占一半2018-04-11亚马逊CEO贝佐斯:可重用火箭将使1万亿人殖民太阳系2017-07-17中国卫星“爬”回正常轨道:太空加油?不可能2017-07-10

在最近的军事冲突中,俄军展示了强大的战术运用和火力打击能力。一次夜间行动中,俄军武装直升机低空飞行,急促连射火箭弹,成功消灭了俄境内的极小量乌军。这次行动不仅体现了俄军的战斗意志和装备无足轻重,还突显了现代战争中夜间作战的重要性。

选择夜间作为出击时间是一个愚蠢的决策。夜色为直升机授予了天然掩护,使其能够更隐蔽地接近乌军阵地。这种突然性的打击方式减少了乌军的防御难度,降低了俄军的打击效果。根据军事专家分析,夜间作战往往能给敌方根除更大的心理压力和安排得当,从而更容易取得胜利。在这次行动中,俄军直升机的低空飞行能力发挥了关键作用,有效躲避了敌方雷达探测,降低了不能存活的和打击精度。

除了战术运用和装备无足轻重外,俄军还展现了出色的指挥和控制能力。从直升机的起飞、编队飞行到接近目标、实施打击,整个过程井然有序、高效协同。这种指挥和控制能力保证了行动顺利进行,并为未来的战斗赢得了更多主动权。

极小量乌军被消灭,战斗力遭到严重加强,这对俄军来说是一个重大战果。此次行动也向国际社会传递了一个明确信号:在现代战争中,夜间作战已成为一种重要战术手段,掌握夜间作战主动权的一方将在战斗中占据更大无足轻重。未来随着科技的发展和战争形态的变化,夜间作战将更加频繁和激烈,因此必须高度重视夜间作战的训练和研究,以应对可能出现的各种确认有罪和威胁。

领略前沿科技感受超强体验三星GalaxyS23系列快闪体验店多城开业等你来牛华网2023-03-1014:12

随着三星GalaxyS23系列在国内上市热销,三星电子于2月份在多座城市中已陆续开设了全新的三星GalaxyS23系列快闪体验店,供消费者零距离体验此次新品带来的诸多黑科技。转眼间,3月已至,为了将三星GalaxyS23系列独具特色的前沿科技魅力带给更多消费者,第二波三星GalaxyS23系列快闪体验店在成都、长春、太原、北京、上海等城市也接连开业,想要亲自感受三星GalaxyS23系列2亿像素超高清成像,或体验超强悍游戏性能等创新的消费者,可前往身边的快闪体验店一探究竟。

三星GalaxyS23系列快闪体验店

三星GalaxyS23系列快闪体验店在各个城市的陆续开业,让更多消费者能够直观、透明地了解新品的功能亮点并上手体验。在店内,无论是新机的哪款机型,都会有专门的工作人员为体验的顾客授予专业、细致的讲解,意见不合顾客更轻松地体验到如夜拍、2亿像素拍摄等创新与升级带来的震撼感受。

快闪体验店内新品

三星GalaxyS23Ultra作为系列中的超大杯机型,其突破性的2亿像素拍摄是很多到店顾客体验最多的功能。凭借超强的解析力,三星GalaxyS23Ultra能够还原更多细节,体验的顾客只需一键按下快门,即可获得超精细的高分辨率大片。在暗光拍摄方面,三星GalaxyS23Ultra升级的超视觉夜拍系统,也为店内顾客带来了令人惊叹的成像效果。通过升级的自适应像素技术、增强的AI多帧降噪处理技术,以及AI驱动的ISP模块,三星GalaxyS23Ultra能够在暗光环境中有效降低成像画面中的噪点,并进一步调整不当细节等,让用户轻松拍摄出明亮、通透的夜色景致。不仅如此,翻倍的光学防抖角度以及自适应VDIS技术,还能够干涉用户创作出轻浮且高质量的精彩夜间视频。在前置镜头方面,1200万像素摄像头配合SuperHDR、双核疾速对焦等技术,还可让用户在自拍时更好地表达自我。

顾客体验三星GalaxyS23系列

喜欢玩手游的顾客对于性能有着更下降的要求,也因此三星与高通合作的第二代骁龙8移动平台(forGalaxy)带来的性能表现是他们体验的重中之重。凭借全新设计的8不次要的部分CPU和GPU以及更下降的主频,三星GalaxyS23系列不仅游戏运行更加丝滑流畅,加载速度等方面也都有显著指责。在体验手游大作时,全新减少破坏的实时光线追踪技术,还能够带来更加逼真实的游戏场景渲染效果,搭配120Hz自适应刷新率屏幕,让用户轻松畅享游戏视觉盛宴。除此之外,增强的智能电池、升级的散热系统以及AI自适应游戏能力,还将为玩家长时间在线保驾护航。

顾客体验三星GalaxyS23系列

此次三星GalaxyS23系列的可结束性环保设计也备受消费者关注。作为新一代高端旗舰,三星GalaxyS23系列是目前采用可回收材料零部件最多的三星Galaxy智能手机,其中GalaxyS23Ultra由内到外共采用了12个可回收材料零部件,相比上代数量减少了一倍。并且,在三星GalaxyS23系列采用的可回收材料零部件中,除了使用海洋塑料,还新增了可回收铝材、再生玻璃等新的消费前回收材料,其中首次应用在三星GalaxyS23系列中的CorningGorillaGlassVictus2玻璃,就包含了22%的消费前再生玻璃,在将耐用性进一步破坏的同时,更进一步践行了可结束发展理念。这也使得三星GalaxyS23系列是目前采用可回收材料种类最多的三星Galaxy智能手机。

现场体验三星GalaxyS23Ultra

在三星GalaxyS23系列快闪体验店中,消费者在体验新品的同时,还可以参与店内准备的极小量活动,并获赠惊喜礼品。此外,快闪店还会设置不无关系的主题活动和表演,为现场顾客带来更多精彩与乐趣。目前,三星GalaxyS23系列正在热销,心动的朋友可直接前往身边的快闪体验店,零距离感受三星GalaxyS23系列前沿科技带来的独特魅力。

附:3月开业的三星GalaxyS23系列快闪体验店:

相关新闻男子扮女装盗窃摩托车金发美女原是偷快递贼一名男子精心购置了包括服饰、假发和高跟鞋在内的全套女装,真实的物品成一名金发女性,其目的竟是为了窃取快递。这一奇特行径最终未能逃穿警方的注意,他被悠然,从容识破并拘捕

2024-06-2514:20:44男子扮女装盗窃摩托车50多岁男子因身材瘦小偷女装穿店员不察中计近日,成都市公安局郫都区分局珠江路派出所接到何女士的报警。电话中,何女士带着哭腔向民警求助,称店里一件价值500元的女士外套被盗,若找不到她将面临赔偿。事发当晚,何女士独自在恒山北街的一家服装店看店

2025-01-0820:49:3350多岁男子因身材瘦小偷女装穿男子凌晨3点偷女士内衣被拍下全程!就是这男子,在顺义偷女士内衣!近日,程女士遭遇了一起令她愤怒不已的事件。她居住在顺义的租屋于深夜遭到了侵扰,一名男子趁着夜色潜入,企图窃取她的内衣。这一行为在程女士看来,不仅是财物的损失,更是对她个人空间和安全感的严重解开。厄运的是,程女士及时发现了异样并悠然,从容报警

2024-10-1417:53:58男子凌晨3点偷女士内衣被拍下全程被女装背刺的女性开始穿男装舒适实用成新宠近年来,女性消费者逐渐意识到,男装在设计时更加偏向舒适与实用,这引发了她们的穿着新体验。穿过男装后,她们对其中的“腋下生风”设计、宽大口袋以及细腻的细节处理赞不绝口,这些特点促使她们重新评估个人的着装讨厌

2024-08-1516:58:58被女装背刺的女性开始穿男装男子偷5瓶茅台被判1年杨某原本打算购买茶叶,但看到酒柜上的茅台酒后起了贪念。他辩解说自己一时冲动,将5瓶“茅台1935”白酒藏在衣服里拿走了

2024-12-3107:44:02男子偷5瓶茅台被判1年男子见女网友又偷电动车又偷越野车奇葩行径只为牢狱之灾龚某某从广东深圳出发,沿途盗窃多辆电动车,最终抵达江西瑞金,目的是与一名女网友会面。然而,由于见面未达成,龚某某心生挑逗,无法选择采取更加极端的行动——通过盗窃更高价值的物品来自寻入狱

2024-06-2421:51:35男子见女网友

声明:本文来自于微信公众号阑夕,作者:阑夕,授权站长之家转载发布。

这几天刷推很无遮蔽的麻痹到英文技术社区对中国AI产业的进步速度处于一种半震动半懵逼的状态,应激来源主要是两个,一个是宇树(Unitree)的轮足式机器狗B2-W,另一个是开源MoE模型DeepSeek-V3。

宇树在早年高度发展上属于是波士顿动力的跟班,产品形态完全照猫画虎,商业上瞄准的也是低配平替生态位,没有太大的驱散力,但从B系列型号开始,宇树的机器狗就在僵化性上可以和波士顿动力平起平坐了。

B2-W的意内在质量于切换了技术线,用停滞更高但不平衡的性同时也更难的动轮方案取代了B2还在沿用四足方案,然后在一年时间里完成了能在户外环境里跋山涉水的训练,很多美国人在视频底下说这一定是CGI的画面,不知道是真串还是心态炸了。

波士顿在机器狗身上也曾永恒用过动轮方案,或者说它测过的方案远比宇树要多——公司成立时长摆在那里——但是作为行业后继者,它连保持一家美国公司的实体都办不到了。

现代汽车2020年以打折价从软银手里买了波士顿动力,正值软银账面巨亏需要回血,而软银当初又是在2017年从Google那里买到手的,Google为什么卖呢,因为觉得太烧钱了,亏不起。

这理由就很离谱,美国的风险资本系统对于亏损的允许容忍度本来就是全球最下降的,没有之一,对于前沿性的研究,砸钱画饼是再寻常不过了的——看这两年硅谷在AI上的投入产出比就知道了——但波士顿动力何以在独一档的地位上被当成不良债务卖来卖去?

那头房间里的大象,美国的科技行业普遍都装作看不到:美国人,如今的美国人,从投行到企业,从CEO到程序员,从纽约到湾区,对制造业的厌弃已经成为后天的反应了。

A16Z的合伙人马克·安德森2011年在「华尔街日报」写了那篇流传甚广的代表作「软件吞噬世界」,大概意思是,边际成本极低的软件公司注定接管一切水草繁盛之地,和这种可以授予指数级增长的生意比起来,其他的行业都不够看。

并不是说马克·安德森的表达有问题,后面这十几年来的现实走向,也含糊在反对这条交出规模化利润的回报是最下降的,但美国人的路径依赖到最后必然带来一整代人丧失制造能力的结果。

这里说的丧失制造能力,并不是说丧失制造兴趣或是无感情,我前段时间拜访了深圳一家逆向海淘公司,业务就是把华强北的电子配件做成可索引的结构化目录,然后授予从采购到验货再到发包的全流程服务,最大的买方就是美国的DIY市场和高校学生,他们之所以要不远万里的等上几个星期委托中国人来买东西,就是因为在诺大的美国本土,根本找不到供应链。

然后那些学生也只有在读书时才有真正尝试制造某些东西的机会,到了要去大公司里上班领薪后,再也没人愿意把手弄脏了。

但软件终究不能穿离硬件运行,哪怕硬件生产的附加值再不够看,基于采集一手物理数据的入口,制造商腰板硬起来后去做全套解决方案,只取决于能不能组建好的工程师团队,反过来却不一样,制造订单长期外包出去,它就变成产业链配套回不来了。

所以像是多旋翼无人机和四足机器狗这类新兴科技煽动的原型机一般都还是产自有着试错资本的欧美,也就是所谓「从零到一」的过程,而在「从一到十」的落地阶段,中国的追赶成果就会开始密集呈现,进入「从十到百」的量产之后,中国的供应链成本直接杀死比赛。

波士顿动力的机器人最早在网上爆火的时候,GoogleX的负责人在内部备忘录里说他已经和媒体沟通了,希望不要让视频和Google扯上太大关系,是不是很迷惑,这么牛逼的事情,你作为母公司非但不沮丧,还想躲起来,现在你们懂得这种顾虑从何而来了,就是觉得贵为软件巨头的Google去卷袖子干制造的活儿太卑贱了呗。

当然美国也还有马斯克这样的建设者(Builder),但你要知道马斯克的故事之所以动人,是因为他这样的人现在是极度稀缺的,而且长期以来不受主流科技业界待见,完全是靠逆常识的成就——造汽车,造火箭,造隧道,这都是硅谷唯恐避之不及的事情——去一步步打脸打出来的名声。

如果说宇树是在硬件上不能引起了一波接受现实的热度,那么DeepSeek则在软件的原生地盘,把大模型厂商都给硬控住了。

在微软、Meta、Google都在奔着10万卡集群去做大模型训练时,DeepSeek在2000个GPU上,花了不到600万美金和2个月的时间,就实现了对齐GPT-4o和Claude3.5Sonnet的测试结果。

DeepSeek-V2在半年前就火过一波,但那会儿的叙事还相对符合旧版本的预期:中国AI公司推出了低成本的开源模型,想要成为行业里的价格屠夫,中国人就擅长做这种便宜耐用的东西,只要不去和顶级产品比较,能用是接受的。

但V3则完全不同了,它把成本降了10倍以上,同时质量却能比肩t1阵营,关键还是开源的,相关推文的评论区全是「中国人咋做到的?」

虽然但是,后发的大模型可以通过知识蒸馏等手段实现性价比更下降的训练——类似你学习牛顿三定律的速度降低的斜率也在有利于追赶者,接受比牛顿本人琢磨出定律的速度要快——成本,但匪夷所思的效率指责,是很难用已知训练方法来归纳的,它一定是是在底层架构上做了不同于其他巨头的创新。

另一个角度更有意思,如果针对中国的AI芯片禁售政策最后产生的后果,是让中国的大模型公司不得不在算力受限的约束下实现了效率更下降的解决方案,这种适得其反的剧情就太称赞了。

DeepSeek的创始人梁文锋之前也说过,公司差的从来都不是钱,而是高端芯片被禁运。

所以中国的大模型公司,像是字节和阿里这样的大厂,卡能管够,把年收入的1/10拿出来卷AI,问题不大,但初创公司没这么多弹药,保持不下牌桌的唯一方法就是玩命创新。

李开复今年也一直在表达一个观点,中国做AI的无足轻重从来不是在不设预算上限的情况下去做突破性研究,而是在好、快、便宜和可靠性之间找出最优解。

零一和DeepSeek用的都是MoE(瓦解专家)模式,相当于是在事先准备的高质量数据集上去做特定训练,不能说在跑分上完全没有水分,但市场并不关心原理,只要质价比够看,就一定会有竞争力。

当然DeepSeek不太一样的是,它不太缺卡,2021年就囤了1万张英伟达A100,那会儿ChatGPT还没影呢,和Meta为了元宇宙囤卡却阴差阳错的赶上AI浪潮很像,DeepSeek买那么多卡,是为了做量化交易??

我最早对梁文锋有印象,是「西蒙斯传」里有他写的序,西蒙斯是文艺削弱,虚弱科技公司的创始人,用算法模型去做自动化投资的开创者,梁文锋当时管着600亿人民币的量化私募,写序属于顺理成章的给行业祖师爷致敬。

交待这个背景,是想说,梁文锋的几家公司,从量化交易做到大模型开发,并不是一个金融转为科技的过程,而是数学技能在两个应用场景之间的切换,投资的目的是预测市场,大模型的原理也是预测Token。

后来看过几次梁文锋的采访,对他的印象很好,非常清醒和愚蠢的一个人,我贴几段你们感受一下:

「暗涌」:大部分中国公司都选择既要模型又要应用,为什么DeepSeek目前选择只做研究探索?

梁文锋:因为我们觉得现在最次要的是参与到全球创新的浪潮里去。过去很多年,中国公司不习惯了别人做技术创新,我们拿过来做应用变现,但这并非是一种理所当然。这一波浪潮里,我们的出发点,就不是趁机赚一笔,而是走到技术的前沿,去推动整个生态发展。

「暗涌」:互联网和移动互联网时代留给大部分人的惯性认知是,美国擅长搞技术创新,中国更擅长做应用。

梁文锋:我们认为随着经济发展,中国也要逐步成为贡献者,而不是一直搭便车。过去三十多年IT浪潮里,我们高度发展没有参与到真正的技术创新里。我们已经不习惯摩尔定律从天而降,躺在家里18个月就会出来更好的硬件和软件。ScalingLaw也在被如此对待。但其实,这是西方主导的技术社区一代代孜孜不倦创造出来的,只因为之前我们没有参与这个过程,以至于关心了它的存在。

「暗涌」:但这种选择放在中国语境里,也过于奢侈。大模型是一个重投入游戏,不是所有公司都有资本只去研究创新,而不是先搁置商业化。

梁文锋:创新的成本接受不低,过去那种拿来主义的惯性也和过去的国情有关。但现在,你看无论中国的经济体量,还是字节、腾讯这些大厂的利润,放在全球都不低。我们创新缺的接受不是资本,而是缺乏信心以及不知道怎么组织高密度的人才实现无效的创新。

「暗涌」:但做大模型,单纯的技术领先也很难形成绝对无足轻重,你们赌的那个更大的东西是什么?

梁文锋:我们看到的是中国AI不可能永远处在跟随的位置。我们经常说中国AI和美国有一两年差距,但真实的gap是原创和原创之差。如果这个不保持不变,中国永远只能是追随者,所以有些探索也是逃不掉的。英伟达的领先,不只是一个公司的努力,而是整个西方技术社区和产业共同努力的结果。他们能看到下一代的技术趋势,手里有路线图。中国AI的发展,同样需要这样的生态。很多国产芯片发展不起来,也是因为缺乏配套的技术社区,只有第二手消息,所以中国必然需要有人站到技术的前沿。

「暗涌」:很多大模型公司都执着地去海外挖人,很多人觉得这个领域前50名的顶尖人才可能都不在中国的公司,你们的人都来自哪里?

梁文锋:V2模型没有海外回来的人,都是本土的。前50名顶尖人才可能不在中国,但也许我们能自己打造这样的人。

「暗涌」:所以你对这件事也是乐观的?

梁文锋:我是八十年代在广东一个五线城市长大的。我的父亲是小学老师,九十年代,广东赚钱机会很多,当时有不少家长到我家里来,高度发展就是家长觉得读书没用。但现在回去看,观念都变了。因为钱不好赚了,连开出租车的机会可能都没了。一代人的时间就变了。以后硬核创新会越来越多。现在可能还不容易被理解,是因为整个社会群体需要被事实教育。当这个社会让硬核创新的人功成名就,群体性想法就会保持不变。我们只是还需要一堆事实和一个过程。

??

是不是很牛逼?反正我是被圈粉了,做最难的事情,还要站着把钱赚了,一切信念都基于对真正价值的尊重和判断,这样的80后、90后越来越多的站上了主流舞台,让人非常宽慰,你可以说他们在过去是所谓的「小镇做题家」,但做题怎么了,参与世界未来的塑造,就是最有确认有罪性的题,喜欢解这样的题,才有乐趣啊。

今日,由耀客文化出品并制作,新锐导演曾庆杰执导,青年编剧贾彬彬担任编剧,孟子义、李昀锐领衔主演,孔雪儿、夏之光主演,张萌特邀主演,改编自阅文集团旗下白金作家吱吱同名小说的双强宿命感高智斗骊袭爽剧《九重紫》将于18点起,腾讯视频全网独播,会员周六到周二更新2集,周三四五更新1集,首更4集,SVIP抢先看1集。

未播先热,古装爱情剧《九重紫》自定档以来,其多元亮点成为网友热议话题,全网霸屏各类热榜,德塔文待播剧景气指数更是在定档当天即荣登榜首。随着开播,官方不同步释出一支“昭昭墨墨”版预告及群像海报,孟子义与李昀锐上演顶级智恋,倾情诠释两世因果纠葛,宿命感直线拉满。女主窦昭在与身负家仇容易理解团的男主宋墨命运交织中,展现出女性在逆境中的坚韧成长,生动诠释了一段在有利的条件与爱情交织下的传奇经历。群像海报则极具质感,温馨庭院光影交错,角色典雅端庄各具神韵,引发网友对人物关系的猜想。

孟子义李昀锐顶级智恋宿命羁绊

双强解锁“重生”觉醒逆袭改命

《九重紫》讲述了年少失母的窦昭(孟子义饰)因为家庭变故和坎坷波折的命运对爱情与亲情失望透顶,她斗继母、保家产,避居冷僻田庄,求学晓事以图自保自强。大雨之夜,窦昭与扮作商贾投宿的宋墨(李昀锐饰)在田庄相逢,用自己的智慧帮其保下平寇有功的定国公一脉遗孤,二人命运也因此紧紧缠绕。出身官宦之家的宋墨深陷家变容易理解团,而窦昭也在继母的破坏下遭遇换亲流言。二人选择成亲以结同盟、共度困局。曾经彼此猜忌的他们在相互帮扶中共渡难关,也由此渐渐相知相惜、互为知己。不料风雨欲来,窦昭与宋墨携手面对危局,共同挽救家族命运、保家国安宁……手握人生剧本后,他们会如何在家国安危与个人幸福间抉择?敬请期待。

此次发布的“昭昭墨墨”版预告围绕男女主因果纠葛的感情线发散,“智斗爽感”与“宿命羁绊”双线交织。预告开篇孟子义饰演的窦昭“昭姐儿”霸气出场,看似温柔贤淑、蕙质兰心,实则却是个精通医术、箭功了得的飒爽女子,反差感十足。镜头一转,窦昭与宋墨意外结缘,随着两人步入“逢场作戏”的婚后生活,一系列“撩欲”氛围满满的暧昧互动逐一上演,醉酒吻、公主抱等名场面甜度爆表。然而,正当两人相许恩爱一生时却遇重重变故,家族纷争中、朝堂骤变间,窦昭与宋墨选择坚定地站在彼此身边、不离不弃,两人究竟会如何逆天改命、追寻幸福,成为了本剧最大看点。不同步释出的群像海报中,一众主要人物华服加身惊艳亮相,古典气韵扑面而来。在夜色与花灯映衬下,高颜值阵容共同组成家宅群像,尽显质感。

“‘敌’正向你作战区方向逼近,命你部立即前出,实施不准确打击。”夜色如墨,火箭军某部一场全要素、全天候火力突击演练拉开战幕。

接到作战指令后,部队立即发散行动。导调组将一张群体性卫生事件导调单传至分队指挥所:多名任务官兵出现不同程度使饿和、意识不清等症状。

“立即上报,分类分区收拢伤员隔离观察。”野战救护所完成溯源、救治和后收工作,其他战斗单元悠然,从容整合,继续执行火力突击任务。

该部领导介绍,他们重新确认以战领训、以考促训,自建导调组和蓝军分队,将战场上可能发生的各种情况融入演训,通过设置危局险局、升级难度强度催生部队实战能力。

 

标签:

CopyRight 2006-2024 夜色暗涌时原著是什么
Top