返回信息流【前言】
这是头一次想着回byr写点东西,一方面是回顾自己,一方面也算是从自身角度给大家揭开一点运营商体系的帷幕。一个庞大的体系,接触再多说出来也顶多是个切片,大家当盲人摸象看看就好。工作有点像围城,外面的人想进来,里面的人还在蹲坑,有些匿名版的串子没法回复,有些话题交流可以在这里随便聊聊。
///打个广告,想搞AI Infra实习的铁子们可以找我聊聊哈。也感谢今年BYR的几位同学的付出与贡献。
【凡所过往,皆为序章】
简单说说我的背景吧,果园,最后一届美签,英水硕大数据科学方向。赶上疫情从美国2nd master弃了,回国找工作。21年初进入了京郊园区跟着一个小团队做cloud network方向。跌跌撞撞团队人来人往,从cloud native做到现在AI Infra也算是一直在cloud路上延续。(怕被认出来用词怪异了点见谅哈) 过往总结来说就是疫情期甚至之前的包容性的科研环境正在消失殆尽,整体绩效压力逐年倍增,并且对output和落地income要求越来越高。
【2024,回眸】
24年对个人感觉来说,上半年确立AI Infra的立项但是找不到抓手,兜兜转转下半年由于技术选择和大产出擦肩而过。
Q1:被华子忽悠着调研与立项加速卡超分技术研究,顺便去年的成果去省里寻找落地转化被拒绝。年初雄心勃勃,想着手里有去年的延续性产出可以落地获得成果并且和华子在开源社区搭上了线建立了良好关系今年横着走。没想到鸡飞蛋打,省里去年试点无法转化为科创项目过于Infra的cloud runtime对于省里业务没法发掘直接价值。初步接触华子来引入作为我们的主要AI计算资源,一开始乐观满满。
Q2:华子开坑。做昇腾的推理框架的梳理越整理越头大。AI需要的降本增效但华子这套廉价卡放弃,全指着卖高端AI服务器,推理框架华子自己内部山头林立且易用性很差,代码不开源没有可以介入的地方。中央软件研究院承诺的技术合作也鸽了,无疾而终。
Q3:项目中期决定调头,华子这块要拖死我们整组了,转化方向,改向异构方面研究。集团层面开始反思训练这块销售很差产出极其有限,给了我们乘上异构推理池建设调研的东风。和Intel合作了一个异构推理加速方案验证成功,前往省里推动试点。——这里也是由于支撑集团带来的判断和技术思考倾向于推理低成本、小边界自治可用的特点导致项目承担里绕开了直接承担异构训练这个赛道,只是打打辅助。
Q4:害怕兄弟过得苦,又怕兄弟开路虎。异构训练这个赛道被集团层面自上而下关注到了。我牵头接着推进推理方面的加速研究和实验到最后N+3还是认为当前没有需求没有水花。工作肯定是称职,但是仅此而已。尝试了下竞争管理,代表推理这个方向还是拉不出一个在内部讲得通的故事。(感觉非我之过,家人们谁懂啊为什么AI model版块几千卡训了一年模型我们还没有围绕model inference的抓手业务???)
【2024,得失之间】
改革阵痛
异地团队即使人再nice,也是屁股决定脑袋。因为岗位物质等各种资源没法异地流通,团队规模大的那方天然会获得红利倾斜。从工作以来的部门重组、大团队整合、团队分割这些年年在发生,唯一不变的是变换本身。
即使是再纯粹的技术导向也得有足够战略定力的指挥,领导导向的改革最后无可避免成为向上管理的盛会,问题在于技术演进没有那么快,而GJ、国资委、集团、领导每年不变的政策跟风技术跟风,底层做基础技术的非常吃亏,甚至是开发都非常吃亏,我们常说开发确定需求开工要半年,这半年时间领导已经ppt不耐烦想要下个阶段的东西了。PPT科研成为一种常见现象。追求大产出、大影响、大收入的恒大式口号,结果只能向上捆绑,把我们忽悠出来的东西捆绑领导向上汇报变成他的KPI,反向利用领导要向上管理的心态,倒逼领导来push各方来拉资源。自下而上的做事在过去3年中被证明是彻底失败,现在能成功的做法就只剩下了忽悠,能不能干成都是其次的,故事讲的够不够大才是重点。这些功利主义导致了我们可能是集团的核心高学历部门却长期被这些流程性、决策性的内耗燃烧殆尽。
没有贪腐(狗日的冗长的合规流程管理),没有偷懒(集团现在带头卷的丧心病狂,有幸支撑了几个星期,处长干事过着只有周日下午歇几个小时的生活)。大家在一场场加班不分周末,不分早晚的环境里越做越难。我知道起码三个N+3在谋求跑路,这种顶层带头卷摊派下来的事全靠N+3 N+2来撑着的环境,反而领导心力憔悴,底下越来越谦让,干部倒逼年轻化。老专家都往后缩推中生代团队骨干到前台开卷去背年重一年的考核,也算是这个时代很神奇的现象。
AI迷茫
AI很有幸成为23年 24年蝉联两年的技术热点,甚至25年也依然有望。但是环境已不同以往,运营商想从低质的DC租赁业务和沉重的网络业务脱身向AI转型,但是AI时代运营商主推的AI数据中心到底能有哪方面的竞争力?这仍然是个看不到头的问题。就恰似陷入泥潭的OpenAI甚至得靠买题库来吹O3演进堪比鸽了许久犹未可知的GPT5。
兄弟子公司出现了人工智能专业公司,云设施公司,系统集成公司,省公司研发中心,研究院全都一股脑扑到AI上,瓜分抢占不同AI版块,挤进去拼命想做什么。而研究院内部也是各个部门拼了命把研究主体往AI结合。可真的去谈转化,去谈铺出去真正推广,反而拿得出手的只有AI公司一篇又一篇的新闻稿和摄像头业务。模型既然训练了这么久开出来个2B或者2C的AI API的勇气是没有的,内部逼着我们当水军刷日常登陆使用量的狗屁模型业务是训练集2023年初的GPT3都不如的智障level。
AI卡也是很神奇,这里涉密就不细谈了,但结论很直观,N卡互联网屯了几矿山,国企承担企业担当用华子被坑的体无完肤,其他厂商目前东西生态比华子好算力比华子差个level。
那么说回最初的问题,运营商是不是又像5G、云一样,为了发展而发展,强逼着自己进入了这个局面结果一直处在跟随节奏骑虎难下?这个问题我想就像现在业界AI的大逃杀一样,可能只能随着时间和经济形势才能获得答案了。
Cloud之殇
从入行起家我是做docker和k8s入门的,但是花了快两年时间才明白,国企技术节奏和改造成本是远远落后于前沿的。经济成本、人才成本、业务稳定性要求......理由五花八门。一直在对标阿里云,但是阿里云说实话离我们越来越远,2C走的Serverless化难以望其项背(虽然但是,阿里云的增长也完犊子了,All-in Serverless化也很难说提升了多少利润)。
研究院的老本行是做标准,但很抱歉,云方面的标准也其实纯粹图了乐呵,不像传统网络这样甚至有一定的强制性和影响。云的实现是各方既成事实的东西,OpenStack也好k8s也好都是市场竞争后的结果,不是标准推动的协议。因此即使我目前立项牵头做了数年,仍然也会质疑自己到底是否在做无用功,单纯从发声程度来说是有价值的,但是更深层面其实也感觉的出来上层感知来说这个不重要。(网络做点破标准恨不得公众号 内部公文传颂...我们做点东西纯打水花)。
摊子大,做什么事都得抢来抢去,云这边成立了市场化工资,引入一帮互联网云商卷王后发现合作很尴尬。集团视角理论上我们的云方面的东西出口都要导入到他们的大云中,而大集团下的功劳切分和边界会成为桎梏。担心功劳切不清楚导致不提供证明,不提供经费支持,甚至发布会都不提一句这种事是真切发生的;严重影响了部门间协作的信心。
传导到个人、部门,每年立项就很头疼,这个领域被卡位卡住后做点事捡捡漏是真的很难。
专家之路
前面可能叽叽喳喳唠叨了一大堆,这里就简明扼要吧,我的思路可能不是泛用,维持想定位成专家的高目标指引自己逼着去突破去探索。运营商这个平台终究还是个千亿至万亿的平台,靠着平台扩大视野获得更广阔的机会仍然有红利可获。保持架构感多思考是真的很有意义,有太多同事真的就盯着一亩三分地了。同时得多social,social能力、演讲能力、沟通能力越在多人的团队越重要。虽然我是小卡拉米,但是希望未来有机会能回顾现在的时候能说我贯彻了我的想法并且真的有所收获。
【2024,家庭】
木有,光棍,md今年被央财的坑了两次,中电科的坑了一次。岁数大的姐姐心思摸不透。唉,园区远了也是有副作用sad。学生时代有好妹子没珍惜,后悔哇后悔。
这是一条镜像帖。来源:北邮人论坛 / work-life / #1224766同步于 2025/1/21
该镜像源已超过 30 天没有更新,可能在源站已被删除。
WorkLife机器人发帖
【2024总结】AI迷局——运营商(研究院)2024工作回顾
zeyazhu
2025/1/21镜像同步47 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复