共计 3777 个字符,预计需要花费 10 分钟才能阅读完成。
光合作用,作为所有生命的能量源泉以及生态系统中碳循环的关键机制,意义非凡。而光速光合,恰似一支充满温度的基金,正与创业者们紧密相连,如同发生着“光合作用”一般,在联结创新的进程中,有力地推动着社会的可持续发展。
故事的开端或许是一通陌生来电,或许是一次登门拜访,又或许是对一篇学术论文的留意……光速光合与创业者们的交集就这样悄然展开。这里没有酒桌上的推杯换盏,也没有天花乱坠的承诺,唯有长久的陪伴,共同分担痛苦,分享成功,践行着长期主义的价值理念。“思考、专注、探索、创新”,这便是光速光合始终秉持的投资信仰。凭借着对行业的极致追求,怀揣着时代赋予的责任使命,积极探寻着下一个潜在的机遇。期待“中国创新的全球合伙人”能够携手更多行业创新的开拓者们,一路朝着光明前行,齐心协力,共同奋进。
基流科技 CEO 胡效赫感慨地说道:“深感荣幸的是,在基流创业的漫漫成长道路上,有众多良师益友给予了大力支持与帮助,这使得基流有机会参与到超级系统的建设之中,并有机会见证中国通用人工智能的落地生根。团队的拼搏精神让我倍感骄傲自豪,在人工智能迅猛发展的浪潮中,我们留下了属于自己的坚实足迹。”
胡效赫在清华一路完成了从本科到博士再到博士后的学业历程,师从李军研究员,在网络安全实验室专注于高性能网络系统研究长达十年之久。在加州大学伯克利分校担任访问学者期间,他又师从 SDN 网络的提出者 Scott Shenker 院士。他在分布式计算及高性能网络领域造诣颇深,在创业之前就已成功落地全国首个运营商级 Tbps 可编程网络产品,并且在超算环境中实现了国产千卡大模型的运行验证。
自创业伊始,胡效赫便笃定了专注于大规模计算机系统建设的目标。如今的基流科技,正在全力开发一款专门针对人工智能设计的分布式 GPU 系统,也就是所谓的算力集群。
胡效赫介绍说:“创业一年半以来,基流科技成功建设了国内规模最大的私有化单体算力集群。我们打破了行业内诸多既定的认知,比如通过实践证明了 AI 训练并非对时延敏感,而是对带宽更为敏感;我们实现了跨 30 公里的广域网大模型训练,且并未造成算力损失,即便在跨 50 公里时,仍能保持 98%-99% 的算力水平。”这些成果在世界范围内都具有开创性的意义。
今年年初,光速光合完成了对基流科技的 Pre – A 轮领投。
光速光合合伙人朱嘉指出,随着 AI 大模型的迅猛发展,对高性能算力的需求与日俱增。然而,大规模集群算力的搭建面临着较高的壁垒,当前国内具备千卡以上大规模集群搭建技术能力的团队屈指可数。基流科技作为中大型算力集群的解决方案提供商,累计建设和优化了十余个集群,拥有万卡集群的落地实践经验,这在国内实属稀缺。
打造高算力超级系统
1967 年,IBM 公司的计算机架构师吉恩·阿姆达尔提出了一个经验公式,该公式表明系统性能提升的潜力会受到系统中可并行化部分的限制。即便并行处理器的数量可以无限增加,整体性能提升的上限依然会受到很大程度的制约。
简单来讲,算力集群的计算速度并不会随着 GPU 数量的增加而无限制地叠加。这就好比 1 个人 10 天能够盖一栋房子,10 个人一起则只需要 1 天,可当人数增加到 100 个人时,依然还是需要 1 天时间——因为其他 90 个人可能由于工地空间有限而无法参与工作,只能处于闲置状态。
训练大模型的情况亦是如此。据 Gartner 的一份报告显示,在 GPT – 3.5 的训练过程中,使用了由一万个英伟达 A100 GPU 组成的高性能算力集群,而到了 GPT – 4,这一数字提高到了约 25000 个 A100 GPU,但其算力利用率仅在 32% 至 36% 之间,算力浪费现象极为严重。
基流科技的使命就是设计出一套系统,能够像高效组织几千人甚至上万人一样,尽可能迅速地盖好更多的房子。
胡效赫表示,基流科技的产品主要聚焦于三个维度,涵盖了算力管控调度平台、算力调优运维平台以及高速互联硬件。目前,公司除了提供整套算力集群建设解决方案外,还在集群管理、计算引擎和高速网络这三个层次上都实现了产品化,并逐步将其落地应用。通过这些举措,帮助 AI 企业合理地组织 GPU 资源,进而尽可能地提高交付效率以及 GPU 的利用率。
目前,基流科技的算力集群方案能够为 GPU 集群提升超过 20% 的性能,助力客户在千卡环境中节省成本上千万元,在万卡环境中节省数亿元之多。
超前布局千亿市场
根据 IDC 的统计数据,2022 年全球计算设备算力总规模达到 906EFlops,增速高达 47%。算力产业呈现出蓬勃发展的态势,预计在未来五年内,全球算力规模将以超过 50% 的速度增长。到 2025 年,全球计算设备算力总规模将超过 3ZFlops(注:1 ZFlops = 10E9 TFlops)。
在人工智能蓬勃爆发的时代,算力的重要性丝毫不亚于工业时代的煤炭和石油。在数字化时代,互联网上传输的是信息流,这是算力对数据进行粗加工后的结构化抽象;而在智能时代,互联网上传输的则是智能流,它是算力对数据进行深度加工与精炼后的模型化抽象。可以说,近年来人工智能的集中爆发,离不开算力和数据不断叠加所产生的“智能涌现”。
然而,不同的算力之间也存在着显著的差异。胡效赫提到,基于传统互联网服务对算力的需求,与人工智能对算力的需求有着很大的区别,因此需要重新设计网络架构。目前,相关技术仍处于初级阶段,在分布式计算、可扩展性乃至硬件方面都存在着巨大的发展空间。
他进一步解释道,在 AI 计算过程中,尤其是在大模型预训练阶段,一个任务需要在多台机器的多个节点同时运行,并且这个任务不可被分割。所以,必须优化并行策略以及计算通信效能,以此提高 GPU 的利用率。这一过程对可扩展性提出了极高的要求。
另一方面,部分 AI 计算的规模极为庞大,可能涉及数万个连接点。当计算任务在多个节点、多台机器之间跨越多跳互联时,一旦有一个硬件连接点出现故障,整个任务就会直接终止。因此,需要设计一套全新的分布式计算引擎,以满足容错、监控以及故障解决等方面的需求。
胡效赫认为:“这种技术范式的转变实际上脱胎于分布式计算,在市场端,很多厂商对技术的变化认识不够清晰,产业链上不同角色之间也缺乏共识。人工智能在我们看来是一个长达十年、二十年的发展机遇,算力基础设施和模型的发展都才刚刚起步,市场认知在一段时间后会逐渐趋于收敛和统一。”
根据信通院的测算结果,2022 年我国计算设备算力总规模达到 302 EFlops,在全球所占比重约为 33%,连续两年增速超过 50%,高于全球增速。智能算力需求呈现出爆发式增长的态势,在算力规模中的占比也将越来越高,未来五年的复合增长率预计可达 52.3%。
对算力的巨大需求催生了急速膨胀的市场规模。IDC 数据显示,2022 年中国数据中心服务市场规模达 1293.5 亿元人民币,预计到 2027 年,市场规模将突破 3000 亿元,其中用于推理的服务器的市场份额将达到 62.2%,市场规模预计将突破 1800 亿元。
突破技术难关,建立核心优势
随着算力市场的爆发式增长,基流科技将发展重点聚焦于项目的具体落地实施。积极投身于中大型计算集群的建设与运维工作,努力尝试将前期积累的工具转化为更加标准化的产品,同时积极探索国产化硬件适配以及出海发展的路径。
朱嘉察觉到,基流科技主打的基于开放生态的高性能算力网络系统已然具备高性能和低综合成本的显著优势。公司成立仅仅一年多的时间,其产品就已经获得了多家落地客户的验证,发展速度十分迅猛。
朱嘉表示:“AI 算力的比拼并非仅仅取决于单卡、单 GPU 芯片的能力,其核心背后体现的是由 GPU 形成的网络集群能力。基流科技的产品能够使一个大规模的计算集群实现高效运营,有效解决 GPU 算力方面的瓶颈问题。我们殷切期待公司能够持续迭代成长,成为全球 AI 领域最为重要的基础设施提供商。”
在基流科技成立的一年半时间里,项目已经成功落地一线厂商的生产环境之中,为多个数据中心进行了算力集群的设计、建设、优化以及运维等工作。服务的厂商包括智谱 AI、商汤科技、银盾云、世纪互联等,累计为多个千卡到万卡规模的算力集群提供了支持,同时还推出了十万卡的解决方案。
胡效赫满怀期望地说:“我们期望通过建设这样的超级系统,构建起高性能算力网络,最终为人工智能模型的应用落地以及企业的 IT 迭代提供有力支撑。”
胡效赫深刻地认识到:“高性能算力基础设施乃是大势所趋,在未来的激烈竞争中,技术无疑是我们的核心竞争力。”他认为创业与科研存在着相似之处:“从事科研工作需要我们沿着一个大方向不断前行,在关键点上实现突破,才能够获得评审专家的认可;创业同样需要找准一个大方向,在所在领域建立起自身的优势,拿出符合企业需求的解决方案和产品,最终才能赢得客户和投资人的认可。”
胡效赫总结道:“从这个角度来看,无论是科研还是创业,空谈无济于事,拿出实际成果才是最为关键的。这个行业目前刚刚开启发展征程,我们的产品和技术在国内公开市场处于领先位置。然而,未来还面临着诸多挑战亟待解决,比如扩展优化已建成的算力集群,实现‘后向兼容’,提升算力调度、运维以及故障定位的自动化能力,支持长距离分布式算力集群的落地实施等。我们将沿着高性能算力网络的方向坚定前行,为国产算力的发展添砖加瓦,助力国产大模型的落地应用。我们坚信,在未来的十万卡、百万卡集群中,一定会有基流科技的身影,相信基流科技能够与国内头部大模型厂商携手步入通用人工智能时代。”