国产GPU正式进入万卡万P时代！摩尔线程智算集群扩展至万卡

时间:2024-07-07 浏览次数:663

　　所谓万卡集群，顾名思义，就是由1万张甚至更多GPU计算加速卡组成的高性能计算系统，主要用来训练、微调超大规模的基础大模型。

　　这种超级集群全面整合了高性能GPU计算、高性能RDMA网络、高性能并行文件存储、智算平台等全套软硬件技术，堪称一台超级计算机”，可支持千亿级、万亿级参数规模的大模型训练，可以大幅提高训练效率、缩短训练时间，快速迭代模型能力。

　　比如马斯克近日就透露，新一代AI聊天机器人Grok 3就动用了多达10万张NVIDIA H100加速卡进行训练，因此将会非常特别”，为此耗资多达三四十亿美元。

　　比如字节跳动搭建了一个12288张卡的训练集群，研发MegaScale生产系统，用于训练大语言模型，科大讯飞2023年建成了首个支持大模型训练的超万卡集群算力平台飞星一号”。

　　但是，万卡集群乍一看只是千卡集群的拓展和延伸，它绝非简单的更多计算卡迭加，而是一个超级复杂的系统工程，需要解决超大规模组网互联、集群有效计算效率、训练高稳定与高可用、故障快速定位与可诊断工具、生态Day0级快速迁移、未来场景通用计算等众多难题。

　　这是一条难而正确的事情，摩尔线程推出夸娥万卡智算集群解决方案，就是希望能够建设一个规模超万卡、场景更通用、生态兼容好的一个加速计算平台，并优先解决大模型训练的难题。

　　摩尔线程创始人兼CEO张建中强调：要挑战最难做的事情，除了有勇气之外，还要有能力，要有很好的团队，有很强的研发、生产、制造、销售、市场、服务等等方方面面的人才，否则是很难做成的。做成一件事情，其实不是偶然的，而是要花很多时间去建立的。每一家成功的企业都有很多正确的决定，但是不管什么样的决定，真正强的团队才是核心。摩尔线程就有很强的团队，这么多年的经验，我们在GPU行业里的知识、Know-how，碰到过的困难，解决过的难题，对我们来说都是非常宝贵的经验。”

　　夸娥，是摩尔线程的智算中心全栈解决方案，以其自主研发的全功能GPU为底座，包括以夸娥计算集群为核心的基础设施、夸娥集群管理平台（KUAE Platform）、夸娥大模型服务平台（KUAE Model Studio），软件硬件一体化，训练推理一体化，交付一体化，可以开箱即用，提供大规模GPU算力集群的建设、运营管理。

　　摩尔线程的夸娥万卡集群具备PB级的超大显存总容量、PB/s级的超高速卡间互联总带宽、PB/s级的超高速节点互联总带宽，可实现系统性协同优化，从而达到超强的算力，并且MFU最高可以达到60％。

　　稳定性也是卓尔不群，平均无故障运行时间超过15天，最长可以稳定训练大模型30天以上，周均训练有效率超过99％，远超行业平均水平，而且可以性能自动调休、问题自动诊断，2分钟内就能快速修复，进而断点续训练。

　　这得益于摩尔线程自主研发的一系列可预测、可诊断的多级可靠机制，包括：软硬件故障的自动定位与诊断预测，实现分钟级的故障定位；Checkpoint多级存储机制，实现内存秒级存储和训练任务分钟级恢复；高容错高效能的万卡集群管理平台，实现秒级纳管分配与作业调度。

　　此外还有强大的通用性，支持所有主流大模型训练，可加速LLM、MoE、多模态、Mamba等不同架构、不同模态，支持主流分布式训练框架(Colossal-AI、DeepSpeed、Megatron-LM、Flag Scale)。

　　同时，基于高效易用的MUSA编程语言、完整的CUDA生态兼容、自动化迁移工具Musify，开发者只需极短的时间、极少的工作就能完成迁移，甚至几乎不需要修改代码，迁移成本趋近于零。

　　值得一提的是，摩尔线程表示，如果已经适配过摩尔线程的千卡集群，不需要任何额外工作就可以无缝跑在万卡集群上，而哪怕是第一次适配万卡集群，也只需几个小时，只是性能调优需要花一点时间，主要是模型使用方法不同、芯片厂商策略不同所致。

　　目前，摩尔线程已经实现从芯片到算力卡，从一体机到节点集群的全栈式覆盖，支持从单机多卡到多机多卡、从单卡到千卡万卡集群的无缝扩展。

　　单卡支持 48GB 显存、768GB/s显存带宽，并支持摩尔线互连技术，卡间互连带宽240GB/s，从而支持高效多卡互联。

　　双路八卡GPU服务器，专为支持MTT S4000大模型智算加速卡充分发挥其训推性能、稳定性、可靠性的服务器系统。

　　它基于MCCX D800 训推一体机，属于可灵活部署的推理、训练、微调软硬件一体化解决方案。

　　国内众多AI厂商、云厂商、科技厂商、软件厂商和、科研院校机构等，都与摩尔线程有着深入的合作，尤其是利用摩尔线程夸娥智算集群，助力大模型训练、大模型推理、具身智能等不同场景和领域持续创新。

　　除了芯片、算力卡、服务器、一体机节点之外，还有AI算力底座、AIGC创作生产力、产业升级三大展示区。

　　AI算力底座展示区，包括夸娥集群管理平台、夸娥模型服务平台、夸娥大模型推理平台，以及夸娥生态版图。

　　夸娥集群管理平台是摩尔线程大规模GPU计算集群产品可视化管理平台，是用于Al大模型训练、分布式图形渲染、流媒体处理和科学计算的软硬件一体化平台，深度集成全功能GPU计算、网络和存储，提供高可靠、高算力服务。

　　夸娥模型服务平台覆盖大模型预训练、微调和推理全流程，支持所有主流开源大模型。通过摩尔线程MUSIFY代码移植工具，可以良好兼容CUDA应用生态，内置的容器化解决方案，则可实现API一键部署。

　　夸娥大模型推理平台，基于高效的MT Transformer大模型推理引擎，支持业内主流vLLM推理框架、MUSA Serving自研推理框架等，帮助开发人员高效地在云端部署高性能推理服务。

　　AIGC创作生产力展区，可以看到依靠夸娥智算集群、基于图形计算和AI计算的软硬件一体化AIGC内容创作平台摩笔马良”。

　　它部署了摩尔线程自研大语言模型MUSAChat，可以及时润色、翻译用户的输入文本，进一步增强语义理解，还可以基于用户的文本指向，灵活调用SDXL、SD1.5两代模型能力，生成细节丰富、有艺术感的图像结果。

　　同时，结合多种IP-Adapter、ControlNet技术，它还支持创意人像”，上传一张个人照片，以文字描述目标风格，1分钟内就可以得到细腻、逼真的人像图片，而且无需训练、风格不限。

　　摩笔天书”则是依靠夸娥智算集群的AI内容生成解决方案，可提供一站式、多模态、全流程、全自动的绘本生成创作体验。

　　用户只需输入标题和简要的故事大纲，即可一键生成完整故事、绘本图片、旁白、字幕、背景音乐等素材，并自动合成图文绘本故事和视频绘本故事。

　　MT AIR”(MT AIReality)是摩尔线程自研的新一代的AI渲染平台，构建拥有照片级、视网膜级、堪比物理世界真实度的实时渲染管线，轻松实现三维重建，可用于影视、动画、游戏、元宇宙等领域。

　　Sora复现计划”(Open-Sora-Plan)是由北京大学、兔展AIGC联合实验室共同发起的开源项目，利用开源社区的力量，完成对Sora文生视频的复现，当前在Github上有超过1万开发者，摩尔线程则是国内极少数支持运行Open-Sora-Plan视频生成模型的国产GPU公司。

　　在产业数智化升级展示区，可以看到基于人工智能气象预报大模型书生风乌的气象预测应用、基于东华软件私有化大模型智多型（niflex）的公共安全应用、佳都全息路口解决方案的数字交通应用、基于中科闻歌自主研发雅意大模型的辅助决策应用、智慧安防应用、智能金融应用、智慧政务应用等等。

　　值得一提的是，依托夸娥智算集群的强兼容、高算力等特性，风乌成功在24小时内就完成了从CUDA到MUSA的无缝、快速生态迁移，首次实现从硬件到算法的全国产化，且性能、精度均达到国际先进水平。

　　11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

　　7月3日，上海——摩尔线程重磅宣布其AI旗舰产品夸娥智算集群解决方案实现重大升级，从当前的千卡级别大幅扩展至万卡规模。摩尔线程夸娥万卡智算集群，以全功能GPU为底座，旨在打造国内领先的、能够承载万卡规模、具备万P级浮点运算能力的国产通用加速计算平台，专为万亿参数级别的复杂大模型训练设计。我们的愿景是为美好世界加速。

　　以大模型为代表的新一代人工智能技术是引领新一轮科技革命和产业变革的战略性技术和重要驱动力量，随着对算力需求的日益高涨，人工智能算力底座公司日益成为新一波人工智能技术浪潮重要组成部分。2024年5月，摩尔线程与智谱AI开展了新一轮GPU大模型适配及性能测试，包括大模型推理以及基于夸娥千卡智算集群的大模型预训练。关于摩尔线程摩尔线程是一家以全功能GPU芯片设计为主的集成电路高科技公司，能够为广泛的科技生态合作伙伴提供强大的计算加速能力，致力于打造为下一代互联网提供多元算力的元计算平台。

　　近日，有网友发帖称，一留学生自曝信用卡刷了100万逃离美国”引起热议。中国政法大学教授罗翔谈论此事时表示，如果网传信息为真，该留学生可能涉嫌信用卡诈骗。罗翔还表示，本质上信用卡是刺激大家提前消费的工具，所以大家用起来还是要量力行。

　　在正在进行的一加新品发布会上，一加发布了作为行业首款第三代骁龙8平板——一加平板Pro，一加平板Pro刷新行业性能纪录，安兔兔跑分高达231万，首次支持《原神》2.1K超高画质，运行1小时几乎满帧，带来更出色的游戏体验。一加平板Pro搭载行业TOP级旗舰好屏，配备3K分辨率7:5黄金比例LCD超清大屏，支持一加自研明眸护眼技术，针对夜晚使用手机、长时间使用手机以及长时间

　　近日，苹果ApplePay在匈牙利遭遇技术故障，导致许多用户在未进行任何消费的情况下遭遇无故扣款。问题波及匈牙利大多数银行，用户在短时间内被重复扣款，尽管每次金额不大，但累计数额惊人。”为了防止进一步的经济损失，部分用户已经通过银行冻结了信用卡，以防止进一步扣款。

　　天猫平台的一则新规在商家中引起了轩然大波，新规明确规定了商家不得通过包裹卡等方式引流至其他平台，尤其是微信。这一举措对于长期依赖包裹卡进行私域引流的商家来说是个重大打击，在此背景下，众多商家纷纷探讨应对之策，「包裹卡是否继续发放」则成为热议的焦点。你怎么看?还有哪些引流解决方案?欢迎评论一起聊聊。

　　比亚迪元家族累计销量已突破100万台，成为品牌旗下一款广受欢迎的车型。今年5月，元PLUS销量达到25，501辆，环比增长15.9%元UP也热销14，520辆。2023年，元PLUS全年销量突破41万辆，荣获中国A级纯电车销量冠军。

　　苹果最新推出的AppleIntelligence功能因存储限制无法在所有设备上使用，这一限制暴露出苹果在端侧AI发展上的存储瓶颈。iPhone15系列中仅有15Pro和ProMax两款型号支持AppleIntelligence这背后的原因可能与设备的DRAM大小有关。据IDC预测，16GBRAM将成为新一代AI手机的标准配置。

　　今日，词条#iPhone显示无可用SIM卡#冲上热搜，引发网友热议。该话题主持人称，苹果手机突然就显示卡用不了，你们有这种情况吗？确保你拥有活跃的无线运营商套餐；重新启动你的iPhone；检查有没有运营商设置更新，前往设置”通用”关于本机”；如果你的设备装有实体SIM卡，请从SIM卡托架中取出iPhoneSIM卡，然后重新插入SIM卡，确保SIM卡托架已完全闭合并且没有松动；如果你使用的是其他iPhone机型或其他手机制造商的SIM卡托架，则可能无法正确安装；如果你的设备装有实体SIM卡，并且你已经完成了上一步，请尝试使用另一张SIM卡，没有的话，请前往运营商的零售店，并让他们用另一张SIM卡进行测试，你可能需要更换SIM卡。

　　6月7日凌晨，OpenAI在官网开源了GPT-4的稀疏自动编码器。虽然现在大模型的功能越来越强，能生成文本、图片、视频、音频等内容，但是你无法控制神经网络生成的内容，例如，你问ChatGPT多个相同的问题，可能每一次回答的内容都不相同。如果想通过SAE完整捕捉大模型的行为，大概需要10亿或数万亿个特征才可以。

　　可灵 AI 是一款集成了 AI 图像和视频创作功能的创意生产力平台。其主要优点在于快速生成多样风格的图片和高清视频，助力用户提升创作效率。产品定位于为创作者和内容创意人群提供创作灵感和工具支持。

　　奇点通是一个致力于提高工作效率的在线工具平台，通过集成多种智能功能，帮助用户在品牌识别、内容创作、社交媒体推广等场景下提升效率。产品背景是当前市场对于自动化和智能化工具的需求日益增长，奇点通通过其技术优势，为用户提供了一种高效、便捷的工作方式。

　　302.AI是一个汇集了全球顶级AI品牌的在线平台，提供无月费，按需付费的服务模式。它允许用户根据需求选择不同的AI服务，无需支付固定的月费，从而降低使用门槛，提高灵活性。平台可能涵盖了多种AI技术，如图像识别、自然语言处理等，满足不同用户的需求。

　　InternLM-XComposer2.5是一款专注于文本图像理解与合成应用的大型语言模型，具有7B参数的后端支持，能够处理长达96K的长文本上下文，适合需要广泛输入输出的复杂任务。

　　Wanderboat是一个利用人工智能技术，为用户提供个性化旅行计划的网站。用户可以通过聊天的方式，快速生成符合自己兴趣和偏好的旅行行程。它通过分析用户的需求，推荐最佳的景点、餐厅和活动，让旅行规划变得简单而无压力。

　　Gemma-2-27B-Chinese-Chat是基于google/gemma-2-27b-it的首个指令调优语言模型，专为中英文用户设计，拥有角色扮演和工具使用等多种能力。该模型通过ORPO算法进行微调，显着提升了在中英文对话、角色扮演和数学计算等方面的性能。

　　SenseVoice是一个包含自动语音识别(ASR)、语音语言识别(LID)、语音情感识别(SER)和音频事件检测(AED)等多语音理解能力的语音基础模型。它专注于高精度多语种语音识别、语音情感识别和音频事件检测，支持超过50种语言，识别性能超越Whisper模型。模型采用非自回归端到端框架，推理延迟极低，是实时语音处理的理想选择。

　　CodeGeeX4-ALL-9B是CodeGeeX4系列模型的最新开源版本，基于GLM-4-9B持续训练，显着提升了代码生成能力。它支持代码补全、生成、代码解释、网页搜索、函数调用、代码问答等功能，覆盖软件开发的多个场景。在公共基准测试如BigCodeBench和NaturalCodeBench上表现优异，是参数少于10亿的最强代码生成模型，实现了推理速度与模型性能的最佳平衡。

　　YoYo是一个提供创意合成素材的平台，用户可以在这里探索各种角色和风物素材，进行个性化创作。它支持用户通过选择不同的角色和场景素材，合成具有独特风格的插图或图像。YoYo平台的主要优点在于其丰富的素材库和用户友好的合成工具，能够帮助设计师和插画师快速实现创意想法，提高工作效率。

　　笔魂AI绘画是一个专注于人工智能创作图片的网站，集聚了国内AI魔法师与炼丹师们，致力于打造AIGC的内容社区与商业化应用。该产品利用先进的AI技术，为用户带来创新的图片创作体验，同时提供丰富的创意社区交流平台，促进创意分享与合作。

　　Vitamin AI是一款利用人工智能提升公司生产力的平台，它通过集中信息、加速沟通、高效协助客户以及快速创建内容，彻底革新了公司的生产力。它提供了一系列专为商业需求设计的AI工具，包括社交媒体自动化、问答聊天、客户聊天机器人、内容生成器、博客文章生成器和音频转文字等。Vitamin AI专注于您的数据，提供对您业务更相关和准确的见解和输出，同时优先考虑敏感数据的保密性和安全性。

　　L402是一个开放协议，基于HTTP 402 Payment Required状态代码和闪电网络实现互联网原生的付费墙。它为API货币化和数字服务提供了即时、低成本的交易，通过微支付、按使用付费和细粒度访问控制模型，解锁了新的收入流。L402的开放协议鼓励创新和跨行业的广泛采用，促进了一个充满活力的应用和服务生态系统的发展。

　　Fast Sites with AI Translations是一个静态网站构建工具，它使用i18next进行多语言翻译，并且包含自定义语言切换器。该工具还包含站点Map生成器和robots.txt生成器，内置HTML验证功能。它可以帮助用户从单一语言扩展到20多种语言，通过调整URLs和生成多语言链接的站点Map，使搜索引擎能够轻松找到内容。作为静态网站生成器，输出文件非常小，加载速度快，安全性高。

　　creaition是一个利用先进AI技术，通过全视觉工作流程，让用户轻松创建令人惊叹的设计对象的平台。它提供了基础版Lite的免费试用，让用户体验无缝的设计创造过程。该平台通过训练定制的AI模型，融合品牌精髓，生成与现有产品组合无缝集成的无数新设计。

　　伏羲AIPPT是一款集成了AI技术的产品，能够一键生成PPT、思维导图、专业写作和学术论文。它利用先进的人工智能算法，帮助用户快速完成文档的创建和编辑工作，极大地提高了工作效率。产品支持PHP语言和MYSQL数据库，提供了定制化的服务，但不支持开源和二次开发。产品原价1980元，现价1380元，提供一年的免费系统升级服务。

　　Venngage Muse是一个AI驱动的设计平台，提供多种设计模板和工具，帮助用户节省设计时间，提高工作效率。平台通过AI技术，自动生成和编辑设计，同时提供协作工具，支持团队成员共同完成设计项目。Venngage Muse的主要优点包括：直观的用户界面、AI辅助的文本编辑和设计建议、自动品牌化工具、AI生成图像描述和背景移除功能，以及符合Web内容无障碍指南的可访问性检查。

　　StudyRecon是一款旨在简化和协助研究过程中文献综述的智能工具。它通过提供学术景观的全景视图、查询建议、跨数据库搜索、关键词可视化、论文摘要和注释等功能，帮助用户快速获取全面准确的文献资料，从而提高文献综述的质量与效率。

　　xLAM是一个由Salesforce AI Research团队开发的基于大型语言模型(Large Language Models, LLMs)的智能代理研究项目。它通过聚合来自不同环境的智能代理轨迹，标准化并统一这些轨迹到一致的格式，以创建一个优化的通用数据加载器，专门用于智能代理的训练。xLAM-v0.1-r是此模型系列的0.1版本，专为研究目的设计，与VLLM和FastChat平台兼容。

　　Rapport是一个提供创建、动画化并部署情感智能角色的平台，旨在通过虚拟交互个性(VIPs)丰富与受众的对话体验。它结合了最新的AI技术与面部动画技术，支持任何语言的准确唇形同步，并且可以创建逼真或风格化的角色。Rapport的背景信息包括其在游戏面部动画和中间件领域的行业知识，以及其在GTMF 2024年会上的参与。

　　文心智能体平台 AgentBuilder 是基于文心大模型的智能体平台，支持开发者根据行业领域和应用场景，选择不同开发方式打造智能体。其主要优点包括低成本开发、流量分发路径支持，为用户提供完整的产品开发闭环。

上一篇：君实生物获得发明专利授权：“用于治疗癌症的CDK抑制剂的前药” 下一篇：没有了