1 IT job in South China
Change order to:
shenzhen, South China Permanent
Posted on: 12/06/2026
【岗位概述】 本岗位为公司智算算力体系核心专家岗位,主导GPU/CPU异构算力集群、AI训练推理平台、分布式存储与高速网络的全生命周期运维体系建设。聚焦大规模算力集群稳定性保障、资源调度优化、自动化运维落地、算力成本管控及故障体系建设,支撑大模型训练、AI算法研发、智能业务落地等高算力需求场景,持续提升算力资源利用率、平台可用性与运维智能化水平,搭建行业领先的算力运维架构与标准化体系。 【工作职责】 1. 算力集群架构运维与稳定性保障: 负责大规模异构算力集群(GPU服务器、CPU算力节点、NPU算力设备)日常运维、巡检、扩容与迭代管理,保障智算平台整体SLA≥99.99%。统筹服务器、机柜、电力、...