Senior Cloud Computing Engineer/AI System Engineer 高級雲計算工程師/人工智能系統工程師

發布於近3個月
需要香港工作許可
不限經驗
學士
9.0 小時/天, 5 天/週
HK $47K-62K/月
工作亮點
5+ years experience managing GPU clusters
Expertise in distributed computing and deep learning frameworks
Fluent in both English and Chinese
工作描述

職責:

·設計、部署和維護最先進的GPU集群,以支持各種內部業務部門和外部客戶的計算需求。

·不斷監控並優化雲超級計算平臺的性能、可靠性和可擴展性,確保最高上線時間和效率。

·實現先進的資源管理策略,根據項目優先級高效地分配計算資源。

·確保雲環境符合最高標準的security、compliance和energyefficiency,以保護敏感數據並減少環境影響。

·開發並監控全面系統監控和警報機制,以預先識別和解決問題,防止其影響日常生產工作流程。

·領導分佈式計算技術的實施,使大型深度學習模型能夠在多個GPU和節點上並行訓練。

·與AI工程師密切合作,將分散式訓練能力无缝地集成到現有的深度學習框架中。

·開發和優化數據分發和同步策略,以實現更快的模型收敛和減少訓練時間。

·利用先進的分析工具和技術來識別和解決雲HPC環境中的性能瓶頸,確保同事能夠最大限度地提高計算資源的生產力。

·微調GPU集群和深度學習框架,以為項目和用例提供最佳性能。

·實現創新策略以最大化計算資源的使用和效率,包括動態資源分配和工作負載優先級等技術。

·參與雲超級電腦平台和深度學習基礎設施的戰略路徑圖的發展,確保公司保持尖端技術優勢,並支持我們的研發計劃不斷演變的需求。

·執行主管指派的其他任何工作。

資格條件:

·計算機科學或同等學科的學士學位或更高學位。

·5年以上的GPU集群管理經驗,包括安裝、配置和最佳化。

·在設計、部署和管理GPU集群方面有廣泛的經驗,包括配置、監控和性能優化。

·在實現分散計算技術和深度學習模型的並行訓練策略方面具有成熟的專業知識。

·強大的流行深度學習框架(例如TensorFlow、PyTorch、MXNet)和GPU加速編程(例如CUDA、cuDNN)。

·具有高性能計算和深度學習的性能分析和優化工具的實際經驗。

·熟悉虛擬化軟體和Kubernetes管理。

·了解資源管理與排程系統(例如SLURM、Kubernetes)。

·出色的問題解決和排錯技巧,以應對複雜的技術挑戰。

·有效的溝通和協作技巧,與跨功能團隊合作。

·英語和中文流利。

工作職責:

·負責設計、部署及維護頂尖GPU集群,滿足內部業務單位與外部客戶的高性能計算需求

·持續監控並優化雲端HPC平台的性能、可靠性與擴展性,確保最高可用性與資源效率

·制定先進的資源管理與調度策略,按項目優先級動態分配算力

·確保雲環境符合最高安全、合規及綠色能源標準,保護敏感數據並降低環境影響

·建立全面的系統監控與告警機制,主動發現並解決潛在問題

·主導分布式計算技術實施,實現大規模深度學習模型的多GPU/多節點並行訓練

·與AI工程師緊密合作,將分布式訓練能力無縫集成至主流深度學習框架

·優化數據分發與同步策略,加速模型收斂並大幅縮短訓練時間

·運用專業性能剖析工具,精準定位並消除HPC環境瓶頸,協助團隊最大化算力產出

·針對不同項目場景,深度調優GPU集群與深度學習框架,實現極致性能

·推動動態資源分配、工作負載優先級排序等創新策略,提升整體算力利用率

·參與制定雲端HPC平台與深度學習基礎設施長期技術路線圖,確保公司技術領先優勢

·執行上級指派的其他任務

任職要求:

·計算機科學或相關專業本科或以上學歷

·5年以上GPU集群管理經驗(包括安裝、配置、調優)

·具備GPU集群設計、部署、管理與性能優化的豐富實戰經驗

·精通分布式計算技術及深度學習模型並行訓練策略

·熟練使用TensorFlow、PyTorch、MXNet等主流框架,以及CUDA、cuDNN等GPU加速技術

·熟悉虛擬化技術與Kubernetes管理

·熟悉SLURM、Kubernetes等資源調度系統

·具備扎實的性能剖析與優化能力,能獨立解決複雜技術難題

·良好的跨團隊溝通與協作能力

·中英文均精通

查看更多
ITSM
雲計算
雲工程師
算法開發
機器學習(ML)
廣東話
英文
普通話
winwin wong
智慧量子·manager
近3日活躍
相似職位
回覆快
Aim Hire Limited
Experience with Kubernetes and container orchestration
Bachelor's degree in Computer Science or related field
Kubernetes Certification (CKA or CKAD) preferred
$30K-45K/月
Datago Technology Limited
Competitive salary
Bachelor's degree in computer science or related field
Proven experience in web scraping and data extraction
$21K-26K/月
回覆快
Primetech Technology Limited
Senior IT Engineer position
At least 2 years IT support experience
Diploma in IT or above required
$23K-25K/月
回覆快
INFOSIGHT
3+ years of hands-on experience with AWS services
Proven experience implementing SSO integrations between Azure AD/Entra ID and AWS
AWS Certifications (Solutions Architect, DevOps Engineer, or Security)
$16K-19K/月
TRIANGLE RECRUITMENT
Tier 3 support experience is a MUST
Degree in computer science or equivalent required
At least three (3) years of IT experience
$25K-38K/月
請謹慎注意
申請工作時,請勿提供您的銀行或信用卡資料。
收藏