強化學習算法工程師(Agent Reinforcement Learning Engineer)

艾氪集團有限公司

實習
需有香港工作許可
不限經驗
學士
8小時以上/天, 5天/週, 固定坐班
工作亮點
Apply reinforcement learning in real industrial systems
Design agent-environment interaction systems
Background in reinforcement learning, agents, or decision systems
工作福利
年終花紅
婚假
工作描述

關於這個角色

我們正在尋找代理強化學習工程師加入我們的代理核心團隊。

您將幫助建立學習能力強的AI代理,這些代理能夠:

•不斷與現實世界中的業務環境互動

•學習定价、庫存和運作的決策政策

•進行長期規劃和計劃

•通過反饋和偏好調整優化行為

•在生產過程中不斷提高自己

這個角色著重於在實際工業系統中應用強化學習,大型語言模型和代理架構——而不是模擬的玩具環境。


焦點

•設計代理-環境互動系統(觀察、行動、獎金)

•將強化學習應用於實際場景,如價格優化、庫存分配和履行規劃

•為代理建立長期規劃和多步推理管道

•實現偏好學習和反饋優化(RLHF/RLAIF/線上學習)

•從真實業務數據中構建模擬環境和離線評估管道

•建立閉合學習循環:感測→決定→行動→反饋→改善

•開發自動化訓練、評估和部署工作流程

•改善大型RL工作的可見性和穩定性

•重构代理、數據和訓練框架以實現生產就绪


理想的體驗

•強化學習、代理或決策系統的背景

•強大的Python + PyTorch

•將現實世界問題抽象為狀態、行動和獎金的能力

•系統思考的態度

有以下好處:

•多代理經驗

•運作研究/遊戲理論

•供應鏈、定價或資源優化暴露

•LLM代理框架(LangGraph、AutoGen、CrewAI)

您將會解決的典型問題

•一個價格策略在不同地區的行為方式不同——代理如何通過強化學習適應?

•庫存和履行目標相衝突——代理如何在利潤、成本和服務水平之間進行權衡?

•業務數據是嘈雜且延遲的——我們如何設計堅固的獎金功能?

•企業偏好轉移——如何快速重新調整代理行為?

技術堆疊

Python / PyTorch

分散式RL

代理框架

TypeScript / React(內部工具)

查看更多
計算機科學
軟件工程
廣東話
普通話
董小姐
艾氪集團有限公司·HR
相似職位
Zoomob
STEM Internship position
AI 驅動程式碼編輯實踐
跨平台(iOS/Android)應用開發
$11K/月
Pok Oi Hospital
結合物業管理與社會服務
需輪班工作
具電腦技術支援經驗優先
薪資面議
環速集團 Speedy Group
接受應屆畢業生申請
需熟悉Windows及Mac系統
要求良好溝通與服務意識
$18K-22K/月
環速集團 Speedy Group
IT application development, implementation, and maintenance
Good communication skills in Chinese or English
Criminal record check required
$17K-22K/月
Golden Key Personnel Consultancy Limited
IT Infrastructure project handling
1 to 2 years related working experience
Good English and Mandarin
$17K-25K/月
請謹慎注意
申請工作時,請勿提供您的銀行或信用卡資料。
收藏