強化學習算法工程師(Agent Reinforcement Learning Engineer)

艾氪集團·IT資訊科技/電子商務

實習全職
需有香港工作許可
不限經驗
學士
9.0 小時/天, 5 天/週, 辦公室工作
薪資可議
HK $4K-6K/月
工作亮點
Apply reinforcement learning in real industrial systems
Design agent-environment interaction systems
Background in reinforcement learning, agents, or decision systems
工作福利
酬金
年終花紅
婚假
工作描述

關於這個角色

我們正在尋找代理強化學習工程師加入我們的代理核心團隊。

您將幫助建立學習能力強的AI代理,這些代理能夠:

•不斷與現實世界中的業務環境互動

•學習定价、庫存和運作的決策政策

•進行長期規劃和計劃

•通過反饋和偏好調整優化行為

•在生產過程中不斷提高自己

這個角色著重於在實際工業系統中應用強化學習,大型語言模型和代理架構——而不是模擬的玩具環境。


焦點

•設計代理-環境互動系統(觀察、行動、獎金)

•將強化學習應用於實際情境,如價格優化、庫存分配和履行規劃

•為代理建立長期規劃和多步推理管道

•實現偏好學習和反饋優化(RLHF/RLAIF/線上學習)

•從真實業務數據中構建模擬環境和離線評估管道

•建立閉合學習循環:感測→決定→行動→反饋→改善

•開發自動化訓練、評估和部署工作流程

•改善大型RL工作的可見性和穩定性

•重构代理、數據和訓練框架以實現生產就绪


理想的體驗

•強化學習、代理或決策系統的背景

•強大的Python + PyTorch

•將現實世界問題抽象為狀態、行動和獎金的能力

•系統思考的態度

有以下好處:

•多代理經驗

•運作研究/遊戲理論

•供應鏈、定價或資源優化暴露

•LLM代理框架(LangGraph、AutoGen、CrewAI)

您將會解決的典型問題

•一個定价策略在不同地區的行為方式不同——代理如何通過強化學習適應?

•庫存和履行目標相衝突——代理如何在利潤、成本和服務水平之間進行權衡?

•業務數據是嘈雜且延遲的——我們如何設計堅固的獎金功能?

•企業偏好轉移——如何快速重新調整代理行為?

技術堆疊

Python / PyTorch

分散式RL

代理框架

TypeScript / React(內部工具)

查看更多
計算機科學
軟件工程
廣東話
普通話
唐玲
艾氪集團·招聘经理
公司簡介
Echronos AI:世界領先的工業級Agentic OS AI公司 公司簡介關鍵字 工業級Agentic OS、AIOS、分散式多代理協作、Agentic Studio、企業級AI原生基礎設施 公司概覽 Echronos生態系統由三項核心技術創新供應: •echOS - 世界上第一個工業Agentic操作系統,作為分散式多代理編排的AI本質基礎設施,服務於高風險、工業規模的商業和交易生態系統。 •JovaAI - 一個跨行業的代理工作室,設計用於無縫協調和部署多代理協作。 •WtreeAI - 一個下一代硅人才市場,賦能企業按需招聘多元化的AI員工和專業的協作代理團隊。 利用ICB,全球首款實時跨產業交易技術,Echronos AI提供了一個模塊化、「樂高式」的庫,其中包含超過6,000個專有AI工具和技能。這使組織能夠快速配置和部署專為不斷演變的業務場景定制的AI系統,極大地提高效率,同時催化工業循環和跨組織協同。通過加速大型代理生態系統的發展,Echronos AI正在開創AI原生工業集群並設置智能時代企業互聯和AI基礎設施的全球標準。 Echronos AI Group在關鍵創新中心,包括香港、深圳、北京、上海和重慶,維護著戰略性的研發網絡。作為工業級代理AI的先驅,該公司不斷榮獲「千峰獎」等榮譽,被認定為「中國AI產業領先企業」。
相似職位
回覆快
最新
HongKong Cloudsway Limited
研究語義理解算法
構建大規模預訓練模型
電腦相關專業碩士及以上
最新
HongKong Cloudsway Limited
深度學習框架技能要求
搜尋引擎相關經驗
NLP算法經驗碩士學歷
最新
HongKong Cloudsway Limited
研發搜尋引擎語義理解算法
電腦相關專業碩士及以上學歷
熟悉BERT、Transformer等模型
薪資面議
艾氪集團有限公司
Apply reinforcement learning in real industrial systems
Design agent-environment interaction systems
Background in reinforcement learning, agents, or decision systems
回覆快
漢陽科技
Design and develop software modules for robots
Familiar with ROS technical system
Proficient in Linux program design, C++ or Python
$25K-50K/月
請謹慎注意
申請工作時,請勿提供您的銀行或信用卡資料。
收藏