GoForum🌐 V2EX

[招聘] AI for code 创业团队: LLM Training / Alignment/ 强化学习方向核心成员

joywho · 2026-06-16 16:08 · 0 次点赞 · 0 条回复

关于我们: 我们是一家专注 代码智能( Code Intelligence )与大模型训练 的 AI 创业公司。 公司由拥有 20 年强化学习与机器学习经验 的技术专家创立,已完成 2 亿元融资。

我们正在构建面向软件工程场景的新一代代码模型与 Coding Agent

核心方向包括: 1.大模型训练( Pre-training / Continued Training / SFT / Middle Training ) 2.强化学习与对齐( RLHF / Preference Optimization ) 3.Code LLM 训练与优化 4.Coding Agent 系统与工具调用能力 5.软件工程任务评测体系( SWE-bench 等)

我们的目标: 在真实软件工程任务中持续提升模型能力 推动 AI 从“代码辅助工具”走向“自主软件工程能力”

关于岗位: 大模型训练 / 强化学习算法工程师( LLM Training / RL )

工作内容: 1.大语言模型训练全流程设计与优化( Pre-train / Middle-train / Post-train ) 2.Continued Pre-training / SFT / 对齐训练策略设计 3.Code 数据构造、清洗与训练策略优化 4.Reward Model 构建与 RLHF / RLAIF 训练流程设计 5.PPO / DPO / GRPO 等方法在实际训练中的应用 6.模型能力评测与训练闭环迭代

我们希望你:

  • 对大模型训练体系( pre-train / post-train / alignment )有系统理解
  • 对 Transformer 结构与训练机制有深入理解
  • 参与或实际做过 LLM / Code LLM 训练或微调项目
  • 参与过 RLHF / preference optimization / reward model 构建流程
  • 能在 PPO / DPO / GRPO 等方法中解决实际模型优化问题

加分项:

  • 深度参与过大规模 LLM 训练或优化(非 API 使用)
  • 有模型稳定性优化 / 数据构造 / 训练策略优化经验
  • 有 benchmark / evaluation system 构建经验
  • 有论文 / 开源项目 / 技术报告成果

我们欢迎:

  • 有国内头部 AI 大模型团队研发经验(如阿里、字节、腾讯等)
  • 高校优秀研究者
  • 应届博士(强化学习、机器学习、大模型方向)
  • 有 NeurIPS / ICML / ICLR / ACL 等顶会论文或研究成果者

我们希望找到能够将前沿研究方法真正转化为模型能力提升的人。

我们提供:

  • 有竞争力薪资 + 早期核心成员期权
  • 充足 GPU 算力支持快速实验
  • 小团队、高自由度技术环境
  • 直接参与模型方向与技术路线设计
  • 与资深 RL / LLM 研究者共同从 0 到 1 构建系统

办公地点: 北京 / 上海 / 深圳(任选)

投递邮箱: joy_ss@foxmail.com

0 条回复
添加回复
你还需要 登录 后发表回复

登录后可发帖和回复

登录 注册
主题信息
作者: joywho
发布: 2026-06-16
点赞: 0
回复: 0