GoForum🌐 V2EX

《大模型数据工程》指南:从预训练到 RAG 的完整数据流水线

xuxin123122 · 2026-03-12 20:08 · 0 次点赞 · 0 条回复

📚 《大模型数据工程》指南:从预训练到 RAG 的完整数据流水线

大家好!

最近我和团队(datascale-ai)集中精力维护了一本关于大模型数据工程( Data Engineering for LLMs )的开源书。目前内容已经基本成型,这是我们近期开源输出的核心项目,特此分享给社区的小伙伴们。


💡 为什么要做这个项目?

现在行业内公认 “Data-centric AI” 是核心,但现实情况是网上的资料极其碎片化。

  • 痛点:多数教程集中在调 API 或写 Prompt ,但一线开发者真正面对的是:如何清洗几十 TB 的预训练数据?多模态数据如何高效对齐?如何搭建一个稳定不翻车的 RAG 数据流水线?
  • 初衷:我们发现系统性的实战资料极度稀缺,因此决定将实际工作中的经验和主流方案沉淀下来,帮助大家从“摸着石头过河”转向建立完整的底层逻辑。

📖 本书核心内容

项目遵循 “基础设施 -> 专项场景 -> 端到端实战” 的结构,拒绝“玩具框架”,直接对接企业级技术栈:

🛠 企业级技术栈

  • 分布式计算:Ray Data / Spark
  • 存储方案:Parquet / WebDataset
  • 多模态对齐:CLIP / ColPali 等

🎯 四大核心场景全覆盖

  1. 文本预训练数据工程:采集、清洗、去重。
  2. 多模态数据工程:图文对、重描述、音视频处理。
  3. 对齐与合成数据:指令微调( SFT )、偏好数据构建。
  4. 应用级流水线:文本 RAG 与多模态 RAG 。

💻 5 个直接可跑的实战项目

全书包含 5 个端到端的实战代码,可直接复用落地:

  • Mini-C4 预训练集构建
  • 垂直领域法律专家 SFT 数据集
  • 企业财报多模态 RAG
  • (更多实战请查看仓库…)

🤝 写在最后

  • 开源协议:MIT 协议。
  • 语言支持:中英双语,基于 MkDocs 构建。

目前项目仍在不断完善中。如果你对 LLM 数据流水线感兴趣,或者正在进行大模型相关业务,非常欢迎来逛逛!

欢迎交流:请在 Repo 里提 Issue 或提交 PR 参与共建。如果觉得内容对你有帮助,求个 Star ⭐️ 支持,感谢大家!

0 条回复
添加回复
你还需要 登录 后发表回复

登录后可发帖和回复

登录 注册
主题信息
作者: xuxin123122
发布: 2026-03-12
点赞: 0
回复: 0