数据书生·万卷

书生·万卷多达 2TB 数据，涵盖多种模态和任务。发布日期 2023 年 8 月 14 日。包含文本数据（50 亿个文档，数据量超 1TB），图像-文本数据集（超 2200 万个文件，数据量超 140GB），视频数据（超 1000 个文件，数据量超 900GB）。

OpenDataLab 提供了更多的开放数据。

预训练 InternLM-Train

并行训练，极致优化。速度达到 3600 tokens/sec/gpu。

支持从 8 卡到千卡训练，千卡训练效率达 92%；无缝接入 HuggingFace 等技术生态，支持各类轻量化技术。

XTuner 是一种高效的大模型微调框架：

支持多种任务类型，如增量预训练，指令微调，工具类指令微调
支持全量参数、LoRA、QLoRA 等低成本微调，覆盖各类 SFT 场景
支持多种大语言模型的微调，如 InternLM, Llama, QWen, BaiChuan, ChatGLM，适配多种开源生态，支持加载 HuggingFace、ModelScope 模型或数据集
支持自动优化加速，如 Flash Attention, DeepSpeed ZeRO, Pytorch FSDP，使得开发者无需关注复杂的现存优化与计算加速细节
支持多种硬件，覆盖 NVIDIA 20 系以上所有显卡，最低只需 8GB 现存即可微调 7B 模型
支持多种数据格式，如 Alpaca, MOSS, OpenAI, Guanacao 等等

增量续训和有监督微调：

全链路部署，性能领先，每秒生成 2000+ tokens。提供大模型在 GPU 上部署的全流程解决方案，包括模型轻量化、推理和服务。

全方位评测，性能可复现。80 套评测集，40 万道题目。

6 大维度：

Lagent 是一种轻量级智能体框架：

支持多种类型的智能体能力，如 ReAct, ReWoo, AutoGPT
灵活支持多种大语言模型，如 OpenAI 的 GPT-3.5/4, 上海人工智能实验室的 InternLM, Hugging Face 的 Transformers, meta 的 Llama
简单易拓展，支持丰富的工具，如 AI 工具（文生图、文生语音、图片描述），能力拓展（搜索，计算器，代码解释器）， Rapid API（出行 API，财经 API，体育咨询 API）