亚博盘口

亚博体彩app 北大结伙Llama-Factory推出DataFlex: 工业级数据动态现实系统

发布日期：2026-04-16 05:50 点击次数：82

当大模子现实插足深水区，竞争的要津也曾不再只是「模子参数奈何调」，而逐渐转向一个更中枢、也更难系统处治的问题：模子在现实过程中究竟看到了什么数据、以什么比例看到、哪些样本应该被更浩荡地学习。

这些身分正在越来越奏凯地决定现实遵循、泛化智力以及最终模子性能。

围绕数据选择、数据混杂和样本重加权，学术界也曾建议了不少法子。但永久以来，这些法子大多散播在彼此孤苦的代码仓库中：接口不调处、现实历程不一致、复现门槛高、横向相比迂曲。

更弘远的是，许多法子依赖 embedding、模子打分、梯度或中间推理信号，信得过难的从来不是「建议一个法子」，而是把这些法子雄伟、可复现地接入主流现实历程，并纳入一套调处的现实闭环。

近日，北京大学张文涛老师、鄂维南院士团队，结伙 LLaMA-Factory Team、OpenDataLab、上海 AI Lab 等机构，推出了面向大模子现实过程的数据中心动态现实框架 DataFlex。

它并不是单一算法或些许剧本的简单堆叠，而是一套建立在 LLaMA-Factory 之上的调处现实基础范例：将动态样本选择、动态数据混杂、动态样本加权三类中枢智力信得过纳入现实过程，使「数据怎样参与现实」从警戒式配置，升级为可闭幕、可优化、可复现的系统智力。

换句话说，DataFlex 试图处治的，并不单是某一个现实技能是否灵验，而是一个更底层的系统问题：怎样让数据像模子参数一样，成为现实过程中可以执续调度和优化的中枢对象。

这使它既可以手脚计划平台，用于系统相比不同数据中心现实算法；也可以手脚实用系统，奏凯服务于大模子预现实、后现实和领域适配等场景。

DataFlex 发布后，在 Hugging Face Daily Papers 榜单中赶紧赢得鄙俗温文并拿到了月榜第一。这种温文背后所反应的，骨子上是社区对「数据中心动态现实」从表面走向工程闭环的里程碑式招供。

DataFlex 不单是一个算法仓库，而是一套数据中心现实基础范例

可复现的计划平台：在调处现实框架下系统相比动态数据混杂、样本选择和样本加权等数据中心现实法子，笼罩在线与离线场景，显耀裁汰计划复现与法子对比本钱；

面向确凿现实的优化系统：将数据选择、数据配比和样本权重调度信得过接入现实闭环，使数据从「静态输入」酿成「可执续调度的优化对象」，从而提高现实遵循与最终模子遵循。

技巧走漏：https://arxiv.org/abs/2603.26164

官方文档：https://opendcai.github.io/DataFlex-Doc/

Github 仓库：https://github.com/OpenDCAI/DataFlex

DataFlex：大模子工业化数据调用的临了一块拼图

联想形而上学：告别静态投喂，把「数据调度」酿成开箱即用的系统智力

1.中枢意见：Data-Centric Dynamic Training System

DataFlex 的中枢，不单是是再发一遍「数据很弘远」的须生常说念，而是直击行业的最痛点：怎样把「模子看什么数据、按什么比例看、优先强化哪些样本」这种形而上学警戒，信得过固化为可配置、可调度、可复现的程序化系统智力。它不单是温文参数的梯度更新，更死死盯住了数据在每一步现实中的确凿参与度。

1.1从「填鸭式静态输入」到「数据主动调度」

传统的大模子现实中，数据通常被视为事前准备好的静态输入：数据集先详情，采样方式先写死，现实过程中主要被执续优化的是模子参数自己。但当现实数据畛域越来越大、开始越来越复杂时，信得过决定遵循的，也曾不单是「有莫得更大宗据」，而是「现及时能否更灵巧地使用数据」。

Data-centric dynamic training 的中枢念念想，是把数据从「被迫输入」提高为「主动调度对象」。系统不仅要决定模子看哪些数据，还要动态决定不同数据源怎样配比、哪些样本应被优先学习、哪些样本应被裁汰权重。

DataFlex 的价值，恰是在于把这种蓝本零星、散播在不同法子和代码中的智力，激动为调处、程序化的现实机制。

1.2零本钱迁徙的调处框架

好的系统不应成为设备者的职守。在动态调度除外，DataFlex 更进一步处治的是系统层问题：怎样把蓝本散播的数据选择、数据配比和数据重加权法子，调处纳入统一套现实基础范例。

一方面，DataFlex 建立在 LLaMA-Factory 之上，尽量复用已有的模子管制、数据处理和现实组件；另一方面，它在现实层引入调处的数据中心闭幕智力，使不同数据政策大致在统一个现实闭环中被已矣、相比和膨胀。

因此，DataFlex 不是些许数据算法的简单连结，而是一套面向大模子现实过程的调处数据中心动态现实系统。

2.三个联想原则

调处性：系统将数据中心现实中的三个代表性范式调处纳入了统一现实框架；

兼容性：系统大致融入现有的大畛域模子现实基础范例，而不是寥落引入一套就业流；

可膨胀性：计划者可以以较低的工程本钱已矣并相比新的数据中默算法。

举座架构

DataFlex 延续了 LLaMA-Factory 易用、明晰的联想念念路，但在举座架构上作念了要津升级。其在不破碎现有现实生态的前提下，把数据中心现实信得过作念成了一套调处、可膨胀、可复现、可落地的系统智力。扫数这个词系统节略可以分为三层：

基础层（Base Layer）：这一层收受自 LLaMA-Factory，郑重模子管制、数据处理、优化器等通用现实智力。系统在尽量保执原有现实历程与使用民风的同期，把膨胀重心聚合在数据中心现实自己，裁汰了用户从现有现实历程迁徙到 DataFlex 的门槛。

现实器层（Trainer Layer）：它莫得沿用单一的原始 trainer，而是将现实过程综合为三种数据中心现实模式，区别对应数据选择、数据混杂和样本加权。这一层把现实器从只郑重参数更新，膨胀为同期郑重数据有筹划与参数优化。

政策组件层（Component Layer）：这里挂载的是具体算法组件，举例不同的 selector、mixer 和 weighter。它们各自命装了不同法子的政策逻辑，并对现实器流露了调处接口。

这种架构已矣了轻量替换，而不是重构一切。DataFlex 并莫得在 LLaMA-Factory 外面再包一个复杂编排系统，而是聚焦于替换现实层，并仅在需要时对数据加载等模块作念最小膨胀。

对用户来说，这接近一种「即插即用」的增强：已有的模子、数据集、现实参数配置王人可以保留，只需要加多 DataFlex 联系配置，就能切换到以数据为中心的动态现实模式。

此外，DataFlex 还调处封装了数据中心法子普遍依赖的模子中间信号，亚博比如 embedding 索求、模子推理、梯度推测等。很大宗据选择和数据加权法子信得过难落地，不是因为念念想复杂，而是因为它们依赖的中间信号获取本钱高、工程耦合重。DataFlex 把这类分享智力综合出来，裁汰了已矣和膨胀门槛，也为后续大畛域现实提供了基础。

中枢功能

1.三个中枢现实器

对应刻下数据中心现实中典型的三种优化标的，DataFlex 支执三类中枢现实器：

动态样本选择现实器（Dynamic Select Trainer）：在现实过程中动态筛选更有价值的现实样本，减少廉价值或冗余样本对现实预算的消费，从而提高现实遵循。

动态数据混杂现实器（Dynamic Mix Trainer）：面向多开始、多领域现实数据场景，在现实过程中动态拯救不同数据源的采样比例，使模子大致笔据刻放学习状况更合理地分派现实醒目力。

动态样本加权现实器（Dynamic Weight Trainer）：针对不雷同本赋予不同现实权重，使模子大致对更要津、更迂曲或更具代表性的样本进行更灵验学习，从而改善模子性能与泛化智力。

2.算法集成与可膨胀性

DataFlex 为三类现实器集成了 LESS、DoReMi、ODM、Loss Reweighting 等代表性法子。扫数法子王人以可插拔组件的时势，在调处接口下已矣，从而大致在受控要求下进行公道相比。

科研上许多极具代表性的动态现实法子，要么短缺官方仓库，要么其官方已矣有在难以复现的问题。DataFlex 通过系统化的重构，让这些处于「失联」或「半停滞」状况的算法重新具备了工业级坐褥力。

三类现实器单干不同，但背后恪守的是统一种数据 — 模子交互逻辑：先不雅察刻下模子状况，再给出新的数据有筹划，随后把这一有筹划反馈到后续现实中。

DataFlex 恰是把这种共性的交互模式综合成调处接口，从而让不同算法大致分享现实历程、基础智力以及膨胀方式。 DataFlex 的配置文献连续沿用了 LLaMA-Factory 的基于 YAML 的格式，用于指定模子、数据集和现实超参数。

独一新增的是一个简易的 dataflex 配置段，用于告诉框架要选择哪种数据中心政策，以及怎样对其进行调度。

使用方式

DataFlex 满盈兼容 LlamaFactory 的配置和使用方式：

配置兼容：在 LlamaFactory 配置基础上添加 DataFlex 参数；

号令一致：使用 dataflex-cli 替代 llamafactory-cli；

功能保执：支执扫数 LlamaFactory 的原有功能；

无缝切换：可以通过 train_type: static 回退到原始现实模式。

环境配置、参数讲明以及自界说组件接入方式，可进一步参考官方文档。除此除外，咱们还提供了两期视频教程，区别演示了动态数据混杂与动态数据选择的具体操作历程，便于初度上手的用户快速交融。

官方文档：https://opendcai.github.io/DataFlex-Doc/

Github 仓库：https://github.com/OpenDCAI/DataFlex

视频教程：

- 自动数据选择与动态现实：https://b23.tv/BV1pHrKBoE6s

- 自动优化数据配比：https://b23.tv/LYYx1hG

实验遵循

为了考证 DataFlex 的灵验性，团队围绕样本选择、数据混杂和系统遵循三方面进行了系统实验，笼罩 7 种数据选择、2 种数据混杂和 1 种数据重加权法子。举座扫尾标明，DataFlex 不仅大致调处复现不同数据中心法子，还能在模子遵循和现实遵循上带来雄伟提高。

数据选择与样本加权：动态法子举座优于静态现实

在 Open-Hermes-2.5 子集上的实验娇傲，不管是在 Mistral-7B 如故 Llama-3.2-3B 上，大大宗动态数据中心法子王人优于静态全量现实基线。这标明在模子容量有限的情况下，大致及时感知模子状况的动态选择政策关于达到性能上限至关弘远。

3.2 数据混杂：动态配比优于默出嫁比

在 SlimPajama 的 6B 和 30B 建树下，DoReMi 和 ODM 两种数据混划算法王人进展出了昭彰上风。在 6B token 畛域下，动态数据混杂法子也曾展现出昭彰上风：ODM 在通用智力评测中的准确率高于默许静态配比，而 DoReMi 则在举座困惑度上进一步取得更优扫尾，讲明动态拯救不同数据域的配比，如实大致带来更好的现实收益。

系统遵循：调处框架不仅易用，况且高效

除了遵循提高，DataFlex 在遵循上也有可以进展。以 LESS 为例，在单卡建树下，DataFlex 在多个采样比例上王人已矣了更低现实耗时，举例在 1.0 比例下，现及时候从 30，239 秒降到 28，734 秒，同期准确率从 40.38% 提高到 42.37%。进一步在 8 张 H20 GPU 上，现及时候减少了 57.13%。

关于 TSDS 这类离线选择法子，DataFlex 的重已矣也在不同数据畛域下取得了雄伟的 1%—3.5% 提速。

构筑 AI 时间的数据生态

当大模子技巧演进卓越了架构探索的低级阶段，行业的角逐中枢已跃迁至「数据愚弄」的深水区。

团队（PKU-DCAI）努力于在 Data-Centric AI（以数据为中心的 AI）波浪中，构筑支执下一代 AI 愚弄的数据基础范例。本次开源的 DataFlex 与团队另一中枢就业 DataFlow（3k+ Stars），共同为 AI 时间的数据愚弄成立了从泉源到闭环的全新范式。

Github 仓库：

https://github.com/OpenDCAI/DataFlow

https://github.com/OpenDCAI/DataFlex

面向 AI 时间海量且疲塌的确凿寰宇信息，DataFlow 的责任是打造「高智力密度」的数据提真金不怕火工厂。邻接 DataFlow 提真金不怕火的高阶数据，DataFlex 信得过将「数据愚弄」的触角深刻到了模子现实的原子层。它不仅是在加快模子的抑止，更是在系统层面闭幕模子的泛化智力与常识接管轨迹，确保数据的潜在价值被极致地变现为 AI 的顶尖实战智力。

作家信息

作家是来自北京大学的 DCAI 团队，深耕于 AI 数据侧的底层更正与系统落地，领有该领域最前沿的算法储备与工程警戒。

梁昊：北京大学大数据科学计划中心博士，开源款式 DataFlow leader，第一作家 / 共同第一作家发表 9 篇 CCF-A 论文。

赵正阳：北京大学大数据科学计划中心博士，开源款式 DataFlow 中枢设备者，元枢智汇高档算法计划员。

强好意思伊：北京大学软件与微电子学院硕士，开源款式 DataFlow 中枢设备者，发表期刊 / CCF-A 论文 7 篇。

大家驯顺，大模子竞争的至极不在于单一算法的博弈，而在于构建一套调处、高效、且可复现的数据中心化基础范例。

开源只是起始亚博体彩app，生态需要共建。迎接学术界与工业界的同仁温文、使用 OpenDCAI 系列开源款式，并与团队进行深度的技巧计议。

幸运彩app官方网站下载

上一篇：亚博体彩下载 9100mAh! 小米刚公布的LCD新机, 好强啊下一篇：没有了

亚博盘口

亚博体彩app 北大结伙Llama-Factory推出DataFlex: 工业级数据动态现实系统

推荐资讯

热点资讯