亚博体彩app 北大结伙Llama-Factory推出DataFlex: 工业级数据动态现实系统
亚博体彩官方网站入口

亚博盘口

亚博体彩app 北大结伙Llama-Factory推出DataFlex: 工业级数据动态现实系统

发布日期:2026-04-16 05:50    点击次数:82

亚博体彩app 北大结伙Llama-Factory推出DataFlex: 工业级数据动态现实系统

当大模子现实插足深水区,竞争的要津也曾不再只是「模子参数奈何调」,而逐渐转向一个更中枢、也更难系统处治的问题:模子在现实过程中究竟看到了什么数据、以什么比例看到、哪些样本应该被更浩荡地学习。

这些身分正在越来越奏凯地决定现实遵循、泛化智力以及最终模子性能。

围绕数据选择、数据混杂和样本重加权,学术界也曾建议了不少法子。但永久以来,这些法子大多散播在彼此孤苦的代码仓库中:接口不调处、现实历程不一致、复现门槛高、横向相比迂曲。

更弘远的是,许多法子依赖 embedding、模子打分、梯度或中间推理信号,信得过难的从来不是「建议一个法子」,而是把这些法子雄伟、可复现地接入主流现实历程,并纳入一套调处的现实闭环。

近日,北京大学张文涛老师、鄂维南院士团队,结伙 LLaMA-Factory Team、OpenDataLab、上海 AI Lab 等机构,推出了面向大模子现实过程的数据中心动态现实框架 DataFlex。

它并不是单一算法或些许剧本的简单堆叠,而是一套建立在 LLaMA-Factory 之上的调处现实基础范例:将动态样本选择、动态数据混杂、动态样本加权三类中枢智力信得过纳入现实过程,使「数据怎样参与现实」从警戒式配置,升级为可闭幕、可优化、可复现的系统智力。

换句话说,DataFlex 试图处治的,并不单是某一个现实技能是否灵验,而是一个更底层的系统问题:怎样让数据像模子参数一样,成为现实过程中可以执续调度和优化的中枢对象。

这使它既可以手脚计划平台,用于系统相比不同数据中心现实算法;也可以手脚实用系统,奏凯服务于大模子预现实、后现实和领域适配等场景。

DataFlex 发布后,在 Hugging Face Daily Papers 榜单中赶紧赢得鄙俗温文并拿到了月榜第一。这种温文背后所反应的,骨子上是社区对「数据中心动态现实」从表面走向工程闭环的里程碑式招供。

DataFlex 不单是一个算法仓库,而是一套数据中心现实基础范例

可复现的计划平台:在调处现实框架下系统相比动态数据混杂、样本选择和样本加权等数据中心现实法子,笼罩在线与离线场景,显耀裁汰计划复现与法子对比本钱;

面向确凿现实的优化系统:将数据选择、数据配比和样本权重调度信得过接入现实闭环,使数据从「静态输入」酿成「可执续调度的优化对象」,从而提高现实遵循与最终模子遵循。

技巧走漏:https://arxiv.org/abs/2603.26164

官方文档:https://opendcai.github.io/DataFlex-Doc/

Github 仓库:https://github.com/OpenDCAI/DataFlex

DataFlex:大模子工业化数据调用的临了一块拼图

联想形而上学:告别静态投喂,把「数据调度」酿成开箱即用的系统智力

1.中枢意见:Data-Centric Dynamic Training System

DataFlex 的中枢,不单是是再发一遍「数据很弘远」的须生常说念,而是直击行业的最痛点:怎样把「模子看什么数据、按什么比例看、优先强化哪些样本」这种形而上学警戒,信得过固化为可配置、可调度、可复现的程序化系统智力。它不单是温文参数的梯度更新,更死死盯住了数据在每一步现实中的确凿参与度。

1.1从「填鸭式静态输入」到「数据主动调度」

传统的大模子现实中,数据通常被视为事前准备好的静态输入:数据集先详情,采样方式先写死,现实过程中主要被执续优化的是模子参数自己。但当现实数据畛域越来越大、开始越来越复杂时,信得过决定遵循的,也曾不单是「有莫得更大宗据」,而是「现及时能否更灵巧地使用数据」。

Data-centric dynamic training 的中枢念念想,是把数据从「被迫输入」提高为「主动调度对象」。系统不仅要决定模子看哪些数据,还要动态决定不同数据源怎样配比、哪些样本应被优先学习、哪些样本应被裁汰权重。

DataFlex 的价值,恰是在于把这种蓝本零星、散播在不同法子和代码中的智力,激动为调处、程序化的现实机制。

1.2零本钱迁徙的调处框架

好的系统不应成为设备者的职守。在动态调度除外,DataFlex 更进一步处治的是系统层问题:怎样把蓝本散播的数据选择、数据配比和数据重加权法子,调处纳入统一套现实基础范例。

一方面,DataFlex 建立在 LLaMA-Factory 之上,尽量复用已有的模子管制、数据处理和现实组件;另一方面,它在现实层引入调处的数据中心闭幕智力,使不同数据政策大致在统一个现实闭环中被已矣、相比和膨胀。

因此,DataFlex 不是些许数据算法的简单连结,而是一套面向大模子现实过程的调处数据中心动态现实系统。

2.三个联想原则

调处性:系统将数据中心现实中的三个代表性范式调处纳入了统一现实框架;

兼容性:系统大致融入现有的大畛域模子现实基础范例,而不是寥落引入一套就业流;

可膨胀性:计划者可以以较低的工程本钱已矣并相比新的数据中默算法。

举座架构

DataFlex 延续了 LLaMA-Factory 易用、明晰的联想念念路,但在举座架构上作念了要津升级。其在不破碎现有现实生态的前提下,把数据中心现实信得过作念成了一套调处、可膨胀、可复现、可落地的系统智力。扫数这个词系统节略可以分为三层:

基础层(Base Layer):这一层收受自 LLaMA-Factory,郑重模子管制、数据处理、优化器等通用现实智力。系统在尽量保执原有现实历程与使用民风的同期,把膨胀重心聚合在数据中心现实自己,裁汰了用户从现有现实历程迁徙到 DataFlex 的门槛。

现实器层(Trainer Layer):它莫得沿用单一的原始 trainer,而是将现实过程综合为三种数据中心现实模式,区别对应数据选择、数据混杂和样本加权。这一层把现实器从只郑重参数更新,膨胀为同期郑重数据有筹划与参数优化。

政策组件层(Component Layer):这里挂载的是具体算法组件,举例不同的 selector、mixer 和 weighter。它们各自命装了不同法子的政策逻辑,并对现实器流露了调处接口。

这种架构已矣了轻量替换,而不是重构一切。DataFlex 并莫得在 LLaMA-Factory 外面再包一个复杂编排系统,而是聚焦于替换现实层,并仅在需要时对数据加载等模块作念最小膨胀。

对用户来说,这接近一种「即插即用」的增强:已有的模子、数据集、现实参数配置王人可以保留,只需要加多 DataFlex 联系配置,就能切换到以数据为中心的动态现实模式。

此外,DataFlex 还调处封装了数据中心法子普遍依赖的模子中间信号,亚博比如 embedding 索求、模子推理、梯度推测等。很大宗据选择和数据加权法子信得过难落地,不是因为念念想复杂,而是因为它们依赖的中间信号获取本钱高、工程耦合重。DataFlex 把这类分享智力综合出来,裁汰了已矣和膨胀门槛,也为后续大畛域现实提供了基础。

中枢功能

1.三个中枢现实器

对应刻下数据中心现实中典型的三种优化标的,DataFlex 支执三类中枢现实器:

动态样本选择现实器(Dynamic Select Trainer):在现实过程中动态筛选更有价值的现实样本,减少廉价值或冗余样本对现实预算的消费,从而提高现实遵循。

动态数据混杂现实器(Dynamic Mix Trainer):面向多开始、多领域现实数据场景,在现实过程中动态拯救不同数据源的采样比例,使模子大致笔据刻放学习状况更合理地分派现实醒目力。

动态样本加权现实器(Dynamic Weight Trainer):针对不雷同本赋予不同现实权重,使模子大致对更要津、更迂曲或更具代表性的样本进行更灵验学习,从而改善模子性能与泛化智力。

2.算法集成与可膨胀性

DataFlex 为三类现实器集成了 LESS、DoReMi、ODM、Loss Reweighting 等代表性法子。扫数法子王人以可插拔组件的时势,在调处接口下已矣,从而大致在受控要求下进行公道相比。

科研上许多极具代表性的动态现实法子,要么短缺官方仓库,要么其官方已矣有在难以复现的问题。DataFlex 通过系统化的重构,让这些处于「失联」或「半停滞」状况的算法重新具备了工业级坐褥力。

三类现实器单干不同,但背后恪守的是统一种数据 — 模子交互逻辑:先不雅察刻下模子状况,再给出新的数据有筹划,随后把这一有筹划反馈到后续现实中。

DataFlex 恰是把这种共性的交互模式综合成调处接口,从而让不同算法大致分享现实历程、基础智力以及膨胀方式。 DataFlex 的配置文献连续沿用了 LLaMA-Factory 的基于 YAML 的格式,用于指定模子、数据集和现实超参数。

独一新增的是一个简易的 dataflex 配置段,用于告诉框架要选择哪种数据中心政策,以及怎样对其进行调度。

使用方式

DataFlex 满盈兼容 LlamaFactory 的配置和使用方式:

配置兼容:在 LlamaFactory 配置基础上添加 DataFlex 参数;

号令一致:使用 dataflex-cli 替代 llamafactory-cli;

功能保执:支执扫数 LlamaFactory 的原有功能;

无缝切换:可以通过 train_type: static 回退到原始现实模式。

环境配置、参数讲明以及自界说组件接入方式,可进一步参考官方文档。除此除外,咱们还提供了两期视频教程,区别演示了动态数据混杂与动态数据选择的具体操作历程,便于初度上手的用户快速交融。

官方文档:https://opendcai.github.io/DataFlex-Doc/

Github 仓库:https://github.com/OpenDCAI/DataFlex

视频教程:

- 自动数据选择与动态现实:https://b23.tv/BV1pHrKBoE6s

- 自动优化数据配比:https://b23.tv/LYYx1hG

实验遵循

为了考证 DataFlex 的灵验性,团队围绕样本选择、数据混杂和系统遵循三方面进行了系统实验,笼罩 7 种数据选择、2 种数据混杂和 1 种数据重加权法子。举座扫尾标明,DataFlex 不仅大致调处复现不同数据中心法子,还能在模子遵循和现实遵循上带来雄伟提高。

数据选择与样本加权:动态法子举座优于静态现实

在 Open-Hermes-2.5 子集上的实验娇傲,不管是在 Mistral-7B 如故 Llama-3.2-3B 上,大大宗动态数据中心法子王人优于静态全量现实基线。这标明在模子容量有限的情况下,大致及时感知模子状况的动态选择政策关于达到性能上限至关弘远 。

3.2 数据混杂:动态配比优于默出嫁比

在 SlimPajama 的 6B 和 30B 建树下,DoReMi 和 ODM 两种数据混划算法王人进展出了昭彰上风。在 6B token 畛域下,动态数据混杂法子也曾展现出昭彰上风:ODM 在通用智力评测中的准确率高于默许静态配比,而 DoReMi 则在举座困惑度上进一步取得更优扫尾,讲明动态拯救不同数据域的配比,如实大致带来更好的现实收益。

系统遵循:调处框架不仅易用,况且高效

除了遵循提高,DataFlex 在遵循上也有可以进展。以 LESS 为例,在单卡建树下,DataFlex 在多个采样比例上王人已矣了更低现实耗时,举例在 1.0 比例下,现及时候从 30,239 秒降到 28,734 秒,同期准确率从 40.38% 提高到 42.37%。进一步在 8 张 H20 GPU 上,现及时候减少了 57.13%。

关于 TSDS 这类离线选择法子,DataFlex 的重已矣也在不同数据畛域下取得了雄伟的 1%—3.5% 提速。

构筑 AI 时间的数据生态

当大模子技巧演进卓越了架构探索的低级阶段,行业的角逐中枢已跃迁至「数据愚弄」的深水区。

团队(PKU-DCAI)努力于在 Data-Centric AI(以数据为中心的 AI)波浪中,构筑支执下一代 AI 愚弄的数据基础范例。本次开源的 DataFlex 与团队另一中枢就业 DataFlow(3k+ Stars),共同为 AI 时间的数据愚弄成立了从泉源到闭环的全新范式。

Github 仓库:

https://github.com/OpenDCAI/DataFlow

https://github.com/OpenDCAI/DataFlex

面向 AI 时间海量且疲塌的确凿寰宇信息,DataFlow 的责任是打造「高智力密度」的数据提真金不怕火工厂。邻接 DataFlow 提真金不怕火的高阶数据,DataFlex 信得过将「数据愚弄」的触角深刻到了模子现实的原子层。它不仅是在加快模子的抑止,更是在系统层面闭幕模子的泛化智力与常识接管轨迹,确保数据的潜在价值被极致地变现为 AI 的顶尖实战智力。

作家信息

作家是来自北京大学的 DCAI 团队,深耕于 AI 数据侧的底层更正与系统落地,领有该领域最前沿的算法储备与工程警戒。

梁昊:北京大学大数据科学计划中心博士,开源款式 DataFlow leader,第一作家 / 共同第一作家发表 9 篇 CCF-A 论文。

赵正阳:北京大学大数据科学计划中心博士,开源款式 DataFlow 中枢设备者,元枢智汇高档算法计划员。

强好意思伊:北京大学软件与微电子学院硕士,开源款式 DataFlow 中枢设备者,发表期刊 / CCF-A 论文 7 篇。

大家驯顺,大模子竞争的至极不在于单一算法的博弈,而在于构建一套调处、高效、且可复现的数据中心化基础范例。

开源只是起始亚博体彩app,生态需要共建。迎接学术界与工业界的同仁温文、使用 OpenDCAI 系列开源款式,并与团队进行深度的技巧计议。

幸运彩app官方网站下载