跟着 AI 工夫的赶快发展,尤其是在大型言语模子(LLM)向视觉言语模子(VLM)及具身智能的进步,造就数据的样式也正在阅历从“静态图片”向“海量视频”的全面鬈曲。视频数据凭借其蕴含的丰富时序信息,已成为 AI 露出物理宇宙动态规矩的要津。
但是,奉陪而来的挑战也相通巨大,海量视频数据造就靠近两大核肉痛点:
存储难:视频数据的存储容量弘远,若将其转为图片序列(如 PNG 法子),会占用强大空间;而若存储为视频文献(如 MP4),则会导致读取速率迟缓。
臆测瓶颈:传统数据加载时势多依赖 CPU 进行软件解码,导致 CPU 成瓶颈,不菲的 GPU 资源闲置挥霍
可见,传统的数据加载决策(DataLoader)已无法激动高效视频数据造就的需求,成为制约模子造就速率的最大瓶颈。咱们急需一个能配得上高性能 GPU 的数据加载器——这恰是智元团队倾力打造 VideoDataset 的初心。
当今已肃穆开源,迎接体验:
GitHub 地址:https://github.com/AgiBot-World/VideoDataset天元证券官网-在线股票杠杆_线上炒股配资平台
01/
VideoDataset 能带来什么?
VideoDataset 是智元机器东谈主团队基于本体 AI 造就需求深度拓荒的高性能视频数据加载库。
极致性能: 通过将解码任务从传统的 CPU 飘动到 GPU,充分挖掘硬件解码才略,费解量莳植 4 倍。
立时造访: 处罚了硬件解码频频不撑捏立时寻帧 (Random Seek) 的业界膺惩,专为 AI 造就设想的立时采样功能。
无缝集成: 兼容 PyTorch Dataset 接口,提供 Mixin 类,拓荒者改几行代码即可接入现存造就流。
02/
VideoDataset 性能实测对比
为了更直不雅地评估 VideoDataset 的发达,咱们进行了 VideoDataset 与主流 CPU 软件解码决策的全面性能对比测试,测试对象包括 OpenCV、Torchvision(PyAV)、Torchvision(VideoReader)和TorchCodec。
罢了披露,VideoDataset与主流 CPU 软件解码决策对比,在解码费解量上莳植了3到4倍。
况兼,它能更灵验地摊派臆测负载,从而将解码任务近乎剥离CPU。这一上风使得 VideoDataset 在大领域视频数据造就中不仅能提供更高的解码成果,还能最大戒指地欺诈GPU资源,提高举座造就成果。
多程度下与主流 CPU 软件解码决策费解量(FPS)对比
CPU欺诈率(%)对比
同期,由于撑捏多解码器复用,在面对本体造就中海量视频立时解码的场景下,VideoDataset 的解码费解量比较主流 GPU 硬件解码决策相通也有明显的上风。
多程度下多视频立时解码费解量(FPS)对比
03/
VideoDataset 怎么作念到极限莳植的?
硬件解码用于造就,松懈软件解码瓶颈
传统解码软件不息针对每个视频流单独创建解码器实例,这在视频流较多、并发量高的情况下,解码器实例的动态创建与殉国将带来较大支拨。VideoDataset 基于 NVIDIA Video Codec SDK 进行封装,通过多解码器(Decoder)调养和坐蓐者—蹧跶者模子等多种技巧罢了了解码与造就的澈底异步活水线,使解码器欺诈率达到 90% 以上,莳植了解码性能和费解量。
攻克视频立时寻帧 (Random Seek)膺惩
视频编码依赖前后帧(I/P/B帧),而传统的硬件解码只可按序播放,立时跳帧时速率极慢。在 AI 造就中需要立时抽样,这就成为了造就瓶颈。Videodataset 通过将视频进行 GOP 级切分,撑捏快速定位到要津帧。这么,解码器无需解码扫数 GOP,只需要解码到筹谋帧即可罢手,从而罢了了高效的立时寻帧。
PyTorch 多程度陷坑
处罚 Python 多程度(spawn/fork)与 CUDA Context 的冲突,确保在 DataLoader 多 worker 模式下踏实运转。
04/
VideoDataset 肃穆开源
VideoDataset 是智元在真机造就中全心打磨出的“基建砖块”,如今肃穆开源,拓荒者不错好像吩咐海量视频数据的挑战,大幅莳植AI模子的造就成果,推动更多拓荒者与询查者一都为具身智能的将来孝顺力量。
在将来的发展中,咱们将握住优化和完善 VideoDataset,接下来的版块更新将包括:
撑捏多级活水线优化,莳植造就历程的机动性与成果;
澈底撑捏Lerobot,推动生态系统的互联互通;
面向PB级数据的散布式存储加载,处理海量数据不再是膺惩;
更多视频法子的兼容,助力与HuggingFace生态深度集成。
05/
开源共研,构建洞开共生重生态
智元AGIBOT自树立之初,便怀揣着让具身智能工夫走出实验室、罢了全民拓荒与产业落地的初心,致力破解机器东谈主拓荒的工夫壁垒,构建洞开、共生的具身智能拓荒者生态。为此,智元从工夫底层到应用层捏续发力:开源 GO-1 通用基座大模子、AgiBot World 百万级真机数据集,为拓荒者提供中枢工夫底座;推出 Genie Studio 全链路拓荒平台、灵渠 OS 操作系统与灵创 0 代码创作平台,大幅裁减拓荒门槛;通过举办 AgiBot World Challenge 海外赛事、启动 “智元 A 诡计” 创业加快、联袂产业链伙伴激动 “被集成”,全概念赋能拓荒者与融合伙伴。
智元AGIBOT将链接以开源为中枢,与全球一同推动具身智能工夫的前沿发展。咱们诚邀更多志同谈合的伙伴加入咱们:迎接提交 PR 和 Issue,共同完善测试与性能评测,丰富各类应用场景的考证。若是你也但愿投身于这场 AI 工程化量产落地的海浪,不妨与咱们一都加快具身智能走进执行生涯的措施!
GitHub 地址:https://github.com/AgiBot-World/VideoDataset
天元证券官网-在线股票杠杆_线上炒股配资平台提示:本文来自互联网,不代表本网站观点。