英伟达入股的AI公司Lambda Labs,也基于潞晨Open-Sora模型权重打造了数字乐高宇宙。
最近,其幕后团队在GitHub上晒出了技术路线,进一步披露了最新版本模型的训练核心内容报告地址:。
最新版本的潞晨Open-Sora在此前基础上引入了视频压缩网络(Video Compression Network)、更优扩散模型算法、更多的可控性,并利用更多数据训练出了1.1B扩散生成模型。
其中,引入视频压缩网络是OpenAI的Sora同款方法。它能在时间维度上进行4倍压缩,无需抽帧,可以使用原始FPS生成视频。
考虑到训练一个3D VAE的成本太高,团队尝试让模型重新利用在2D VAE中学习到的知识。在2D VAE压缩后,时间维度上的相邻特征仍然高度相关。
因此团队提出了一个简单的视频压缩网络(即VAE),它能首先在空间维度上实现8x8倍的压缩,再从时间维度上压缩4倍。
1、前380K步,在8个GPU上训练,冻结2D VAE的权重,只训练3D VAE部分,即对时间维度的压缩重建。训练目标为对2D VAE encoder输出的特征进行时间维度的压缩重建,并添加一个identity loss使得新训练的3D VAE输出的特征尽可能和原始2D VAE的特征相似。团队发现加上这种identity loss可以很快让整个VAE达到良好的压缩重建性能,并在下一阶段收敛速度快很多。
3、最后540K步,由于发现只重建2D VAE特征并不能进一步提升性能,所以解冻了2D VAE权重,开始训练整个VAE模型来重建原始视频。该阶段在24个GPU上完成。
其中前两个阶段的训练数据使用20%图像和80%视频,视频用17帧进行训练;最后一个阶段用34帧的随机帧数视频进行训练,使VAE模型可以压缩任意长度的视频。训练和推理的代码已开源。
通过这些技术的整合,不仅能够加快模型的训练速度,还能显着减少推理阶段的等待时间,确保用户体验的流畅性。
此外,这套训练方案还支持在推理过程中输出多种视频宽高比,满足了多样化场景下的视频素材需求,为视频内容创作者提供了更加丰富的创作工具.
此外,技术报告中还透露了更多模型训练的核心细节,包括数据清洗和调优的使用技巧。同时团队构建了更完善的模型评估体系,保障模型的稳健性和泛化能力。
通过提供可自行一键部署的Gradio应用,并支持调节输出的运动分数、美学分数和镜头移动方式等参数,还能一键通过GPT-4o 自动修改指令并支持中文输入。
潞晨Open-Sora可零门槛免费获得模型权重、全套训练代码,沉浸式游戏、创意广告、制作影视大片……都能来试试~
11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
Open-Sora1.1发布,带来了显着的提升,尤其是在视频生成的质量和时长方面。新版本模型能够生成最长约为21秒的视频,使用更高质量的视觉数据和字幕进行训练,从使其更好地理解世界的运作。Open-Sora-Planv1.1.0的这些更新和改进,展示了视频生成技术在理解力、性能和效率方面的持续进步,同时也为未来的研究和开发奠定了基础。
我是头条号的作者,今天给大家带来一个超级实用的分享——AIPPT一键生成工具。在这个快节奏的时代,我们每个人都可能需要快速制作演示文稿,无论是为了工作汇报是学术演讲。如果你有任何想法或问题,欢迎在评论区留言交流。
Hey,各位朋友们,今天我要跟大家分享一个超级酷炫的话题——AI小说推文一键生成!是的,你没听错,就是那种动动手指,就能让AI帮你写小说的神奇技术。这不仅仅是科技的飞跃,更是我们这些创作者的一大福音啊!一、AI小说推文,到底是个啥?首先,让我们来聊聊AI小说推文到底是个什么鬼。让我们一起拥抱这个变化,用AI创造更多美好的故事吧!以上就是我对AI小说推文一键�
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:、百度文心大模型学习机“小度学习机Z30”发布这篇文章介绍了百度旗下的小度科技推出的首款基于文心大模型的学习机Z30,旨在重新定义AI老师,通过先进的AI技术助力孩子主动�
在大模型技术迅速发展的背景下,昆仑万维公司开源了一个具有里程碑意义的稀疏大型语言模型Skywork-MoE。这个模型不仅在性能上表现出色还大幅降低了推理成本,为应对大规模密集型LLM带来的挑战提供了有效的解决方案。Skywork-MoE的开源为大模型社区带来了一个强大的新工具,有助于推动人工智能领域的发展,特别是在需要处理大规模数据和计算资源受限的场景中。
6月6日,着名开源大模型平台Stability.ai在官网宣布,开源最新文生音频模型StableAudioOpen。用户通过文本就能生成最多47秒,钢琴、笛子、鼓点、模拟人声等不同类型的44.1kHz音效。StableAudioOpen目前只能用于学术研究无法商业化。
2024年6月11日,莫斯科——跨国科技公司Yandex最近推出了YaFSDP,这是一种用于训练大型语言模型的开源方法。YaFSDP是目前最有效的公开可用工具,用于增强GPU通信并减少LLM训练中的内存使用量,与FSDP相比,其训练速度提升最高可达26%,具体取决于架构和参数数量。Petals:是一个旨在简化LLM训练和微调过程的库,由YandexResearch、HSE大学、华盛顿大学、HuggingFace、巴黎-萨克雷高等经济学院和Yandex数据分析学院合作开发。
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:、viva发布类Sora视频生成模型支持4K分辨率viva近期推出基于Sora架构的视频生成模型,免费使用,对普通人快速制作视频内容有重大利好影响。Snap与亚马逊和谷歌合作进行云计算合�
快手公司推出了一款名为可灵的全新国产视频生成大模型,它采用了与Sora相似的技术路线,并结合了快手自研的技术创新。这款模型能够生成长达2分钟、30fps、1080p分辨率的超长视频,并支持多种宽高比。对AI视频创作感兴趣的用户,可以在快影APP中体验可灵大模型的功能。
腾讯公司开源了一款创新的模型V-Express,它能够使用人像照片生成视频。这一技术通过一系列逐步丢弃的操作来平衡不同控制信号,使得音频等较弱的信号得以有效利用,实现对姿态、输入图像和音频的综合控制。将继续深入研究V-Express方法,并探索其在更广泛领域的应用,以促进肖像视频生成领域的进一步发展。
DeepSeek-Coder-V2是一个开源的Mixture-of-Experts代码语言模型,性能可与GPT4-Turbo相媲美,在代码特定任务上表现突出。它通过额外的6万亿个token进一步预训练,增强了编码和数学推理能力,同时保持了在一般语言任务上的相似性能。与DeepSeek-Coder-33B相比,在代码相关任务、推理和一般能力方面都有显着进步。此外,它支持的编程语言从86种扩展到338种,上下文长度从16K扩展到128K。
MechanicBotAI是一款利用人工智能技术,帮助车主自行诊断汽车故障的应用程序。它通过简单的三个步骤,让车主输入车辆详细信息、描述问题,然后快速给出精确诊断结果。该产品以其用户友好的界面和针对特定车辆的个性化服务,简化了汽车故障诊断过程,减少了车主在汽车维修上的猜测和成本。
MathBlackBox是一个深度学习模型,旨在探索数学问题解决的黑箱方法。它使用VLLM或其他OpenAI兼容的方法,通过Huggingface工具包和OpenAI进行推理,支持在Slurm环境下运行,并能够处理多种数据集。该项目目前处于早期阶段,需要充分测试后才能部署到实际产品中。
Huly是一个开源的一站式团队协作平台,旨在替代Linear、Jira、Slack和Notion。它集成了项目管理、团队计划、虚拟办公室、聊天和文档管理等功能,为开发者和产品团队提供了强大的协作机会。Huly支持键盘快捷键、团队日历、即时通知、时间块管理、高质量音视频会议等特性,并且可以与GitHub双向同步,帮助团队高效管理任务和知识。
DeepSeek-Coder-V2是一个开源的专家混合模型(Mixture-of-Experts, MoE),专为代码语言设计,其性能与GPT4-Turbo相当。它在代码特定任务上表现优异,同时在通用语言任务上保持了相当的性能。与DeepSeek-Coder-33B相比,V2版本在代码相关任务和推理能力上都有显着提升。此外,它支持的编程语言从86种扩展到了338种,上下文长度也从16K扩展到了128K。
Glyph-ByT5-v2 是微软亚洲研究院推出的一个用于准确多语言视觉文本渲染的模型。它不仅支持10种不同语言的准确视觉文本渲染,而且在美学质量上也有显着提升。该模型通过创建高质量的多语言字形文本和平面设计数据集,构建多语言视觉段落基准,并利用最新的步态感知偏好学习方法来提高视觉美学质量。
VideoLLaMA2-7B是由DAMO-NLP-SG团队开发的多模态大型语言模型,专注于视频内容的理解和生成。该模型在视觉问答和视频字幕生成方面具有显着的性能,能够处理复杂的视频内容,并生成准确、自然的语言描述。它在空间-时间建模和音频理解方面进行了优化,为视频内容的智能分析和处理提供了强大的支持。
EVE是一个编码器自由的视觉-语言模型,由大连理工大学、北京人工智能研究院和北京大学的研究人员共同开发。它在不同图像宽高比下展现出卓越的能力,性能超越了Fuyu-8B,并且接近模块化编码器基础的LVLMs。EVE在数据效率、训练效率方面表现突出,使用33M公开数据进行预训练,并利用665K LLaVA SFT数据为EVE-7B模型训练,以及额外的1.2M SFT数据为EVE-7B (HD)模型训练。EVE的开发采用了高效、透明、实用的策略,为跨模态的纯解码器架构开辟了新途径。
Inbox Zero是一个致力于提高电子邮件管理效率的在线工具,通过AI技术帮助用户快速整理和清理邮箱,实现收件箱的零邮件状态。它通过智能识别和分类邮件,让用户能够快速删除垃圾邮件,保留重要邮件,从而提高工作效率。产品背景信息显示,用户已通过该工具删除超过800万封邮件,显示出其在电子邮件管理领域的广泛应用和高效性。
ElevenLabs Texts to Sounds Effects API是一个编程接口,允许开发者将文本转换为相应的声音效果,适用于视频编辑、游戏开发等多种场景。该API是开源的,可在GitHub上找到代码,便于开发者进行个性化定制和二次开发。
PlantIdentify是一款利用人工智能技术,通过用户上传的照片或使用手机相机拍摄来快速识别植物种类的应用程序。它适合园艺爱好者、自然爱好者以及对周围植物感兴趣的任何人。该应用主要优点包括即时植物识别、免费使用、多语言支持以及保存识别历史等功能。
VideoLLaMA2-7B-Base 是由 DAMO-NLP-SG 开发的大型视频语言模型,专注于视频内容的理解与生成。该模型在视觉问答和视频字幕生成方面展现出卓越的性能,通过先进的空间时间建模和音频理解能力,为用户提供了一种新的视频内容分析工具。它基于 Transformer 架构,能够处理多模态数据,结合文本和视觉信息,生成准确且富有洞察力的输出。
Drip是一款AI驱动的日记应用,致力于通过深度的自我反思和真实的交流来帮助用户找到清晰度,逐步支持他们的心理健康之旅。Drip提供个性化的提示和深入的内省,以支持用户的心理健康之旅,使心理健康对每个人都是可达和可实现的。
inncivio是一个利用人工智能技术,为企业提供个性化教育内容的平台,旨在增强团队成员的技能。平台通过AI创建基于公司知识库的个性化课程,同时融入游戏化元素,提高学习的乐趣和参与度,帮助企业解决团队培训难题,提升团队技能和业务绩效。
VideoLLaMA2-7B-16F-Base是由DAMO-NLP-SG团队开发的大型视频语言模型,专注于视频问答(Visual Question Answering)和视频字幕生成。该模型结合了先进的空间-时间建模和音频理解能力,为多模态视频内容分析提供了强大的支持。它在视觉问答和视频字幕生成任务上展现出卓越的性能,能够处理复杂的视频内容并生成准确的描述和答案。
HelpSteer2是由NVIDIA发布的一个开源数据集,旨在支持训练能够对齐模型以使其更加有帮助、事实正确和连贯,同时在响应的复杂性和冗余度方面具有可调节性。该数据集与Scale AI合作创建,当与Llama 3 70B基础模型一起使用时,在RewardBench上达到了88.8%的表现,是截至2024年6月12日最佳的奖励模型之一。
视频到音频(V2A)技术是DeepMind公司的一项创新,它结合了视频像素与自然语言文本提示,生成与屏幕上动作同步的丰富音景。这项技术可以与视频生成模型如Veo相结合,为视频生成戏剧性配乐、逼真的音效或与视频角色和基调相匹配的对话。它还能为传统素材生成音轨,包括档案材料、无声电影等,开拓了更广泛的创作机会。
Reddo 是一款 AI 搜索引擎,旨在帮助用户搜索全球团队,发现新机会,提供了快速连接和合作的平台。其主要优点包括智能搜索算法、全面的团队信息、便捷的合作方式等。
ElevenLabs的文本转音效API允许用户根据简短的文本描述生成高质量的音效,这些音效可以应用于游戏开发、音乐制作应用等多种场景。该API利用先进的音频合成技术,能够根据文本提示动态生成音效,为用户提供了一种创新的声音设计工具。
Nemotron-4-340B-Base是由NVIDIA开发的大型语言模型,拥有3400亿参数,支持4096个token的上下文长度,适用于生成合成数据,帮助研究人员和开发者构建自己的大型语言模型。模型经过9万亿token的预训练,涵盖50多种自然语言和40多种编程语言。NVIDIA开放模型许可允许商业使用和派生模型的创建与分发,不声明对使用模型或派生模型生成的任何输出拥有所有权。