1. 视频数据开发下一代 AI 的关键吗?为什么 LeCun 觉得下一代 AI 需要学习视频数据吗?Transformer 视频学习能力如何?Transformer 竞品会更擅长学习视频数据吗?...2. 「用 AI 训 AI」这件事靠谱吗?

Meta 提出的「自我奖励法」是如何实现「自我迭代」是的?与传统的奖励模型相比,有哪些优势?RLAIF 与「自我奖励模型」有什么区别?使用 AI 合成数据训练模型可靠吗?有哪些风险?...3. 从数据看 AI 开源社区的发展

开源 AI 项目和贡献者的发展趋势如何?开源 AI 基础模型的发展如何?2023年 年,开源 AI 创业的市场情况如何?开源,AI 业内大佬有什么看法?...... 本期完整版通讯包   3 项专题解读   29   项本周 AI & Robotics 赛道要快递,包括技术方面 12   项,国内方面 6   项目,国外 11   项 ...

本期通讯总计 25157   单词,可免费试读至 12   %    消耗   99   微信豆可以兑换完整的本期解读(约合人民币)   9.9   元) 要事解读 ①  视频数据开发下一代 AI 的关键吗?

时间:1 月 20 日事件:达沃斯世界经济论坛 - The Expanding Universe of Generative Models 座谈会上,图灵奖得主,Meta 首席 AI 科学家 Yann LeCun 与下一代分享他 AI 看系统应该具备的能力。

在过程中,LeCun 据说公共互联网数据正在耗尽,视频数据有更丰富的信息,但如何让 AI 理解视频数据仍然是一个问题斯坦福大学教授也参与了讨论,Coursera 联合创始人 Daphne Koller,她指出,理解因果关系是为了构建未来 AI 系统的重要性。

牛认为下一代神经网络结构需要什么能力?1、Daphne Koller 讨论强调了数据的作用 AI 但目前发展的关键驱动力, AI 模型对数据的使用刚刚开始触及表面,无法成功地与世界互动随着现实技术的增强,自动驾驶汽车、生物学和医疗保健领域带来了更多的数据,AI 模型将开发出新的能力水平。

2、LeCun 表示,目前的自回归 LLM 发展趋于极端,但数据资源越来越少我们基本上使用了互联网上所有的公共数据我们还需要发明一些新的科学方法和技术来实现未来 AI 像孩子一样,系统可以利用看到的信息进行交互和学习。

① 当前的 LLM 或一般的 NLP 系统的训练方法通常是删除一些单词「破坏」一段文本,然后让大型神经网络重建文本,即预测被删除的单词,以便训练得到类似的 ChatGPT 和 Lama 这种模型② 当人们开始用同样的方法用图片代替数据时,训练大型神经网络来预测图像损坏,但效果不好,视频数据也是如此。

3、LeCun 适合视频处理的模型不是我们现在广泛应用的生成模型新模型应该学会在抽象的表征空间而不是像素空间中进行预测① 他说,目前最有希望的是,至少可以用于图像识别的东西不是生成的因此,最有效的模型不是生成图像、重建或直接预测。

它所做的是在抽象的表征空间中进行预测② 我们需要预测抽象表征空间,而不是特定的像素空间这就是为什么像素空间的预测失败了,因为它太复杂了4、LeCun 和 Koller 还表示未来 AI 系统不仅需要理解数据之间的关系,还需要通过干预世界和观察结果来理解因果关系。

这种理解是跨越数字世界和物理世界的桥梁① LeCun 此外,在特定的系统中,该系统将能够根据其对世界的模型来规划和执行实现特定目标的行动② 目前还没有基于这一原则的原则 AI 系统,除了一个非常简单的机器人系统。

他们的学习速度并不快因此,一旦我们能够扩大这个模型的规模,我们就可以有一个能够理解世界和物理世界的系统Transformer 能学习视频数据吗?作为目前最流行的神经网络结构,许多工作试图基于视觉数据进行训练 Transformer 模型。

最近由字节团队发布的 GR-1 以模型为例,端到端机器人操作任务首次证明,大规模视频生成预训练可以大大提高机器人端到端多任务操作的性能和泛化能力1、具体智能是典型的需求 Agent 智能系统基于物理身体与环境的互动,从而获取信息,理解问题,做出预测,实现行动。

最近有很多智能系统是基于 Transformer 试图解决机器人操作的相关问题① 使用语言指令的方法有很多方法 LLMs 为了生成机器人动作,规划任务,并将指令传递给低级动作策略,如 RT-2、CLIPort 和 PerAct 等;

② 也有采用方法的方法 Transformer 模型解决顺序决策问题,涉及多模态、多任务的机器人操作策略学习,如 Decision Transformer 和 VIMA 等;③ 机器人学习的预训练路径主要分为两种,一种是通过屏蔽图像建模和比较学习来学习有用的视觉表征,另一种是通过学习世界模型,然后通过学习模型来训练强化学习 agent。

2、字节团队于 2023 年 12 月发布的 GR-1 与以往的方法不同,采用统一的视频预测和动作预测模型① 对比近期的 RPT 该方法通过预测不同模式的屏蔽标记来学习物理世界的模型,GR-1 大规模的预训练更适合设计视频预测任务,并专注于语言条件的多任务处理。

3、GR-1 采用端到端机器人操作模型 GPT 风格的 transformer 作为模型架构① 语言输入:使用 CLIP 语言指令作为语言编码器编码成文本;② 视觉输入:预训练 Vision Transformer (ViT)编码,输出 CLS 标记用作图像的全局表示,输出补丁标记用作局部表示;。

③ 机器人状态输入:包括机器人终端执行器 6D 通过线性层编码,姿态和抓手的二进制状态4、GR-1 首先,在大规模视频数据上进行视频预测预训练预训练结束后,GR-1 微调机器人数据微调训练任务包括预测未来帧和预测机器人动作。

① 预训练环节,GR-1 使用 Ego4D 数据集的数据进行了大规模的视频生成预训练,包括大量的人和物体交互场景在预训练期间,模型将随机选择视频序列,并训练预测未来的图像帧② 从机器人数据集中随机抽取微调环节的序列 GR-1 使用因果行为克隆损失和视频预测损失进行端到端优化。

5、研究者在 CALVIN 在机器人操作模拟数据集上进行了实验,GR-1 在 1) 多任务学习 2) 零样本场景迁移 3) 少量数据 4) 取得了零样本语言指令的迁移 SOTA 结果证明,采用视频数据预训练方法可以大大提高模型性能。

6、在真机实验方面,已经进行了视频预训练 GR-1 现有的方法也大大领先于未见的场景和物体的表现7、字节团队 GR-1 此外,谷歌原生的多模式大模型 Gemini 模型训练也采用视频数据(详情请参考 2023 年 Week 51 期间会员通讯)。

① Gemini 训练数据采用多模态、多语言数据集,预训练数据集采用来自网络文档、书籍和代码的数据,包括图像、音频和视频数据② 在模型性能方面,谷歌表示 Gemini 是第一个经过充分研究的考试基准 MMLU 实现人类专家表现的模型。

此外,Gemini Ultra 在 32 在基准测试中 30 其中刷新了行业最佳(SOTA)水平Transformer 竞争对手在学习视频数据时是更好还是更差?Transformer 核心是自我注意机制,其特点是可以同时考虑输入序列中所有位置的信息,并具有很好的并行性能。

但缺点是计算效率低,计算量会随着上下文长度的增加而呈平方级增长,视频信息量远远超过文本1、Transformer:最早由 Vaswani 等人在 2017 年提出,就是现在 LLMs 常用的神经网络架构,

① 包括 BERT、GPT 系列、Gemini 所有的模型都采用了 Transformer2、RetNet:清华大学微软亚研究所研究员于 2023 年 7 月亮提出的神经网络架构RetNet 作为 LLM 同时实现低成本推理、高效长序列建模的基础设施 Transformer 性能和并行模型训练打破了「不可能三角」。

① 「不可能三角」指在 RetNet 以前,许多工作都希望得到改进 Transformer 该方法不能同时实现「并行训练」、「低成本推理」和「扩展性能好」至少比较了共同的改进 Transform 没有绝对优势。

② RetNet 其优点之一是对推理延迟对批量大小不敏感,能承受更大的吞吐量③ 对于 7B 模型和 8k 序列长度,RetNet 带键值缓存的解码速度 Transformers 的 8.4 倍,节省内存 70%。

3、SSM(状态空间模型):以隐含时间为自变量的动态时域模型SSM 因 2023 年 12 月出现的 Mamba 该模型受到了广泛的关注,以前被使用过 SSM 的架构还有 Linear attention、H3、Hyena 等。

① SSM 它是一种基本的科学模型,广泛应用于控制理论、计算神经科学、信号处理等领域,广义上是指任何在状态空间中进化潜变量的模型② SSM 它有许多丰富的特点,实际上可以以多种形式编写作为一个微分方程,它非常适合执行涉及时间序列的任务,如模拟连续过程、处理缺失的数据和适应不同的采样率。

③   Mamba 是 CMU 和 Together.AI 提出了研究人员开发的模型的重要创新「选择性 SSM」随着上下文长度的增加,架构可以实现线性扩展,在语言建模中可以与甚至击败 Transformer。

④ 在 Mamba 此前,苹果和康奈尔的研究人员也采用了它 SSM 主干代替注意力机制,开发了 Diffusion State Space Model 架构这种新的架构可以使用更少的计算能力,比较或超过现有的扩散模型的图像生成效果,并产生高分辨率的图像。

⑤ 八卦:截止日期 2024 年 1 月 26 日,根据 ICLR 2024 公开结果,Mamba 论文没有被会议接受,目前正在进行中 Decision Pending 状态尚不清楚是延迟决定还是拒绝 [ 1 ]。

RetNet 和 SSM 离开发展下一代 AI 更近还是更远?RetNet 与 SSM 许多研究人员也将其扩展到视觉领域相关工作的培训模型可以处理图像分类、目标检测、实例分割,甚至图像生成和视频生成,但没有发现视频数据被用于培训。

今天就分享到这里吧,易风软件库每天都会更新一些日常软件小知识,包括有微信,钉钉,支付宝,陌陌,QQ,千合严选,万盛超市,和启优选,良优品,果海臻选,微雨优选,nsgo,米兰优选,火星严选,惠美优选,淘利购,世纪购,潮动力,萤火通讯,好选悦品,智云互享,知信,致美臻选,微信多开,微信分身,青柠易购,旺惠优品,优品盲盒,智幸,品易,微米优品,淘讯盲盒,名扬优选,华潮易购,奈斯特惠等社交软件下载,软件自带功能有红包软件,红包辅助,透视,埋雷辅助,单透,埋雷软件,牛牛辅助,牛牛外挂,尾数控制,机器人等一些红包强项外挂辅助软件功能免费下载使用。