English
全部
搜索
图片
视频
短视频
地图
资讯
更多
购物
航班
旅游
笔记本
报告不当内容
请选择下列任一选项。
无关
低俗内容
成人
儿童性侵犯
时长
全部
短(小于 5 分钟)
中(5-20 分钟)
长(大于 20 分钟)
日期
全部
过去 24 小时
过去一周
过去一个月
去年
清晰度
全部
低于 360p
360p 或更高
480p 或更高
720p 或更高
1080p 或更高
源
全部
Dailymotion
Vimeo
Metacafe
Hulu
VEVO
Myspace
MTV
CBS
Fox
CNN
MSN
价格
全部
免费
付费
清除筛选条件
安全搜索:
中等
严格
中等(默认)
关闭
筛选器
linkedin.com
GRPO Family: Group Relative Policy Optimization RL opt [TIC-GRPO, Scaf-GRPO, XRPO, GRPO-CARE, CPPO] | Byte Goose AI
Picture the scene: It’s early 2024. The world’s leading AI labs are pouring billions of dollars into massive compute clusters, all to make Large Language Models think just a little bit more like humans. They’re using PPO—Proximal Policy Optimization—an algorithm that’s powerful, yes, but it’s a memory hog. It needs a 'critic ...
已浏览 103 次
2 个月之前
RL Prod Beats
0:54
Dekh Zara Pyar Se - Episode 11 Teaser - 28th Feb 2026 - [ Yumna Zaidi & Hamza Sohail ] - HUM TV
YouTube
HUM TV
已浏览 93.2万 次
3 周前
1:31
JRedie - Slim Shady (Official Music Video )
YouTube
Jredie_
已浏览 2.5万 次
4 个月之前
3:00
[FREE] Juice WRLD Type Beat - "Please Stay" | Free Type Beat | Rap Trap Instrumental 2022
YouTube
Jammy Beatz
已浏览 5.2万 次
2022年10月18日
热门视频
7:18
Rethinking Trust Region in LLM Reinforcement Learning PPO Limitations and DPPO for Stable FineTuning
YouTube
CosmoX
1 个月前
15:36
How to Train Your Deep Research Agent? Prompt, Reward, and Policy Optimization in Search-R1 (Feb 202
YouTube
AI Paper Slop
已浏览 21 次
3 周前
8:31
Proximal Policy Optimization in Reinforcement Learning Simplified
YouTube
RITEC
已浏览 22 次
6 天之前
RL Prod Type Beat
2:58
Trap Type Beat – “ECSTASY” | Melodic Trap Instrumental 2026
YouTube
MAYØBEATS
已浏览 111 次
1 个月前
3:19
(free for profit) nu-metal x shoegaze type beat "ghostlike"
YouTube
prod. kenji
已浏览 536 次
1 个月前
2:00
[FREE] young money + 2010 + nextrie + drake type beat - "Im back btw"
YouTube
nextrie
已浏览 1132 次
2 个月之前
7:18
Rethinking Trust Region in LLM Reinforcement Learning PPO Limi
…
1 个月前
YouTube
CosmoX
15:36
How to Train Your Deep Research Agent? Prompt, Reward, and Poli
…
已浏览 21 次
3 周前
YouTube
AI Paper Slop
8:31
Proximal Policy Optimization in Reinforcement Learning Simplified
已浏览 22 次
6 天之前
YouTube
RITEC
1:42:39
The Mathematics Behind LLMs: A First-Principles Breakdown of Act
…
2 周前
YouTube
Gavin Wang
2:52
AI Agents Learn to Play Soccer
已浏览 39 次
3 周前
YouTube
Magnificent Skippy
17:01
I Trained an AI to Fly in Space… Then Raced It
已浏览 104 次
1 个月前
YouTube
BalassLabs
0:35
AI Learns to Skip the Line
已浏览 2322 次
3 周前
YouTube
Artful AI
0:34
PPO Algorithm Explained 🤖 | Proximal Policy Optimization in R
…
已浏览 2 次
1 周前
YouTube
Qybrenthak AI Pvt. Ltd.
39:21
What is the Simplest RL Algorithm That Matches GRPO ? | RAFT + R
…
已浏览 709 次
3 周前
YouTube
Deep Learning with Yacine
Luminica | AI & Tech Demos on Instagram: "8-slide deep-dive →
…
1 个月前
Instagram
luminica.ai
Advanced Concepts in Large Language Models. RL / SFT / MH
…
3 个月之前
linkedin.com
PPO Algorithm Improves Policy-Based RL Stability | QYBRENTHA
…
3 天之前
linkedin.com
15:55
Policy Optimization & TRPO & PPO | RL原理讲解系列 #3
已浏览 21 次
6 个月之前
YouTube
Up-Fei
31:16
简单解释近端策略优化算法(PPO):全白板详细讲解
已浏览 535 次
7 个月之前
bilibili
robert_zeng
7:50
近端策略优化算法 PPO(Proximal Policy Optimization Algorithms)
已浏览 274 次
4 个月之前
bilibili
小迪学AI
33:53
【PPO】【已完结】PPO第二部分 完整实现和代码解读
已浏览 9050 次
3 个月之前
bilibili
东川路第一可爱猫猫虫
53:45
强化学习策略梯度之proximal policy optimization PPO理论与代码(上)
已浏览 1万 次
2022年3月26日
bilibili
Stevensong铁维
11:18
如何直观理解PPO算法?博士详解近端策略优化算法原理 公式推导 训练
…
已浏览 1.4万 次
2024年9月25日
bilibili
迪哥AI研习社
19:50
深度强化学习之策略梯度方法与近似策略优化(PPO)
已浏览 5775 次
2018年10月2日
bilibili
爱可可-爱生活
19:25
【PPO】从零到深入(1) 从梯度本质看 PPO的裁剪目标函数
已浏览 1.2万 次
4 个月之前
bilibili
东川路第一可爱猫猫虫
2:15:13
【Umar Jamil】 用数学推导和Pytorch代码解释RLHF 中英字幕
已浏览 45 次
2025年2月4日
bilibili
阳冰NaN
41:34
DRL Lecture 2: Proximal Policy Optimization (PPO)
已浏览 78 次
2024年2月2日
bilibili
iJOYWIN
17:50
Proximal Policy Optimization Explained
已浏览 7.7万 次
2021年5月20日
YouTube
Edan Meyer
11:05
AI Learns to Park - Deep Reinforcement Learning
已浏览 309.8万 次
2019年8月23日
YouTube
Samuel Arzt
35:01
Let's Code Proximal Policy Optimization
已浏览 1.8万 次
2021年5月28日
YouTube
Edan Meyer
24:52
强化学习从原理到实践 第9章 PPO算法
已浏览 5543 次
10 个月之前
bilibili
蓝斯诺特
19:54
Round Robin Scheduling - Solved Problem (Part 1)
已浏览 57.2万 次
2019年10月16日
YouTube
Neso Academy
29:04
Introduction to Proximal Policy Optimization algorithm (PPO)
已浏览 1.3万 次
2020年3月31日
YouTube
Python Lessons
13:21
Simulating Mobile Robots with MATLAB and Simulink
已浏览 9.1万 次
2018年5月4日
YouTube
MATLAB
展开
更多类似内容
反馈