English
全部
搜索
图片
视频
短视频
地图
资讯
更多
购物
航班
旅游
笔记本
报告不当内容
请选择下列任一选项。
无关
低俗内容
成人
儿童性侵犯
时长
全部
短(小于 5 分钟)
中(5-20 分钟)
长(大于 20 分钟)
日期
全部
过去 24 小时
过去一周
过去一个月
去年
清晰度
全部
低于 360p
360p 或更高
480p 或更高
720p 或更高
1080p 或更高
源
全部
Dailymotion
Vimeo
Metacafe
Hulu
VEVO
Myspace
MTV
CBS
Fox
CNN
MSN
价格
全部
免费
付费
清除筛选条件
安全搜索:
中等
严格
中等(默认)
关闭
筛选器
19:43
解决大语言模型RLHF重复错误!用记忆增强奖励塑形提升采样多样性
…
3 周前
bilibili
熊二等兵
4:42
DeReason-SFT和RL范式中的数据解耦
已浏览 18 次
1 个月前
bilibili
论文五分钟
19:23
手把手带你快速弄懂SFT、RLHF、DPO !从定义到适用边界全流程解
…
已浏览 1795 次
3 个月之前
bilibili
爱学大模型的柒柒
0:14
POV: Your entire FYP is just cooking videos #shorts #funny #vi
…
已浏览 1957 次
1 个月前
YouTube
The Load Bearing Laugh
0:25
Indian army attitude status India's #viral #shorts
已浏览 80 次
3 周前
YouTube
꧁༒Gamer༒꧂
0:13
Khaltaro valley Haramosh Gilgit baltistan | The Hidden Village
已浏览 1592 次
1 个月前
YouTube
Wild Village
0:08
టీడీపీ కొత్త అధ్యక్షులు & కార్యద
…
已浏览 5915 次
4 个月之前
YouTube
Telugu Daily News
0:57
WW2 Epic Scenes #youtubeshorts
已浏览 827 次
1 个月前
YouTube
Higlood Mix هيقلود
2:18
Distributed Lloyd-based algorithm for uncertainty-aware multi-robot
…
已浏览 718 次
1 个月前
YouTube
Multi-robot Systems Group at FEE-CTU in Prague
0:16
railway station Howrah #trains #militarypowe #armyfamily #armyj
…
已浏览 1810 次
1 个月前
YouTube
INDIAN ARMY🏅जय भोले नाथ
0:53
Comment Baazi Part 4 🔥 | Funniest Instagram Comments 😂 | Savage De
…
已浏览 1531 次
4 周前
YouTube
Comment Baazi
7:22
The Geometry of Meaning: Building CBOW from Scratch
已浏览 76 次
1 个月前
YouTube
Dr. Partha Majumdar
0:10
Teri yaadon ki chadar udhe har raat gujar jati hai
已浏览 51 次
3 个月之前
YouTube
Wandering🔱Thread
17:43
[RL Fine-Tuning] From RLHF to GRPO: The Evolution and Optimiz
…
已浏览 275 次
3 个月之前
YouTube
AI Podcast Series. Byte Goose AI.
0:20
ВЗБІРНА on Instagram: "Кабаєв вивів Динамо вперед у матчі пр
…
已浏览 1.1万 次
4 个月之前
Instagram
vzbirna
1:05
light_humour on Instagram: "📺 Series: Silicon Valley (2014–2019)
…
已浏览 107.6万 次
3 个月之前
Instagram
light_humour.page
1:10:05
RLHF训练法从零复现,TRL版本复现,代码实战,大语言模型训练
已浏览 8842 次
2024年11月18日
bilibili
蓝斯诺特
19:10
细节怪-手撕 LLM 之 RLHF 概念详解与PPO算法详解(1)(近期高频八股
…
已浏览 4456 次
3 个月之前
bilibili
Beyond_April
17:48
【RLT强化学习算法原理】稠密奖励函数详解,训练更稳定、收敛更快的
…
已浏览 92 次
9 个月之前
YouTube
唐国梁Tommy
24:29
RLHF训练法从零复现,代码实战,大语言模型训练
已浏览 2.2万 次
2024年5月8日
bilibili
蓝斯诺特
21:36
[veRL] 核心强化学习算法,GRPO、RLOO、REINFORCE++、REINFOR
…
已浏览 9366 次
8 个月之前
bilibili
五道口纳什
19:36
细节怪-手撕 LLM 之 RLHF 详解与 PPO 算法详解(2)本节是奖励函数
…
已浏览 2930 次
3 个月之前
bilibili
Beyond_April
13:52
[Agentic RL] 11 重新理解 DPO,带 KL 正则的 RL 目标函数推导,隐式
…
已浏览 3169 次
3 个月之前
bilibili
五道口纳什
10:20
基于密度的异常值检测方法——LOF
已浏览 51 次
2023年10月13日
zhihu.com
lvximing
27:24
[Agentic RL][09] 练习两天半,实现基于规则奖励的RLOO强化学习算法
…
已浏览 1.3万 次
8 个月之前
bilibili
偷星九月333
0:52
哈工大算法大佬亲授!《大模型算法:强化学习、微调与对齐》100 张
…
已浏览 157 次
11 个月之前
bilibili
博文视点阿豹Class
3:56
基于人类反馈微调大语言模型:RLHF与DPO方法详解
已浏览 239 次
3 个月之前
bilibili
光子AI
27:35
[论文精读] Deepseek r1 (prepare) - RLHF & PPO & GRPO
已浏览 1.4万 次
2025年3月10日
bilibili
酸果酿
17:06
从经典PPO到PPO-RLHF(一) 构建RL到LLM的概念映射
已浏览 6655 次
4 个月之前
bilibili
东川路第一可爱猫猫虫
19:08
细节怪-手撕 LLM 之 RLHF的DPO算法详解(原理解析 公式推导)高频
…
已浏览 3103 次
3 个月之前
bilibili
Beyond_April
观看更多视频
更多类似内容
反馈