Dense Rlof Algorithm - 搜索视频

解决大语言模型RLHF重复错误！用记忆增强奖励塑形提升采样多样性【大语言模型强化学习】

解决大语言模型RLHF重复错误！用记忆增强奖励塑形提升采样多样性 …

bilibili熊二等兵

DeReason-SFT和RL范式中的数据解耦

DeReason-SFT和RL范式中的数据解耦

已浏览 18 次1 个月前

bilibili论文五分钟

手把手带你快速弄懂SFT、RLHF、DPO ！从定义到适用边界全流程解析~大模型|LLM

手把手带你快速弄懂SFT、RLHF、DPO ！从定义到适用边界全流程解 …

已浏览 1795 次3 个月之前

bilibili爱学大模型的柒柒

POV: Your entire FYP is just cooking videos #shorts #funny #viral

POV: Your entire FYP is just cooking videos #shorts #funny #vi…

已浏览 1957 次1 个月前

YouTubeThe Load Bearing Laugh

Indian army attitude status India's #viral #shorts

Indian army attitude status India's #viral #shorts

已浏览 80 次3 周前

YouTube꧁༒Gamer༒꧂

Khaltaro valley Haramosh Gilgit baltistan | The Hidden Village

Khaltaro valley Haramosh Gilgit baltistan | The Hidden Village

已浏览 1592 次1 个月前

YouTubeWild Village

టీడీపీ కొత్త అధ్యక్షులు & కార్యదర్శుల లిస్ట్! | TDP 25 New Committees 🔥| #Shorts

టీడీపీ కొత్త అధ్యక్షులు & కార్యద…

已浏览 5915 次4 个月之前

YouTubeTelugu Daily News

WW2 Epic Scenes #youtubeshorts

已浏览 827 次1 个月前

YouTubeHiglood Mix هيقلود

Distributed Lloyd-based algorithm for uncertainty-aware multi-robot …

已浏览 718 次1 个月前

YouTubeMulti-robot Systems Group at FEE-CTU in Prague

railway station Howrah #trains #militarypowe #armyfamily #armyj…

已浏览 1810 次1 个月前

YouTubeINDIAN ARMY🏅जय भोले नाथ

Comment Baazi Part 4 🔥 | Funniest Instagram Comments 😂 | Savage De…

已浏览 1531 次4 周前

YouTubeComment Baazi

The Geometry of Meaning: Building CBOW from Scratch

已浏览 76 次1 个月前

YouTubeDr. Partha Majumdar

Teri yaadon ki chadar udhe har raat gujar jati hai

已浏览 51 次3 个月之前

YouTubeWandering🔱Thread

[RL Fine-Tuning] From RLHF to GRPO: The Evolution and Optimiz…

已浏览 275 次3 个月之前

YouTubeAI Podcast Series. Byte Goose AI.

ВЗБІРНА on Instagram: "Кабаєв вивів Динамо вперед у матчі пр…

已浏览 1.1万次4 个月之前

Instagramvzbirna

light_humour on Instagram: "📺 Series: Silicon Valley (2014–2019) …

已浏览 107.6万次3 个月之前

Instagramlight_humour.page

RLHF训练法从零复现,TRL版本复现,代码实战,大语言模型训练

已浏览 8842 次2024年11月18日

bilibili蓝斯诺特

细节怪-手撕 LLM 之 RLHF 概念详解与PPO算法详解（1）（近期高频八股…

已浏览 4456 次3 个月之前

bilibiliBeyond_April

【RLT强化学习算法原理】稠密奖励函数详解，训练更稳定、收敛更快的 …

已浏览 92 次9 个月之前

YouTube唐国梁Tommy

RLHF训练法从零复现,代码实战,大语言模型训练

已浏览 2.2万次2024年5月8日

bilibili蓝斯诺特

[veRL] 核心强化学习算法，GRPO、RLOO、REINFORCE++、REINFOR…

已浏览 9366 次8 个月之前

bilibili五道口纳什

细节怪-手撕 LLM 之 RLHF 详解与 PPO 算法详解（2）本节是奖励函数 …

已浏览 2930 次3 个月之前

bilibiliBeyond_April

[Agentic RL] 11 重新理解 DPO，带 KL 正则的 RL 目标函数推导，隐式 …

已浏览 3169 次3 个月之前

bilibili五道口纳什

基于密度的异常值检测方法——LOF

已浏览 51 次2023年10月13日

zhihu.comlvximing

[Agentic RL][09] 练习两天半，实现基于规则奖励的RLOO强化学习算法…

已浏览 1.3万次8 个月之前

bilibili偷星九月333

哈工大算法大佬亲授！《大模型算法：强化学习、微调与对齐》100 张 …

已浏览 157 次11 个月之前

bilibili博文视点阿豹Class

基于人类反馈微调大语言模型：RLHF与DPO方法详解

已浏览 239 次3 个月之前

bilibili光子AI

[论文精读] Deepseek r1 (prepare) - RLHF & PPO & GRPO

已浏览 1.4万次2025年3月10日

bilibili酸果酿

从经典PPO到PPO-RLHF(一) 构建RL到LLM的概念映射

已浏览 6655 次4 个月之前

bilibili东川路第一可爱猫猫虫

细节怪-手撕 LLM 之 RLHF的DPO算法详解（原理解析公式推导）高频 …

已浏览 3103 次3 个月之前

bilibiliBeyond_April

观看更多视频