HSTU Embedding 学习笔记

Torchrec

数据结构

JaggedTensor (jt)

“Jagged” 的意思是 “锯齿状的”,顾名思义,这种 Tensor 每一行的长度不一,可以将长度差异大的特征高效存储为一个 batch,避免 padding 造成资源浪费。如,可以将不同用户的交互历史作为一个 batch,放进 JaggedTensor 中存储。

OneRev V2 学习笔记

OneRec V2

Kuaishou OneRec Family

版本 论文/报告标题 发布时间 (arXiv) 核心架构 解决的关键痛点
OneRec V1 OneRec Technical Report 2025. 06 Encoder-Decoder 范式验证:证明了“推荐”可以重构为“生成”任务。
OneRec V2 OneRec-V2 Technical Report 2025. 08 Lazy Decoder-Only 计算效率:解决 V1 编码太慢的问题,实现工业级低延迟。
OneRec-Think OneRec-Think: In-Text Reasoning for Generative Recommendation 2025. 10 Think-Ahead (CoT) 深度理解:让模型在推荐前先“思考”理由,增强可解释性。
OpenOneRec OpenOneRec Technical Report 2025. 12 Qwen-based 开源与通用:打破数据孤岛,发布基础模型。

分为两组:

VLLM 学习笔记

什么是 vLLM

vLLM, virtual Large Language Model, 是一个高性能、低延迟的大模型推理和部署库。目的是加速模型推理,并节省显存。其核心创新是 PagedAttention 机制。

之前总是把模型的训练和推理混为一谈,但实际上区别还是有的。虽然两者都要进行前向传播计算,但是训练还要反向传播,而推理则更加纯粹。此外,推理面对的是更具体的落地应用场景,有高并发、大批量等需求,因此优化推理过程意义很大。

Med3DVLM 模型架构及训练流程详解

Med3DVLM 是一种专为医学影像诊断设计的多模态大模型,结合了先进的图像和文本处理技术,实现了对医学影像与相关文本信息的深度理解和关联。本文将详细介绍 Med3DVLM 的模型架构及其训练流程。

参考:mirthAI/Med3DVLM

训练阶段一:图文对比学习

这一阶段主要训练 Vision-Encoder 。

Qwen3-0.6B 学习笔记

0 Qwen3 Technical Report

原文: Qwen3 Technical Report

Qwen3 稠密模型与 Qwen2.5 相似,共同特点是:

  1. 分组查询头 (Grouped Query Attention, GQA) ,即多个 Q-head 共享同一组 KV 。
  2. SwiGLU,替代了传统 transformer 中简单的 MLP 。
  3. 旋转位置编码 (Rotary Positional Embeddings, ROPE) ,用于对 Q-head 和 K-head 注入位置信息。
  4. RMSNorm,均方根归一化。
  5. pre-norm,主要是针对残差连接的。数据输入后,先归一化,再进入模块计算,最后加上原始输入。与之相对的是 post-norm,表示数据输入后,先进入模块计算,再加上原始输入,最后统一归一化。pre-norm 可以避免训练时梯度消失。

不同点:

OpenOneRec 论文阅读笔记

0

原文:OpenOneRec Technical Report

  • 尽管 OneRec 系列已将散乱的推荐算法 pipeline 统一成了一个 end-to-end 的推荐系统框架。但是推荐系统和生成式智能之间仍然有 a huge gap: Isolated Data (孤立数据).

  • Isolated Data 可以理解为推荐系统和生成式智能在数据使用上的差异。推荐系统中的数据,如用户行为数据、物品属性数据等,这些数据往往是结构化的、离散的,并且与具体的推荐任务紧密相关,重要的是缺乏相关的语义信息。同时也可以指不同平台之间的数据隔离。