HSTU Embedding 学习笔记
Torchrec
数据结构
JaggedTensor (jt)
“Jagged” 的意思是 “锯齿状的”,顾名思义,这种 Tensor 每一行的长度不一,可以将长度差异大的特征高效存储为一个 batch,避免 padding 造成资源浪费。如,可以将不同用户的交互历史作为一个 batch,放进 JaggedTensor 中存储。
JaggedTensor (jt)
“Jagged” 的意思是 “锯齿状的”,顾名思义,这种 Tensor 每一行的长度不一,可以将长度差异大的特征高效存储为一个 batch,避免 padding 造成资源浪费。如,可以将不同用户的交互历史作为一个 batch,放进 JaggedTensor 中存储。
| 版本 | 论文/报告标题 | 发布时间 (arXiv) | 核心架构 | 解决的关键痛点 |
|---|---|---|---|---|
| OneRec V1 | OneRec Technical Report | 2025. 06 | Encoder-Decoder | 范式验证:证明了“推荐”可以重构为“生成”任务。 |
| OneRec V2 | OneRec-V2 Technical Report | 2025. 08 | Lazy Decoder-Only | 计算效率:解决 V1 编码太慢的问题,实现工业级低延迟。 |
| OneRec-Think | OneRec-Think: In-Text Reasoning for Generative Recommendation | 2025. 10 | Think-Ahead (CoT) | 深度理解:让模型在推荐前先“思考”理由,增强可解释性。 |
| OpenOneRec | OpenOneRec Technical Report | 2025. 12 | Qwen-based | 开源与通用:打破数据孤岛,发布基础模型。 |
分为两组:
Qwen3 稠密模型与 Qwen2.5 相似,共同特点是:
不同点: