Kiraa

HSTU Embedding 学习笔记

kiraa published on 2026-02-13

Torchrec

数据结构

`JaggedTensor` (`jt`)

“Jagged” 的意思是 “锯齿状的”，顾名思义，这种 Tensor 每一行的长度不一，可以将长度差异大的特征高效存储为一个 batch，避免 padding 造成资源浪费。如，可以将不同用户的交互历史作为一个 batch，放进 JaggedTensor 中存储。

OneRev V2 学习笔记

kiraa published on 2026-02-06

OneRec V2

Kuaishou OneRec Family

版本	论文/报告标题	发布时间 (arXiv)	核心架构	解决的关键痛点
OneRec V1	OneRec Technical Report	2025. 06	Encoder-Decoder	范式验证：证明了“推荐”可以重构为“生成”任务。
OneRec V2	OneRec-V2 Technical Report	2025. 08	Lazy Decoder-Only	计算效率：解决 V1 编码太慢的问题，实现工业级低延迟。
OneRec-Think	OneRec-Think: In-Text Reasoning for Generative Recommendation	2025. 10	Think-Ahead (CoT)	深度理解：让模型在推荐前先“思考”理由，增强可解释性。
OpenOneRec	OpenOneRec Technical Report	2025. 12	Qwen-based	开源与通用：打破数据孤岛，发布基础模型。

分为两组：

VLLM 学习笔记

kiraa published on 2026-02-02

什么是 vLLM

vLLM, virtual Large Language Model, 是一个高性能、低延迟的大模型推理和部署库。目的是加速模型推理，并节省显存。其核心创新是 PagedAttention 机制。

之前总是把模型的训练和推理混为一谈，但实际上区别还是有的。虽然两者都要进行前向传播计算，但是训练还要反向传播，而推理则更加纯粹。此外，推理面对的是更具体的落地应用场景，有高并发、大批量等需求，因此优化推理过程意义很大。

Med3DVLM 模型架构及训练流程详解

kiraa published on 2026-01-30

Med3DVLM 是一种专为医学影像诊断设计的多模态大模型，结合了先进的图像和文本处理技术，实现了对医学影像与相关文本信息的深度理解和关联。本文将详细介绍 Med3DVLM 的模型架构及其训练流程。

参考：mirthAI/Med3DVLM

训练阶段一：图文对比学习

这一阶段主要训练 Vision-Encoder 。

Qwen3-0.6B 学习笔记

kiraa published on 2026-01-30

0 Qwen3 Technical Report

原文: Qwen3 Technical Report

Qwen3 稠密模型与 Qwen2.5 相似，共同特点是：

分组查询头 (Grouped Query Attention, GQA) ，即多个 Q-head 共享同一组 KV 。
SwiGLU，替代了传统 transformer 中简单的 MLP 。
旋转位置编码 (Rotary Positional Embeddings, ROPE) ，用于对 Q-head 和 K-head 注入位置信息。
RMSNorm，均方根归一化。
pre-norm，主要是针对残差连接的。数据输入后，先归一化，再进入模块计算，最后加上原始输入。与之相对的是 post-norm，表示数据输入后，先进入模块计算，再加上原始输入，最后统一归一化。pre-norm 可以避免训练时梯度消失。

不同点：

OpenOneRec 论文阅读笔记

kiraa published on 2026-01-28

0

原文：OpenOneRec Technical Report

尽管 OneRec 系列已将散乱的推荐算法 pipeline 统一成了一个 end-to-end 的推荐系统框架。但是推荐系统和生成式智能之间仍然有 a huge gap: Isolated Data (孤立数据).
Isolated Data 可以理解为推荐系统和生成式智能在数据使用上的差异。推荐系统中的数据，如用户行为数据、物品属性数据等，这些数据往往是结构化的、离散的，并且与具体的推荐任务紧密相关，重要的是缺乏相关的语义信息。同时也可以指不同平台之间的数据隔离。