标签: Agent

RL 与人格 (2026)

RL 猜想

漫无目的的思考相当于预训练模型推理

如果把人类暂时比作一个 LLM，那么成长过程中的语言输入、视觉经验、社会互动和现实反馈，就类似于模型的预训练数据。人在成长中不断听到、看到、经历各种事件，类似 LLM 预训练。这一过程可以近似理解为一种广义的 distribution matching：人脑通过经验建立对世界的预测模型。

在这个类比中，LLM 的上下文长度可以对应为人类在时间中的连续意识流。模型在上下文窗口中不断预测下一个 token，而人在现实时间中不断生成念头、判断、语言和行动。当一个人没有明确目的时，脑中浮现的内容就像是在当前状态下进行采样，就好比预训练 LLM 直接用于推理。

Kevin 吴嘉文大约 21 分钟

LTX 相关资源收集（2026）

总结

LTX 常规 Image to Video 更像“给定首帧，往后生成”。无法提取人物特征 embedding，然后再把这个身份约束注入生成。
A100 （80GB）单卡推理 FP8，2K，24 帧 length 121；推理时长约 3 分钟不到。
操作方式与 diffusion 生图类似，可以添加 lora 对人物进行微调，可以优化 prompt 来提升出视频效果，先前优化 diffusion 生图的方法，这边都适用。

LTX 相关资源收集

来源	场景 / 配置	权重格式 / 优化	显存结论	时间结论
LTX 官方博客	本地运行 LTX-2.3 22B	bf16 full local inference；低显存用 GGUF / FP8	bf16 full local 至少 32GB VRAM ；Pro mode 更适合 A100/H100	未给明确单次耗时
HF 官方模型文件	`ltx-2.3-22b-dev.safetensors`	bf16 / 原始权重	文件约 46.1GB ；理论加载主模型权重约 44–46GB	不涉及推理时间
WaveSpeed ComfyUI 博客	ComfyUI 两阶段 pipeline	FP8 或 GGUF Q4；半分辨率 Stage 1；VAE offload	12GB 可尝试低配单图/短视频； 16GB 更顺； 24GB 更适合 PyTorch 路线	未给稳定统一时间
Digital Applied 技术博客	RTX 4090，1080p，10 秒，50 steps	未完全等同官方 benchmark	RTX 4090 级别，通常需要优化/量化/offload	约 3–4 分钟
Digital Applied 技术博客	RTX 5090，4K，10 秒	高分辨率推理	4K 推理通常需要大显存和优化 pipeline	约 8–12 分钟
Zen Van Riel 工程博客	RTX 3080 10GB，960×544，带音频短片段	GGUF Q4_K_S	10GB VRAM 可跑低分辨率	约 2–3 分钟
Zen Van Riel 工程博客	1080p 本地生成	建议 GGUF / 量化	建议 16GB+ 更适合舒适 1080p	未给统一时间
Unsloth HF 讨论区	RTX 5080 16GB	GGUF Q4_K_M	用户反馈 16GB VRAM 可顺畅运行	未给标准耗时
理论估算	bf16 原始 22B 主模型	22B × 2 bytes	仅主模型权重约 44GB ；完整 pipeline 峰值通常更高	不涉及
理论估算	FP8 / INT8 22B	约 1 byte/param + scale/metadata	主模型约 22–30GB	比 bf16 省显存，速度取决于 kernel
理论估算	GGUF Q4	4-bit 量化	主模型约 13–17GB	速度可能受实现影响

Kevin 吴嘉文大约 3 分钟

熵、MDL 和压缩

对熵，编码长度，MDL，压缩，柯氏压缩器的回忆梳理。

一、熵与编码长度

本节观点

熵就是一个随机变量能够被压缩到的“平均最短编码长度”的理论极限。

如果模型的平均编码长度越短，那么他和数据的真实分布（真实熵）就越接近。因为根据 cross-entropy（交叉熵） ，它和真实熵关系是：

H(p,q) = H(p) + KL(p\|q)

Kevin 吴嘉文大约 11 分钟

Inference-time learning (2026)

对部分 test-time compute / inference-time learning / reasoning models 的记录。

OpenAI O1

在 openai 官方发布中提到：

这里发现，随着强化学习（训练时间计算）和思考时间（测试时间计算）的增加，o1 的性能也在不断提高。这种方法的扩展限制与 LLM 预训练的限制有很大不同，这里正在继续研究。

Kevin 吴嘉文大约 9 分钟

Qwen 模型小记（二）

Qwen 3

博客：Qwen3：思深，行速
huggingface：https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f
arxiv：https://arxiv.org/pdf/2505.09388

Kevin 吴嘉文大约 10 分钟

回忆 Scaling laws（2020-24）

Scaling Laws for Neural Language Models

2020 年 openai 发布了文章 Scaling Laws for Neural Language Models ，其中提到了 scaling laws。一开始的 scaling laws 针对的是 Transformer models，但后续一些讨论更倾向于自回归类型（做 NTP）的模型，文中 summary 提到了最初 scaling laws 的几个点：

Kevin 吴嘉文大约 8 分钟

Whisper 音频处理小记

音频格式与编码

声音是什么？

物理层面 ：空气分子的振动 → 声压随时间变化的波。
模拟信号 ：连续的波形，既有时间连续性，也有幅度连续性。

但计算机只能处理离散的数字，所以要“采样 + 量化”成数字信号。

采样与量化（数字化的第一步）

声音本质：连续的模拟信号

Kevin 吴嘉文大约 10 分钟

Qwen 模型小记（一）

针对 2024 年左右的 Qwen 模型的一些要点记录

Qwen 1.5 系列

开源模型，官方博客 1，官方博客 2

Kevin 吴嘉文大约 19 分钟

MCP 基础概念

MCP github 主页， MCP 官方文档

MCP Server

# server.py
from mcp.server.fastmcp import FastMCP
from mcp.server.fastmcp.prompts import base

# Create an MCP server
mcp = FastMCP("Demo")


# Add an addition tool
@mcp.tool()
def add(a: int, b: int) -> int:
    """Add two numbers"""
    return a + b


# Add a dynamic greeting resource
@mcp.resource("greeting://{name}")
def get_greeting(name: str) -> str:
    """Get a personalized greeting"""
    return f"Hello, {name}!"

Kevin 吴嘉文大约 3 分钟

RLHF|DPO, GRPO

本文梳理了 DPO，GRPO 的主要特点、亮点以及相关资源链接。

DPO

论文：Direct preference optimization: Your language model is secretly a reward model. arXiv preprint arXiv:2305.18290, 2023

先来回顾以下 PPO，采用 PPO 的 RLHF 会经过 reward model tuning 和 Reinforcement Learning 2 个步骤：

Kevin 吴嘉文大约 4 分钟

跳转到: