漫宿一瞥

真正的司辰不会面见虚源之神，环杉却在林地茂盛处与树中牝马会面。找一处安静的地方拉上窗帘，或戴上眼罩；光不必参与今天的练习靠在沙发上，或躺在床上把身体安放到它最容易忘记自己的姿势双脚自然分开，脚趾向外，后跟相对双腿与双臂微微张开，手掌向上，手指自然弯曲轻轻闭上眼睛。留意颈部是否已经松开如果它仍固执地记得白日的重量，就在颈下垫一个枕头身体已经准备好了做几次自然的深呼...

2026/07/19 经验与总结

从SFT、RL到OPD。。。以及中间选择？

背景监督微调和强化学习解决的是同一个问题：让模型更倾向于生成我们认为更好的输出： SFT 直接给出标准输出，让模型在固定样本上模仿 RL 让模型先生成，再用奖励函数评价结果，然后提高高奖励输出出现的概率。在大模型后训练里，SFT 通常更稳定。给定输入 $q$ 和标准回答 $o$，训练目标就是提高 $\pi_\theta(o\mid q)$。梯度稳定，适合作为冷启动，但是...

2026/07/06 经验与总结

基于 verl 的 Qwen3.5-0.8B GRPO 记录

本文旨在完整记录一次利用 verl 对 Qwen3.5-0.8B 进行 GRPO 训练的流程，内容涵盖环境配置、任务定义、数据准备、过程监控、结果分析等实验环境 python 3.11 torch 2.10.0+cu128 vllm 0.18.0 transformers 5.3.0.dev0 ray 2.56.0 verl 0.9.0.dev0 GPU ...

2026/07/02 经验与总结

RL in Memory

背景知识监督微调的做法是给它标准答案，让它模仿；强化学习的做法则是让模型先生成，再用一个奖励函数评价这次生成的结果，然后提高高奖励输出出现的概率，降低低奖励输出出现的概率。把语言模型写成强化学习里的策略，记为 $\pi_\theta$。给定输入 $q$，模型生成一个输出序列 $o=(o_1,o_2,\ldots,o_T)$。在自回归模型里，第 $t$ 个 token 的生成概率是： ...

2026/07/01 经验与总结

WebArena 部署踩坑

参考：Webarena、WebAgent-R1 Map 网站后端服务部署 (Tile, Nominatim, OSRM) 在 WebArena 中，地图功能并不依赖外部公网 API（如 Google Maps），而是完全本地化部署。这涉及三个核心服务： Tile Server: 提供地图瓦片图片渲染（视觉层）。 Nominatim: 提供地理编码服务（搜索地址转坐标，或...

2026/01/27 经验与总结

CrowdAgent：一些讨论

一篇工作 CrowdAgent: Multi-Agent Managed Multi-Source Annotation System 被 EMNLP 2025 System demonstrations 接收了，在这篇博客中，我想简要谈谈论文背后的工作、限制与其他的一些想法太长不看 CrowdAgent 可以看作是之前 EMNLP’23 发表的 FreeAL 的延申。 Fr...

2025/10/05 经验与总结

当我聊起丰川祥子，我在想什么

参考：丰川祥子堂吉诃德论 wiki 丰川祥子人物分析谁是Ave Mujica最强数值怪？丰川祥子是个怎样的“人”？（上）丰川祥子是 BanG Dream! 系列动画 MyGO 和 Ave Mujica 的重要人物，在动画播出时讨论度很高。丰川祥子是复杂的，多面的，在不同的观众中形象不同，对于很多人来说，似乎在这个角色中看到了自己的影子。...

2025/10/02 经验与总结

平行世界中的某互联网厂实习回忆录

平行世界，虚拟时间，虚拟地点，虚拟公司，请不要对号入座福利与工作环境 L 型工位，带两个柜子和人体工学椅，工位间的隔板很高，环境很不错。不过对于有些不太幸运的实习生，正式工位不够，就只能在走廊里架一个临时桌子当工位。每个楼层分 A、B、C 区，只有 B 区有会议室，其他都是工位。会议室有各种规模的，几人到100多人。事实上，如果是谈具体的工作，那么十人左右的会议室完全足够了。10...

2025/09/18 经验与总结

LLaMA-Factory 实战记录

本文旨在完整记录一次利用开源框架LLaMA-Factory对Qwen2.5-VL-7B-Instruct模型进行微调（SFT、RL）的全过程。内容涵盖环境配置、任务定义、数据准备、训练策略、过程监控、推理验证、结果分析与部署。环境准备使用了如下软硬件及模型资源：硬件环境: 本次实践基于8张NVIDIA A800（80GB显存）GPU服务器。微调框架: LLaMA-Fa...

2025/07/13 经验与总结

Who You Want to Be

很多时候，我们思考的一切，别人已经思考过了。这篇文章尝试讲解 Gigachad、Virgin、Incel、Neckbeard、Wojak、Doomer等符号，作为认识自己的一些前置准备引入我们都知道这个男人 Gigachad。最纯净、最完美的肉体，全部人类雄性概念所提炼出的最高精华，斗志与耐性与黄金精神更是带给他的追随者无限惊喜。时而他鼓励人们走进健身房进行自我提升；时...

2025/03/04 经验与总结