QMMMS's Blog

RL in Memory

背景知识 监督微调的做法是给它标准答案,让它模仿;强化学习的做法则是让模型先生成,再用一个奖励函数评价这次生成的结果,然后提高高奖励输出出现的概率,降低低奖励输出出现的概率。 把语言模型写成强化学习里的策略,记为 $\pi_\theta$。给定输入 $q$,模型生成一个输出序列 $o=(o_1,o_2,\ldots,o_T)$。在自回归模型里,第 $t$ 个 token 的生成概率是: ...

平行世界中的某互联网厂实习回忆录

平行世界,虚拟时间,虚拟地点,虚拟公司,请不要对号入座 福利与工作环境 L 型工位,带两个柜子和人体工学椅,工位间的隔板很高,环境很不错。不过对于有些不太幸运的实习生,正式工位不够,就只能在走廊里架一个临时桌子当工位。 每个楼层分 A、B、C 区,只有 B 区有会议室,其他都是工位。会议室有各种规模的,几人到100多人。事实上,如果是谈具体的工作,那么十人左右的会议室完全足够了。10...

Who You Want to Be

很多时候,我们思考的一切,别人已经思考过了。 这篇文章尝试讲解 Gigachad、Virgin、Incel、Neckbeard、Wojak、Doomer等符号,作为认识自己的一些前置准备 引入 我们都知道这个男人 Gigachad。最纯净、最完美的肉体,全部人类雄性概念所提炼出的最高精华,斗志与耐性与黄金精神更是带给他的追随者无限惊喜。时而他鼓励人们走进健身房进行自我提升;时...

Complex Stable Business Development Process

没有适合所有业务的开发流程,从0开做加法,而不是从100开始做减法 对于复杂业务,模块众多,研发及测试需要跨模块开发及测试,不同模块间流程不统一导致了跨模块开发时成本的增加。因此,需要建设统一的的开发测试上线流程。此外,为了降低流程的成本,通过服务号及机器人等方式,在关键节点通过自动化手段辅助,实现无人介入的目标 阶段 阶段说明 ...

Generation of Silence

具有深度学习或者计算机背景的同学看到这个标题,或许会以为是“一种(基于深度学习的)静默的模型/数据生成方法”。 哈哈,实则不然,只是作为时代浪潮下,2025届全国普通高校毕业生1222万人中的一员,聊聊我所看到的,青年的困境。标题翻译成“寂静的一代”更加适合。 学历贬值 上世纪90年代初,日本在几十年的飞速发展之后,经历了突如其来的经济泡沫破灭,大学毕业生就业率陡然下降,许多名校...

Big Picture of Flarum Extensions

为 Flarum 编写插件所需要的基础知识与实例 支撑组件 PHP是在服务器端运行的脚本语言,与HTML紧密结合。开发人员可以在HTML中嵌入PHP代码,并在服务器上进行解析和执行。这种结合使得开发人员能够轻松地生成动态的Web页面,根据用户的请求动态生成内容。与C、C++语言有着相似的语法结构,与许多数据库管理系统(DBMS)兼容,如MySQL、Oracle、SQLite等。多线程支...