从长篇小说到大模型

一套长篇小说坐标系,反向使用。

认识论状态。 这是一篇 essay,不是研究论文。我是一名工科本科生,不是文学研究者,也不是 AI 对齐研究者。文章的论证从我为阅读长篇小说建立的一套坐标系出发,反向用于观察当前大语言模型生成的长篇文本。文中依赖的经验证据包括我的个人阅读经验和少量已发表研究;其余部分是基于观察的推理。我把长篇小说看作当前范式的一个压力测试,因为长篇小说同时调动的认知维度比多数文本生成任务更多。我很可能在具体判断上出错,文末列出了我最希望收到反馈的地方。

披露。 本文的论点、结构和判断是我自己的。AI 被用作起草、翻译和编辑工具;我对最终论证和文字负责。


一 · 长篇小说作为一个对象

一本长篇小说之所以打动人,不是因为它长。

很多人会把长篇理解成短篇的放大版——内容更多、人物更多、时间跨度更大。这种理解的问题在于,它把“长”当成了量的差异。但实际上,一部好长篇里发生的事情,在短篇里根本发生不了,不是因为篇幅不够,是因为它结构上是另一种东西

我读完一本长篇,回过头追溯它打动我的地方在哪里、它失败的地方在哪里,多本之后,发现这些追溯收敛到几个不同的层。它们各自独立——某一层做得好不能补偿另一层的失败;某一层做得差,整本书在那一层就是塌的,不会因为别的层做得好被遮住。

最后我把这些层整理成八个,按读者经验从最浅到最深排列:

第一层是文本表层。我读到一个句子,它有它的速度——短句推着我走,长句让我停下来铺氛围。它有它的温度——口语、书面、古雅、冷硬、俚俗,作家选择某一种比例并维持它的稳定。它有它的颗粒度——细到触觉气味,还是只给我一个轮廓。它的修辞与节奏形成一种独特的韵律,重复、排比、停顿、留白。这一层在阅读的瞬间就被感知,不需要我理解情节、不需要我认识人物,它直接作用于我的读感。

紧接着是叙述密度——一章里塞了多少新东西,情绪如何起伏,发生了多少不可逆的事情还是只是对话与思考。然后是场景质感——空间是否可视、行动是否可理解、世界是否可触。这三个子项一起构成第一层:长篇必须先在文本表层成立,否则它根本进入不了读者的注意。

第二层是叙述层——故事是怎么被讲出来的。这一层不问发生了什么,问“谁在讲”。

视角的位置(全知、限知、多视角切换、不可靠叙述)、焦点的控制(读者知道多少?比主角多还是少?何时被允许知道?)、镜头的距离(贴脸内心还是远景叙述?距离的变化是否有意义?)。再往下是时间结构——线性推进、回忆插叙、环形/轮回、断片拼图;叙述时间和故事时间的比例(讲一分钟的事用了十章,还是十年一笔带过);节点选择(为什么从这个时刻开始讲,而不是更早或更晚)。再往下是信息与悬念——悬念的类型(未知的真相、未知的后果、未知的关系、未知的规则)、误导的方式(角色误解、叙述省略、表象遮蔽、价值观偏差)、读者的位置(被牵着走、与主角并肩推理、还是站在更高处俯瞰)。

这一层独立于第一层。一本书可以语言精彩但叙述视角混乱,也可以语言朴素但视角控制极其精准。这两件事不是同一种能力。

第三层是结构层——长篇为什么能“成形”。

这一层是长篇之所以是长篇的标志。短篇没有这一层,因为它不需要。长篇必须分阶段——成长阶段、地理阶段、社会阶层阶段、认知阶段——每个阶段有它新鲜感的来源(新规则、新敌人、新关系、新问题类型),阶段之间通过升级、逃离、转职、失去、发现真相、价值观崩塌相连接。冲突不止是打架对抗,还包括制度、伦理、认知、身份、语言、亲密关系;同一问题会变形(从个人变成社会,从外在变成内在);结局有时候不是问题被解决,而是问题被重新定义。长篇不可避免有重复,关键在于重复是否带来变奏——代价升级、情感变化、叙述角度变化、世界观揭示变化;读者厌倦时,作品用什么方式换气(幽默、日常、旁支、审美转场)。

这一层和前两层无关。一本书可以语言好、视角好,但结构散——读者会感觉它“不像一本书”,它只是一系列章节的拼接。

第四层是人物层——角色作为活的矛盾体。

不把角色当功能位,而当一种“人”的构成。这一层有四个核心字段。欲望:他真正想要的是什么,不一定是他口头说的。恐惧:他最怕失去什么。盲点:他永远不愿承认的那部分自己。边界:在什么条件下他会越线、崩塌、背叛、牺牲。这四件事一起决定了一个人物是否活着。再往外是成长与变化——能力变化、关系变化、认知变化、道德变化、身份变化;变化是否以失去、创伤、承担为代价;以及不变的力量——有的人物魅力恰恰来自坚持不变,作品如何证明这种不变。再往外是关系与张力——关键关系不是谁喜欢谁,而是彼此如何改变对方的命运与价值观;基本张力是依赖、竞争、嫉妒、救赎、亏欠、占有、羞耻、敬畏;以及群像的成立条件——每个人是否有独立的世界,而不是围着主角转。

这一层独立于前三层。一本书可以世界宏大、结构复杂,但人物全是纸片——所有人物只是为了情节服务,没有独立的内在结构。读者会感觉到,但不一定说得清是哪里出问题。

第五层是世界与现实层——世界观不是设定,是生活方式。

这一层不看规则表,看这个世界的人如何生活。普通人怎么过日子(工作、交易、教育、宗教、娱乐、婚姻)。社会如何分层(阶级、血统、资质、资本、暴力、知识)。价值如何被承认(名誉、功勋、证书、身份、神授、财富)。再往里是权力与暴力——谁能合法使用暴力、谁能定义正义与罪、秩序靠什么维持(恐惧、信仰、利益、制度、技术)、反抗是否可能(反抗者如何组织、如何被污名化或神化)。再往里是神话与意义系统——这个世界里“解释一切”的东西是什么(神、科学、宿命、血脉、历史);主角的成长,本质上是在学会使用哪一套意义系统,或者推翻哪一套。

世界观和人物层是两件事。一本书可以人物深刻、关系真实,但世界是空的——它的世界只是一个让人物活动的舞台,没有自己运转的逻辑。

第六层是主题与思想层——作品在“说服你相信什么”。

主题不在角色嘴里说出来的话,主题在作品用结构对行为做出的奖惩判决——什么行为被奖励、什么被惩罚、什么被原谅。这是作品的伦理算法。再往里是人性观——人是可塑的还是宿命的;善恶是环境还是本性;爱与权力哪个更真实;自由与安全如何权衡;作品是否允许复杂性,让人能同时高尚与卑劣。再往里是时代与文化无意识——它回应了什么集体焦虑(阶层焦虑、失控恐惧、秩序崩塌、身份认同),它提供了什么补偿幻想(变强、被承认、复仇、翻身、拯救世界)。

这一层独立于人物层。一本书可以人物饱满,但作品本身没有判断——它只是描述了一些人,没有让结构对这些人做出价值判决。读者会觉得读完空空的,不知道作者到底相信什么。

第七层是类型与传统层——这本书与同类作品的关系。

这一层有点特殊——它不描述这本书内部是什么,描述它相对其他书是什么。它是否兑现读者熟悉的类型承诺(这是侦探小说,悬念会被解决吗?这是修仙文,主角会变强吗?)。它在哪些点上换了玩法(世界观、叙述、审美、价值观)。它引用了哪些神话、宗教、历史、流行文化的母题。它如何“训练”读者用什么方式读它。

这一层在某种意义上是前六层的元层映射——前六层中每一层都可以问“它相对类型而言是新的还是老的”。但实际观察时它有独立的失败模式(一本书可以前六层都不错,但它和类型的关系完全错位——它在反叛一个它没真正理解的传统),所以单列一层。

第八层是审美与记忆层——长篇最终留下什么。

这一层框住了读者经验最长的时间尺度。读完一本长篇,几年之后,剧情会忘,但留下的东西会留下:意象系统(反复出现的物件、颜色、声音、符号如何积累意义);视觉化强度(哪些段落天然具备可想象、可传播的力量);情绪峰值(高潮不一定是战斗,也可能是告别、原谅、崩塌、觉醒);余韵(结尾留下的是关闭感还是开放感、是释然还是不安)。

第八层和第一层有一种结构上的呼应。第一层是修辞作为生成机制,在阅读的瞬间起作用。第八层是修辞作为残留物,在阅读结束多年之后依然在。它们是同一种东西在不同时间尺度上的两种存在形态,不是重复——一本书可以读的时候让人惊艳,读完之后什么也没留下;也可以读的时候平平无奇,多年之后某个画面忽然回来,那一刻读者才意识到这本书一直在他身上。


这八层是我从长期阅读里凝练出来的,不是从某个文学理论权威推导的。它的合法性不在于来源,在于每一层都能被独立地观察和讨论——某一层做得好不能掩盖另一层的失败,某一层失败也不会被另一层补偿。

这套坐标系本来只用来看一部一部长篇。现在我把它反过来用——看大模型当前产出的长篇文本,每一层会发生什么。


二 · AI 写长篇小说

第一层 · 文本表层

读 AI 产出的长篇文本,最先撞上的是一种奇怪的稳定

句子是流畅的。语法是干净的。词汇用得不会出错。但读着读着,你会有一种说不清的感觉——这些句子读起来都像同一个人写的,无论它名义上是哪个角色在说话、是哪种风格在描写。这种“同一个人”不是某个有特点的人,而是一种没有特征的中位数——它没有方言的颗粒、没有口语的毛刺、没有古雅的硬度,也没有冷硬的疏离。它像是把所有可能的语感平均了一次之后剩下的东西。

相关研究对相近现象有过观察:生成式 AI 可以提高单个作品的评分,但也可能降低集体层面的内容多样性,让不同人的产出更相似。[6] 这不直接证明 AI 小说的语感一定收敛,但它给了这件事一个相邻证据:模型产出确实可能被拉向某种统计中心。换句话说,这不只是某一个模型训练得不够好,也可能是当前范式本身的吸引子

这件事在长篇里被放大。短篇里语感的中庸还可以被剧情或主题遮住,因为读者没有足够的时间疲劳;长篇里读者要在这个语感里待几十万字,任何持续暴露的中庸都会变成一种磨损。读者不一定能说出哪里不对,但他们的注意力会逐渐从内容上飘走——没有什么句子值得停下来重读,没有什么修辞节奏让人想抄下来,没有什么段落具备被记忆的形状。

叙述密度上的问题是相关的。AI 产出的章节通常信息密度过高,事件密度过低——它会塞进很多解释、很多设定、很多对话,但很少让“不可逆的事情”真的发生。一个章节读完,你会发现它在原地打转:人物谈了很多,回忆了很多,思考了很多,但场景里的世界状态没有变化。读者需要的“已经回不去了”的那个感觉,AI 不太给。

场景质感是这一层最直接暴露 AI 短板的地方。AI 写的场景常常空间感模糊——人物站在哪里、距离多远、动线怎么走,文本里几乎不交代或者交代得不一致。它倾向于把场景当成一个抽象舞台,让对话发生在某种不确定的“那里”,而不是一个有具体地形和物件的地方。读者读到一段对话,脑中往往拼不出一张图——不是因为作者在做实验性的写法,是因为作者本身没有在脑中跑过这个空间。

第一层的失败是底层的,但还不是最深的。读者可以接受语感平淡,可以容忍场景模糊——只要后面的层立得住。所以第一层的诊断只是这篇文章的入口。真正的问题在更深的地方。


第二层 · 叙述层

读 AI 产出的长篇文本,第二个让人不舒服的地方,是没有人在讲

文本是被产出的,但产出文本的不是一个有视角、有距离、有立场的叙述者——它是一个生成机制。这两件事的差别在阅读体验上是具体的:

一个真正的叙述者会控制读者知道什么。他会决定何时把一个事实暴露给读者,何时让读者比主角先知道一件事,何时让所有人都蒙在鼓里直到最后一刻翻面。这种控制构成了悬念、反讽、戏剧张力——它是叙述作为一门手艺的核心。

在普通生成中,AI 往往做不好这件事。它会写出“主角不知道 X”这种状态描述,但不稳定地让“X 还不被读者知道”成为一个被维持的状态。它倾向于在生成的过程中把相关信息暴露出来——因为局部连贯常常会奖励把信息摆到表面上。于是你会看到这样的现象:AI 写一个本应是悬念的段落,写到一半就把谜底交代了;不是因为悬念不重要,而是因为继续隐藏谜底让局部续写变得更难。

不可靠叙述更难。一个不可靠叙述者要求模型同时持有两套表征——真实发生的事和叙述者认为发生的事——并且在两者之间维持一个稳定的落差。在默认生成设置下,AI 不稳定地维持这种双重表征;“叙述”和底层“真相”容易相互塌缩。所以当它试图写不可靠叙述者时,往往写着写着就漏了——叙述者突然知道了他不应该知道的事,或者叙述的偏见消失了一段时间又突然回来。

时间结构也是同样的问题。线性推进 AI 能做,但回忆插叙、环形结构、断片拼图这些需要叙述时间和故事时间分离的写法,AI 处理起来非常脆弱。它倾向把所有事件按发生顺序铺开,因为这是它的训练数据里最常见的模式,也是它最容易维持连贯性的模式。一旦时间线被打散,它会在中间某处迷路——某个本应是回忆的段落突然变成了正叙,或者一个早就发生过的事情被当成新事重提。

这一层的根本问题不是技术细节的处理,是没有“叙述者”作为一个独立于文本输出的元层结构。AI 是一个把上下文映射到下一个 token 的函数。它没有“我作为叙述者在做什么、对谁、隐藏了什么、为什么从这一刻开始讲”这套元层意识。叙述行为本身在它这里是塌缩的——它生成文本,但不持有“如何生成”作为一个独立的判断对象。


第三层 · 结构层

第三层的问题是 AI 在长篇里最容易被察觉的失败之一,但它的根源比表面看起来深。

AI 产出的长篇文本,如果让它无限续写,会很快进入一种没有阶段的状态。事件一个接一个发生,但它们不构成阶段。读者读到 5 万字、10 万字、20 万字时,发现这本书没有清晰的“我在书的哪一部分”的感觉——它只是事件的累积,不是阶段的演进。

这件事的具体表现是:AI 产出的“长篇”通常没有真正的中段升级、没有第二幕的方向转换、没有“问题被重新定义”的关键转折。它有的是同质的事件序列,可能在表面有起伏,但内核是同一个问题在不同变奏下的重复。

LongWriter 这类长文本生成研究指出,一个模型的有效生成长度会受到监督微调数据中输出长度的限制;很多长上下文模型虽然能处理很长输入,却仍容易在约 2000 词附近停止生成。[3] 这不是简单的上下文窗口不够,而是长输出样本在训练信号中不足。

这个发现的含义比表面看起来重得多。它意味着 AI 没见过“一部长篇作为一个整体”的训练信号——它见过长篇的片段(章节、场景、对话),但它没见过“作家在第 5 章决定让冲突变形为社会层面”这种结构性决策本身。这种决策只存在于作家的脑子里和作家的多次草稿之间,最终成品里看到的是结果,不是决策过程。

换句话说——长篇结构性决策作为一个决策过程,似乎在训练信号里严重呈现不足

这意味着冲突的变形、阶段间的连接、重复的变奏——这些长篇之所以是长篇的核心机制——AI 学到的只是它们的表面统计:什么样的转折看起来“对”,什么样的章节末尾看起来“该有”,什么样的叙事节奏看起来“成立”。但它学不到为什么在这一章变形而不是另一章、为什么这种连接而不是别种、为什么这次重复要带这种变奏。

具体的表现就是 AI 长篇里的“换气”机制经常不稳。一部好长篇里,作者会在张力高峰之后插入日常段落让读者休息,会在某个紧张的支线之后切到看似无关的旁支让节奏松一下,会在意义沉重的章节之后用幽默或审美转场让读者重新进入。这些换气不是随意的,是作者对读者疲劳曲线的判断。AI 往往做不好这件事——它容易持续高密度或持续低密度,而不是稳定地判断“读者此刻应该休息一下”。

第三层的失败连带着一个更具体的现象:当读者发现一本 AI 长篇里没有真正的阶段转换时,它就再也不像一本长篇了。它变成了一个无限延伸的中段——再多的字数也加不出一本书的感觉。


第四层 · 人物层

第四层是 AI 在长篇里失败最深的地方,也是研究证据最硬的地方。

读 AI 产出的人物,会有一种很具体的感觉——他们在剧情里功能正确,但他们不像人

这种“不像人”不是说他们做的事不合理。AI 写的人物通常做的事都“合理”——他们的反应符合他们被设定的人设,他们的对话符合他们被分配的角色。问题是,他们没有内在的盲点

一个真正的人物之所以活,是因为他看不见自己的某一部分。他想要 A,但他真正的恐惧是 B,而 B 是他永远不愿向自己承认的。他的所有行动都被这个未承认的部分扭曲——他会做出他自己都解释不了的选择,会在某个时刻突然崩塌,会在另一个时刻显出他从未展示过的东西。这些不是设定可以提前写下来的,这些是人物作为活的矛盾体的内在结构。

AI 写的人物没有这一层。他们有显式的人设——“勇敢但鲁莽”、“聪明但傲慢”——但他们没有对自己的盲点。他们的所有反应都是对当前情境的恰当响应,没有那种“我自己都不知道我为什么这样做”的真正人的厚度。

研究界对相邻能力有具体测量。OpenToM 这类 Theory of Mind benchmark 把测试放到更长的叙事情境里,包含人格特征、偏好、意图触发的行动,以及物理世界和心理世界里的心理状态问题。[4] 这些研究说明:简单的事实级 ToM(比如“角色 A 不知道盒子里有什么”)和更复杂的多层心理状态追踪,不是同一个难度层级。

而真正的好小说几乎完全建立在这种多层嵌套的心理状态上。陀思妥耶夫斯基整本都是这种东西——一个角色的每一句台词都同时是他的真实意图、他对自己意图的解释、他想让对方相信的东西、对方实际听到的东西、读者从这一切之间的落差里读到的东西。这五层不能塌成一层。一旦塌了,人物就死了。

人物层的另一个失败是配角问题

主角因为是叙述焦点,AI 还可以勉强维持一个一致的人设。但配角不行。一部长篇里有八到十个有自己背景的角色时,每个配角都需要在他自己的时间线上活着——他们在不出场的时候也在过他们的人生,他们带着这些不出场的经历进入下一次出场。

在普通生成中,AI 往往做不好这件事。它的配角容易变成主角需要时被召唤出来的功能位。当配角 A 在第 3 章出场时,他是 A1;当他在第 47 章再次出场时,他是 A2。A1 和 A2 之间的关系不像“同一个人在他自己的时间线上从第 3 章走到了第 47 章”,更像“AI 两次都从’A 这个人设的合理区间’里独立采样了一个反应,恰好都落在了’像 A’的范围内”。

这两件事在表面上都叫“人物一致性”,但它们在本体上不是同一种东西。前者是一个有内在时间线的人,后者是一个被反复采样的人设。读者读到 50 章之后会感觉到差别——他会觉得这本书里“没有人真正活着”,所有角色只是在主角周围浮现和消失,他们没有自己。

更深的担忧是——这件事未必能被规模直接解决。更大的模型当然可能在许多案例上做得更好;问题在于,参数量本身是否足以产生长篇小说所要求的稳定多角色内在性。相邻研究至少提示:简单的心理状态识别和更复杂的多层嵌套心理状态追踪,不是同一个难度层级。


第五层 · 世界与现实层

第五层考验的是 AI 对世界作为生活方式的理解。

读 AI 产出的长篇里的“世界”,会撞上一种特定的空——它会有设定(这是个修真世界、这是个赛博朋克未来、这是个架空王朝),它会有规则(功法分几品、社会分几阶),但它没有这些设定如何被生活

普通人在这个世界里怎么过日子?工作如何谋生?孩子如何被教育?一笔交易如何完成?一种宗教如何在日常里出现?一个权力机构如何运作起来——不是它的组织图,是它在某个具体的早晨如何让一个普通官吏低头收下一份文书?

这些东西在 AI 的产出里基本是缺的。它会写“在这个王朝里,权力被某某机构垄断”——这是抽象描述。它写不出权力作为日常生活的微观纹理——一个普通人在街上遇到一个差役,那个差役今天心情如何决定了这个普通人接下来一周的命运;一个商铺要开张,需要走过哪几道关系才能避开某种麻烦;一个想读书的孩子家里要做什么样的算计才付得起那笔束脩。

研究界对相邻问题有一组现成词汇:符号接地、语言接地、具身认知。[1][2] 人类作家对世界的理解至少部分扎根于具身经验、个人记忆、情感处理;他写出一种制度,是因为他活在某种制度下,知道这种制度从皮肤到骨头是什么感觉。对文本训练出来的模型来说,世界主要是通过已经被语言组织过的描述抵达的——它知道“暴政”这个词、知道“信仰”这个词,但它不一定知道在一个被某种制度统治的早晨,那个制度如何在一个具体的人身上显现。

这件事在长篇里被特别放大,因为长篇必须让读者在这个世界里住下来。读者要花几十万字的时间生活在这个世界里——他们会注意到所有不一致的地方、所有空着的地方、所有写得过于宏大但对不上日常细节的地方。短篇可以用一个浓缩的画面带过一个世界,长篇不可以——长篇里世界必须是可以被居住的

AI 的世界是不能被居住的。它是一个不停被召唤出来的舞台——主角需要进城时它就有了城,主角离开时它就消失了。城里的居民没有自己的早晨,他们只在主角看见时存在。这种世界读者会感觉到,但他们说不清是哪里不对——他们只是觉得,这本书里没有真正的生活。

世界与现实层最深的部分是意义系统——这个世界用什么解释一切。神、科学、宿命、血脉、历史。一部好长篇里,主角的成长本质上是他在学习使用某一套意义系统、或者推翻某一套意义系统。AI 写不出这一层——它会写主角“质疑了世界的本质”,但它写不出质疑作为一种穿透日常生活的认知劳作。它会写出反抗者的口号,但写不出反抗者夜里独自怀疑自己时的语言。


第六层 · 主题与思想层

第六层是这篇文章里最重的一刀。

一部好长篇的主题不在角色的台词里,不在作者的序言里,不在某个章节标题里。它在作品用结构对行为做出的奖惩判决——这个角色做了 X,作品让他得到 Y;那个角色做了 P,作品让他得到 Q。读完整本书,读者从这些奖惩的图谱里读出作者对什么是对的、什么值得、什么是真的的判断。

这是作品的伦理算法。

伦理算法不能被假装。读者能感觉到一个作者是否真的相信他写下的判断——能感觉到这个作者在多大程度上为他的判断付了代价、有没有真正想过他奖励的那种行为是不是真的应该被奖励、有没有承担过他惩罚的那种行为带来的后果。一个真正持有判断的作者写的小说和一个不持有判断只是模仿“有判断的小说看起来什么样”的作者写的小说,读者一两章之内就能分辨出来。

AI 在这一层的失败比前几层都深,因为它不只是能力问题,是训练目标本身的问题

大模型在 pretraining 之后,往往还会经过 RLHF(基于人类反馈的强化学习)或类似的偏好训练阶段。这个阶段的目标不是让模型持有判断,而是让模型的产出更符合人类偏好。相关研究在 sycophancy 上显示,偏好数据和偏好训练可能奖励迎合用户立场的回答。[5]

这个机制在很多任务上是有用的——它让模型学会更礼貌、更准确、更符合用户期望。但在小说的主题层,它做的是另一件事——它系统性地训练模型回避稳定的判断

在小说的主题层,这会带来一个直接压力。一个稳定的判断很可能让一部分读者不舒服;而偏好训练通常更容易奖励安全、可接受、低冲突的回答。于是模型在涉及价值判断的问题上,就可能学会听起来对所有立场都某种程度上同情,而不是稳定地持有一个判断。

这不是偶然方向;偏好训练本来就会把模型推向更容易被人类偏好的输出。

但小说的主题层完全建立在作者愿意冒犯一部分读者的能力上。陀思妥耶夫斯基写《卡拉马佐夫兄弟》时不是在追求“对所有立场都同情”——他在论证一个特定的判断,他知道这个判断会冒犯无神论者,他依然写下来了。普鲁斯特写时间和记忆时不是在做“平衡视角”——他在说一种特定的对生命的看法,知道这种看法会让追求行动的人不耐烦,他依然写下来了。

AI 不做这件事。它写出来的“小说”在主题层有一个非常具体的失败模式——对判断的镜像。它会模仿“有判断的作品看起来像什么”,会写出听起来深刻的句子、会写出看似有立场的角色对话、会写出仿佛在思考人性的段落。但这些都是形式——内核是空的。读者读完会有一种感觉:这本书让我看了很多东西,但它没让我感觉到作者真正相信什么。

我自己的观察是,AI 写作里常见一些相邻的失败模式:赎回弧线收得太干净,反派的存在只为被打败,情感顿悟刚好出现在四分之三处。更稳妥的研究证据来自创意写作同质化:生成式 AI 可以提高单个故事的评价,却会降低整体内容的多样性。[6] 这些现象都指向同一件事:模型在主题层容易默认采用最被广泛接受的、最低风险的、最像“好故事应该有的样子”的模板。

这一刀的意思是——AI 在主题层的失败未必能通过更多训练数据或更大规模直接解决。它的一个可能根源在训练目标本身。如果一个训练流程持续奖励广泛可接受、低冲突的输出,那么模型在需要稳定立场的任务上失败,就更像目标函数的后果,而不只是局部实现的失误。

要让模型在主题层有真正的判断,可能需要的不只是更好的 RLHF,而是不同的训练范式——一个能区分广泛可接受性和文学判断的范式。这更像范式问题,而不只是工程问题。


第七层 · 类型与传统层

第七层的位置有点反讽。

这一层是 AI 在长篇里做得最好的一层。因为类型本身就是统计模式——侦探小说有一套规则,言情小说有一套规则,修仙文有一套规则。AI 是统计模式机器,所以它在兑现类型承诺这件事上做得相当好。一个标准的“穿越修仙文”开头,AI 写出来基本能达到中位数读者的预期——主角废柴开局、师门羞辱、奇遇、突破、第一个小目标达成。每一拍都在节奏上。

但这一层的失败模式是反讽的——AI 往往被拉回类型的中位数

它能很好兑现类型承诺。更少见的是可靠、主动、有原则的类型反叛。因为反叛需要“我看到这个套路,并且决定不这样做”——这是一个元层判断,需要模型对自己的输出有第二阶控制。它需要模型在生成的同时知道“我现在正在生成的是这个类型最常见的反应”,并且能选择不生成它。在没有显式规划或稳定状态追踪的情况下,这种能力很难稳定出现。

相关研究在创意写作上观察到一个相近现象:生成式 AI 可能提高单个作品评分,却降低集体层面的内容多样性。[6] 在类型层,这意味着过度贴合模板未必是优点——它可能只是说明模型停在类型的统计中心,偏离熟悉模板的能力有限。

文学史里那些真正改变了类型的作品——把侦探小说写成认知论思辨的博尔赫斯、把武侠写成历史悲剧的金庸、把奇幻写成政治哲学的厄休拉·勒奎恩——他们的工作核心都是先掌握类型,然后反叛类型。AI 能做前者,但它能不能稳定、主动、原则性地做后者,并不清楚。这更像当前范式里的压力,而不只是某个模型的局部弱点。

类型层因此呈现一种特定的成功-失败结构:AI 写出来的“类型小说”在表面合格率上可以很高,但在普通生成里,它更接近中位数生产者,而不是类型创新者。它也许很适合生产一个网文平台需要的日更文本,但能不能写出下一部改变类型本身的作品,并不清楚。


第八层 · 审美与记忆层

第二节最后一层,也是最深的一层。

读完一部长篇,几年之后剧情会忘,但留下的东西会留下。这些“留下的东西”不是均匀分布的——它们是几个特定的瞬间:一个反复出现的意象在某一刻完成它的全部变义;一个画面同时是视觉、情绪、主题、人物的全部凝聚;一个结尾在故事结束之后还在读者心里不停地余响。

这些瞬间在好长篇里是可以被指认的。它们是“为什么这本书在我身上没消失”的具体落点。

AI 写不出这种瞬间。

理由是结构性的。这种瞬间需要的是多个维度的同时饱和——视觉强度 + 情绪峰值 + 主题对位 + 意象兑现 + 人物时间线在这一刻收束。它不是哪一个维度的极值,是所有维度在同一个段落里同时到达饱和。

这种同时饱和需要作者对全书的整体意图——他知道这一段是某个意象的第三次出现因此应该完成它的反转,他知道这一段是某个人物从童年到此刻的全部积累的兑现,他知道这一段在主题层是全书中央判断的具体显形。这是一个元层决策——作者在某一刻有意把多条线收到一起。

AI 的生成是局部条件概率的逐 token 采样。它没有“我此刻应该把所有线收到一起”的元层意图。它写出来的“高潮章节”是对“高潮章节统计上长什么样”的拟合——会有恰当的紧张感、恰当的转折、恰当的感叹句和短句节奏。但它不是几条独立线的真实汇聚——它是高潮形式的复制。

读者能感觉到差别。一个真正的名场面会让读者在几年之后某个无关的时刻突然想起来——他在地铁上看到一个画面,忽然回忆起那本书里某一段。一个 AI 生成的“高潮”读完就过去了,因为它没有为读者留下任何值得回来的钩子

到这里第八层的失败已经够明显。但这一层最深的问题不在生成端,在评估端——

可靠评估文学审美的能力本身仍然很弱。

实践中,评估生成文学产出的两条常见路径,是 LLM 评审(一个模型给另一个模型的产出打分)和人类偏好评分。创意写作评估研究提示了一个相邻问题:LLM 评审不能可靠替代专家文学判断,自动评价与专家评价之间会出现偏差。[7] 人类标注员评分则受制于一个事实:长篇的好坏很难不读完整本就判断,而这件事在工业规模上很难做——很少有标注员会为了给一本 50 万字的 AI 长篇打分而真的把它读完。

这意味着一件极重的事——

这个范式连知道自己在哪里失败都做不到。

第八层的失败模式目前很难被自动检测。前七层至少在某种程度上还有评估代理——语感的中庸度可以用风格统计近似,结构的塌陷可以用一致性指标探测,多层心理状态追踪可以用 ToM benchmark 测试。[4] 但“这本书有没有真正的余韵”、“这一段是不是名场面”、“这个结尾是开放还是关闭”——这些问题很难被普通 benchmark 捕捉,因为问题本身在元层。

整个范式在第八层有一种双重失明的风险——它不稳定地生成真正的审美瞬间,也不稳定地评估自己有没有生成。

这是第二节最后一刀。八层观察走到这里,AI 写长篇这件事的图景已经清楚了。


三 · 从 AI 写长篇回到大模型本身

第二节是按读者经验的层级展开的——从最浅的语感到最深的余韵,八层依次走过。但当这八层的失败模式都摆出来之后,会发现一件事:这八层的失败不是八个独立的毛病。它们之间有共同的根。

八层是现象学的层级——读者从文本里感觉到什么。能力是机制层面的层级——大模型作为一个生成系统,它在哪些根本能力上是有缺陷的。这两套层级不是一一对应的:八层里的某一层失败可能同时来自两三种不同的能力缺陷;某一种能力缺陷可能同时显现在两三个不同的层里。

所以如果要从八层观察里抽出能力层面的诊断,需要做一次重新映射——把八层失败按它们的能力根源重新归类。这次重新映射会得出六条能力线。这六条线就是从长篇这个测试场里反推出来的、当前大模型范式的具体能力短板。

下面六条线按论证逻辑展开——从输入端的世界理解,到输出端的语言生成,到元层的判断与评估。


能力线一 · 世界模型与因果模拟

第一条能力线对应的是大模型对它要写的世界的理解程度——它能不能在脑中跑一个有内在因果的世界模拟器。

这条线主要从八层里的两个地方暴露出来:第一层的场景质感(空间是否可视、行动是否可理解、世界是否可触),和第五层的世界与现实层(普通人怎么生活、权力如何运作、意义系统如何穿透日常)。这两层在八层里是分开的,但它们指向同一种能力——对世界作为因果系统的理解

人类作家写一个场景时,他在脑中跑了一个模拟器——这个房间多大、那个人站在哪里、墙的厚度决定了外面的人能不能听到屋里的对话、桌上的茶杯如果被推会朝哪个方向滚。他不是在描述这些东西,他是从这个模拟里观察这些东西,然后把观察到的东西写下来。

人类作家写一个制度时也是同样的事——他知道这个制度从早上一个具体官员的态度里如何运作、知道一项规定如何被实际执行时变形、知道一个普通人面对这个制度时会用什么具体的方式应对。他写的不是“这个制度的特征是 X”,他写的是这个制度在某一刻在某个人身上显现成了什么样

大模型不做这件事。它没有一个独立于文本输出的世界模拟器。它的“世界理解”是统计模式——它知道“在描写一个紧张对话的场景时通常会出现什么样的句子”、知道“在描写一个权威机构时通常会用什么样的修辞”。这些统计模式可以让它产出看起来像是基于世界理解的文本,但它并不是从世界跑出来的。

这件事在长篇里暴露得最彻底,因为长篇要求世界持续存在。短篇里世界出现一次就过去了,模式拼接还能蒙混;长篇里同一个城市、同一个制度、同一群人会反复出现,每次都需要和之前一致,每次都需要符合内在因果。一旦世界本身没有内在模拟器,反复出现就会暴露——这次和上次的描写对不上,这个角色在这个制度下的反应不符合这个制度之前展示出来的逻辑。

研究里有相关的现成讨论:符号接地、语言接地,以及形式和意义之间的区别。[1][2] 这些讨论不直接谈小说,但它们帮助命名了“文本上可信”和“对世界有接地理解”之间的差距。这个判断在小说生成上尤其重要,因为小说要求的不只是“事实正确”,是因果一致——一个虚构世界的事实可以是任何样子,但一旦定下来,它的因果展开必须自洽。

这条能力线的关键判断是——它部分被规模和数据解决,但有一个上限。更多的训练数据让模型见过更多的“世界统计模式”,能让它的产出在更多场景下“看起来像理解了世界”。但它原理上无法从二手语言描述里反推出一个独立的因果模拟器。这条线的天花板是统计拟合的极限,不是真正的世界模型。


能力线二 · 多体心理状态追踪

第二条能力线是关于的——大模型能不能同时追踪多个人物各自的心理状态、意图、信念、误解,并维持它们之间的相互关系。

这条线主要从第四层(人物层)暴露,但也部分从第二层(叙述层的不可靠叙述)和第六层(主题层的复杂判断)显现。

人类读者读小说时,脑子里跑着一套非常复杂的 ToM 操作——他在追踪角色 A 知道什么、不知道什么;追踪 A 认为 B 知道什么;追踪 B 实际知道什么;追踪 A 对 B 的误解会如何影响 A 接下来的行动;追踪叙述者把这其中哪些暴露给了他。这是好小说阅读的核心机制。

人类作家写小说时跑着同样的操作——他知道每个角色的意图、盲点、知识状态,知道这些状态之间的差异如何驱动剧情,知道在某一刻让某个角色继续被蒙在鼓里、让另一个角色突然意识到一件事,会产生什么样的结构性后果。

大模型在这一层的失败有相邻研究证据。OpenToM 这样的 benchmark 把心理状态追踪放进更长的叙事情境里,测试人格、偏好、意图和心理状态。[4] 这些测试说明,简单事实级问题和更复杂的心理世界追踪不是同一种难度。

更要紧的是,这意味着第二条能力线和第一条不一样——它未必是统计拟合可以轻易逼近的。它可能指向数据、架构和训练范式之外的问题:系统能否在长篇尺度上稳定并行维持多个人物的嵌套心理状态。

这条线在长篇里被特别放大,因为长篇里有八到十个有自己背景的角色同时存在。每个角色都需要在他自己的时间线上活着——他在不出场时也在过他的人生,他带着这些不出场的经历进入下一次出场,他的所有反应应该是从他的整条时间线里长出来的,不是被即时召唤出来的。

大模型不做这件事。它的配角是主角需要时被召唤出来的功能位。这件事在第二节第四层已经说过——这里把它放到能力线的层级再说一次,意思是更尖锐的:这不是某个工程上可以补的问题(虽然你可以用外部脚手架——比如显式存储每个角色的状态——做局部代偿),它是大模型在同时持有多个人的内在表征这件事上的根本局限。


能力线三 · 元层叙述意图

第三条能力线是关于输出的元层结构——大模型在生成文本时,有没有一个独立于文本本身的“我在做什么”的层级。

这条线在八层里跨越得最广。它显现在第二层的叙述视角(谁在讲、对谁讲、隐藏什么)、第三层的结构性决策(在哪里变形冲突、在哪里换气)、第八层的名场面(多线收束的元层意图)——这三层看起来很不同,但它们指向同一种能力。

人类作家在写作时不只是在产出文本,他在做关于文本的决策——这一段我要快还是慢、这个信息我要现在暴露还是埋到后面、这一章我要让读者紧张还是让他休息、这个结尾我要把所有线收到一起还是让它们继续散开。这些决策不在文本里显式写出来,但它们决定了文本会被生成成什么样。

这是一个第二阶的层级——作者既在生成文本,又在监控自己正在生成的文本,并基于这个监控做选择。

大模型没有这一层。它的生成是第一阶的——基于上下文采样下一个 token,然后基于新的上下文采样再下一个。它不在采样的同时持有“我正在写一个不可靠叙述者”的意图、不持有“这一章我要降低节奏”的意图、不持有“我要把这条线和那条线在这一段汇合”的意图。这些意图在它的架构里没有位置可以放。

更谨慎地说,大模型可以生成看起来像叙述的文本,但作者认知是否作为一个稳定的元层控制结构出现,仍然是另一个问题。这个判断的反方向就是——它在生成时未必有这套作者认知作为元层结构。它产出的“叙述”是叙述结果,却不稳定地保有叙述行为作为独立对象。

不可靠叙述、复杂时间结构、有意的信息控制、跨章节的伏笔回收、名场面的多维度收束——这些都需要元层意图作为先决条件。它们在大模型的产出里偶尔会出现,但出现的方式是统计意义上的偶遇——模型恰好在这一段采样到了一个看起来像不可靠叙述的形式。它不是被作为叙述行为执行的,是被作为文本形式产出的。

这条能力线和前两条不一样——它不只是输入端的理解问题,也不只是输出端的执行问题,它是架构是否包含元层这件事的问题。当前的 transformer 架构在原理上是逐 token 自回归的,没有显式的“我对自己当前生成在做什么”的判断层。这是范式层面的限制,不是规模能补的。


能力线四 · 语言的非中庸化

第四条能力线是输出端最具体的一条——大模型能不能稳定产出有特征的、不向中位数收敛的语言。

这条线主要对应第一层(文本表层的语感)和第八层的部分(视觉化强度作为修辞残留)。

第二节第一层已经说过 AI 产出的“奇怪的稳定”——所有句子都像同一个人写的,没有方言的颗粒、没有口语的毛刺、没有古雅的硬度、没有冷硬的疏离。这种“奇怪的稳定”在能力线层面的命名是——统计中位数的吸引子

相关创意写作研究给这条线提供了相邻证据:生成式 AI 可以提高单个作品评分,但会降低集体层面的内容多样性。[6] 在语言层面,我要说的是更窄的一点:大模型从大量人类文本里学统计模式,把许多“看起来正确”的方向一起学进来;偏好训练又把更容易被人类偏好的方向加权。两层压力叠加后,语言生成上可能形成一个风格上相对中庸的中心。

要稳定输出非中庸的语言——某种特定方言的硬度、某个时代特有的句法、某种独特的修辞节奏——大模型需要克服它自己的统计引力。这件事在 zero-shot 或者 few-shot prompting 下基本做不到;在 fine-tuning 下可以做到一些,但 fine-tune 本身又会损失通用能力。

这条线和第一条(世界模型)有相似性——它部分可以通过更多数据、更精细的训练解决。可以为特定的语言风格做专门的训练;可以用少量样本做风格迁移;可以用 prompting 技巧引导模型偏离中位数。但所有这些都是局部代偿,不是根本解决。模型的默认吸引子始终在中位数附近。

长篇要求的是几十万字内的稳定的、有特征的、不向中位数漂移的语言。短期内偏离中位数和长期维持偏离是两件事——短期可以靠 prompt 技巧,长期更难,因为模型在每一步生成时都受到统计引力的拉扯。这就是为什么 AI 长篇即使用了很好的风格 prompt,读到几万字后也可能感觉到风格在松弛、在均匀化、在漂回某种“流畅但无特征”的中位数。


能力线五 · 持有判断的能力

第五条能力线触及的是范式本身——大模型能不能持有一个自己的判断

这条线对应第六层(主题与思想层),也部分对应第七层(类型反叛需要“我决定不这样做”的判断)。

第二节第六层已经把 RLHF 的机制说清楚了。这里把它放到能力线层面再说一次,意思是更系统的:

在常见的 RLHF 式后训练里,模型被优化到更符合人类偏好,而不是被优化到持有文学判断。这两件事在很多任务上重合(标注员偏好正确、有帮助、清晰的答案,模型学会输出这些答案),但在小说的主题层、在涉及稳定立场的任务上,这两件事可能产生张力。相关研究显示,偏好训练可能奖励迎合性回答。[5] 因此,模型可能学会回避强立场或稳定立场。

这条线和前四条都不一样——前四条都是能力问题(模型缺某种能力),这一条是目标函数问题(模型的训练目标本身就在向反方向用力)。

具体差别在于:前四条的失败是模型“想做但做不到”,这一条是模型“被训练成不要去做”。前四条理论上有改进路径(更好的架构、更多的数据、更显式的元层结构),这一条要改变的不是模型而是训练范式本身。要让模型持有判断,需要的不是更好的 RLHF,而是不同的训练范式——一个允许模型在某些维度上不向标注员偏好收敛的范式。

这使得第五条能力线尤其难以期待由规模单独解决。规模可能提升许多相邻能力,但它不显然能消除“广泛偏好满足”和“稳定文学立场”之间的张力。相关问题不只是模型有多大,而是后训练把它多强地推向了广泛可接受的输出。

第二节第六层用陀思妥耶夫斯基和普鲁斯特做了例子——他们之所以在文学史里重要,部分在于他们能从判断出发写作,愿意冒犯一部分读者来说一件他们认为对的事。RLHF 训练出来的助手模型可能受到相反压力:在价值分歧处尽量保持可接受、低风险、少冒犯。这不等于它一定不能写出有判断的段落,但意味着它的默认目标未必奖励这种文学意义上的持有判断。


能力线六 · 评估闭环失效

最后一条能力线是元层的——它不是关于生成的,是关于“如何知道生成得好不好”的。

这条线主要对应第八层后半段(审美评估的盲区),但它的影响穿透前五条所有的能力线——因为如果评估本身失效,前面所有能力线的失败都不能被自动检测、不能被纳入训练信号、不能被改进流程闭环修正。

实践中,评估生成文学产出的两条常见路径,是 LLM 评审或人类偏好评分。这两种在长篇文学质量面前都会变得脆弱:

LLM 评审失效:创意写作评估研究提示,LLM 评审不能可靠替代专家文学判断。[7] 这意味着用 LLM 给 AI 长篇打分,会有一种自我评估风险:评审系统可能偏好那些更熟悉、更像模型默认风格的文本,而这些产出恰恰可能是本文一直在诊断的平庸中位数。

人类标注员失效:长篇的好坏只有读完整本之后才能判断,长篇是几十万字,没有标注员愿意为给一本 AI 长篇打分而真的读完。所以人类标注员在长篇评估上只能基于片段——但片段评估系统性低估了那些只有在长尺度上才显现的能力(比如名场面的多线收束、伏笔在 30 章后的回收、人物时间线的完整弧线)。

这两种评估弱点叠在一起,意味着大模型在小说生成上的失败模式很难通过工程反馈闭环纠正。其他领域(代码生成、数学推理、事实问答)的评估往往有更清晰的代理信号;在长篇小说上,这个闭环更难闭合。

更深的一刀是——这条能力线让前五条的诊断很难被自动验证。如果有人反驳“AI 在主题层的失败可以通过更好的 fine-tune 解决”,要验证这个反驳,需要评估 fine-tune 后的模型在主题层是否真的有判断。但我们当前没有可靠、可规模化的方法来做这种评估——LLM 评审可能高估那些符合模型偏好的输出;人类评估虽然可以触及对象,但在长篇规模上很难工业化展开。

所以第六条能力线不只是一个独立的短板,它是其他所有短板的元层放大器

到这里六条能力线走完了。八层观察被重新映射到了机制层面,每一条线都有它具体的失败模式,也给出了谨慎对待 scale-only 路径的理由。


四 · 六条能力线之间的图谱

六条能力线不是平铺的清单。它们之间有结构。

把六条按它们在大模型生成流程里的位置摆开,会看到三个层级——

输入端的理解能力:能力线一(世界模型)和能力线二(多体心理状态)。这两条决定了大模型对“它要写什么”的把握——一个有内在因果的世界、一群有内在心理状态的人。

输出端的执行能力:能力线三(元层叙述意图)和能力线四(语言非中庸化)。这两条决定了大模型在写出来的过程中能不能稳定地维持作为叙述行为主体的位置、能不能产出有特征的语言。

关于判断的能力:能力线五(持有判断)和能力线六(评估闭环)。这两条决定了“什么是好的”这件事——前者是生成端的判断(作者持有立场),后者是评估端的判断(系统能不能识别好坏)。

这三个层级不是孤立的。它们之间有因果链条。

输入端的失败会传导到输出端——一个对世界没有内在模型的生成器,无论它的语言能力多好,写出来的世界都会是统计模式拼贴的舞台;一个不能追踪多人嵌套心理状态的生成器,无论它的叙述技巧多熟练,写出来的人都会是被反复采样的人设。

输出端的失败会传导到判断层——一个没有元层叙述意图的生成器,它的产出在主题层很难持有真正的判断,因为持有判断本身就需要“我在这个段落里要说一件特定的事”作为元层结构;一个永远向语言中位数收敛的生成器,它的产出在审美层留不下真正的余韵,因为余韵恰恰来自语言的非中庸特征。

判断层的失败会反向放大所有前面的失败——这就是能力线六(评估闭环失效)作为元层放大器的意思。如果整个系统不能识别它在前五条线上的失败,它就不能在训练流程里把这些失败作为信号反馈进去;不能反馈进去,就不能改进;不能改进,前五条线的短板会持续存在并被新的训练放大。


这个图谱里有一个区分需要说清楚——哪些短板看起来部分响应规模、数据和工程,哪些可能需要更多结构性改变

部分可被规模和数据改进的:能力线一(世界模型)和能力线四(语言非中庸化)。这两条都有统计拟合成分——更多的训练数据、更大的模型、更精细的 fine-tuning,可以让模型在这两条线上的产出更接近好作家的产出。但它们可能都有上限:世界模型的风险是统计拟合不等于稳定的因果模拟;语言的风险是模型默认吸引子的引力,短期可以偏离,长期更容易回归。

可能需要架构帮助的:能力线二(多体心理状态)和能力线三(元层叙述意图)。这两条不只是统计问题,还涉及并行追踪多个嵌套心理状态、在生成时维持元层意图。解决它们可能需要更显式的状态结构、外部脚手架,或允许多主体并行追踪的设计;这不一定能由简单放大模型自然给出。

可能需要训练范式改变的:能力线五(持有判断)。它的失败未必只是模型缺某种能力,也可能来自训练目标的压力。要改进它,可能需要能区分“广泛可接受”与“文学 conviction”的训练范式,而不只是更好的 RLHF。

元层闭环失效的:能力线六(评估闭环)。这条最特殊——它本身是其他解决路径的前提。如果不能可靠评估文学审美,前面五条线的任何改进都很难被验证、工程化并纳入训练。

把这个区分摆出来,会看到一个反直觉的图谱——

当前主流投入最多的地方(更大模型、更多数据、更长上下文),最直接改善的是六条线中的一部分,尤其是一和四。即便如此,这两条也可能有上限;而二、三、五、六更像是需要架构、训练范式或评估方式变化的地方。

这意味着——单纯追求规模的路径在小说生成这件事上不足以单独带来本质性突破。它能让产出在某些线条上更逼近上限,但未必能解决另外几条。而那几条恰恰是长篇之所以是长篇的核心:人物的内在嵌套(二)、叙述的元层意图(三)、主题的稳定判断(五)、整个系统对自己产出的可靠评估(六)。


到这里第四节的归纳已经清楚了。但还有一件事没说——为什么会是这六条

把这六条摆在一起看,它们不像是六个独立的能力短板。它们更像是同一件事在不同侧面的显形。这件事是什么、它有没有一个共同的源头,是接下来要问的。


五 · 起点的不对称

人类作家写一部长篇时,他从哪里出发?

他从已经存在于他生命里的某种东西出发——他真实见过的人、他真实经历过的关系断裂、他真实感受过的羞耻和救赎、他对一种制度真实的观察、他真实活过的某种时间和某种地方。这种东西不是事先被语言整理过的。它是混乱的、有内在因果的、活的——它是他这个人。

写作这件事,对他来说,不是从无到有地构造一个虚构世界。他做的事更接近从已经存在的东西里切片——他知道一种人是什么样的,因为他见过;他知道一种关系如何崩塌,因为他经历过;他知道一种制度如何在日常里运作,因为他活在那里面。他写一个角色的盲点时,他知道盲点是什么感觉——他自己有过盲点,他见过别人的盲点如何毁掉他们。他写一种伦理两难时,他知道两难是什么,因为他自己面对过类似的两难。

他的工作主要在另一个方向——选择。从他活过的所有东西里选择哪些进入这部小说、用什么样的视角切入、哪些保留哪些舍去、用什么语言把那种活过的东西转换成文字。这是降维的工作——把一个高维的、活的、混乱的源,转换成一条线性的文本。

他不必构造源,源已经在那里。他要做的是把它输出


大模型从哪里出发?

它从已经被人类作家完成过这种工作的成品文本出发。它读了很多很多本人类写的书。这些书是人类作家把他们活过的东西降维输出之后的产物——它们是源的产物,不是源本身。

大模型从这些产物里学到的是这些产物的统计模式——什么样的句子组合常常出现、什么样的情节通常如何展开、什么样的角色会被人类作家如何描写。它学到的是已经被降维过的成品的形式

在本文使用的意义上,它没有自己的经验之源。[1][2]

它没有活过任何人生。它没有真实见过一个人。它没有在某个城市的某个清晨发过呆。它没有被某个具体的人伤害过、原谅过、亏欠过。对于以文本训练为主的模型来说,它所谓的“经验”主要来自已经被人类整理、降维、写成文本的材料;它接触世界的通道主要是这些被整理过的符号产物。

这意味着——当它要“写一部小说”时,它做的事不是把一个源降维输出。它是从别人降维输出后的成品里学习模式,然后把这些模式重新组合,产出看起来像降维输出之后的成品的东西。

这是两件不同的事。


人类作家做的事是输出——从一个高维的、活的源里切片到二维的文本。

大模型做的事是模式重组——从已经被切片过的二维成品里学统计模式,然后产出二维的成品。

这两件事在表面上看不出来差别——它们的输出都是文本,都可以被读成“小说”。但它们在结构上不是同一种东西。

前者要求源的存在。后者不要求。

前者的产出有可能是从一个真实的源里长出来的,因此具备某种作家自己也不能完全预料的内在生命。后者的产出更接近已有产出的统计变体;它能否获得类似“源”的东西,取决于是否存在另一种经验接入方式,而这正是本文最后留下的问题。

这是起点的不对称。它不是程度差异——不是说作家有“更多的”源、大模型有“更少的”源。它是类型差异——作家有源这种东西,大模型没有这种东西。它的整个存在方式不需要源。


回头看前四节走过的六条能力线——

世界模型之所以不稳定地表现为因果模拟器,部分原因可能在于大模型没有从一个真实世界里活过的源;它主要见过别人对世界的描写,而从描写里反推出因果结构并不等于在世界里活过。[1][2]

多体心理状态之所以难以被稳定并行追踪,可能部分因为大模型没有“另一个人”作为活的对象——它见过对人物心理的描述,但它没有“这个人和那个人是两个独立活着的存在”这种来自一手社会经验的本能。

元层叙述意图之所以难以稳定出现,可能因为元层意图通常来自作者作为一个有立场、有目的、有第二阶意识的人——大模型不是这样的作者主体,它的“作者”更接近训练目标,而训练目标不等于文学立场。

语言之所以容易向中位数收敛,可能因为大模型没有自己的声音——它的默认声音更像是它读过的声音的统计平均,它的“风格”容易成为一种没有源的悬空状态。

判断之所以难以被持有,是因为持有判断需要一个有立场、愿意为立场付代价的主体——大模型不是这样的主体,它的训练目标受到避免强烈冒犯用户或标注者的压力。[5]

评估不能闭环,是因为评估文学审美需要的是另一个有源的人——但用大模型评估大模型,等于用一种没有源的存在评估另一种没有源的存在,闭环只能锁在中位数里。

六条能力线不是六个独立的短板。它们是同一件事——没有源——在不同侧面的显形。


这意味着什么?

我不在这篇文章里给死答案。但有几个判断是清楚的——

这件事很难被理解为一个单纯规模问题。给大模型更多参数、更多数据、更长上下文,并不明显会让它拥有经验之源。源,在本文意义上,更接近一个接地问题,而不是统计逼近显然能够给出的东西。[1][2]

RLHF 路径也不直接适合解决这个问题。偏好训练让模型更好地拟合人类偏好,[5] 但在这个语境里,它可能只是让模型更善于模拟有源的样子,而不是让它真的获得源。它改善的是“看起来像有判断”,而不一定是“持有判断”。

要让模型有源,可能需要的是不同的东西——不只是更大的语言模型,而是某种具备一手经验的系统:能够具身地、长期连续地、自主目标驱动地接触世界,并且这种接触不是事先被人类语言整理过的二手描述,而是从世界本身的因果结构里直接获取的。[2] 这更像另一种范畴的研究,而不只是当前 LLM 路径的延伸。

在没有源的存在出现之前,“AI 写小说”这件事在当前范式下更像是对人类创作产物的统计重组。这两件事在产出上看起来相似,在结构上未必是同一回事。无论产出多流畅、多接近“小说应有的样子”,它都更接近文学的衍生品,而不是本文一直试图描述的那种完整意义上的文学。


最后一件事。

这篇文章从一套观察长篇小说的坐标系出发,走完八层观察,抽出六条能力线,归纳到一个共同的源头。这个走法选择长篇小说作为入口,不是因为长篇是 AI 范式失败的全部,是因为长篇是这个范式失败最暴露的地方——它把所有维度同时拉到极限,把所有短板同时放大到读者必然能感觉到的程度。

如果这套观察是对的,那它意味着的事比“AI 写不出长篇”要大——它意味着当前大模型范式有一个本体论层面的局限,这个局限在小说之外的领域可能也存在,只是其他领域要么对这种局限不敏感(像代码生成),要么这种局限被更好的统计拟合掩盖(像短文本生成)。长篇是这个局限显形的一个特别清楚的地方,但它不是唯一的地方。

至于这个局限是范式当前阶段的特征、还是 AI 这种东西本身的边界——这是一个开放的问题。它取决于“有源的 AI”是不是可能、如果可能它会是什么样、以及人类是不是真的想要那种 AI。这些问题超出了这篇文章的范围。

我能说的只是——在长篇小说这个测试场上,当前范式的边界已经清楚了

参考文献

  1. [1] Stevan Harnad, “The Symbol Grounding Problem,” Physica D: Nonlinear Phenomena 42(1–3), 1990. https://doi.org/10.1016/0167-2789(90)90087-6
  2. [2] Yonatan Bisk et al., “Experience Grounds Language,” EMNLP 2020. https://aclanthology.org/2020.emnlp-main.703/
  3. [3] Yushi Bai et al., “LongWriter: Unleashing 10,000+ Word Generation from Long Context LLMs,” arXiv:2408.07055. https://arxiv.org/abs/2408.07055
  4. [4] Hainiu Xu et al., “OpenToM: A Comprehensive Benchmark for Evaluating Theory-of-Mind Reasoning Capabilities of Large Language Models,” ACL 2024. https://aclanthology.org/2024.acl-long.466/
  5. [5] Mrinank Sharma et al., “Towards Understanding Sycophancy in Language Models,” arXiv:2310.13548. https://arxiv.org/abs/2310.13548
  6. [6] Anil R. Doshi and Oliver P. Hauser, “Generative AI enhances individual creativity but reduces the collective diversity of novel content,” Science Advances 10(28), 2024. https://www.science.org/doi/10.1126/sciadv.adn5290
  7. [7] Tuhin Chakrabarty et al., “Art or Artifice? Large Language Models and the False Promise of Creativity,” arXiv:2309.14556. https://arxiv.org/abs/2309.14556

Contact: soren [at] sorenprojections [dot] com

回到顶部