Stanley 和 Lehman 是进化算法研究者,2008-2010 年在做一件奇怪的事——用神经进化算法跑机器人走路、机械臂操控、艺术生成。他们发现一件反直觉的事:明确的目标函数(fitness function)经常让算法卡在局部最优;放弃目标、纯粹追求「与已知的差异」(novelty search)反而能爬出局部最优。
他们对主流的不满很具体——商业、教育、科学界都默认「设定明确目标 → 朝目标优化 → 达成目标」是高效路径。但 Stanley 看见的数据是:高目标导向在简单空间有用(迷宫小、路径短),在复杂空间(多重峰、欺骗性梯度)灾难性。
不写不行的那股劲儿——他们要把这个反直觉的实验证据扩展成一个论点:目标越雄心勃勃,目标函数越是误导你。这一刀切在硅谷的 OKR 文化、教育的考试主义、科学的 NSF grant 系统。
五条天花板,不证,摆桌上:
一句话:Novelty search > Objective search。新奇性搜索胜过目标搜索。
Stanley 的取景框:把任何创新、发现、伟大成就的搜索过程,重新理解为「在巨大的可能性空间中寻找垫脚石的旅程」——不知道垫脚石通向哪里,但每一块都让你够到下一块。
他们的独占术语和区分——
Objective Paradox:目标越明确,欺骗性越强。直觉的「朝目标爬坡」在欺骗性景观里把你困在局部最优。
Novelty Search:放弃目标函数,改为「最大化与已知行为的差异」。Stanley 用进化算法实验证明:迷宫导航任务中,novelty search 平均比 objective search 解决率高 10x。
Stepping stones(垫脚石):通往任何复杂成就的中间步骤,事先无法识别为「通往那里」的。真空管 → 晶体管 → 集成电路 → 微处理器 → 互联网 → 移动 → AI——每一步在发明时都不是「为了创造下一步」。
Deceptiveness(欺骗性):搜索空间的内在性质,不是错觉。某些空间的几何让「最优局部步骤」系统性地远离全局最优。
Treasure hunter vs Goal-driven explorer:宝藏猎人不知道宝藏在哪,只知道哪里值得挖;目标导向者知道目标但不知道怎么去。复杂空间属于前者。
Interestingness as compass:当目标不可靠时,「这件事有趣」是更可靠的搜索信号。有趣 = 与已知有差异 + 可继续探索。
目标导向的搜索在欺骗性空间里会持续把人困在局部最优。真正的突破来自放弃目标、追逐新奇性——让无数看似无关的「垫脚石」自发涌现出你事先无法想象的结果。
更狠一刀:这不只是搜索算法的实验结果。Picasso 没设定「成为现代艺术之父」的目标,他在追逐当下让他兴奋的实验;Wright 兄弟没设定「发明客机产业」,他们在追逐让风筝稳定的几何;甚至 Apple 的 Macintosh 没诞生于「占领个人电脑市场」的 OKR,它诞生于 Xerox PARC 一群没目标的工程师对图形界面的好奇。
再更狠:现代制度(科研基金、教育、企业 KPI)系统性地选择 objective-driven 路径,因为它「看起来理性」。这种系统性偏好正在压制 novelty search,导致整个社会的探索能力在下降——你拿不到钱做没有明确目标的研究。
带走的一句——
The greatest things in life are never reached by trying to reach them.
形态:取景框
内容:复杂空间是欺骗性的。目标函数在简单空间是导航,在复杂空间是诱饵。真正的突破来自追逐 novelty 和 interestingness,让垫脚石非线性涌现。
为什么是这一件:换上这副眼镜,你看 OKR、看创业规划、看科研路线图、看教育考试体系,全是 objective search 在欺骗性空间里的失败模式。看自己的「人生规划」,问「我现在追的目标是导航还是诱饵」「最近让我兴奋的事是什么——那才是真正的垫脚石」。十年后还在用的取景框,翻回原书是想再校准一次「interestingness 作为指南针」的精度。
带走了这一件,这本书的精神内核就在你手里。
Stanley 和 Lehman 给了 novelty search 作为 objective search 的替代。但他们没充分回答一个核心 trapdoor:「资源稀缺时怎么办?」
Novelty search 在算法实验里成功,因为算力便宜——你可以并行运行 10,000 个 agent,让 9,990 个失败也无所谓。现实世界的探索不一样:人的时间有限、企业的资金有限、政府的政策窗口有限。「无目标地追逐新奇」需要的资源弹性,多数主体不具备。
这导致一个反讽:novelty search 的论点在算法实验里被证明,但论点的推广受限于实验条件——廉价并行、无失败成本、容许大量 dead end。把这套搬到真实创业、研究、人生决策时,需要先解决「探索的资源约束」,Stanley 没处理。
另一条 trapdoor:「interestingness 作为指南针」是 Stanley 推荐的替代信号。但 interestingness 本身是文化和经验的产物——一个被训练得只对「目标驱动」感兴奋的人,他的 interestingness 信号已经被污染了。「让我兴奋的事」不再是 novelty 的真实指针,是社会塑造的奖励 schema。Stanley 默认人能识别真实的兴趣,但识别能力本身可能被现代制度(应试教育、KPI 培训)系统性弱化。
再一条:垫脚石必须事后才能识别为「通向某处」。但「事后」需要有人活到那个时点写下故事。novelty search 在算法里漂亮,因为整个实验都在我们的时间窗口里完成。一个具体的人在追求 novelty 时,可能在他活着的时间窗口里看不到任何 stepping stone 通向任何东西——他的探索可能是无效的(绝大多数物理可能性确实通向死胡同)。Stanley 的论证基于「事后看历史成功者的轨迹」,有 survivorship bias——失败的 novelty 探索者没机会写书。
对 Why Greatness Cannot Be Planned 取景框的用户来说:第一刀是看见 objective 在复杂空间是诱饵,第二刀是接受 novelty search 需要资源弹性这个隐含前提,第三刀是警觉 interestingness 信号可能被污染——并不是所有「让你兴奋的事」都是真的垫脚石。