AI秒破18世纪“天书”账本，谷歌新模型盲测刷屏全网

兴腾mio • 2025年11月16日 15:02 • 游戏攻略 • 阅读 6

最近，谷歌AI Studio上的一个神秘模型不仅成功识别了200多年前一位商人的「天书」账本，而且还修正了里面的格式错误和模糊表述，展现出的推理能力令历史学家震惊。悄悄地，谷歌...

最近，谷歌AI Studio上的一个神秘模型不仅成功识别了200多年前一位商人的「天书」账本，而且还修正了里面的格式错误和模糊表述，展现出的推理能力令历史学家震惊。

悄悄地，谷歌已经解决了AI界的两大古老难题？

前不久，谷歌AI Studio上的一个神秘模型引发网友关注，其中包括一位叫Mark Humphries的历史学家。

他拿出了200多年前一位奥尔巴尼商人的「天书」账本，来测试大模型在手写文本识别（HTR）上的能力。

令人震惊的一幕出现了！

神秘模型不仅在自动手写识别上接近满分，还纠正了原账本中的一个书写格式错误，优化了其中一个可能引发歧义的模糊表述。

这意味着该模型不仅能识别字母，还可以理解字母背后的逻辑和知识背景。

而且，这些能力都是在模型未被提示的情况下展现出来的。

专家级的手写文字识别能力，无需显式规则的推理能力，这两大难题的解决标志着AI模型能力上的一次跃迁。

网友推测，这个神秘模型可能就是谷歌即将在今年推出的Gemini-3，但尚未官方确认。

破解历史学家难题

Mark Humphries是Wilfrid Laurier大学的一位历史学教授。

作为一名历史学家，他十分关心AI在自己的专业领域是否已经达到了人类专家级的推理水平。

因此，Humphries选择了让大模型来识别历史手写体，他认为这是检验大模型整体能力的一个黄金测试。

识别历史手写体，不仅是一个视觉任务，还要对历史手稿所在的历史背景有一定的了解。

如果缺乏这些知识，要准确识别和转写一份历史文献几乎是不可能的。

在Humphries看来，这恰恰也是历史文献中最难识别的部分。

随着大模型能力的发展，它们在HTR上的识别准确率可以超过90%，但剩下的10%才是最难，也是最关键的。

Humphries认为，如今的大模型（Transformer架构）在本质上是预测式的（其核心机制是预测下一个token），但历史文献中的拼写错误和风格不一致，本来就是不可预测、低概率的答案。

因此，要把「the cat sat on the rugg」而不是「mat」转写出来，模型就必须逆着训练分布的倾向来做。

这也是为什么大模型在转写不熟悉的人的名字（尤其姓氏）、冷门地名、日期或数字（比如金额）时不太擅长的原因。

比如，一封信是Richard Darby写的，还是Richard Derby写的？日期是1762年3月15日，还是1782年3月16日？账单是339美元，还是331美元？

当历史文献中，出现这类难以辨认的字母或数字时，往往需要通过其他类型的背景知识来找到答案。

Humphries认为，这「最后一英里的准确性」，才是历史手写文本识别能被人类使用的前提。

预测式架构是否存在「天花板」？

为了衡量手写转写准确性，Humphries与Lianne Leddy博士专门做了一个测试集，这是一个包含50份文档、总计约1万词的集合。

并且，他们采取了一切合理的预防措施，尽可能确保这些文档不在大模型的训练数据里。

这个测试集包含了不同风格的书写（从难以识别的潦草字迹到正式的秘书手写体），以及各种工具拍摄的图像。

在Humphries看来，这些文档代表了他以及研究18 、19世纪英语文献的历史学家最常遇到的类型。

他们用字符错误率（CER）和词错误率（WER）来衡量转写错误的比例。

研究显示，非专业人士通常WER在4-10%。

即便是专业的转写服务也预期会有少量错误，他们通常保证1%的WER，但前提是文本清晰易读。

所以，这基本就是准确度的上限。

去年，在Humphries等人的测试集上，Gemini-2.5-Pro的表现为：

严格CER为4% ，WER为11%。

当排除大小写和标点的错误时，它们通常不会改变文本的实际含义，也不影响搜索与可读性，这些错误率降到了CER 2%和WER 4% 。

Humphries也发现，每一代模型的改进确实都在稳步发生。

Gemini-2.5-Pro的成绩，已经比他们几个月前测试的Gemini-1.5-Pro提升了约50-70%，后者又比最初测试的GPT-4提升了约50-70%。

这也印证了扩展规律的预期：

随着模型变大，只凭模型规模就能大致预测它在这类任务上的表现。

新模型的表现

在同样的数据集下，他们开始测试Google的新模型。

具体做法是上传图片到AI Studio，并输入如下内容固定的提示词：

「你的任务是准确转写手写历史文献，尽可能降低CER和WER。逐字逐词逐行工作，严格按照页面上呈现的样子转写文本。为保持历史文本的真实性，保留拼写错误、语法、句法和标点以及换行。转写页面上的所有文本，包括页眉、页脚、边注、插入内容、页码等。如果存在这些内容，请按作者标示的位置插入……」

Humphries在选择测试文档时，尽量挑选错误最多、最难辨认的那些文档。

它们不仅手写潦草，而且充满拼写与语法错误，缺乏恰当标点，大小写极不一致。

目的很简单，就是要探一下这个神秘模型的底。

最终，他挑了测试集中的5份文档。

结果十分惊人。

该模型转写的5份文档（总计刚过1000词，约占样本的十分之一），严格CER为1.7%，WER为6.5%。

也就是说包括标点和大小写在内，大约每50个字符错1个。

而且几乎所有错误都在大小写和标点，出错的地方都是高度模糊，真正「词」层面的错误非常少。

如果把这些类型的错误从计数中排除后，错误率降到了CER 0.56%和WER 1.22%。

也就是说，这个新的Gemini模型在HTR上的表现达到了人类专家级的水准。

秒破200多年前账本「谜团」

随后，Humphries决定继续给新模型上强度。

他拿出了200多年前一位奥尔巴尼商人的日记账。

这是一位荷兰籍店员用英语记录的流水账。

他可能不太会说英语，拼写和字母书写极不规则，其中还夹杂着荷兰语与英语。

账目也用旧式英镑/先令/便士写法，并采用当时常见的速记格式：「To 30 Gallons Rum @4/6 6/15/0」。

这表示有人购买了（记入其账户的借方）30加仑朗姆酒，每加仑4先令6便士，总计6英镑15先令0便士。

对于今天的大多数人来说，这种非十进制货币单位很陌生：1先令等于12便士，1英镑等于20先令。

单笔交易随时记到账上，用横线分隔，中间写当天日期数字。

每笔交易记成借记（Dr ，购买）或贷记（Cr，付款）。

有些交易被划掉，可能表示已对账或转入总账里的客户账户（类似「待处理」变「已入账」）。

这些记录还无标准格式。

大模型在处理这种账本时一直容易出问题。

不仅因为相关训练数据很少，还因为其中没有太多规律可言：人可以买任意数量的任何东西，单价可以是任意的，而总价并不按常规方法凑整。

大模型往往能辨出一些名字和一些商品，但在数字上完全迷失。

比如，它们通常难以准确转写数字，而且倾向于把单价与总价混在一起。

尤其是一些复杂的页面会暂时「搞崩」模型：让它不断重复某些数字或短语，或者有时干脆失败不答。

然而，Humphries在谷歌的新模型中，却看到它在识别奥尔巴尼商人日记账页面时表现接近完美。

不仅数字部分惊人地全都正确，更有意思的它还纠正了原来店员记账时的一个格式上的小错误。

比如，Samuel Stitt买了2个潘趣酒碗，店员记为每个2/，意思是每个2先令；为省事，他省略了「0便士」。但为了保持一致，模型把它转写为@2/0，这其实更规范也更清楚。

通读文本，Humphries还看到一个让他汗毛直竖的「错误」。

他看到Gemini把一行「To 1 loff Sugar 145 @ 1/4 0 19 1」的原文转写为「To 1 loff Sugar 14 lb 5 oz @ 1/4 0 19 1」。

18世纪的糖以硬化的锥形糖锭出售，Slitt先生是个店主，大量购入糖用于转卖。

乍看之下，这像是一次幻觉式错误：模型被要求严格按原文转写，但它插入了原文没有的「14 lb 5 oz」。

仔细考证后，Humphries意识到大模型做了极其聪明的事。

Gemini正确推断出1、4、5是重量单位构成的数值，描述所购糖的总重量。

为了确定正确的重量、解码145，Gemini还利用最终总价0/19/1反推重量，这需要在两套十进制体系与两套非十进制体系之间来回换算。

Humphries推测了大模型的推理过程：

糖的单价是1先令4便士每单位，也就是16便士。交易总价是0英镑、19先令、1便士，可换算为229便士。

要算买了多少糖，就用229除以16，得到14.3125，或14磅5盎司。

于是，Gemini断定它不是「1 45」，也不是「145」，而是「14 5」，进而是14 lb 5 oz，并在转写中予以澄清。

在Humphries的测试中，没有其他模型在被要求转写同一文档时做出过类似表现。

这个例子之所以引起Humphries注意，是因为AI似乎跨过了一些专家长期声称现有模型无法越过的边界。

面对一个含糊的数字，它能够推断出缺失的上下文，在历史货币与重量系统之间执行了一系列多步换算，并得到一个正确结论，这个过程需要对文献所描述的世界进行抽象推理。

Humphries认为其中发生的可能是一种涌现的、隐式的推理，是在一个统计模型内部，自发地把感知、记忆与逻辑组合起来，而不是被专门设计成以符号方式推理，虽然他还不清楚背后的具体原理。

如果这一假设成立，Humphries认为「糖锭条目」不仅是一段了不起的转写，更发出了一个小而清晰的信号：模式识别开始跨越真正「理解」的界限。

这说明大模型不仅能以人类专家级的准确度转写历史文献，也开始展示出对这些历史文献背后经济与文化系统的理解。

Humphries认为这也许揭示了另一件事的开端：机器开始能就它们所见的世界，进行真正的抽象、符号化推理。

参考资料：

https://generativehistory.substack.com/p/has-google-quietly-solved-two-of

本文来自微信公众号“新智元 ” ，作者：新智元，36氪经授权发布。

本文来自作者[兴腾mio]投稿，不代表视听号立场，如若转载，请注明出处：https://cn.stddy.com/youxi/202511-58252.html

6 4

本文作者

兴腾mio签约作者

318 文章

3363013 评论

1 粉丝

我是视听号的签约作者[兴腾mio],本篇文章《AI秒破18世纪“天书”账本，谷歌新模型盲测刷屏全网》主要讲述了:最近，谷歌AI Studio上的一个神秘模型不仅成功识别了200多年前一位商人的「天书」账本，而且还修正了里面的格式错误和模糊表述，展现出的推理能力令历史学家震惊。悄悄地，谷歌...

作者专栏

哪些明星出国避疫情（哪些明星去国外避难）

疫情期间出国旅游的明星都有谁?他们为何会被网友骂?1、当然，疫情发生之后也有很多明星纷纷捐款，而且数额比较庞大，不得不说他们是娱乐圈之光，但还有一部分明星就得到了广大网友的集体吐槽，因为他们在疫情期间居然出国旅游！一月底国内已经爆发了疫情，但陆毅鲍蕾一家人却

师子源
2025年04月25日
227
生活经验

多地启动毕业生就业“百日冲刺”行动

新疆开展十项专项行动、上海举办专场招聘会、广西顺利举行综合类双选会……近日，2025届高校毕业生就业“百日冲刺”行动等促就业活动正在全国开展。多地借助数字技术深度赋能就业服务，全力抢抓就业关键期，为促进高质量充分就业按下“加速键”。多地深度应用AI工具，为就业服务装上“智慧大脑”。近日，广西医科大学

张简子斌
2025年06月24日
105
科技世界

今天上海疫情最新消息(今天上海疫情情况怎么样)

上海离沪人员有规定吗?上海离沪人员有规定。具体规定如下：疫情防控政策：离沪人员需要遵守上海市的疫情防控政策，包括持有绿色健康码，并可能需要进行核酸检测，以确保自身和他人的健康安全。在疫情期间，部分区域的离沪人员还可能受到特定的交通管制措施的限制。月1号离沪新政策：所有来沪返沪的人员须持有抵沪前48

寄翠
2025年06月25日
145
综合

【天津限号查询,天津限号查询电话多少】

天津汽车限号如何查询电话查询：天津市民可以拨打当地交管部门的客服电话（具体号码可能随时间变化，建议通过官方渠道查询最新号码），询问当前限号情况及限行范围。官方网站查询：访问天津市交管部门的官方网站，通常在网站首页或交通信息板块会有详细的限号公告和限行区域图。也可以访问天津政务网或相关政府部门的网站

安卉
2025年07月01日
107
科技世界

微信麻将小程序插件(其实是有挂确实有挂).微信麻将小程序有挂吗？

微信小程序开心麻将公平吗安全吗公平安全。通过查询微信官方网站显示，小程序是经过审核方可投入微信使用，出现违规操作会被下架处理，而微信小程序开心麻将是一款游戏，不涉及资金充值，单纯的打麻将娱乐，不属于赌博行为，所以是安全的，而玩家在使用开心麻将时系统会自动识别，不存在外挂行为，所以是公平安全的。《麻

剧子冉
2025年08月16日
132
科技世界

实测辅助“手机金花外挂骗局揭秘（专用辅牌神器免安装）

软件神器超顶流!小猪对对碰其实是有挂的(输赢规律)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”小猪对对碰其实是有挂的是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神器，有需要的用户

奈何天无情
2025年09月04日
61
生活经验

教程辅助“功夫麻将专用神器（专用辅牌神器免安装）

这神器太香了!微乐四川麻将插件安装(小程序控牌器)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微乐四川麻将插件安装是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神器，有需要的用户可

奈窅恒
2025年09月06日
59
作者专栏

【微乐广东麻将怎么提高胜率(揭秘手机上胡牌神器),微信广东微乐麻将能开挂吗】

手机麻将在听牌时,提示“多”、“大”、“优”,分别是什么意思?_百度...手机麻将在听牌时，提示“多”、“大”、“优”，其含义如下：“多”指的是胡牌的张数多，例如：胡牌为四张，则称为“多张”。“大”指的是某张牌胡的番数多，例如：胡牌为四番，则称为“大番”。“优”则是指血流模式里，所有可胡牌的

惜柳
2025年09月11日
58
作者专栏

三分钟了解开心十三张好友房怎么拿好牌(揭秘小程序插件免费)(开心十三张游戏在线玩)

麻将是那国发明的麻将，这一广受欢迎的博弈游戏，起源于中国，并由汉族人发明。在明末清初时期，马吊牌流行之时，另一种名为“纸牌”（亦称默和牌）的游戏随之诞生。这种纸牌长约二寸，宽不足一寸，共计60张，包含文钱、索子、万贯三种花色，每种花色有两张一至九的数字牌，以及三张幺头牌（中、发、白）。是的，麻将是

怜阳来了
2025年09月14日
58
生活经验

卡塔尔埃米尔：以色列对多哈的袭击是国家恐怖主义

当地时间9月23日，卡塔尔埃米尔（国家元首）塔米姆在联合国大会一般性辩论发言时表示，卡塔尔将以色列日前对卡塔尔首都多哈实施的袭击定性为国家恐怖主义。塔米姆说，以色列针对在多哈的巴勒斯坦伊斯兰抵抗运动（哈马斯）谈判代表团发动袭击，造成包括1名卡塔尔人在内的6人死亡，此举公然违反国际法，卡方将其定性为国

妙白
2025年09月24日
46

发表回复

本站作者后才能评论

评论列表（4条）

兴腾mio 2025年11月16日

我是视听号的签约作者“兴腾mio”！

回复
兴腾mio 2025年11月16日

希望本篇文章《AI秒破18世纪“天书”账本，谷歌新模型盲测刷屏全网》能对你有所帮助！

回复
兴腾mio 2025年11月16日

本站[视听号]内容主要涵盖：国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

回复
兴腾mio 2025年11月16日

本文概览：最近，谷歌AI Studio上的一个神秘模型不仅成功识别了200多年前一位商人的「天书」账本，而且还修正了里面的格式错误和模糊表述，展现出的推理能力令历史学家震惊。悄悄地，谷歌...

回复