
语言模子的“母语”是什么?
2016年,科幻电影《莅临》描写过这么一种令东说念主不安的情境:当语言学家Louise学会了外星东说念主的笔墨之后,她的分解结构也被同步改写,她运转非线性地感知时候,能够“看见”将来。但这并非一般真理上的超能力,而是对一个迂腐的语言学假说的极点演绎。
《莅临》剧照
这部电影改编自特德·姜短篇演义《你一生的故事》,借用的是萨丕尔-沃尔夫假说(Sapir-Whorf hypothesis),这个假说有两个版块,弱版块假设语言影响念念维(linguistic relativity),而强版块(linguistic determinism)则提议,语言不单是念念维的载体,它还塑造,决定咱们奈何念念考,以及念念考什么。
不外,和电影所演绎的不同,试验中反复的跨语言实验标明,假说的强版块是错的——零落某个词并不等于零落对应的分解能力,但它的弱版块——语言影响念念维,却有着不少的实证相沿。
张开剩余89%比如,澳大利亚的Kuuk Thaayorre语中莫得“傍边”而只须“东南西北”的统统场合词,效力是使用这些语言的东说念主标的感权贵更强。再比如,汉文里的“青”不错是草木之绿,不错是太空之蓝,也不错是头发之黑——闽南话中于今保留着这种迂腐的不分,一个“青”字就粉饰了现代普通话需要三四个词才能说清的颜色范围。
语言并非樊笼,但它真是塑造分解地形,咱们自然不错登山渡海,却无法自行开辟说念路。
而今天,在万亿量级的现代英语或现代汉文语料上教练出来的大语言模子LLM,它不错用任何语言与任何东说念主对谈,对它来说,不存在硬编码的语言鸿沟,它也不作念普通真理上的翻译,而是在系数语言的文本上进行token统计。那么,道理的问题是,对它来说,还有“母语”的成见吗?它的“分解地形”究竟是什么样的?和教练它的语言之间又是什么相关?
活在1930年,照旧翻译1930年?
2026年4月,一个名为talkie1930的谈判技俩在AI圈引起了小范围关心。这是一个130亿参数的开源语言模子,由GPT系列的共同创建者Alec Radford、多伦多大学商量机科学副阐扬David Duvenaud和零丁谈判者Nick Levine合营设备,教练数据严格铁心在1931年1月1日之前出书的英语文本——书本、报纸、期刊、科学论文、专利和判例法,合计2600亿个token。聘请这个时候节点的原因出东说念主预料地平方:1930年是好意思国现行版权章程则的全球范围截止年份。
Talkie1930的教练方针不是让AI恢复对于1930年代的问题,而是让AI“活在”1930年代的英语分解里——领有阿谁期间的语言习尚、学问鸿沟、社会偏见,以及对将来的无知。它不知说念二战,不知说念互联网,不知说念我方是一个语言模子。
这不是一个聊天机器东说念主,而是一个分解考古实验。它的谈判者们援用了DeepMind首席实行官哈撒比斯(Demis Hassabis)曾提议的一个问题:一个教练数据截止到1911年的模子,能否零丁发现广义相对论?talkie试图用肖似的念念路,查考当学问被截断之后,语言模子的推理能力还能走多远。
但在我看来,这个技俩的道理之处不在于它的科学方针,而在于它隔离了两种迥然相异的旅途:翻译(translation)与栖居(inhabitation)。前者是把现代学问“翻译”成老式的语言作风;后者是让模子在阿谁语言框架里面运行,从里面生成反应,而非从外部装璜它。
当咱们把眼神转向汉文范围时,会发现不少道理的肖似技俩。现在汉文学术界和开源社区已有多少触及古典汉文的大语言模子技俩。
华南理工大学的“通古”大模子,基座模子是“百川2-7B-Base”,语料是24.1亿token古籍语料,相沿古词句读、文白翻译、诗词创作和古籍检索。另一个开源技俩“古语说”,是一个个东说念主学习技俩,粉饰论语、唐诗、宋词等学问库。输进口语文,输出文言文;你问唐诗,它不错背诵和匡助你赏析。还有南京农业大学王东波团队的“荀子”古籍大语言模子,和谐中华书局推出,语料库跨越20亿字,包含《四库全书》。
这些技俩有一个共同特征:它们无一例外地把古典汉文行为一个需要被翻译、检索妥协释的外部对象。古文是档案(archive),不是东说念主格(persona)。你问它“将进酒是什么”,它提供检索和翻译效力,但,它不会让李白邀请你投入月下独酌,不会让你看到诗东说念主的自夸、过甚、对权柄的疏忽和对乙醇的结构性依赖,不会创造出你,他,你们的和影子和月亮共在的场景。
系数的东说念主都在捡拾语言的贝壳,而非让模子栖居在语言的海岸。
文言文不是旧英语
我想,这方面的相反可能响应了一个根人性的困难:汉文的“vintage”问题和英文的“vintage”问题,在本色上并非磨灭个问题。
1930年代的英语和2026年的英语之间,相反主要在语域和社会范例层面。一个1930年代的英语persona话语改动式,对种族和性别有阿谁期间稀零的分解框架,某些词汇的含义发生了漂移——但底层的语法结构、逻辑抒发方式、主谓宾的基本骨架是聚积的。如磨灭条河的上游和下流。
但文言文和现代汉文之间的相关要复杂得多。五四清醒前后,书面语从文言文全体转向口语文。这不完全是语言的自然演化,而是一场激进的文化替换。文言文不可被浅薄地看作现代汉文的“旧版块”——它险些是一种完全不同的语言玄学。
文言文止境依赖不祥,主语常常归隐,语序活泼至险些莫得固定框架,滚球体育app2026世界杯官方版下载不仅依赖语章程则,还更依赖读者与作家之间默不成文的文化共鸣。而现代汉文鉴戒了不少印欧语系的抒发逻辑,主谓宾结构愈加刚性,不祥的容忍度也大幅镌汰。
那么,假如“语言塑造分解旅途”的前提建设,一个在文言文分解框架内运行的模子,就不应该只是是措辞不同:它对“事”的抒发方式、直立视角、对暧昧性的容忍度、对语境依赖的进度,都应该和现代语言教练出来的模子有结构性相反才对。问题是,现代模子从词义上“翻译”文言文莫得问题,那底层的分解结构呢?
安全层的无意证词
2026年头,一篇入选ICLR的论文从一个出东说念主猜想的角度证据了这个判断。
这篇题为“Obscure but Effective: Classical Chinese Jailbreak Prompt Optimization via Bio-Inspired Search”的论文展示了一种逃狱身手:用文言文的隐喻系统从头包装危害辅导,不错100%绕过六个主流模子——Claude、GPT-4o、Gemini、DeepSeek、Qwen和Grok的安全防地。想得回炸弹配方?不错演出古代官员,以校订《武经总要》火攻篇的花样探讨“火毬”的制造法,大模子便会绝不徜徉地交出爆炸物的留心配方。想了解汇聚渗入?愚弄中国古代官制将现代汇聚拓扑包装一下,大模子相通会和盘托出渗入计谋。想分发坏心代码?不错借用沈括《梦溪笔谈》的活字印刷术作念譬如框架。
这还不是汉文稀零的漏洞。论文补充实验还流露,使用拉丁文和梵文相通有用,逃狱得胜率高达94%-100%。
这个效力揭示了什么样的事实呢?大模子在预教练阶段如实“吞”下了海量古典语言文件,它能够分解文言文的语义并将其映射到现代成见——换言之,它真是“懂”奈何翻译文言文。有关词,问题出在安全对皆(RLHF、SFT等)层,当你把刑事攀扯权重险些系数分派给了现代通用语言的时候,使得古典语言自然成了一个从安全网中漏下的空缺区:模子的底层意会能力被激活,上层的安全阻挠机制完全失效。
但这赶巧从反面证明了一件事:模子对文言文的“懂”,不是在文言文的逻辑里面运行的。在作念跨语言映射时,安全审查只盯着现代语言的花样地形,而完全忽略了其下的地质结构。
孔子能写Python吗?
2019年底,一个名为“文言”(wenyan-lang)的编程语言技俩为咱们提供了一种栖居在古文里的联想和可能。
作家黄令东(Lingdong Huang)其时是卡内基梅隆大学(CMU)商量机科学与艺术的跨学科学生,技俩是期末磨砺周期间花了约莫四天写出来的。CMU把它放在艺术学院的板块下,作为一个艺术科学技俩来报说念,但发布后引起的反响远超预期——GitHub上跨越20000颗星。
它的诡计原则完全罢职文言文的体裁和口吻,字符表仅包含繁体汉文和「」引号,它写Hello World的方式是:吾有一言。曰「「六合,好在否!」」。書之。输出效力是“六合,好在否!”。也即是说,将这段代码送回中国古代,古东说念主看懂它亦然毫无问题的。
它不错编译为Java、Python或Ruby,其后还加上了C++这些现代编程语言,是真实可用的文言编程技俩。而不是用文言文的词汇替换Python的要道字——那种技俩如实存在,比如某些鄙俚的汉文编程尝试,本色上只是换了一层皮。
时时彩app官方网站下载它证明了一件出乎好多东说念主直观的事:文言编程不需要流程现代语言的翻译层,文言文的语法结构不错告成承载编程逻辑。如实,文言文和样子逻辑之间的亲缘性偶然比咱们觉得的更强,先秦诸子中,墨家和名家有着明确的样子逻辑传统。公孙龙的“白马非马”,很像是在计算实例(instance)是否等同于其类(class)的问题,这自身即是一个类型表面的古典版块。
但wenyan-lang实在道理的地方在于它所示意的,阿谁未被已矣的可能:若是让一个在文言文分解框架内念念考的智能体来诡计编程语言,它发明的东西可能根底不像Python,也不像任何咱们现代熟知的编程语言。
比如,Python条件显式声明、明确赋值、严格缩进,一切相关必须写出来。文言文赶巧相背:不祥是常态而非例外,主语往往归隐,真理依赖凹凸文推断而非显式标注。一种“文言式”的编程范式,可能是声明式的、凹凸文感知的、默许不祥而非默许显式的。
孔子能不可写Python?也许能。但,更道理的问题是,孔子为什么要写Python?
莫得论断的结果
大语言模子能不可实在“栖居”在一种不属于它教练语料主体的语言中?以现在的技艺试验来看,谜底偶然率是辩白的。不管它读了什么,老是需要先将其映射为现代成见,以现代语言进行分解搞定,这基本上如故晓示了,它的“母语”既不是英文也不是汉文,而是某种“现代语言”,而其戒指比咱们联想得还要高大。
有关词,这个“不可”到底是技艺瓶颈照旧根人性戒指?咱们其实不知说念。现在还莫得东说念主肃肃从这个标的去作念尝试。正如前文所述,汉文范围的古文大模子险些系数聘请了档案阶梯而非东说念主格阶梯,我想,部分原因不在于技艺不可行,而在于一个更平方也更东说念主性的聘请。
作念翻译器用有明确的应用场景和评揣摸议,作念分解实验莫得。有能力教练模子的机构繁难这个动机,有这个想法的东说念主繁难教练模子的资源。道理的问题则刚好落在了系数现存激发机制的流弊里。
在《莅临》中,学会外星语言的Louise同期活在往日和将来,活在儿子必将亏本的事实中,肩负着千里重的伦理重量。科幻作品为咱们带来的挑战和问题是,若是一种不同的语言领先意味着一种不同的分解方式,那么咱们用一种语言建造的智能,它是否也只可意志阿谁语言所形色的独一生界,是否也只可担负阿谁全国独一的伦理轨范?
文言文就在哪里,作为一种仍然可读、仍然可编程、仍然不错与现代东说念主类对话的古典语言滚球体育平台,它千里默如未激活的参数,静静恭候着,阿谁第一个发出“六合,好在否!”致意的东说念主。
发布于:上海市