來(lái)源:文藝報(bào) | 趙 薇 時(shí)間 : 2025-04-21
分享到:
“人工智能時(shí)代的人文知識(shí)生產(chǎn)”,是現(xiàn)在很多人都在討論的話(huà)題。但是,不要忘了,人文研究又不僅僅是一場(chǎng)知識(shí)生產(chǎn)。如果不對(duì)一些本質(zhì)的東西發(fā)問(wèn),我們可能還是在一個(gè)比較淺的層面上談?wù)撨@個(gè)事。
一
從我個(gè)人切身體驗(yàn)來(lái)講,我當(dāng)年是一個(gè)理科生、理學(xué)學(xué)士,可為什么費(fèi)了那么大勁跨學(xué)科考研,考到中文系來(lái)?這是因?yàn)?,我意識(shí)到,自己本質(zhì)上是一個(gè)文藝青年。我希望在當(dāng)時(shí)的社會(huì)里找到能夠詩(shī)意地棲居的方式,不想過(guò)心為形(行)役的生活。我很慶幸,我來(lái)到的是20年前的中文系,而不是今天這樣項(xiàng)目化、工程化的中文系。我也很慶幸,自己接受了比較純正的文學(xué)教育,師生之間也是“從導(dǎo)師游”的非功利的關(guān)系。而且為了能夠獲此機(jī)會(huì),我還算是踏踏實(shí)實(shí)看了幾年書(shū),背了幾年書(shū)。我懷著對(duì)人文學(xué)術(shù)的美好向往來(lái)到了中文系,現(xiàn)實(shí)沒(méi)有讓我太失望。
但是我萬(wàn)萬(wàn)沒(méi)想到,20年后的中文系正在發(fā)生的改變,是由我這樣的一分子來(lái)參與促成的。這幾年我的內(nèi)心其實(shí)是非常矛盾的。從精神層面看,大概從十年前開(kāi)始,我基本上又開(kāi)始撿起了本科階段的一些工作,比如說(shuō),統(tǒng)計(jì)建模、實(shí)驗(yàn)設(shè)計(jì)、數(shù)據(jù)分析。雖然我還算有一些基本訓(xùn)練,但是仍然感到吃力。近五年來(lái),我的時(shí)間開(kāi)始大部分放在讀數(shù)據(jù)、讀paper、做檢驗(yàn)、分析特征、論證問(wèn)題上,我明顯感到曾經(jīng)珍視的一部分,比如一些審美感受力、恰如其分地抒情的能力,正在從我的生命里逝去,抓不住了。我其實(shí)不太相信,一個(gè)中文系的(本科)學(xué)生,可以既打好文學(xué)基礎(chǔ),在自由的環(huán)境里獲得深刻的生命感悟,又學(xué)好理工科——他必然付出代價(jià),要失去我曾經(jīng)享有的記憶,更不要說(shuō)團(tuán)隊(duì)合作的過(guò)程中可能存在的關(guān)系異化。這兩年在各種年會(huì)上,有些像我一樣即將跨學(xué)科的理工科學(xué)生跟我吐槽:趙老師,我感覺(jué)自己剛從一個(gè)坑爬出來(lái),又要掉進(jìn)另一個(gè)坑。
之所以扯這么遠(yuǎn),是因?yàn)槲蚁胝f(shuō)明,人文學(xué)術(shù)它不僅僅是一個(gè)目的,不僅僅是一個(gè)效果,一個(gè)知識(shí)生產(chǎn)的結(jié)果,更不是一個(gè)手段。它還是一個(gè)過(guò)程,它如果有目的,唯一的目的應(yīng)該是人本身。但是,目前看來(lái),人工智能中有人嗎?有人文學(xué)者的體驗(yàn)和身影嗎?
這里涉及到的一個(gè)問(wèn)題是,我們?nèi)绾蝸?lái)理解今天的人工智能對(duì)人文研究的介入,如何來(lái)理解數(shù)字人文的研究形態(tài)?首先,現(xiàn)階段的AI是不是工具?如果承認(rèn)AI就是一個(gè)工具,那么人文學(xué)者的工具論,他們對(duì)工具的使用,必然是和理工科不一樣的。人文學(xué)者使用工具,不僅僅是為了達(dá)到一個(gè)“目的”,而是為了在這個(gè)實(shí)踐的過(guò)程中更好地認(rèn)識(shí)事物、理解事物,進(jìn)而體認(rèn)和解釋世界。我們是在這個(gè)過(guò)程中,通過(guò)自己親自建模,來(lái)創(chuàng)造一個(gè)工具(我們最喜歡用隱喻,不管是遠(yuǎn)讀還是細(xì)讀,是望遠(yuǎn)鏡還是顯微鏡,還是可以遠(yuǎn)近拉動(dòng)的鏡子,它本質(zhì)上都是一個(gè)透鏡)。我們靠這個(gè)工具來(lái)實(shí)現(xiàn)對(duì)世界的認(rèn)識(shí),來(lái)推進(jìn)對(duì)問(wèn)題的理解。并且,更重要的,是要能夠?qū)@個(gè)過(guò)程完成真正的反思。也就是說(shuō),在這個(gè)建造的過(guò)程中思辨,這是數(shù)字人文帶給人文學(xué)術(shù)最有價(jià)值的、最有沖擊力的地方。但問(wèn)題是,現(xiàn)在AI的黑箱讓你無(wú)法認(rèn)識(shí)“認(rèn)識(shí)的過(guò)程”,讓你對(duì)世界的體驗(yàn)和認(rèn)識(shí)是可疑的、甚至是虛假的。所以,從根本上說(shuō),基于現(xiàn)有路徑的AI人文,實(shí)際上并不是那么“人文化”的,甚至是“反人文”的,或者用一個(gè)好聽(tīng)的詞,是“后人文”的。
二
這就是為什么這幾年來(lái)我們一直在提倡計(jì)算批評(píng),而不僅僅是數(shù)字人文。在工具的層面上,我們不反對(duì)AI,它確實(shí)提高了生產(chǎn)率。例如,為了用網(wǎng)絡(luò)分析研究人物體系問(wèn)題,我們做了幾年小說(shuō)對(duì)話(huà)引語(yǔ)角色歸屬的自動(dòng)提取模型,效果一直不理想,現(xiàn)在接入大模型,在精標(biāo)數(shù)據(jù)集上調(diào)整后,召回率提升到85%以上,這在此前是不可想象的,但這只是一個(gè)簡(jiǎn)單的目的,只是解決了一個(gè)工具運(yùn)用的問(wèn)題,僅此而已?;蛘哒f(shuō),盡管如此,我覺(jué)得仍然沒(méi)有理由不假思索地跟著服務(wù)商和傳媒界一起歡呼AI時(shí)代的到來(lái),或者提倡AI人文,或者讓AI4DH(Artificial Intelligence for Digital Humanities)、AI4Humanities(AI for Humanities)成為時(shí)代口號(hào)。這是因?yàn)椋?dāng)推理模型,可以干活的AI Agent,讓人人皆可不學(xué)而能,憑借一個(gè)問(wèn)答系統(tǒng)或最基本的入門(mén)知識(shí)便能高效地完成工作,果若如此,與傳統(tǒng)人文學(xué)術(shù)相比,數(shù)字人文(DH)才是最早應(yīng)被AI取代的領(lǐng)域。這一點(diǎn)對(duì)于那些僅僅將DH做簡(jiǎn)單的工具化理解、認(rèn)為它就是借助新工具新方法解決人文問(wèn)題的人來(lái)說(shuō)尤其如此。也就是說(shuō),AI在“for”DH的同時(shí),第一個(gè)取代的就是DH自身,這是不無(wú)諷刺的。
我之前在很多場(chǎng)合都談到過(guò),越是人工智能時(shí)代,越需要計(jì)算批評(píng)。計(jì)算批評(píng)是以數(shù)據(jù)化和計(jì)算建模為基礎(chǔ)的知識(shí)表征和文本詮釋過(guò)程,它強(qiáng)調(diào)工具的可解釋性,以及建模在推理和論證中的作用,它要求算法必須能夠和個(gè)體經(jīng)驗(yàn)一一對(duì)應(yīng)。今年以來(lái),我更加堅(jiān)定自己的選擇,這是因?yàn)榛诮y(tǒng)計(jì)的機(jī)器學(xué)習(xí)已經(jīng)到了人文認(rèn)知或者說(shuō)具有人文意義的可理解性的邊界,已經(jīng)頂格了,深度學(xué)習(xí)以后除非發(fā)明一種新的方法論來(lái)拆解黑箱,否則基于細(xì)讀經(jīng)驗(yàn)的解釋是根本達(dá)不到的。在這個(gè)意義上,工具已經(jīng)徹底變成了工具,倒向了工具理性。人文學(xué)者想要在這樣的條件下保持主動(dòng)性和主體性,必須要發(fā)明出一種反制的手段,要選擇可解釋的、可回溯的建模方法。這一選擇是為了保證讓任何一個(gè)人文學(xué)者自身,可以通過(guò)調(diào)用中間過(guò)程,返回到每一個(gè)特征的細(xì)部去,用自己的生命體驗(yàn)、實(shí)實(shí)在在的審美經(jīng)驗(yàn)來(lái)和算法對(duì)話(huà)——對(duì)話(huà)的目的是為了加深對(duì)事物的理解,把問(wèn)題真正推進(jìn),同時(shí),有辦法完成對(duì)建模的檢驗(yàn)。就像我們?cè)谟脵C(jī)器學(xué)習(xí)的分類(lèi)框架對(duì)新詩(shī)的節(jié)奏理論進(jìn)行重構(gòu)時(shí)所做的,我們需要知道到底是哪些頓組合特征,讓模型做出最終的文體判斷結(jié)果。這些特征,它們不僅是一串串N-gram的數(shù)字組合,我們還要知道,它在100多年來(lái)的聞一多、卞之琳、何其芳、林庚,甚至郭小川、賀敬之的境遇中,究竟意味著什么,對(duì)于今天的我們自己又意味著什么。這是前AI時(shí)代的建模帶給我們的。然而,目前的人文學(xué)界能夠接受到這一步嗎?我心里仍懷忐忑。如果說(shuō),他們連這都接受不了,那就只能心甘情愿去接受AI提供的一個(gè)似是而非的結(jié)果了,只因?yàn)锳I幫他們省力,幫他們偷懶,讓他們暗度陳倉(cāng)?
三
這么說(shuō)或許仍顯得抽象。有一個(gè)實(shí)在的例子,今年初DeepSeek開(kāi)源不久,澎湃對(duì)齊實(shí)驗(yàn)室推出一個(gè)應(yīng)用場(chǎng)景的視頻在網(wǎng)絡(luò)上廣為傳播,就是將近60萬(wàn)字的《封神演義》《武王伐紂平話(huà)》灌給DeepSeek R1模型,五個(gè)小時(shí)后它計(jì)算并繪制出了一張包含1126個(gè)節(jié)點(diǎn)、4794條關(guān)系線的“封神宇宙”人物關(guān)系網(wǎng)。這個(gè)網(wǎng)絡(luò)不僅可以答出“李靖和哪吒開(kāi)始是父子關(guān)系,在李靖被哪吒追殺時(shí)變成敵對(duì)關(guān)系”這樣的顯性關(guān)系,還會(huì)就這些關(guān)系對(duì)子“推斷”出文本主旨。我當(dāng)時(shí)在深夜刷到這個(gè)視頻不能說(shuō)內(nèi)心是平靜的,因?yàn)閹讉€(gè)月前我剛提交了一部數(shù)字人文教材中的《網(wǎng)絡(luò)分析》一章,這是我們?cè)谇迦A可能開(kāi)了有三年的一個(gè)課程的教案,我們?cè)?jīng)花那么大力氣去講如何基于特征去建構(gòu)人文網(wǎng)絡(luò)。而且大家知道,近年來(lái)基于NLP(自然語(yǔ)言處理)的人物向量的關(guān)系抽取和表示,歷史人物計(jì)算和人物聚類(lèi)等等,原是數(shù)字人文的內(nèi)容。此前花費(fèi)很長(zhǎng)時(shí)間訓(xùn)練出的向量模型以及圖知識(shí)庫(kù)搭建,現(xiàn)在仿佛瞬間完成了。不僅如此,真正實(shí)現(xiàn)“端到端”的、從文本到動(dòng)態(tài)關(guān)系網(wǎng)絡(luò)的自動(dòng)化構(gòu)建,也似乎指日可待。如果說(shuō)這就是數(shù)字人文,今后AI確實(shí)可以替代人,在所謂人機(jī)協(xié)作的過(guò)程中,人的戲份將越來(lái)越少。但問(wèn)題是,當(dāng)模型幾乎代勞一切,用戶(hù)對(duì)模型背后的計(jì)算邏輯和向量化等工作一無(wú)所知,到頭來(lái)真的能增進(jìn)人們對(duì)文本和網(wǎng)絡(luò)的理解嗎?退一步說(shuō),即便用戶(hù)具備理解這一切的知識(shí)基礎(chǔ),這一問(wèn)題解決的過(guò)程對(duì)人文研究就是有意義的嗎?這里不僅涉及復(fù)雜的認(rèn)知挑戰(zhàn),也與我們到底認(rèn)同什么樣的本體論有關(guān),關(guān)鍵點(diǎn)在于計(jì)算的機(jī)制能否真正透明。
為了搞清楚它的工作機(jī)制,我們可以用現(xiàn)成的AI工具解析出這個(gè)視頻的關(guān)鍵代碼,發(fā)現(xiàn)它仍然是一個(gè)標(biāo)準(zhǔn)的RAG(Retrieval-augmented Generation,檢索增強(qiáng)生成)流程,即實(shí)驗(yàn)者先行引導(dǎo)AI調(diào)用開(kāi)源的智源大模型對(duì)文本做向量化處理,然后再利用DeepSeek強(qiáng)大的“推理”能力,對(duì)人物關(guān)系做出“深層”判定。如此,向量化和知識(shí)庫(kù)建構(gòu)的細(xì)化步驟,協(xié)助DeepSeek精準(zhǔn)而專(zhuān)業(yè)地“定位”了關(guān)系,故而可以有效降低幻覺(jué)問(wèn)題的出現(xiàn)。不難想象,在人工智能時(shí)代這種方案解決的門(mén)檻會(huì)越來(lái)越低。僅一個(gè)多月過(guò)去,我們可以用更簡(jiǎn)單的知識(shí)庫(kù)工具加開(kāi)源工具鏈復(fù)原這個(gè)過(guò)程。但問(wèn)題是,即便復(fù)原了全過(guò)程,我仍然不知道它的具體的計(jì)算過(guò)程,換句話(huà)說(shuō),即便DeepSeek一類(lèi)“推理模型”可以在思考過(guò)程中直接呈現(xiàn)“推理鏈”了,但具體計(jì)算細(xì)節(jié)仍然不會(huì)給出,也無(wú)力給出,也就是說(shuō)人的經(jīng)驗(yàn)依然無(wú)法回應(yīng)之。即便大模型可以將據(jù)以建立起關(guān)系的文本源以我指定的格式返回來(lái),例如它之所以認(rèn)為“盤(pán)古”和“伏羲”是“創(chuàng)造”與“被創(chuàng)造”的關(guān)系,乃是依據(jù)了“混沌初分盤(pán)古先,太極兩儀四象星”,但是這一給出依據(jù)過(guò)程未必可以對(duì)應(yīng)有意義的人文理解,且很難弄清為何模型只定義了這些關(guān)系類(lèi)型,但這些對(duì)于真正推進(jìn)研究來(lái)說(shuō)依然是至關(guān)重要的。
這是因?yàn)榇竽P蛯?duì)關(guān)系的“讀取”仍然是以向量計(jì)算本身為基礎(chǔ),無(wú)論是調(diào)用外在的模型,還是自己進(jìn)行“抽取”,它處理的并非真正的文本,而是全部語(yǔ)詞被轉(zhuǎn)化為高維向量后通過(guò)復(fù)雜計(jì)算得來(lái)的語(yǔ)義距離(如經(jīng)基礎(chǔ)語(yǔ)義相似度計(jì)算,“盤(pán)古”與“伏羲”的向量更接近)。就大語(yǔ)言模型輸出的答案來(lái)說(shuō),其實(shí)質(zhì)永遠(yuǎn)都是通過(guò)概率來(lái)預(yù)測(cè)下一個(gè)token,這一過(guò)程不再與對(duì)現(xiàn)實(shí)世界的認(rèn)識(shí)、概念、思維和操作具有一一對(duì)應(yīng)的關(guān)系,也就是說(shuō)已經(jīng)溢出了實(shí)然界,它制造的更是一種語(yǔ)言上的可能性。所以,即便現(xiàn)在通過(guò)逆向工程或可解釋工具許可定位到相關(guān)文本片段,也只是提供了機(jī)會(huì)讓我們得以窺見(jiàn)廣闊語(yǔ)義簇世界之一斑,未必經(jīng)得起現(xiàn)實(shí)經(jīng)驗(yàn)的檢驗(yàn),或根本就無(wú)從檢驗(yàn)。從這一意義上說(shuō),盡管可以為這些結(jié)果提供各種技術(shù)上的解釋將其合理化,但大模型輸出的結(jié)果絕非經(jīng)過(guò)“上下文共現(xiàn)、依存特征、關(guān)鍵詞匹配、長(zhǎng)程邏輯鏈、圖神經(jīng)網(wǎng)絡(luò)”等等或簡(jiǎn)單或復(fù)雜的運(yùn)算得來(lái),它所做的只是對(duì)這一切的“模擬”。
高維向量計(jì)算的復(fù)雜性導(dǎo)致數(shù)值向量無(wú)法映射到人類(lèi)可理解的概念,它和深植于人類(lèi)經(jīng)驗(yàn)的文化符號(hào)體系仍然不可“對(duì)齊”,無(wú)法獲得真正的“解釋”,只要人還沒(méi)有變成機(jī)器,人與機(jī)器之間的認(rèn)知鴻溝永遠(yuǎn)存在。這個(gè)問(wèn)題并不始于大模型,而是從深度學(xué)習(xí)的圖計(jì)算就開(kāi)始了。就人文意義而言,由于缺乏細(xì)讀檢驗(yàn)環(huán)節(jié)的支撐,此種手段-目的式的驅(qū)動(dòng)方法已然面臨解釋的難題,導(dǎo)致最終結(jié)果的呈現(xiàn)與實(shí)現(xiàn)和算法總是隔著一層,不僅難以引起人文學(xué)界的注意,其精神與計(jì)算批評(píng)也是背道而馳的。
四
現(xiàn)如今,很多人文學(xué)者都認(rèn)為自己有能力來(lái)調(diào)戲模型,但實(shí)際上沒(méi)有人有這個(gè)能力,這只是一個(gè)幻象。它生產(chǎn)一個(gè)大玩具,你以為是你在戲弄它,其實(shí)是它在調(diào)戲你,你創(chuàng)造出一個(gè)自己也無(wú)法理解的東西的時(shí)候,就會(huì)面臨弗蘭肯斯坦式的恐慌。但現(xiàn)在的情況是,它是在迷惑你,用海妖的歌聲迷惑你,用快感蒙蔽這種危險(xiǎn)的恐慌。
因此,希望我們的刊物能夠更多呈現(xiàn)的,是真的全透明的工作,不是一種蒙蔽的、簡(jiǎn)單的調(diào)戲模型的、花拳繡腿的研究,否則,AI就會(huì)成為“作為大眾欺騙的啟蒙”(阿多諾)。我們?cè)趯W(xué)生時(shí)代曾經(jīng)反復(fù)想要去讀懂的那些批判理論,我們今天才真正讀懂。
我們要為人文學(xué)術(shù)、人文體驗(yàn)留一點(diǎn)余地,留一點(diǎn)人味兒。我們發(fā)展數(shù)字人文,不是要讓它成為一個(gè)封閉的學(xué)科,一個(gè)個(gè)“計(jì)算機(jī)+”的領(lǐng)域。相反,它是一個(gè)高度跨學(xué)科的領(lǐng)域,它一定要保持一種活潑潑的狀態(tài),而這個(gè)跨學(xué)科的主體是人,而且至少要有一半是人文學(xué)者,而且人文學(xué)者至少要拿出一半的精力真正投身到全流程中來(lái)。你在河邊走,如果不濕身,不親自做,而只是靠別人,你永遠(yuǎn)不知道其中的酸甜苦辣,永遠(yuǎn)是隔岸觀火,永遠(yuǎn)不知深淺,永遠(yuǎn)在敲鑼打鼓。
真心希望我們的數(shù)字人文也好,計(jì)算批評(píng)也好,哪怕是AI人文也罷,它處于一種正常的、靜水流深地發(fā)展的狀態(tài),而不是像今天這樣過(guò)度熱鬧、沒(méi)有方向感,也不是要加速去“卷”,而是要讓它減速,真正有效地融入當(dāng)下的人文研究,并催生出屬于這個(gè)時(shí)代的學(xué)術(shù)成果。
(作者系中國(guó)社會(huì)科學(xué)院文學(xué)研究所副研究員、數(shù)字人文與計(jì)算批評(píng)實(shí)驗(yàn)室負(fù)責(zé)人;本文為2025年3月30日在清華大學(xué)、《文藝研究》主辦的“人工智能時(shí)代人文知識(shí)生產(chǎn)的模式變革與體系重構(gòu)”工作坊上的發(fā)言)
湖南省作家協(xié)會(huì) | 版權(quán)所有 : 湘ICP備05001310號(hào)
Copyright ? 2005 - 2012 Frguo. All Rights Reserved