“玄學”、誤判和偏見：高校檢測AI論文背后

肖瀟2024-02-29 10:48

AI中風險，疑似用ChatGPT生成——這是去年四月，學校查重系統(tǒng)對王宇畢業(yè)論文的判定。王宇一下慌了。

當時ChatGPT驚艷亮相不到半年，教育界一度擔心學生有了“作弊神器”。在這一背景下，知名學術(shù)查重軟件Turnitin率先推出了AI文本檢測器，用來識別論文中的AI生成內(nèi)容。國內(nèi)的格子達、知網(wǎng)兩大查重系統(tǒng)也先后上線了AIGC檢測功能，王宇就是第一屆被檢測畢業(yè)論文AI率的學生。

隨著生成式AI快速迭代，規(guī)則和技術(shù)漸漸填上監(jiān)管真空期。去年8月提交審議的《學位法》（草案）擬定，人工智能代寫屬于學術(shù)不端行為，嚴重者可被撤銷學位證書。今年1月，Turnitin的AI文本檢測成為正式功能，開始像查重服務一樣向高校收取費用，一定程度上意味著AI論文檢測步入正軌。

但這沒有阻擋學生的使用，高校學生依然是生成式AI的主要用戶群?！爸苯影杨}目扔給AI讓它寫一整篇論文，老師肯定一眼就能看出來，我身邊已經(jīng)沒什么人這么做了?！眲⒊筷馗嬖V21世紀經(jīng)濟報道記者，她的用法是讓ChatGPT總結(jié)文獻、降重、潤色，這也是許多學生現(xiàn)在的使用方式。

不過，劉晨曦的論文還是被標記了25%的AI率，任課老師要求重寫。王宇在寫畢業(yè)論文的過程中沒有用到生成式AI，她曾經(jīng)自己嘗試找出有“AI風格”的句子，改了兩輪后，“AI率越改越高?！?/p>

AI參與的論文能不能被準確檢測？有沒有必要檢測？AI論文的監(jiān)管難題，正在困擾全球教育系統(tǒng)。

查重率低了，AI率高了

王宇去年畢業(yè)于湖南一所大學的商科專業(yè)。一開始看到自己的本科畢業(yè)論文被標記為“AI中風險”，王宇還不知道問題出在哪里，因為她沒用過ChatGPT這樣的工具寫作。直到老師將教師版本的AI檢測報告發(fā)過來，王宇才明白，那些AI疑似度高的段落，大多是被自己“降重”過的。

“降重”指降低重復率。此前在學生中流行的一種降重方法是，用翻譯軟件多次轉(zhuǎn)換語言，把他人的話快速“轉(zhuǎn)述”為自己的觀點。王宇用的就是這種辦法，她把一段話先從中文翻譯成英文，再將英語譯成日文，最后譯回中文，以此更換詞語和語序，降低與原文的相似度。

不過辦法這一次失靈了?！安橹芈适堑土撕芏?，但被認為是AI寫的。”

王宇學校使用的是格子達查重系統(tǒng)，去年四月開始運行“類AI輔寫行為檢測”功能。在王宇的個人提交界面，論文被評級為AI中風險。在王宇老師的界面，可以更清晰地查看可疑文本，每一句的AI疑似度分高、中、低三檔，輔寫工具均判定為ChatGPT。

除了格子達和知網(wǎng)，AI檢測工具尚未在國內(nèi)高校全面鋪開。相比之下，Turnitin查重系統(tǒng)在海外應用更廣，檢測也更細致。劉晨曦在加拿大上學，去年十二月，她的一篇論文在Turnitin中顯示AI率25%——意思是25%的文本疑似由AI生成。老師因此讓她重寫，并且無論如何都要扣除25%的分數(shù)。

這篇論文是劉晨曦英語文學課的結(jié)課作業(yè)，主題是比較兩部文學作品。寫論文時，她先跟ChatGPT最新的GPT-4大模型討論寫作方向，得到了比較兩位俄國女詩人的靈感。接著讓GPT-4查找文獻，自己寫出大綱和草稿。最后再讓GPT-4降重、潤色。最終論文里有多少屬于AI，多少屬于自己，她很難區(qū)分清楚。

劉晨曦說，GPT-4直接輸出論文仍然很生硬，編造文獻不少，“還不如自己寫”。但比起傳統(tǒng)的降重方法，ChatGPT的優(yōu)勢是可以精準“調(diào)教”，比如改寫特定的句子，或者解釋復雜概念。在找文獻上也更快捷，原本需要檢索兩到三天的文獻，GPT-4幾個小時就能整理完畢。

根據(jù)Nerdynav的調(diào)查，43%的大學生用過生成式AI完成作業(yè)。英國媒體The Lab統(tǒng)計發(fā)現(xiàn)，羅素大學集團下的八所大學，對ChatGPT的訪問量在兩個月內(nèi)高達100萬。其中12月和1月是校園網(wǎng)絡訪問ChatGPT的高峰期，正是考試集中月。多位受訪學生告訴記者，AI一鍵生成的論文意義不大，基本達不到學校要求。學生現(xiàn)在的主要用法是總結(jié)文獻、降重、潤色語言，本質(zhì)還是他們曾經(jīng)抄過的一條“捷徑”。

劃下AI率紅線后，這條“捷徑”走不通了。從去年夏天起，小到隨堂感想，大到結(jié)課論文，劉晨曦的學校都要求AI率為0%。

王宇學校規(guī)定，畢業(yè)論文必須為AI低風險。她把被標記為AI的句子用自己的“大白話”重新描述，在修改了6個版本后，論文終于變?yōu)锳I低風險?！斑@是個玄學?！蓖跤钚稳?。

上世紀論文也被判定為AI

多所高校都發(fā)布過AI論文禁令。最早開始的是美國紐約教育局，其限制在學校Wi-Fi網(wǎng)絡環(huán)境中訪問ChatGPT。英國大學尤其注重學術(shù)誠信，牛津、劍橋、帝國理工等28所英國大學都曾宣布，在論文和課程作業(yè)中不當使用AI，將被視為違反學術(shù)誠信的行為，嚴重者可能被開除學籍。香港大學也表示，學生在課程作業(yè)中使用AI需要老師批準，否則可以按作弊處理。

AI檢測技術(shù)的影響是立竿見影的。Tunitin上線AI檢測器的一個月內(nèi)，全球有超過一萬所中高等教育機構(gòu)激活了這款工具。除了Turnitin，市面上還流行GPT Zero、 Copyleak等AI檢測工具，大多向個人免費開放。

一留學中介在社交媒體上分享，2023年在英國留學生中，AI代寫論文的學術(shù)聽證會數(shù)量，已經(jīng)超過人工代寫?！癆I檢測率高是很石錘的學術(shù)不端?！?/p>

但AI檢測器準確嗎？石白在美國加州大學系統(tǒng)下的一所大學擔任助教，她告訴記者，如果論文全篇用AI生成，有經(jīng)驗的助教一眼就能看出來。去年秋季學期，她的課上就有兩篇論文屬于這種情況?！坝迷~華麗空洞，而且引用的文獻基本不存在?！笔姿阉髁艘豢預I檢測工具，99%的檢測結(jié)果幫她肯定了自己的猜測。

被懷疑有AI參與的論文還有三到四篇，AI率在30%～40%之間，但石白沒有追究。一個原因是，她熟悉其中一位學生的寫作風格，其寫法一直比較華麗；另一方面，有其他助教曾經(jīng)檢測了自己的原創(chuàng)論文，AI率也有30%～40%，這讓石白覺得AI檢測工具還不夠可靠。

劉晨曦用五篇AI參與程度不同的論文，測試了市面上的主流AI檢測工具，得出的結(jié)論是：除非完全不用任何工具，否則都有AI含量。比如，去年十二月，她讓GPT-4潤色了知名哲學家朱迪斯·巴特勒、斯拉沃熱·齊澤克的兩篇論文，前者在Turnitin檢測出的AI率為51%，后者為34%。

“而且巴特勒本人就喜歡用生僻詞語、長難句寫作，哪怕直接提交她在上個世紀發(fā)表的論文，也顯示有AI內(nèi)容?！眲⒊筷匮a充道。

盡管許多AI檢測工具聲稱誤判率在1%之內(nèi)，但在使用過程中，誤判概率似乎遠高于官方數(shù)字。最大的誤判區(qū)是語法工具、翻譯軟件和潤色功能，一些固定的個人寫作風格也可能被誤傷。

對于可能出現(xiàn)的誤判，Turnitin的解釋是：“AI檢測器會識別書寫過于一致、平均的模式，而許多人的寫作水平可能就屬于平均模式?！?這也是市面上大部分AI檢測器的說法。

簡單來說，人類往往會綜合使用長短句，而AI 的句子更單調(diào)。此外，人類的文本通常還有復雜的轉(zhuǎn)折、非典型的邏輯結(jié)構(gòu)，讓AI無法準確工具測下一個詞語。這兩個影響因子決定了，一些遵循“寫作模板”的論文，可能被誤認為是AI作品。至于這些模板究竟是什么，具體如何運作，幾乎沒有AI檢測器能夠提供解釋。就像AI一樣，目前AI檢測的技術(shù)原理也處于黑箱之中。

考慮到存在誤差，許多AI檢測工具都發(fā)布了“免責聲明”。比如Turnitin建議，不把AI率當作唯一標準，希望老師綜合專業(yè)經(jīng)驗以及對學生的了解做判斷。

使用界限模糊

北京大學教育學院學習科學實驗室執(zhí)行主任尚俊杰在采訪中告訴21記者，目前AI檢測器的意義，主要是監(jiān)督明顯的學術(shù)不端行為，比如直接用AI生成全文。

還有一種情況是，AI靈活應用在整個研究和寫作過程中。此時的核心問題在于，哪些行為算學術(shù)不端，哪些行為算合理使用？簡單用數(shù)字高低判斷并不科學，劃分界限是個難題。

論文被檢測出25%的AI率、判定為抄襲后，劉晨曦將每一階段的草稿、文獻整理筆記、瀏覽器搜索歷史發(fā)給老師，證明論文是自己的原創(chuàng)作品，成功爭取到了老師的認同。不過，申訴中介讓她不要跟老師提到ChatGPT，于是她謊稱用的是另一款老牌寫作工具Grammarly。

Grammarly是上一波人工智能浪潮的產(chǎn)物，主要用來糾正語病、潤色語句，不少歐美大學的寫作指導中心甚至會鼓勵學生先用Grammarly批改作業(yè)?！皣栏褚饬x上，用輔助工具都算作弊。但老師比較能理解這些軟件的作用，所以我只能這么說?！眲⒊筷亟忉?。

既是在讀博士，又為大一、大二學生授課的石白，一方面能理解學生用AI寫論文，因為她也常用ChatGPT做論文的前期準備，比如做表格、搜文獻；另一方面，她認為本科生無法把握使用的邊界，所以才會在教學大綱中完全禁止學生使用AI。

多位受訪學生提到，求助AI的一個原因是學術(shù)能力有限。“本科生的論文沒什么學術(shù)含金量，這種綜述性的作業(yè)，大家都是找?guī)灼撐臏愐粶愑^點，再找工具改一改?！蓖跤钫f，只要不涉及數(shù)據(jù)造假、文獻造假，她覺得用AI寫論文沒有什么問題。

但在石白看來，學術(shù)論文是觀察、思考、提問、論述的完整過程。一篇名為《感謝ChatGPT揭露本科論文的平庸》的文章寫道，本科論文的重點是教育，而不是知識的進步。最關(guān)鍵的是訓練和展示學生處理信息的能力，不是產(chǎn)出有價值的知識?！叭绻恢币蕾嘋hatGPT得到結(jié)果，就不會經(jīng)歷批判思維的訓練過程。而過程才是我想讓學生學習的。”石白說。

華盛頓大學的一位教授在《大西洋月刊》上表示，被識別出AI內(nèi)容的論文可能介于完全沒用AI，工具者100%用AI之間。學生究竟怎么使用、用法是否錯誤，AI檢測工具無法回答，師生間誠實的溝通變得越來越重要。

教育規(guī)則的反思和變革

AI檢測器難以解決的監(jiān)管難題，反映出一個更深層次的困擾：如何處理AI和教育的關(guān)系？

尚俊杰告訴記者，技術(shù)革新一直在影響著教育系統(tǒng)。上世紀的學生需要去圖書館逐本翻閱文獻，一遍遍用手謄寫論文。搜索引擎和電子文稿軟件普及之后，學生可以直接在網(wǎng)上檢索文獻、復制粘貼、比較分析、歸納總結(jié)，大大提升了工作效率?？梢哉f，計算機在整個研究和論文寫作過程中起到了巨大作用，應用AI是必然趨勢。

在尚俊杰看來，AI對高等教育是一次新的提升機會，也提出了更大的挑戰(zhàn)。引導學生合理使用AI，需要重新思考教育系統(tǒng)的“游戲規(guī)則”。

石白認為，應對生成式AI的沖擊，課程設置和考核方式很重要。她觀察到，學生用AI寫論文，往往跟論文難度有關(guān)。比如她發(fā)現(xiàn)有數(shù)篇AI論文的課程，“學生才剛接觸學術(shù)寫作，老師對論文字數(shù)、文獻引用數(shù)量的要求又很高，其實超過了學生的能力范圍?！?另一門課的論文要求相對合理，而且著重于學生批判、思考的基礎能力，石白在這門課上幾乎沒有發(fā)現(xiàn)AI代寫論文。

近幾個月，包括西北大學、德克薩斯大學奧斯汀分校在內(nèi)的幾所美國高校宣布關(guān)閉Turnitin的AI檢測服務，并放寬對AI的限制。此前澳洲的多所大學嘗試轉(zhuǎn)變考核方式，減少標準考卷，采用更多的口頭報告、現(xiàn)場演示。

還有一些學校開始積極擁抱AI。今年1月，美國亞利桑那州立大學引入ChatGPT企業(yè)版，成為第一個與OpenAI合作的高等教育機構(gòu)。該校校長表示：“AI將成為幫助學生提高學習效率，更全面地理解學科的工具。此次合作反映了我們的理念和承諾——我們要直接參與到人工智能學習技術(shù)的發(fā)展過程中。”

尚俊杰指出，在人工智能時代，學生應該做什么、學什么、怎么學，成為一個很重要的問題?！皩τ诂F(xiàn)在的高校學生，我們要求他們具有一定的計算機能力。在未來，什么能力是學生需要具備的？哪些能力將與AI掛鉤？” 斯坦福大學機器人及未來教育項目主任蔣里曾預測，未來學生的能力會被分成兩種：一種是單打獨斗的能力，不借助任何AI工具的幫助；另一種是AI加持下的能力，這可能是今后最為重要的能力。不同的能力要求，將重塑人才培養(yǎng)模式。

從更長遠的尺度看，當AI全面參與研究過程，學術(shù)規(guī)范等諸多規(guī)則也會迎來改變。例如尚俊杰提到，在文章中如何提及AI的貢獻，AI能否列為論文作者，乃至如何定義學術(shù)誠信、學術(shù)剽竊，都是未來會面臨的問題。

“AI應用于高等教育已經(jīng)是必然趨勢，需要鼓勵正確使用，而不是一刀切的禁令。人類要探索的新問題是，在人工智能時代下，怎樣構(gòu)建新的學術(shù)規(guī)范和倫理規(guī)則?！鄙锌〗苷f。、

（應受訪者要求，王宇、劉晨曦、石白為化名）

來源：21世紀經(jīng)濟報道

作者：肖瀟

版權(quán)與免責：以上作品（包括文、圖、音視頻）版權(quán)歸發(fā)布者【肖瀟】所有。本App為發(fā)布者提供信息發(fā)布平臺服務，不代表經(jīng)觀的觀點和構(gòu)成投資等建議