AI 法官可能看你的臉就歧視你
另外再用四個不存在的歷史判例定你罪
你有想過說不定你的 AI 法官會歧視你的背景,讓你的訴訟一開始就處於不利之處嗎?
2026 年的現在,AI 已經普及到各個行業裡面了。我們對 AI 法官有很多期望,當然也帶著害怕。但 AI 法官其實沒有離我們那麼遠。事實上,已經有不少國家開始在法庭上使用 AI 了。
一開始各國比較謹慎,大多是先從相對沒有爭議的民事財產判決和糾紛開始。而且有些法院不是真的讓 AI 直接輔助判決,而是建立各種 AI 輔助工具,像是法律搜尋、文件摘要、語音轉文字。如果只是工具,問題相對少。但有些國家已經走得更遠了。
美國在 2026 年 3 月,洛杉磯高等法院跟一家叫 Learned Hand 的公司合作,讓六個民事法官測試 AI。這套工具能讀幾百頁訴狀、整理判例、用法官本人的寫作風格起草判決書,目前已經在美國十個州的法院運作。根據 2026 年的調查,在受訪的聯邦法官中,超過 60% 表示已經在用某種形式的 AI 工具。
(來源:Northwestern University "Federal judges report broad adoption of AI tools")
巴西在 2025 年 2 月推出了 Chat-JT,給勞動法院的法官和書記官用,功能是法律研究、文件分析、起草摘要。阿聯酋據報導推出了一個叫 Aisha 的 AI 虛擬助手,協助法官分析歷史判例。摩洛哥的法院也開始嘗試用 AI 協助處理勞動和交通事故案件的初步文書。被媒體吹成「AI 法官先驅」的愛沙尼亞,實際上沒那麼誇張,它只是自動化支付命令,8,000 歐元以下的金錢請求自動生成支付令。愛沙尼亞司法部自己出來澄清過:他們不開發 AI 機器人法官。
(來源:Estonian Ministry of Justice "Estonia does not develop AI Judge")
印度的態度相對保守。Kerala(喀拉拉邦)高等法院在 2025 年 7 月發布了全國第一個 AI 司法準則,明確禁止用 AI 起草判決書,只准拿來做翻譯和語音轉文字。
中國走得最前面。2024 年 6 月,深圳中級人民法院上線了一套自研的 AI 系統,用 2 兆個中文字的法律文本訓練,參數規模跟 GPT-3.5 差不多。功能包括整理案件事實、辨識爭議焦點、準備庭審提示。根據中國官方媒體報導,上線後的幾個月內民商案件結案量明顯增加,法官結案效率提升了將近三成。
(來源:Oxford Academic "How do judges use large language models? Evidence from Shenzhen")
不過各國跑起來之後,問題也跟著來。
2025 年 8 月,印度一個財產糾紛案件,法官在判決書裡引用了四個最高法院判例。被告上訴之後才發現,那四個判例全部不存在,是 AI 生成的。2026 年 3 月,印度最高法院直接宣布:引用 AI 生成的假判例等於專業不當行為。
(來源:Medianama "SC Says Citing AI-Generated Fake Case Laws Is Misconduct")
同一段時間,美國有律師因為提交含 AI 假判例的答辯書被罰款。英國也出了類似的案例,律師被判賠浪費的訴訟費用。2026 年 2 月,美國聯邦法官 Rakoff 在一個刑事案件中做了一個值得注意的裁定:被告自己在公共 AI 平台上生成的法律文件,因為不是在律師指導下製作、而且平台本身不具保密性,所以不受保密特權保護。雖然這是個案判決,但它釋放的訊號很清楚:你在公共 AI 上寫的東西,對方有可能拿來當證據對付你。
(來源:Harvard Law Review "United States v. Heppner")
UNESCO(聯合國教科文組織)在 2025 年 12 月也發布了法院使用 AI 的準則,核心立場是 AI 只能當輔助工具,不能替代人類判斷。
但這些法規有一個共同的問題。它們都是在「AI 只會幫你查資料」的年代寫的。
2025 年底,AI Agent(可以自主搜資料、推理、驗證、一條龍產出的 AI 系統)的能力大幅進步。現在的 AI 已經可以自己讀完整份案件、搜完所有判例、交叉驗證引用、用法官的風格寫出完整判決書。法官面對 AI 產出的一百頁文件,說實話,會不會發生現在論文發布一樣的問題,因為實在是太多,所以就用 AI 來總結審核 AI 產出的證明文件?我認為是合理的擔憂。
而且當 AI 的能力到了這個程度,「準不準」這個問題的定義也要重新想了。以前的「準不準」是「AI 有沒有查到正確的判例」。現在的「準不準」變成「AI 整個推理過程、價值判斷、對事實的權重取捨,跟人類法官會不會一樣」。
不過,而這個「會不會一樣」,取決於它的訓練模型。如果你大概瞭解 AI Model 是怎麼訓練的,或許會認為這是更令人值得擔憂的一件事。
目前有能力自己訓練法律 AI 的國家,最顯著的就是中國跟美國。
先講中國。深圳那套系統吃了 2 兆個中文字的法律文本,包括法規、過去的判決書、法學論文。聽起來很合理,但要想一件事:這些「過去的判決」是在什麼社會環境下產生的?先不論現在相對進步科技開放的時代,過去的中國政治事件國際上傳聞不斷,黨的存在感實在很強。
一個國家幾十年來的判決,自然會反映那個社會的運作方式。什麼議題會被受理、什麼判決方向會被維持、什麼論述方式會被接受。AI 學的不只是「法律」,是「那套法律體系認為什麼是對的」。歷史怎麼走,AI 就怎麼學。
2025 年 4 到 7 月,中國網信辦執行了「清朗」專項行動,要求 AI 公司修改模型、限制特定內容。研究者拿中國的 DeepSeek 跟美國的 ChatGPT 做對比,發現 DeepSeek 對敏感議題的拒絕回答率明顯更高,回答不準確的比例也更大。而且這個差異比語言差異還大。不是因為中文跟英文不同,是因為模型在訓練的時候就已經被塑形了。
(來源:arXiv "Analysis of LLM Bias in DeepSeek-R1 vs ChatGPT")
這不是說中國的做法一定是錯的。每個國家的法律體系本來就會反映那個社會的價值觀,那是歷史跟文化長出來的東西。但當你把這些東西訓練進 AI 之後,它會被放大、被固化,而且使用的人不一定會察覺。
另外即使是一般的訓練雜訊,例如各大社團留言討論區,一直以來"自律"的現象已經是常識了。甚至有大量使用英文代替被限制的中文的網路風氣。存在感這麼重的政府,說不定訓練資料不需要做太多修正就已經自然融入 LLM 直接 AI 化了。
不過,美國的 AI 就沒問題嗎?
美國的法律 AI 訓練資料主要是英語世界的判例法。它的法律邏輯預設 common law(判例法體系),預設個人權利優先,預設英美法系的那套推理方式。研究已經證實,大語言模型的回答會一致性地偏向英語系國家的價值觀。
(來源:Ada Lovelace Institute "Tokenising culture: causes and consequences of cultural misalignment in large language models")
對美國人來說這不是問題,因為那就是他們的法律。但對其他國家呢?
例如前陣子伊朗跟美國才剛經歷了一場衝突,有些議題很深,但有些議題其實滿吃價值觀,很難直覺說誰對誰錯。如果一個中東國家的法院選擇用美國訓練的法律 AI 來處理家庭法、繼承法、或是跟 Sharia(伊斯蘭律法)相關的案件,AI 的「合理推論」會自然地往美國的方向走。不是因為它「不懂」當地法律,是因為它的底層推理模式已經被英美法系的邏輯塑形了。你可以把當地法規餵進去,但骨子裡它用的是別人的邏輯。
這跟做語音合成遇到的問題一模一樣。
現在最強的中文語音合成模型是中國做的。如果你直接拿來用,不做任何本地化訓練,生出來的聲音就是標準的大陸普通話。你可以用台灣的語音資料去做 fine-tune(微調),讓它講台灣國語。但因為底層模型的訓練資料量遠大於你加上去的台灣資料,有時候大陸的語調還是會突然跑出來。
你在做比重分配的時候可以把台灣腔調的權重拉高,但底層模型的影響不會完全消失。做語音是這樣,做法律也是一樣。你可以把你的法律餵進去微調,但底層模型對「什麼是公平」「什麼邏輯是合理的」「什麼事實應該被強調」的判斷,在訓練階段就定型了。表面上它在引用你的法律,骨子裡它用的是別人的邏輯。
更麻煩的是,各國法律的來源本來就不一樣。
台灣的法律體系是混的。民法主要來自德國和日本,部分商業法規受美國影響。日本也是這樣,明治維新的時候大量翻譯德國法律,二戰後又接受了美國的憲法框架。英國跟美國走的是 common law(判例法),跟大陸法系的 civil law(成文法)思維完全不同。判例法是「過去的法官怎麼判,現在的法官就怎麼參考」。成文法是「法條怎麼寫,法官就怎麼用」。
伊斯蘭國家更複雜。很多國家的家庭法和繼承法來自 Sharia(伊斯蘭律法),跟世俗法律並行。一個用美國訓練資料為基礎的 AI,碰到 Sharia 相關的案件,它根本不知道該用什麼框架去推理。
說句玩笑話,說不定 AI 就是因為你帶頭巾就在中東法庭被誤判為恐怖份子,即使整個法庭都是這樣的穿著。或是因為膚色比較深一點,刑期就加重了,但明明這案子是在一個非洲國家。
(這句玩笑話後面居然變成整篇文的實證,我放在最後面的補充。)
但真的大量使用 AI 的人,真的很多時候不知道那些 AI 幻覺哪來的。所以你說這不會發生?可能只是那個 AI 沒有真的寫出來而已。
所以到最後,你的國家有沒有能力訓練自己的法律 AI,可能會變成 AI 法官時代最重要的議題。
訓練一個法律專用的大語言模型需要海量的本國法律文本、判例庫、法學論文,加上大量的運算資源。中國做得到,美國做得到,歐盟可能做得到。但全球大部分國家目前的基礎設施都還做不到。他們目前要用 AI,都是用別人的。用別人的 AI 判你的案子,等於用別人的價值觀決定你的公平。
不過反過來想,AI 法官也可能解決一個存在很久的老問題。人類法官一直被批評「不懂其他行業」。法官不懂科技業的運作、不懂醫療體系的邏輯、不懂金融市場的規則,所以判出來的結果跟業內人士的認知常常有很大的落差。AI 至少理論上可以讀完整個行業的知識庫,或是大語言模型本來就包含這些知識的訓練,能在判決前先搞懂那個行業在做什麼,貼合實際情況。
但前提是它讀的那些東西,也要是你自己的。你的 AI,你的法律,你的判例,你的社會脈絡。不然它判出來的東西,其實充滿了歧視,但你也不知道。
畢竟你也知道當 AI 幻覺出現的時候,他總是信心滿滿的,跟你說一些莫名其妙的新生出來的道理。
你指正他,他道歉的比誰的還快。
----
像這種長文,我一般都會利用 AI 做大量的事實查核,結果這次非常有趣且跟我預料一樣。
ChatGPT 直接要求我改掉那句玩笑話,因為「在 Redidit 美國討論區說這樣的話會引發爭論」,建議我改成用「新住民 與 口音」來開這個玩笑.... 我個人覺得在普遍存在外籍配偶與二代小孩的台灣,開這玩笑才真的有問題吧... 所以 Ching chong 文化還是隱性充斥在它的訓練資料裡面。
Claude 則是覺得"中東那句很幽默",但自動忽略跟我討論後面那句"黑人"玩笑。然後說了一堆,還是要我改掉這兩句,即使他剛剛才說完覺得 ChatGPT 在 Live Demo 隱性歧視。
那因為目前的配置沒有配置中國的模型一起工作,不然我想會有其他的內容它想要改掉。














