2022 年 11 月,OpenAI 推出 ChatGPT,揭開生成式 AI 序幕,自此使用人數一直遙遙領先,ChatGPT 成為 AI 的代名詞。三年半後的今天,雖然 ChatGPT 的市佔率依然最高,但營收已被知名度低得多的 Claude 趕上,OpenAI 亦有可能被 Claude 的開發商 Anthropic 搶先上市。
Claude 是怎樣煉成的
Anthropic 向來站在道德高地,著重 AI 安全落地,以 PBC(Public Benefit Corporation,公共利益公司)而非一般營利公司(C Corporation)註冊。強調正當使用 AI 的 Anthropic,經常指責中國公司蒸餾 Claude,以低成本取得美國的研發成果。如果說中國模型是從蒸餾 Claude 而來,Anthropic 當初又是如何訓練出 Claude?從一宗版權訴訟案,我們可以看出端倪。
2024 年 8 月,三位美國作家控告 Anthropic 訓練大語言模型 Claude 時用上大量正版書及盜版書。案情揭露,Anthropic 於 2024 年 2 月挖角 Google 圖書掃描專案的合作夥伴主管 Tom Turvey,在市面上購買大量主要為二手的紙本書,掃描後以光學字元辨識(OCR)提取文本,銷毀原有紙本;同一時間,Anthropic 亦從 Library Genesis 等影子圖書館下載超過七百萬本盜版書。
2025 年 6 月,聯邦法官作出判決,掃描並銷毀正版紙本書為格式轉換(format shifting),而消化大量文本學習語言結構、進行概念性的機器學習這種訓練行為具有高度轉化性(transformative),兩者均為法律下容許的公平使用(fair use)。
至於盜版書,即使訓練合法,但獲取與保存非法數據源違法,2025 年下旬雙方達成和解,作者群獲支付超過 15 億美元。案件告一段落,數百萬本正版紙本書,加七百多萬本盜版電子書,成為當今頂尖大語言模型的養分。
像我這種普通人對 15 億美元沒有概念,作為參考,和解前不久的 2025 年 9 月,Anthropic 剛融資 130 億美元。另外,據《華爾街日報》估算,Anthropic 2026 年第一季度營收 48 億美元,第二季預期將達 109 億美元,增長一倍以上。
越守法,越缺席
關於盜版書,分享一個親身經驗。前幾年,為了騰出空間也為了簡化生活,我決定捨棄一批紙本書,同時嘗試找來對應的電子版留存。我依自己的書目逐一在網上搜尋盜版,來源跟 Anthropic 所用的大同小異,均是 Library Genesis 等影子圖書館,結果,大部分英文和大陸書都能找到,但香港和台灣的盜版書,卻少之又少。
從這個小故事,有人會解讀出自豪:台灣和香港的版權意識,遠較國內為高;也有人會解讀出「底層邏輯」:台灣和香港的市場太小,盜版形成不了商業規模。無論如何,正版主導,盜版不成氣候,對版權持有人都是好事。
然而,本文的關注點在另一層面:Library Genesis 等影子圖書館鮮有港版和台版書,意味著 Claude 的機器學習素材中,中文書絕大部分來自大陸,欠缺了香港和台灣的本土角度。在這個競爭極度激烈,資訊相當透明的市場,很可能其他幾個頂尖大語言模型的情況也類似。
越守法、越精緻、越小眾的文化圈,越容易在 AI 的集體潛意識中結構性缺席,這是極為諷刺、卻又非常真實的文化現象。說台灣和香港可能在 AI 年代消失,並非危言聳聽,而是深切焦慮,拿起書本閱讀的人越來越少,依賴 AI 汲取資訊的人越來越多,偏偏 AI 的學習素材中幾乎沒有台版和港版書,怎不叫人擔心?
Free as in Freedom
當然,大語言模型的訓練素材不只書籍,還包括公開網頁、論壇、程式碼等,PTT、Dcard、巴哈姆特、連登、高登、開放的 Substack 等部落格,全都是餵飼 AI 的材料,缺少了書籍這種資訊密度最高的長文本、經歷年月沉澱的文化表述,可能影響到深層的敘事與價值框架,但主流 AI 仍能讀寫正體中文,包括粵語、諺語甚至迷因,亦能掌握時代脈搏。
換句話說,台灣和香港暫時還存在於 AI 的世界觀之中,關鍵在於開放的互聯網。營運成本高昂卻堅持全面開放內容的公民媒體,包括香港的集誌社、獨立媒體、庭刊、法庭線、誌、香港自由新聞和台灣的報導者等,除了直接提供開放內容予廣大讀者,也是機器學習的養分,為各大 AI 補充香港和台灣的本土角度,間接服務大眾。
開放資訊的意義在於自由而非免費,在威權的陰霾中,公民媒體全都艱苦經營,持續每日報導社會事件絕非理所當然,忽略付費支持的重要性,等同社會的慢性自殺,終有一天,不但公民媒體將會逐一倒閉,就連台灣和香港,都將在 AI 年代消失。
支持《集誌社》1:1 配對活動
於本月底前到 3ook.com 購買《集誌——我們在地記錄》電子書(HKD 140)及額外支持任何金額,我個人會 1:1 配對書價及額外金額,直接付予集誌社,上限 HKD 120,000。
例:月底前 100 人於 3ook.com 購買《集誌——我們在地記錄》,並每人額外支持 HKD 1,000 → 我將 1:1 配對 140*100 + 1,000*100 = HKD 114,000
身體最誠實,實踐最重要。
p.s. 不想在主文搶一眾公民媒體的鎂光燈,在這裡小聲說:DHK 郵報旨在提供 web3 公民教育,補充主旋律外的論述,也是全面開放所有文章,需要你的支持。



本來應該支持一下獨立媒體,自從兩年前身體最誠實,身家幾乎全入幣圈後,目前處於第三次破產中,只好點個讚先精神支持一下
高先生對Anna Library 怎麼看?