01

這份調查是怎麼來的

為什麼光看使用紀錄不夠?調查怎麼串接使用資料,樣本從哪裡來、又為什麼不能代表全體人口。

先讀原文段落,旁邊就是白話

這是一本英文書。左邊放原文、右邊放白話導讀——你既讀得懂,也順手碰了原文。

原文 · 這份調查是怎麼來的 Anthropic Economic Index report: Cadences Authors Maxim Massenkoff, Eva Lyubich, Szymon Sacher, Zoe Hitzig, Shaoyi Zhang, Ryan Heller, Peter McCrory Published June 26, 2026 Acknowledgements Scott Booth, Keir Bradwell, Meredith Callan, Dexter Callender III, Boris Cherny, Chris Doenlen, Eleanor Dorfman, Jake Eaton, Evan Frondorf , Deep Ganguli, Romello Goodman, Ankit Gupta, Kunal Handa, Rebecca Hiscott, Andrew Ho, Hanah Ho, Jerry Hong, Saffron Huang, Mo Julapalli, Katie Kennedy, Jennifer Martinez, Miles McCain, Kelsey Nanan, Tyler Neylon, Adnan Pirzada, Dianne Penn, Kerry Persen, Sarah Pollack, Ankur Rathi, Santi Ruiz, David Saunders, Ankit Siva, Michael Stern, Ami Vora, Scott White, Heather Whitney, Kim Withee, Ryan Zauk, Jack Clark. Introduction One year ago, most Claude usage took the form of a conversation between a user and an assistant. Today, with the rapid growth of Claude Code and Cowork, Claude sessions increasingly consist of long-running agentic tasks. A chat transcript no longer fully captures how people are using AI, and our methods for studying Claude’s economic impacts have had to rapidly adapt.
白話導讀

為什麼光看使用紀錄不夠?調查怎麼串接使用資料,樣本從哪裡來、又為什麼不能代表全體人口。

從對話紀錄到直接詢問

為什麼光看使用紀錄不夠?調查怎麼串接使用資料,樣本從哪裡來、又為什麼不能代表全體人口。

STEP 1

深度探秘

紀錄能看到「做了什麼」,看不到「怎麼想」

前兩章的分析材料,都是使用紀錄:什麼時候問了什麼問題、產出了什麼東西、用了多少運算資源。這些數字很客觀,卻有一個天生的盲點——它們只能告訴我們使用者「做了什麼」,卻無法告訴我們使用者「怎麼想」。

舉例來說,紀錄可以告訴你「這個人常常請 Claude 直接把整份報告寫完」,但它沒辦法告訴你:這個人是因為信任 AI 才這樣做,還是因為工作太忙迫不得已?他對這件事有沒有不安?他覺得自己的工作會不會因此消失?

要回答這些問題,唯一的辦法就是直接問。因此在 2026 年 4 月,Anthropic 推出了「Anthropic Economic Index Survey」(AEI 調查),並用隱私保護技術,把調查回答跟同一個人的實際使用資料串接起來。這樣一來,我們不只知道「這個人怎麼用 AI」,還知道「他對 AI 有什麼感受、期待什麼」。

串接的方法是:針對每位填問卷的人,隨機抽樣他在 5 月中到 6 月初之間、跨 Claude.ai、Cowork、Claude Code 三個介面總共最多 20 個對話工作階段(session)。同時排除掉工作階段數量少於 5 個的人,減少樣本噪音。最後成功串接的樣本大約 9,700 人。

💡
關鍵

使用紀錄回答「做了什麼」,調查問卷回答「怎麼想」——要理解 AI 對人的心理與職涯影響,兩者必須合在一起看。

STEP 2

生活妙喻

監視器 vs 訪談

想像一間便利商店裝了監視器,可以完整記錄「誰在幾點幾分拿了什麼商品去結帳」。這些畫面非常精確,卻永遠回答不了「這位客人今天心情好不好」「他覺得這間店的服務有沒有進步」這類問題。

如果店長真的想知道顧客怎麼想,唯一的辦法是走過去問——做一份簡單的問卷或訪談。但訪談也有它的侷限:不是每個顧客都願意填問卷,願意填的人可能本來就比較有意見、比較常來店裡(也就是樣本有偏差)。

AEI 調查就是這種「訪談」,補足監視器紀錄看不到的心理層面;但也像所有訪談一樣,填問卷的人不是隨機抓來的路人,而是「原本就在用 Claude、又願意花時間填問卷」的一群人。

💡
關鍵

監視器紀錄客觀但看不到內心;訪談能看到內心,但受訪者本身就不是隨機抽樣,這是調查資料先天要注意的限制。

STEP 3

實用超能力

看報告數字前,先看樣本組成

在解讀任何調查結果之前,養成一個習慣:先看「誰回答了這份問卷」,再看「他們說了什麼」。

AEI 調查的樣本組成,跟美國實際的職業分布差很多(見 Figure 3.1):

職業類別 佔調查樣本比例 佔美國實際就業比例
電腦與數學相關 約 30% 約 4%
管理職 約 23% 約 7%
運輸與物料搬運、餐飲服務、營建等體力職業 明顯偏低 相對較高

這個落差告訴我們:這份調查更能代表「知識工作者,尤其是工程師與管理者」怎麼看 AI,而不能直接套用在所有職業身上。有趣的是,管理職雖然只佔 Claude 使用工作階段的 4%,卻佔調查回答的 23%——這意味著很多管理者是用 Claude 做「管理工作之外」的事情(例如寫信、整理資料),而不是把 Claude 當管理助手。

下次看到任何一份 AI 相關調查報告時,先問自己:這份樣本代表誰?結論能不能套用到我自己所處的職業或情境?

💡
關鍵

解讀調查結果的第一步,永遠是檢查樣本組成——AEI 調查嚴重偏向電腦、數學與管理職,套用到其他職業時要打折扣。

🔆
生活妙喻:使用紀錄 vs 問卷調查 ≈ 監視器畫面 vs 顧客訪談

監視器精準記錄行為,卻看不到內心想法;訪談能挖出感受與期待,卻受限於「誰願意受訪」的樣本偏差。兩者互補,缺一不可。

🔆
生活妙喻:隱私保護的資料串接 ≈ 醫院的病歷去識別化研究

醫院研究人員可以分析大量病歷找出疾病趨勢,但看到的是去除姓名、身分證號的資料。AEI 調查把問卷回答跟使用紀錄串接時,用的正是同一種精神——保留分析價值,去除可識別個人的資訊。

本節字彙

Anthropic Economic Index Survey(AEI 調查)
Anthropic 在 2026 年 4 月推出的問卷調查,直接詢問使用者對 AI 影響工作的看法,並用隱私保護技術串接受訪者的實際使用資料。
🧠 把它想成「幫使用紀錄配上一段訪談字幕」——紀錄是畫面,調查是旁白。
工作階段 / session
使用者與 Claude 之間一次完整的互動過程,可能發生在 Claude.ai、Cowork 或 Claude Code 上。
🧠 就像一次「進店消費」的完整過程,從開始互動到結束。
樣本偏差
調查蒐集到的樣本,跟你想推論的整體人群,在組成上有系統性差異,導致結論不能直接套用到整體。
🧠 想成「問卷只發給常來的老顧客」,得到的意見自然偏向老顧客的想法,不代表所有潛在顧客。
根據本節內容,使用紀錄(如 Claude 對話紀錄)跟問卷調查最主要的差別是什麼?
AEI 調查串接受訪者使用資料的方式,最貼切的描述是?
根據 Figure 3.1 所描述的樣本組成,下列哪個說法最準確?

兩把量尺:觀察暴露度與理論暴露度

什麼是「觀察到的暴露度」與「理論暴露度」,兩者的差異與各自的侷限。

STEP 1

深度探秘

「暴露度 exposure」到底在量什麼

研究 AI 對工作的影響時,常常會用一個詞叫職業暴露度(occupational exposure):某個職業裡,有多少比例的任務「可以用 AI 做」。這聽起来是一個問題,其實藏著兩種完全不同的量法:

  1. 觀察暴露度(observed exposure):實際去看 Claude 的使用紀錄,統計「這個職業的哪些任務,已經真的被人拿來讓 Claude 做」。這是一個回顧式、保守的量尺——只算已經發生的事。
  2. 理論暴露度(theoretical exposure):不看實際使用情況,而是評估「以 AI 現有的能力,理論上可以做到這個職業裡多少任務」。這是一個前瞻式、樂觀的量尺——算的是能力上限,而非實際使用。

兩者的關係很直覺:理論暴露度幾乎必然大於或等於觀察暴露度,因為「AI 理論上能做」的事,不代表「已經有人真的拿去用」。造成兩者落差的原因很多:有些人還沒發現可以用 AI 做某件事、有些工作流程還沒調整、有些任務即使 AI 能做,出於信任或流程限制也不會真的交給它。

這兩把量尺就是本章接下來用來對照「大家自己感覺」的兩個客觀基準。

💡
關鍵

觀察暴露度看「已經在用 AI 做的事」,理論暴露度看「AI 理論上能做的事」——後者是能力上限,通常比前者高。

STEP 2

生活妙喻

廚房裡的「已經在煮」跟「食譜上寫的都能煮」

把一個家庭廚房想成一個「職業」,把電鍋想成「AI」。

  • 觀察暴露度:打開電鍋的使用紀錄本,看這個月裡電鍋實際煮過哪些菜——煮飯、煮粥、燉湯。這是「已經發生的事」。
  • 理論暴露度:翻開電鍋隨附的食譜書,看書裡列出電鍋理論上能做的所有菜色——可能還包括蒸蛋糕、做優格、煮咖哩。這是「說明書上宣稱能做的事」。

食譜書上列的菜,一定比家裡真正煮過的菜多,因為:可能沒人想到用電鍋做優格、可能家裡沒有需要蒸蛋糕的場合、也可能有人不信任電鍋能把某道菜煮好而堅持用瓦斯爐。這正好對應理論暴露度通常高於觀察暴露度的原因——能力存在,不代表真的被使用。

💡
關鍵

食譜書列出的「電鍋理論上能做的菜」永遠比「這個月電鍋實際煮過的菜」多,這正是理論暴露度大於觀察暴露度的日常版本。

STEP 3

實用超能力

看到「AI 暴露度」數字時,先問是哪一種

下次在新聞或報告裡看到「某職業有 XX% 的任務可以被 AI 取代」這種說法,養成反射性地問一句:這是觀察到的,還是理論上的?

這個區分非常實用,因為兩種數字給人的感覺天差地遠:

  • 如果是理論暴露度很高但觀察暴露度很低,代表「潛力還沒被開發」——可能是教育訓練不足、流程沒有調整、或者信任還沒建立起來,這反而是一個機會訊號,不是立即的威脅訊號。
  • 如果觀察暴露度已經很高,代表「這件事已經真實發生」,變化已經在路上,值得認真規劃應對。

用一個簡單的判斷流程圖來記住這個邏輯:

flowchart TD
    A[看到某職業暴露度數字] --> B{這是觀察暴露度\n還是理論暴露度}
    B -->|觀察暴露度| C[代表已經真實發生\n變化正在進行中]
    B -->|理論暴露度| D[代表能力上限\n未必已經被使用]
    D --> E[落差可能來自\n信任不足或流程未調整]

本章後面會看到,受訪者「自己感覺」AI 能做多少工作,其實落在觀察暴露度跟理論暴露度之間,而且更靠近理論暴露度那一端——也就是說,人們對 AI 能力的主觀感覺,比實際觀察到的使用量更樂觀。

💡
關鍵

看到暴露度數字時先分清楚是觀察還是理論值:理論值高但觀察值低,代表潛力未開發,而不是立即的威脅。

🔆
生活妙喻:觀察暴露度 vs 理論暴露度 ≈ 電鍋「這個月煮過的菜」vs 食譜書「列出能煮的菜」

觀察暴露度統計實際發生的使用,理論暴露度評估能力上限;食譜書上的菜色永遠比廚房實際做過的菜色多,因為能力存在不代表被實際動用。

🔆
生活妙喻:暴露度的落差 ≈ 健身房辦了年卡卻很少去

年卡理論上讓你能天天使用所有器材(理論暴露度很高),但實際去健身房的次數(觀察暴露度)往往低得多。落差不是年卡沒用,而是使用習慣、時間安排等因素還沒跟上能力。

本節字彙

職業暴露度 occupational exposure
衡量一個職業裡有多少比例的工作任務,可以用 AI 完成的程度,是研究 AI 對工作影響的核心概念。
🧠 把它想成「這份工作被 AI 照到多少陽光」——照到越多代表被影響的程度越高。
觀察暴露度 observed exposure
根據實際使用紀錄,統計一個職業中已經真的被 AI 完成的任務比例,是回顧式、保守的量尺。
🧠 「觀察」就是「已經看到發生的事」,只算已經動用的部分。
理論暴露度 theoretical exposure
評估以 AI 現有能力,理論上可以完成一個職業中多少比例的任務,是前瞻式、代表能力上限的量尺。
🧠 「理論」就是「說明書上宣稱能做的事」,不保證真的被用到。
「觀察暴露度」與「理論暴露度」最核心的差別是什麼?
為什麼理論暴露度通常大於或等於觀察暴露度?
如果某個職業的「理論暴露度」很高,但「觀察暴露度」很低,最合理的解讀是什麼?

自我報告的落差:為什麼大家覺得 AI 更強

受訪者「自己回報」的 AI 能力,為何系統性地高於觀察暴露度,也低於理論暴露度。

STEP 1

深度探秘

第三把量尺:自我報告的暴露度

上一節介紹了兩把客觀量尺——觀察暴露度與理論暴露度。這一節要加入第三把量尺:自我報告的暴露度(reported exposure),也就是直接問受訪者「你覺得 AI 現在能獨立完成你多少比例的工作任務?」讓他們從 5 個等級(從「幾乎沒有」到「幾乎全部」)中挑一個。同時也會問「你覺得一年後呢?」(anticipated exposure,預期暴露度)。

研究結果發現一個一致的模式:自我報告的暴露度,系統性地高於觀察暴露度。也就是說,人們主觀感覺 AI 能做的事,比實際觀察到的 AI 使用量還要多。

這個落差可能的解釋有兩個:

  1. 不是每個人都做職業裡的每一項任務:調查更容易觸及那些「本來就更依賴 AI」的人,這些人自然會覺得 AI 能做的比例更高,但這不代表整個職業的平均使用量真的這麼高。
  2. 調查對象本身就偏向重度使用者:正如上一節提到,願意填問卷的人,往往本來就更常用 AI,所以他們的主觀感受會偏向高估。

同時,因為理論暴露度是能力的「上限」而非實際使用量的量尺,理論暴露度也系統性地高於自我報告的暴露度——形成「觀察 < 自我報告 < 理論」這樣一個排序關係。

💡
關鍵

自我報告的暴露度介於觀察暴露度與理論暴露度之間:比實際觀察到的使用量更高估,又比 AI 能力上限更保守。

STEP 2

生活妙喻

問「健身這件事你做了多少」給不同答案的人

想像一個健身房會員調查:「你覺得你已經用到會員資格裡多少的訓練潛力?」

  • 如果去問全體會員平均每人真正的到場次數(觀察暴露度),數字通常偏低,因為很多人辦了卡卻很少去。
  • 如果去問願意花時間填健身滿意度問卷的會員「你自己覺得用了多少潛力」(自我報告暴露度),這群人往往本身就比較常去健身房、比較投入,所以他們回報的使用比例會偏高。
  • 如果去問教練「理論上這張會員卡能提供多少訓練效果」(理論暴露度),答案幾乎一定是「幾乎全部」,因為這是設施能力的上限,跟誰真正用它無關。

三個問題聽起來很像,答案卻天差地遠——正是因為它們分別衡量「全體人的實際行為」「特定子群體的主觀感受」「設施本身的能力上限」三件不同的事。

💡
關鍵

三種問法對應三種不同的衡量對象:全體實際行為、熱情會員的主觀感受、設施能力上限——答案自然一個比一個高。

STEP 3

實用超能力

區分「事實」與「感受」,理性看待自己對 AI 的判斷

這個「觀察 < 自我報告 < 理論」的排序,其實給我們一個很實用的自我檢查工具:下次覺得「AI 已經能做我工作的一大半」時,先想想這個感覺可能被高估了

用一個簡單的表格整理三種暴露度:

量尺 衡量什麼 相對高低
觀察暴露度 全體使用者實際已發生的 AI 使用比例 最低
自我報告暴露度 受訪者主觀認為 AI 現在能做的比例 中間,偏高估
理論暴露度 AI 理論上能力所及的上限比例 最高

具體的行動建議:

  1. 當你自己或同事說「AI 已經能做大部分的工作了」時,先分辨這是根據「已經實際試過、真的成功」的觀察,還是「聽說 AI 很厲害、感覺應該可以」的主觀印象。
  2. 制定團隊或組織的 AI 導入計畫時,優先參考觀察暴露度(已驗證能做到的事),而不是單純依賴大家的主觀感受,才不會過度樂觀地規劃資源配置。
  3. 同時也別完全忽視理論暴露度——它提醒我們「還有沒被開發的潛力」,可以作為未來投資學習與流程調整的方向。
💡
關鍵

三種暴露度各自衡量不同對象,實務上應優先信任觀察暴露度作為決策基礎,同時把理論暴露度當作未來潛力的參考,而非現狀。

🔆
生活妙喻:自我報告暴露度的高估 ≈ 健身房會員問卷 vs 教練估計的訓練上限

願意填問卷的會員通常本身就比較投入,回報的使用比例會偏高;教練估計的訓練上限則是設施能力的天花板,跟實際使用情況無關,因此三者呈現「實際使用 < 主觀回報 < 能力上限」的排序。

本節字彙

自我報告暴露度 reported exposure
調查中直接詢問受訪者「你覺得 AI 現在能獨立完成你多少比例的工作任務」所得到的主觀答案。
🧠 「自我報告」就是「憑自己感覺回答的數字」,不是客觀統計出來的。
預期暴露度 anticipated exposure
調查中詢問受訪者「你覺得一年後 AI 能做到的工作比例」,反映對未來的主觀預期。
🧠 把「anticipated」記成「提前想像的」——是對未來的猜測,不是現況。
系統性高估
某種衡量方式,因為結構性原因(例如樣本偏差),持續、規律地比真實值偏高,而不是偶然的誤差。
🧠 「系統性」代表「每次都往同一個方向偏」,不是隨機亂跳的誤差。
根據本節,三種暴露度量尺由低到高排列,正確的順序是?
為什麼自我報告的暴露度會系統性地高於觀察暴露度?下列哪個解釋最符合本節內容?
健身房會員問卷的比喻中,「教練估計的訓練上限」對應到暴露度概念中的哪一項?
02

大家覺得 AI 能力如何

近六成受訪者認為一年後 AI 能做的事會變多,這種「漸漲的潮水」現象代表什麼。

先讀原文段落,旁邊就是白話

這是一本英文書。左邊放原文、右邊放白話導讀——你既讀得懂,也順手碰了原文。

原文 · 大家覺得 AI 能力如何 dian, box represents p25 and p75, whiskers represent p10 and p90. All numbers are normalized by the overall median number of tokens and presented on the logarithmic scale. Data in both panels is restricted to chat and Cowork and restricted to conversations classified as work-related. T oken counts are not adjusted for which model served the conversation.
白話導讀

近六成受訪者認為一年後 AI 能做的事會變多,這種「漸漲的潮水」現象代表什麼。

現在 vs 一年後:普遍看漲的預期

近六成受訪者認為一年後 AI 能做的事會變多,這種「漸漲的潮水」現象代表什麼。

STEP 1

深度探秘

近六成的人,都覺得明年會更強

調查問了受訪者兩個問題:

  1. 「AI 現在能完全獨立完成你多少比例的工作任務?」(5 個等級,從「幾乎沒有」到「幾乎全部」)
  2. 「你預期一年後,AI 能完全獨立完成的比例會是多少?」

結果顯示:接近六成的受訪者,對「一年後」選了比「現在」更高的等級。換句話說,多數人相信 AI 的能力會持續進步,而且幅度不小——超過三分之一的人認為,一年後 AI 將能完成他們工作中「大部分」或「幾乎全部」的任務。

更有趣的是後續的分析:當研究者把這種「預期進步幅度」拿去跟受訪者的所在國家、工作經驗、職業暴露度等變數比較時,發現一個看似矛盾的結果——雖然大家「現在」對 AI 能力的感知差異很大(有人覺得能做很多,有人覺得做得很少),但「預期一年內會進步多少」這件事卻相當一致。也就是說,一個軟體工程師跟一個建築工地主管,可能對「AI 現在能做多少」意見大不相同,但兩人對「明年 AI 會進步多少」的預期卻差不多。

💡
關鍵

近六成受訪者預期一年後 AI 能力會提升,而且不論起點高低,大家對「進步幅度」的預期驚人地一致。

STEP 2

生活妙喻

「漸漲的潮水」——水位不同,漲幅相似

把不同職業對 AI 能力的感知,想像成海邊不同地點量測到的水位。有些地方地勢低,現在水位已經淹到腳踝(代表現在暴露度感知較高);有些地方地勢高,水位還在遠處的沙灘上(代表現在暴露度感知較低)。

但如果你去問「潮水在接下來一年會再漲多高」,不同地點量到的漲幅卻出奇地相似——因為潮水上漲是整片海洋一起發生的現象,不會因為某個地點地勢比較高,漲潮的速度就變慢。

這正是本節「一致的進步預期」想傳達的畫面:AI 能力的提升像是整片海洋一起上漲的潮水,不同職業「現在」站的位置高低不同(水深不同),但大家預期「接下來一年」水位會上漲的幅度卻很相似。這也是為什麼本節標題用「rising tide 潮水上漲」來形容——這種能力提升被視為廣泛、一致發生的現象,而不是只集中在少數職業。

💡
關鍵

AI 能力提升像整片海洋的潮水一起上漲:不同職業現在的「水位」高低不同,但預期未來一年的「漲幅」卻相當一致。

STEP 3

實用超能力

用「一致的漲幅」重新理解職涯規劃

這個「潮水上漲」的現象,對個人職涯規劃有一個很實際的啟示:不要只看自己這個職業現在被 AI 影響的程度,還要留意「大家都預期會持續進步」這個共識

用一個簡單的流程圖整理這個邏輯:

flowchart TD
    A[調查兩個問題] --> B[AI現在能做多少比例的工作]
    A --> C[AI一年後預期能做多少比例]
    B --> D[不同職業之間差異大]
    C --> E[不同職業之間預期漲幅相似]
    D --> F[反映現有暴露度落差]
    E --> G[反映對AI整體進步速度的共同信念]

具體來說,可以怎麼運用這個觀察:

  1. 不要只用「我的工作現在還沒被 AI 影響」來判斷未來也不會——近六成的人預期未來一年會有明顯進步,這代表變化的速度可能比現狀感覺到的更快。
  2. 把心力放在「跟 AI 協作的能力」,而不是單純比較「AI 現在能不能做我的工作」——因為幾乎所有職業的人都預期能力會提升,與 AI 協作的技巧,可能比死守某個「AI 做不到」的任務更保值。
  3. 記住這是預期,不是事實——潮水確實在漲,但漲多快、多久漲到什麼程度,仍有相當大的不確定性,不必過度恐慌,也不該完全無視。
💡
關鍵

與其只比較「我的職業現在被 AI 影響多少」,更該留意「幾乎所有人都預期會持續進步」這個廣泛共識,並提早培養與 AI 協作的能力。

🔆
生活妙喻:AI 能力提升的一致預期 ≈ 漸漲的潮水:水位不同,漲幅相似

不同職業對「AI 現在能做多少」的感知差異很大(像不同地點的水位高低),但對「明年會進步多少」的預期卻相當一致(像整片海洋一起上漲的漲幅),象徵 AI 能力提升是廣泛而非侵入少數職業的現象。

本節字彙

rising tide(潮水上漲)
本節用來形容「AI 能力廣泛、一致地持續提升」現象的比喻,強調不論起點高低,大家預期的進步幅度相似。
🧠 想成「漲潮不會只淹沒海邊某一小塊沙地,而是整片海岸線一起上升」。
5 段等級量表
調查詢問「AI 現在/一年後能做多少比例工作」時提供的選項形式,從「幾乎沒有」到「幾乎全部」共 5 個區間,受訪者選一個最貼近的區間。
🧠 把它想成「五段式音量鈕」,從最小聲(幾乎沒有)轉到最大聲(幾乎全部)。
根據本節,「近六成受訪者」在調查中表現出什麼樣的預期模式?
「漸漲的潮水」比喻中,不同職業「現在」的水位高低差異,對應到調查中的什麼現象?
本節提到,一個軟體工程師與一個建築工地主管,對 AI 能力的預期最可能呈現什麼模式?

所得與經驗如何影響感知

高所得國家與資深工作者反而覺得 AI 現在能做的事比較少,可能的原因是什麼。

STEP 1

深度探秘

越有錢的國家、越資深的人,反而覺得 AI 能做的比較少

調查發現兩個看似違反直覺的關係:

  1. 國家所得越高,回報的 AI 暴露度越低:高所得國家的受訪者,平均回報 AI 現在能做的工作比例,比低所得國家低了大約 10 個百分點。這個結果乍看奇怪——高所得國家通常科技基礎設施更完善,理論上更該覺得 AI 很好用才對。可能的解釋是:AI 對低所得國家勞工日常任務的替代比例其實更高,即使從「職業層級」的暴露度指標來看,高所得國家分數更高(因為那裡有更多知識工作職業)。換句話說,職業本身容不容易被 AI 取代,跟這個人在職業裡實際承擔的任務會不會被取代,是兩個不同層次的問題;而 IMF 也提到,低所得國家的勞工可能缺乏讓 AI 從「取代」變成「輔助」所需要的互補技能與基礎設施。
  2. 工作經驗越多的人,回報的 AI 暴露度越低:擁有 15 年以上經驗的人,回報 AI 現在能做的比例,比剛入行第一年的人低了大約 10 個百分點。這群資深工作者在後續的開放式問題中提到,AI 缺乏判斷力、情境理解、以及建立信任與管理人際關係的能力——這些是靠多年經驗累積的隱性知識(tacit knowledge),很難被一套通用的模型複製。

有趣的是,這兩個變數只影響「現在」的感知,卻幾乎不影響「未來一年進步幅度」的預期——呼應上一節「潮水上漲」的一致性:起點不同,但漲幅預期相似。

💡
關鍵

高所得國家與資深工作者反而回報較低的 AI 暴露度,主要原因分別是任務替代程度的落差,以及難以被複製的隱性經驗與人際判斷力。

STEP 2

生活妙喻

老師傅看得到「還沒寫進食譜的訣竅」

想像兩位廚師:一位剛入行一年的新手,一位做了 15 年的老師傅。給他們看一套「AI 食譜機器人」,能根據文字指令自動配菜、算好比例、甚至建議烹調步驟。

新手廚師可能會覺得:「哇,這台機器好像什麼都能做,我大部分的工作內容它都能處理!」因為他的判斷力還在建立中,很多決定本來就是照著食譜、照著標準流程做。

老師傅則可能搖搖頭:「機器能照食譜做出標準的菜,但它不知道『今天這批食材比較老,火要小一點』『這位常客不喜歡太鹹』這些靠經年累月觀察跟客人打交道才學到的訣竅。」老師傅腦中裝的是大量「沒有寫進任何食譜書」的隱性知識與人際判斷,這些恰恰是 AI 最難複製的部分。

同樣的道理放到國家層級:高所得國家的知識工作者手上握有更多這種「隱性判斷力」職務,而低所得國家的勞工日常任務可能更貼近標準化流程,這也部分解釋了為什麼高所得國家的人反而感覺 AI 能做的「沒有那麼多」。

💡
關鍵

資深老師傅腦中裝的是「沒寫進食譜的訣竅」——經驗與人際判斷力是 AI 最難複製的部分,這正是資深工作者回報較低暴露度的原因。

STEP 3

實用超能力

把「隱性知識」變成你的差異化資產

如果你是相對資深的工作者,這個發現給你一個實際可以行動的方向:主動辨識並強化自己身上那些「AI 難以複製」的隱性能力,而不是被動等待被取代。

可以問自己以下幾個問題,找出自己工作中最不容易被標準化的部分:

  1. 哪些決定,我是靠經驗直覺做的,而不是照著一套明確的規則? 這些往往就是隱性知識所在。
  2. 哪些工作牽涉到「跟人建立信任」,而不只是「產出一份文件或分析」? 建立信任、管理團隊、處理衝突,都是文中特別點名 AI 難以取代的領域。
  3. 我能不能把這些隱性知識,講清楚、教給別人? 如果可以講清楚,某種程度上它也可能被學習或部分自動化;如果講不清楚、只能靠情境判斷,這通常代表它是更難被複製的核心價值。

對組織與管理者來說,這也是一個提醒:在設計 AI 導入計畫時,不要只看「這個職業的暴露度分數」,還要看清楚職務裡有多少比例仰賴難以標準化的判斷力——用一個簡單的表格對比:

工作特質 AI 暴露程度傾向
遵循明確規則、標準化流程 較高
需要情境判斷、人際信任建立 較低
新手/標準化任務為主 感知暴露度較高
資深/高情境判斷任務為主 感知暴露度較低
💡
關鍵

資深工作者的優勢在於難以標準化的隱性知識與人際判斷力,主動辨識並強化這些能力,比單純比較暴露度分數更有實際價值。

🔆
生活妙喻:資深工作者的隱性知識 ≈ 老師傅腦中「沒寫進食譜的訣竅」

AI 食譜機器人能照標準流程配菜,卻不知道「這批食材比較老、火要小一點」這類靠經年累月觀察與人際互動才學到的訣竅,對應資深工作者難以被複製的判斷力與信任關係。

本節字彙

隱性知識 tacit knowledge
難以用明確規則或文字完整表達的經驗性知識,通常需要長期實作與情境累積才能掌握。
🧠 想成「說不清楚,但一做就知道對不對」的直覺與手感。
GDP per working-age adult
本節用來衡量國家所得的指標,以工作年齡人口平均分攤的國內生產總值,而不是單純的人均 GDP。
🧠 把它想成「每位有能力工作的人,能分到多少國家生產的餅」。
情境理解 / situational reasoning
根據當下具體情境的細節與脈絡做出合適判斷的能力,例如判斷客戶當下真正的需求,而非套用固定規則。
🧠 把它想成「看場面說話」,同樣一句話在不同情境下該有不同做法。
根據本節,高所得國家的受訪者相對低所得國家,回報的「AI 現在能做多少工作」比例呈現什麼模式?
本節提出,為什麼低所得國家的受訪者可能回報更高的 AI 暴露度?下列哪個解釋最符合本節內容?
根據本節,資深工作者(15 年以上經驗)在開放式問題中,最常提到 AI 缺乏的能力是什麼?

自動化悖論:越常委託 AI,越覺得它能幹

「自動化使用比例」與感知暴露度、對未來樂觀程度之間為何同向變化,以及背後可能的因果方向。

STEP 1

深度探秘

先認識「自動化」與「增強」兩種使用模式

在深入這一節的核心發現之前,先理解一個關鍵區分:Anthropic 過去的報告中,把使用者跟 Claude 協作的方式分成幾種模式,其中最重要的兩種對照是:

  • 自動化模式(Directive/Feedback Loop):使用者把整個任務直接交給 Claude,自己幾乎不參與過程,例如「幫我把這份文件翻譯成英文」,或給一次性的回饋後就讓 Claude 完成,例如「把這封信改得更輕鬆一點」。
  • 增強模式(Task Iteration/Learning/Validation):使用者跟 Claude 反覆來回、逐步修改,或者是為了學習理解、或是用來驗證自己的想法,人始終深度參與整個過程。

「自動化使用比例」就是一個人的對話中,屬於自動化模式的比例有多高。

本節的核心發現是:自動化使用比例越高的人,回報的 AI 暴露度(現在跟一年後)都越高。這個現象背後至少有兩種可能的因果方向,而且兩者都合理,調查資料無法完全區分:

  1. 委託帶來資訊:把整個任務交給 AI 做的人,能直接觀察到 AI 到底能不能把事情做好,這是最直接的「眼見為憑」,所以他們對 AI 能力的判斷更貼近真實觀察。
  2. 信任帶來委託:本來就相信 AI 能力強的人,更願意放手把任務整個交給它,所以是「先信任、才委託」,而不是「先委託、才發現能力強」。

研究者也發現,用「工作相關使用比例」或「Claude Code 使用比例」取代「自動化使用比例」,也能觀察到類似的正向關係——這三者本身也彼此相關(Claude Code 天生偏自動化、工作任務也常常偏自動化)。

💡
關鍵

自動化使用比例越高的人,回報的 AI 暴露度也越高,可能是因為委託任務讓人直接看見成果,也可能是因為本來信任 AI 的人更願意委託——兩種因果方向都成立。

STEP 2

生活妙喻

把整台車交給代駕,才知道代駕開得好不好

想像兩種找代駕的態度:

  • 甲君:每次都全程自己開車,只偶爾在停車困難的路段讓代駕開一小段。他很少有機會完整觀察代駕的技術,對代駕「到底能不能勝任整趟路程」的判斷比較保守。
  • 乙君:長途出差時直接把整趟路都交給代駕,自己在後座休息。他有更多機會親眼看到代駕怎麼應付高速公路、市區巷弄、突發狀況,因此對代駕整體能力的評價也更高。

這個比喻同時也藏著兩種可能的因果關係:也許乙君本來就比較信任代駕這個職業,所以才敢一開始就把整趟路都交出去;也許是因為交出去之後親眼見證了代駕的能力,才越來越信任。這正是本節提到的兩種因果方向——你也說不清楚,是先有信任才委託,還是先委託才建立信任,但無論哪一種,「委託程度」跟「對能力的評價」這兩件事會一起往同一個方向移動。

💡
關鍵

把整趟路都交給代駕的人,更有機會親眼見證代駕的能力,因此評價更高——但這也可能是「本來就信任才敢交出去」的結果,兩種因果方向同時存在。

STEP 3

實用超能力

善用「小範圍委託」逐步建立你自己的判斷

這個自動化悖論,給我們一個很實際的個人策略:如果你想更準確地判斷 AI 到底能不能勝任某項任務,比起單純看報告或聽別人說,更有效的方法是「小範圍地把任務真正交出去試試看」,親自累積第一手觀察,而不是只憑印象猜測。

可以參考以下漸進式的委託策略:

flowchart TD
    A[選一個風險較低的小任務] --> B[完全交給AI自動完成]
    B --> C[檢視結果品質]
    C -->|品質達標| D[逐步擴大委託範圍]
    C -->|品質不足| E[改回增強模式協作\n人保持深度參與]
    D --> F[累積對AI能力的第一手判斷]
    E --> F

同時也要留意這個悖論的另一面:不要單純因為「我比較常把任務整個交給 AI」,就直接推論「AI 一定能做到我工作的大部分」——你的自動化使用比例高,可能只是因為你剛好習慣把某幾類低風險任務交出去,而不是因為 AI 真的能勝任你工作的全貌。保持「觀察到的事實」與「主觀信任程度」這兩者的區隔,才能做出更理性的判斷。

對團隊管理者來說,這也是個提示:與其只問員工「你覺得 AI 能做多少」,不如直接觀察「員工實際上把哪些任務交給 AI、結果品質如何」,後者是更可靠的觀察暴露度資料。

💡
關鍵

透過小範圍實際委託任務給 AI,累積第一手觀察,比單純憑印象判斷更可靠;同時要留意「委託比例高」不代表「AI 真能勝任工作全貌」。

🔆
生活妙喻:自動化使用與能力評價互相強化 ≈ 把整趟路都交給代駕,才更清楚代駕開得好不好

全程讓代駕開車的人,有更多機會親眼見證代駕的實際能力,因此評價更高;但也可能是本來就信任代駕才敢一開始就交出去。兩種因果方向同時存在,難以完全區分。

本節字彙

自動化使用比例 automation share
一個人跟 Claude 的對話中,屬於「直接委託 directive」或「回饋迴圈 feedback loop」這類自動化互動模式的比例。
🧠 想成「這段時間我把方向盤交給誰握」的比例,交給 AI 握的時間越多,自動化比例越高。
增強模式 augmentation
使用者與 AI 反覆互動、逐步修改,或用來學習理解、驗證想法的協作方式,人持續深度參與過程。
🧠 把它想成「兩人合開一輛車」,人始終握著一部分方向盤。
因果方向不明 / 內生性
當兩個變數同向變化時,無法單純從相關性判斷究竟是誰造成誰,也可能互為因果或同時受第三個因素影響。
🧠 想成「雞生蛋、蛋生雞」的困境——看到兩者一起發生,不代表能確定誰先發生。
本節提到「自動化模式」與「增強模式」最主要的差別是什麼?
本節的核心發現是,自動化使用比例與回報的 AI 暴露度之間呈現什麼關係?
關於「自動化使用比例」與「AI 暴露度感知」之間正向關係的因果方向,本節持什麼態度?
03

工作衝擊、性別差異與對未來的期待

受訪者對「自己與他人」工作變動與失業風險的預期,以及為何大家更擔心別人而不是自己。

先讀原文段落,旁邊就是白話

這是一本英文書。左邊放原文、右邊放白話導讀——你既讀得懂,也順手碰了原文。

原文 · 工作衝擊、性別差異與對未來的期待 d interpersonal dimensions of their jobs— building trust and managing people—as things AI cannot replicate. As with occupational exposure to AI, we find that perceptions about future improvements in AI capabilities are essentially uncorrelated with GDP per capita and years of experience. The expected share of tasks that AI will be able to do in 12 months is uniformly higher than perceptions about AI’s capabilities today. We next examine the relationship between how people interact with Claude and their current perceptions of Claude’s capabilities.
白話導讀

受訪者對「自己與他人」工作變動與失業風險的預期,以及為何大家更擔心別人而不是自己。

工作會變、也可能會消失

受訪者對「自己與他人」工作變動與失業風險的預期,以及為何大家更擔心別人而不是自己。

STEP 1

深度探秘

從「工作內容改變」到「工作真的消失」

調查問了受訪者一系列關於未來 12 個月的預期,而且不只問「你自己」,還問了「你的同輩」「資淺同事」「資深同事」四種對象,範圍包括:

  1. 工作責任是否會明顯改變:超過三分之一的受訪者,認為自己、同輩、資淺或資深同事的工作內容「很有可能」或「非常有可能」出現顯著變化。
  2. 是否會非自願失去一份想保住的工作:約一成的受訪者,認為自己失業的可能性是「很有可能」或「非常有可能」。

這個 10% 的數字要怎麼理解?文中提供了一個對照基準:美國官方統計(BLS JOLTS)顯示,過去 12 個月非自願離職(layoffs and discharges)的年化比例大約是 13.4%。也就是說,受訪者主觀預期的失業機率(10%),其實略低於美國整體實際的非自願離職發生率。但因為這份調查的受訪者偏向知識工作者、且工作相對穩定(這類人本來的失業風險基準值可能更低),所以這個「略低於平均」的 10%,實際上可能已經反映出偏高於這群人平常基準的擔憂

另外,當被問到「造成你預期工作變動或失業的原因」時,在認為自己可能失業的受訪者中,38% 明確把原因歸咎於 AI——但這個數字是把「工作變動預期」與「失業預期」兩個問題合併計算,所以嚴格來說是「歸咎於 AI 的比例」的上限估計,實際比例可能更低。

💡
關鍵

超過三分之一預期工作內容明顯改變,一成預期自己可能失業——這個比例雖略低於美國整體非自願離職率,但對這群相對穩定的知識工作者而言,可能仍代表偏高的主觀擔憂。

STEP 2

生活妙喻

擔心地震,卻更擔心別人家的房子

把「工作變動與失業的擔憂」想像成一場「地震風險評估」。

每個人都被問:「你自己家的房子有多大機率會在地震中受損?」「你朋友家呢?」「你的長輩家呢?」

有趣的現象是:多數人對「自己家」的評估通常比對「別人家」樂觀——這不是因為自己家真的蓋得比較堅固,而是一種常見的心理傾向:人往往覺得自己的處境比別人的處境更安全、更能掌控,即使客觀條件其實差不多。這正是本節「人們更擔心別人失業,卻對自己相對樂觀」現象的生活版本。

有趣的是,文中特別提到這個現象跟 COVID 疫情期間觀察到的模式很類似:當時人們對「自己的財務狀況」的自我評分,往往比對「整體國家經濟」的評分更正面——即使兩者面對的是同一場疫情衝擊。

💡
關鍵

人們傾向認為「自己家的房子」比「別人家的房子」更耐震——這種對自身處境比對他人處境更樂觀的心理偏誤,跟疫情期間「覺得自己財務比國家經濟更穩」的現象如出一轍。

STEP 3

實用超能力

特別關注「資淺同事」的處境,而不只是自己

這一節有一個特別值得放大的發現:受訪者對「junior 資淺同事」的失業風險最擔憂——超過三分之一的人認為資淺同事在未來一年失去工作的機率超過 60%,這個比例明顯高於他們對自己、同輩、或資深同事的擔憂程度。

這給不同角色的讀者,帶來不同的實用啟示:

如果你是管理者或資深工作者:

  • 這個發現提醒你,團隊裡最需要被關注、被主動協助適應 AI 變化的,可能不是你自己,而是剛入行、經驗尚淺的同事。
  • 可以主動思考:資淺同事負責的哪些任務,最接近「容易被 AI 標準化」的類型?有沒有辦法幫他們轉向更需要判斷力、更難被取代的工作內容?

如果你自己是資淺工作者:

  • 這份調查反映的是普遍的擔憂,不是針對你個人的預言。與其被這個數字嚇到,更實用的做法是參考前面幾節提到的:主動累積「難以被標準化的隱性能力」——包括情境判斷、人際信任建立等,而不是被動等待風險發生。

對所有人:

  • 記住上一步的「地震比喻」——人天生會低估自己的風險、高估別人的風險(或者反過來對自己過度樂觀),保持一點客觀,同時對自己與對他人的處境給予同等程度的關注,是更理性的態度。
💡
關鍵

受訪者對資淺同事的失業擔憂最高,管理者應優先關注並協助資淺同事轉向更難被標準化的工作內容,資淺工作者本人也應主動累積難以被複製的能力。

🔆
生活妙喻:對自己與對他人風險評估的落差 ≈ 覺得自己家的房子比別人家更耐震

人們傾向認為自己的處境比別人更安全可控,即使客觀條件相近,這種心理偏誤解釋了為何受訪者對junior同事的失業擔憂,明顯高於對自己的擔憂。

本節字彙

非自願離職率 layoffs and discharges rate
美國官方統計(BLS JOLTS)中,衡量勞工被雇主解僱或資遣(而非自己選擇離職)的比例,常用年化數字表示。
🧠 把「非自願」記成「不是我想走,是公司要我走」,跟主動跳槽是不同的統計類別。
junior 資淺同事
本節調查中指工作經驗較少、職涯剛起步的同事,是受訪者表達失業擔憂最集中的對象。
🧠 想成「剛入行、經驗值還在累積中的新人」。
自我處境樂觀偏誤
人們傾向對自己的處境評價比對他人處境更正面樂觀,即使面對的是同樣的客觀條件或風險,這是一種常見的心理傾向。
🧠 想成「自己碗裡的飯永遠看起來比別人碗裡的更滿意」的心理效應。
根據本節,受訪者認為自己在未來一年「非自願失去想保住的工作」的機率大約是多少?這個數字跟美國整體非自願離職率相比如何?
為什麼文中認為「10% 略低於整體離職率」這個數字,可能仍反映出偏高於基準的擔憂?
根據本節,受訪者對「誰」的失業風險表達出最高程度的擔憂?

委託越多、越樂觀:矛盾嗎?

自動化使用比例越高的人,對薪資、工作保障、意義等六個面向反而越樂觀,以及生產力提升與技能增值的自我報告。

STEP 1

深度探秘

六個面向都更樂觀,尤其是薪資與再就業能力

延續前面「自動化悖論」的線索,這一節把鏡頭轉向情緒與期待:自動化使用比例越高的人,對 AI 未來一年帶來的影響,是更悲觀還是更樂觀?

調查測量了六個工作品質面向的預期影響,分成兩組:

  • 經濟性面向:薪資(pay)、工作保障(job security)、找到新工作的能力(ability to find a new job)
  • 內在性面向:工作意義(meaning)、自主性(autonomy)、人際互動(human interaction)

結果是:在全部六個面向上,自動化使用比例較高的人,都比使用比例較低的人更樂觀——認為 AI 會帶來正面影響的比例更高。其中效果最大的兩個面向是未來薪資找到新工作的能力

這個結果乍聽有點矛盾:直覺上,把工作交給 AI 做得越多,不是應該更擔心自己被取代嗎?但資料顯示恰恰相反——委託程度跟樂觀程度是同向移動的。這跟上一小節「自動化悖論」的邏輯一脈相承:委託得越多,越了解 AI 真正能做到什麼(也做不到什麼),這種第一手的了解,反而降低了不確定感帶來的焦慮,也讓人看到 AI 帶來的實際好處。

同時要注意,研究者也檢查過一個常見的質疑——會不會只是「本來就對 AI 很興奮的人,才會又委託又樂觀」?他們控制了使用者在 Claude.ai 上的使用年資(作為「早期採用者 vs 後期採用者」的替代指標,代表對 AI 的熱衷程度),結果發現控制後這個關係幾乎沒有改變,說明這個現象不完全是單純的「愛用者選擇效應」。

💡
關鍵

自動化使用比例越高的人,在薪資、工作保障、找工作能力、意義、自主性、人際互動六個面向都更樂觀,尤其在薪資與再就業能力上效果最明顯,且這個關係不只是單純的愛用者選擇效應。

STEP 2

生活妙喻

常騎自動駕駛車的人,反而更放心把方向盤交出去

想像兩種開自動駕駛車的人。

甲君幾乎沒用過自動駕駛功能,偶爾按一下就緊張地手握方向盤盯著;因為他對這套系統了解有限,總覺得「萬一它突然失控怎麼辦」,對這項技術帶來的整體改變也比較悲觀懷疑。

乙君天天長途通勤都開自動駕駛,累積了大量實際經驗,清楚知道系統在哪些路況表現很好、哪些路況需要自己接手。因為有這些第一手經驗,他對自動駕駛技術整體發展的態度更樂觀——不是因為他天真樂觀,而是因為他真的看過系統多次成功完成任務,同時也清楚它的邊界在哪裡。

這個對照,正好呼應本節「委託越多、越樂觀」的現象:不是委託本身讓人變得盲目樂觀,而是委託帶來的第一手觀察經驗,讓使用者對這項技術的能力與邊界有更具體、更踏實的認識,這種認識轉化成了對未來的信心。

💡
關鍵

常用自動駕駛的人因為有第一手觀察經驗,對技術的能力與邊界有更具體的認識,這種踏實的了解,正是轉化成對未來樂觀態度的關鍵,而不是盲目樂觀。

STEP 3

實用超能力

生產力提升的三個面向,以及技能是否真的在增值

這一節還補充了另一組重要資料:大多數受訪者都回報從 AI 得到實際的生產力好處,可以整理成一個表格:

生產力提升面向 回報比例
速度提升 speed 86%
涵蓋範圍擴大 scope 82%
品質提升 quality 69%
節省原本要外購服務的成本 27%

同時,68% 的受訪者表示透過 AI「學到更多」,57% 感覺自己的技能因為 AI 而變得更值錢。而且——這種「技能增值感」隨著自動化使用比例提高而上升,但「學到更多」這個比例,不論自動化使用比例高低,幾乎維持平坦不變

這個對比回應了一個常見的憂慮:「如果什麼都交給 AI 做,人會不會因此少學習、技能退化?」資料顯示,重度委託的人,並沒有回報「學得比較少」——他們學習的自我評分跟輕度委託的人差不多。但文中也很誠實地提醒:這些都是自我評估,而技能退化這種事,有可能在一個人「自認為學得還不錯」的同時悄悄發生,所以這份資料並不能完全排除技能退化的可能性,只能說「目前看不到這個現象的直接證據」。

實用的行動建議:如果你正在增加委託 AI 的比例,不妨主動幫自己設一個檢查點——例如每隔一段時間,刻意不用 AI 協助,自己重做一次類似的任務,確認自己的核心能力沒有在不知不覺間流失。

💡
關鍵

多數人回報 AI 帶來速度、範圍、品質三方面的生產力提升,重度委託者的技能增值感更高,但「學習量」的自我評分不因委託程度而改變——這雖然沒看到技能退化的證據,但自我評估本身無法完全排除這個風險。

🔆
生活妙喻:自動化使用與樂觀程度同向變化 ≈ 天天使用自動駕駛的人,反而更放心把方向盤交出去

常用自動駕駛的人因為累積大量第一手觀察經驗,清楚系統的能力與邊界,這種具體了解轉化成對技術的信心與樂觀,而非盲目樂觀,對應委託越多、越了解、越樂觀的現象。

本節字彙

工作品質六面向
本節調查測量 AI 對工作影響預期的六個維度:薪資、工作保障、再就業能力(經濟性面向),以及意義、自主性、人際互動(內在性面向)。
🧠 把前三個記成「錢包相關」,後三個記成「心裡感受相關」。
愛用者選擇效應
一種可能的干擾解釋:本來就對某項技術特別熱衷、樂觀的人,更傾向大量使用並給出正面評價,使觀察到的正向關係可能只是反映了這種選擇偏差,而非技術本身的因果效果。
🧠 想成「粉絲濾鏡」——本來就是粉絲的人,自然對產品評價更高。
使用年資 tenure
使用者從開始使用 Claude.ai 到現在經歷的時間長短,本節用它作為區分「早期採用者」與「後期採用者」的替代指標。
🧠 想成「這位用戶已經是老用戶還是新用戶」。
根據本節,自動化使用比例較高的人,在調查的六個工作品質面向上,整體表現出什麼態度?
研究者為了排除「愛用者選擇效應」這個質疑,採取了什麼做法?結果如何?
根據本節表格,受訪者回報生產力提升比例最高的面向是什麼?

性別差異與對十年後的心願

男女使用 Claude 方式的系統性差異,以及開放式問題「你希望十年後的 AI 經濟長什麼樣子」的五大主題。

STEP 1

深度探秘

女性用 Claude 的方式,系統性地跟男性不同

調查樣本中,女性只佔已串接受訪者的 12%,但她們展現出的使用模式,跟男性有明顯且一致的差異——而且這些差異在控制了職業差異之後依然存在,代表不是單純因為男女從事的職業不同所導致。具體差異包括:

  • 女性把 Claude 用在工作用途的比例略低於男性。
  • 女性使用 Claude Code 的工作階段佔比,比男性低 0.24 個標準差(大約低 6.3 個百分點)。
  • 女性的自動化使用比例,比男性低 0.33 個標準差(大約低 7.3 個百分點)。
  • 相對地,女性傾向用更迭代反覆的方式使用 Claude(也就是前面提到的「增強模式」比例較高),並且在 chat 介面上花費的活躍時間更長——這被視為一種更協作式互動的訊號。

研究者也檢查過,這個差異是否只是因為女性剛好比較少用 Claude Code(而 Claude Code 本身天生偏自動化),結果發現即使控制了 Claude Code 使用比例,這個性別差異依然存在。同時這個模式在控制職業分類之後也一樣穩健,說明這不只是「男女剛好從事不同職業」造成的表面現象。

把這一節的發現跟前面幾節串起來看會很有意思:如果自動化使用比例跟「AI 暴露度感知」「對未來的樂觀程度」都同向變化,那麼這裡觀察到的性別差異,可能也間接意味著男女在感知與情緒面的體驗上存在系統性落差——但這一點,原始報告並未直接檢驗,值得留意但不宜過度推論。

💡
關鍵

即使控制了職業差異,女性使用 Claude Code 與自動化模式的比例都明顯低於男性,反而在迭代式協作與活躍時間上更高——這是一種更協作導向的使用風格。

STEP 2

生活妙喻

有人愛用洗碗機全自動模式,有人愛自己邊洗邊調整水溫

把「跟 Claude 協作」想像成「洗碗」這件家事。

有一種人,買了洗碗機之後,習慣把碗盤丟進去、按下「全自動」模式,然後就完全放手不管,直到洗好取出——這對應「自動化模式」的高使用比例。

另一種人,即使有洗碗機,還是喜歡在旁邊看著、隨時調整水溫、多沖一次特別髒的鍋子、把某些精細餐具留下來自己手洗——這對應「增強模式/迭代協作」的高使用比例,人始終保持深度參與,跟工具保持一種持續對話的關係。

本節發現的性別差異,就像是:在使用同一台洗碗機的家庭裡,女性平均更傾向選擇「在旁邊持續參與、調整」的方式,男性平均更傾向選擇「設定好就放手交給機器」的方式。這不代表哪一種方式更好或更有效率,只是反映出兩種不同的、同樣合理的協作風格偏好。

💡
關鍵

有人愛全自動放手不管,有人愛在旁邊持續參與調整——本節發現女性平均更傾向後者的協作風格,這只是風格差異,不代表誰用得比較好。

STEP 3

實用超能力

十年後的 AI 經濟:五個最多人許下的心願

整份調查的最後一題,是一個開放式問題:「請大膽想像:十年後由 AI 塑造的經濟,你希望它長什麼樣子?」研究者用分類器把回答歸納成幾個主題,前三大主題依出現頻率排列如下:

  1. 人機協作、有意義的工作(超過半數受訪者提及):希望能跟 AI 一起工作完成有意義的任務,希望自己的職業依然重要,也希望新產業因此誕生、創造新的工作機會。
  2. 自動化苦差事、換取自由時間(略超過半數提及):希望 AI 能自動處理工作中枯燥乏味的部分,讓人有更多時間留給工作以外有意義的事。
  3. 共享的繁榮(約三分之一提及):希望 AI 帶來的經濟成果,能被廣泛分享,而不是只集中在少數人手中。

用一個簡單的圖來看這些心願跟前面幾節內容的呼應關係:

flowchart TD
    A[受訪者的心願] --> B[人機協作有意義工作]
    A --> C[自動化苦差事換自由時間]
    A --> D[共享的繁榮]
    B --> E[呼應章節開頭\n希望職業依然重要]
    C --> F[呼應委託帶來的\n生產力提升與樂觀]
    D --> G[呼應對失業與\n工作變動的擔憂]

有意思的是,前兩大主題乍看有點矛盾——一方面希望「跟 AI 一起工作、保有意義」,另一方面又希望「把苦差事自動化、換取自由時間」。但仔細想想,這兩者其實可以並存:人們想要的不是全有全無的選擇,而是一種平衡——讓 AI 接手枯燥重複的部分,把人的時間和精力留給真正有意義、需要人類判斷與情感投入的工作。這個心願,其實正好跟整份報告前面反覆出現的主題呼應:AI 帶來的變化,最好是「augmenting labor 輔助人的能力」而不是「displacing labor 取代人的價值」。

💡
關鍵

人們對十年後 AI 經濟最大的期待,是人機協作與有意義的工作、自動化苦差事換取自由時間、以及經濟成果被廣泛分享——這些心願共同指向「輔助而非取代」的理想平衡。

🔆
生活妙喻:自動化模式與增強模式的性別差異 ≈ 洗碗機全自動模式 vs 在旁邊持續調整水溫

有人買了洗碗機就完全放手交給全自動模式,有人喜歡在旁邊持續參與調整;本節發現女性平均更傾向後者這種持續參與、迭代協作的使用風格,男性平均更傾向前者的自動化風格,這只是偏好差異,不代表誰用得比較好。

本節字彙

標準差 standard deviation
衡量一組數值分散程度的統計指標,本節用「相差多少個標準差」來表示兩個群體在某項使用指標上的差異幅度,方便跨指標比較。
🧠 想成「這個差距,放進全體資料的分布裡,算是大差距還是小差距」的一種標準化量尺。
共享的繁榮 shared prosperity
本節提到受訪者對十年後 AI 經濟的心願之一,希望 AI 帶來的經濟效益能被社會廣泛分享,而非集中在少數人身上。
🧠 想成「餅做大了,大家都能多分到一塊」的願景。
輔助 vs 取代 augmenting vs displacing labor
描述 AI 對工作影響的兩種對照框架:輔助是讓人的能力被放大、人依然參與其中;取代是 AI 完全接手、人被排除在流程外。
🧠 想成「AI 是我的助手」還是「AI 取代了我的位置」這兩種完全不同的關係。
根據本節,女性使用 Claude Code 與自動化模式的比例,相對於男性呈現什麼模式?這個差異在控制職業因素後是否依然存在?
相對於自動化模式使用比例較低,女性在哪些使用特徵上呈現較高的比例?
洗碗機的比喻中,「在旁邊持續參與、調整水溫」這個行為,對應到本節的什麼使用模式?