這份調查是怎麼來的
當使用紀錄回答不了「你怎麼想」,Anthropic 決定直接開口問
監視器拍得到「做了什麼」,拍不到「怎麼想」
前面幾章的分析材料,都是使用紀錄——什麼時候問了什麼問題、產出了什麼東西、用了多少運算資源。這些數字很客觀,卻有一個天生的盲點:它們只能告訴我們使用者「做了什麼」,卻無法告訴我們使用者「怎麼想」。
紀錄可以告訴你「這個人常常請 Claude 直接把整份報告寫完」,但它沒辦法告訴你:這個人是因為信任 AI 才這樣做,還是因為工作太忙迫不得已?他對這件事有沒有不安?他覺得自己的工作會不會因此消失?
要回答這些問題,唯一的辦法就是直接問。於是在 2026 年 4 月,Anthropic 推出了 Anthropic Economic Index Survey(AEI 調查)。
想像一間便利商店裝了監視器,能精準記錄「誰在幾點幾分拿了什麼商品去結帳」。畫面很準,卻永遠回答不了「這位客人今天心情好不好」「他覺得這間店的服務有沒有進步」。想知道這些,店長只能走過去問——這正是 AEI 調查在做的事。
直接讀原文,旁邊就是白話
這篇報告怎麼描述調查的起點與做法?我們挑幾句關鍵原文,左邊放原文、右邊放白話中文,一句對一句。
2026 年 4 月,我們推出了 Anthropic Economic Index Survey,延續先前的研究。
我們用隱私保護技術,把問卷回答跟 5 月中到 6 月初的使用資料串接起來。
在這段期間內,每位受訪者隨機抽樣最多 20 個工作階段(涵蓋 Claude.ai、Cowork、Claude Code,讓樣本組合反映這個人跨介面的實際使用習慣)。
我們排除掉工作階段少於 5 個的人,藉此降低樣本噪音。
這份調查並不能代表一般大眾——這件事,報告自己講得很白。
醫院研究人員能分析大量病歷找出疾病趨勢,但看到的是去除姓名、身分證號的資料。AEI 調查把問卷回答跟使用紀錄串接時,用的是同一種精神——保留分析價值,去除可識別個人的資訊。最後成功串接的樣本大約 9,700 人。
先看「誰回答了」,再看「他們說了什麼」
在解讀任何調查結果之前,養成一個習慣:先確認樣本偏差有多大。AEI 調查的樣本組成,跟美國實際的職業分布差很多:
佔調查樣本約 30%,但只佔美國實際就業市場約 4%——嚴重過度代表。
佔調查樣本 23%,但只佔美國就業市場 7%;更妙的是它只佔 Claude 使用工作階段的 4%。
運輸物流、餐飲服務、營建等職業,在調查樣本與 Claude 使用紀錄中都明顯偏低。
管理職佔問卷回答 23%,卻只佔 Claude 使用工作階段 4%。這意味著很多管理者是用 Claude 做「管理工作之外」的事情(例如寫信、整理資料),而不是把 Claude 當管理決策的助手。這份調查更能代表「知識工作者,尤其是工程師與管理者」怎麼看 AI,不能直接套用在所有職業身上。
量 AI 影響力的三把尺
研究 AI 對工作的影響時,常用一個詞叫職業暴露度——某個職業裡,有多少比例的任務「可以用 AI 做」。但這句話其實藏著三把完全不同的量尺:
Observed Exposure
實際去看 Claude 的使用紀錄,統計「這個職業的哪些任務,已經真的被人拿來讓 Claude 做」。回顧式、保守,只算已經發生的事。就像看電鍋這個月「真的煮過」哪些菜。
Reported Exposure
直接問受訪者:「你覺得 AI 現在能獨立完成你多少比例的工作任務?」是憑感覺回答的主觀數字,容易受樣本偏差影響。
Theoretical Exposure
不看實際使用,而是評估「以 AI 現有能力,理論上可以做到這個職業裡多少任務」。前瞻式、樂觀,算的是能力上限。就像食譜書上「號稱能煮」的所有菜色。
把電鍋想成 AI:使用紀錄本上「這個月真的煮過」的菜,是觀察暴露度;隨附食譜書上「理論上能煮」的菜,是理論暴露度。食譜書列的菜色一定比廚房實際做過的多——能力存在,不代表真的被用到。
核心發現:大家「覺得」的,介於中間
調查也問了受訪者對未來的看法——預期暴露度:你覺得一年後 AI 能做到多少?結果發現一個一致的模式:自我報告的暴露度,系統性地高於觀察暴露度,但又低於理論暴露度上限。也就是說,大家覺得 AI 比實際觀察到的更強,但又還沒強到理論上限。
把三把尺按數值從低到高排一次,拖拖看:
問全體會員「真正到場次數」(觀察暴露度)通常偏低,很多人辦了卡卻很少去;問「願意填滿意度問卷的會員」自己覺得用了多少潛力(自我報告暴露度),這群人本來就比較投入,回報會偏高;問教練「理論上這張卡能提供多少訓練效果」(理論暴露度),答案幾乎一定是「幾乎全部」——這是設施能力的天花板,跟誰真正用它無關。
這個落差不是壞消息,是行動指南
下次覺得「AI 已經能做我工作的一大半」時,先想想這個感覺可能被高估了。這個排序關係其實給我們一個實用的自我檢查工具:
- 如果理論暴露度高、觀察暴露度低,代表潛力還沒被開發——可能是教育訓練不足、流程沒調整、信任還沒建立,這是機會訊號,不是立即威脅。
- 如果觀察暴露度已經很高,代表變化已經真實發生,值得認真規劃應對。
制定團隊或組織的 AI 導入計畫時,優先參考「已驗證能做到的事」——也就是觀察暴露度,而不是單純依賴大家的主觀感受,才不會過度樂觀地規劃資源配置。
先問自己一句:這是觀察到的,還是理論上的?分清楚,你的判斷就不會被牽著走。
小試身手
看懂這一格,你就抓住了整章的量尺骨架。來兩題:
這些量尺量出來,大家到底覺得 AI 現在跟未來的能力如何?往下捲,看受訪者怎麼說。
大家覺得 AI 能力如何
近六成人相信明年更強、但高所得國家與資深老手反而喊「沒那麼厲害」——還有一個會讓你愣一下的自動化悖論
先問你兩個問題,Anthropic 也是這樣問受訪者的
上一模組看完「調查怎麼來的」,這一模組要看調查真正問出了什麼。Anthropic Economic Index Survey 問了每位受訪者兩個問題:「AI 現在能完全獨立做完你多少比例的工作?」以及「你猜一年後呢?」, 選項是五段等級,從「幾乎沒有」到「幾乎全部」。
結果很一致:接近六成的人,對「一年後」選了比「現在」更高的等級,超過三分之一甚至認為, 一年後 AI 能做完自己工作的「大部分」或「幾乎全部」。這不是一小撮樂觀者,是一個相當普遍的預期。
把不同職業對 AI 能力的感知,想成海邊不同地點量到的水位。有些地方地勢低,水已經淹到腳踝;有些地方地勢高,水還在遠方沙灘上。但如果你問「接下來一年潮水會再漲多高」,不同地點量到的漲幅卻出奇地相似——因為潮水上漲是整片海洋一起發生的事,不會因為某處地勢高,漲潮速度就變慢。這就是本節標題「rising tide 潮水上漲」要說的畫面。
直接讀原文,旁邊就是白話
這幾句話,是整份報告開場定調的關鍵句——先讀原文,再看白話怎麼說。
我們發現,大多數受訪者都預期,接下來一年 AI 會有明顯的進步。
雖然大家對「AI 現在能力如何」的感知,跟他的經驗、住在哪裡、工作暴露度都有關,但對「未來進步速度」的預期卻驚人地一致——就像「潮水上漲」,AI 能力是廣泛地、整片一起提升的。
接近六成的受訪者,對「一年後」選的等級比「現在」更高。
超過三分之一的人,預期一年後 AI 能做完他們工作的大部分、甚至幾乎全部。
換句話說,一個軟體工程師跟一個工地主管,對自己這行「進步幅度」的預期,其實差不多。
這正是本節最重要的區分:「現在覺得 AI 能做多少」因人而異、落差很大;但「覺得明年會進步多少」卻幾乎不分職業,全部人一致看漲。
三個發現,拼出這一節的全貌
把本節三小節的核心數字放在一起看,你會看到一個相當有畫面的故事:
近六成受訪者覺得「一年後」AI 能做的比「現在」更多,超過三分之一認為明年 AI 能做完自己工作的大部分或幾乎全部。
高所得國家受訪者回報的 AI 暴露度比低所得國家低約 10 個百分點;15 年以上資深工作者也比新人低約 10 個百分點——現在看得少,不代表未來預期也保守。
越常把整段任務直接委託給 Claude 的人,回報的 AI 暴露度越高,對未來也越樂觀——反直覺,但資料一致這樣顯示。
為什麼「有錢」跟「資深」反而覺得 AI比較弱?
這兩個發現乍看違反直覺——高所得國家科技基礎設施通常更完善,理論上該覺得 AI 更好用才對;資深員工經驗豐富,應該更懂得怎麼「使喚」AI 才對。但調查數字剛好相反。
可能是 AI 對低所得國家勞工日常任務的替代比例其實更高,即使「職業層級」的暴露度指標在高所得國家更高(因為那裡知識工作職業比較多)。IMF 也指出,低所得國家勞工可能缺乏讓 AI 從「取代」變成「輔助」所需的互補技能與基礎設施。
資深工作者在後續問答中最常提到,AI 缺乏判斷力、情境理解,以及建立信任、管理人際關係的能力——這些是靠多年累積的隱性知識 tacit knowledge,很難被一套通用模型複製。
給新手廚師跟 15 年老師傅同一套「AI 食譜機器人」:新手可能覺得「哇,大部分工作它都能做」,因為他很多決定本來就是照食譜、照標準流程走;老師傅卻搖頭——機器能照食譜做出標準菜色,但它不知道「這批食材比較老,火要小一點」「這位常客不喜歡太鹹」。這些沒寫進任何食譜書的訣竅,正是最難被複製的部分。
而且有趣的是,這兩個變數只影響「現在」的感知,幾乎不影響「未來一年進步幅度」的預期——又呼應了上一屏「潮水上漲」的一致性:起點不同,但漲幅預期相似。
自動化悖論:先信任才委託,還是先委託才信任?
Anthropic 把使用者跟 Claude 協作的方式分成兩大類:自動化模式(把整個任務直接交出去,例如「幫我把這份文件翻成英文」)跟增強模式(人跟 AI 反覆來回、逐步修改,人全程深度參與)。一個人對話中屬於自動化模式的比例,就是「自動化使用比例」。
本節的核心發現:自動化使用比例越高的人,回報的 AI 暴露度(現在跟一年後)都越高。
你可能以為,越常「偷懶」把整段任務丟給 AI 的人,應該對 AI 的能力比較沒把握才對(畢竟自己沒盯著細節)。但資料剛好相反——委託得越多,反而越覺得 AI 能幹。因果方向可能有兩種,而且兩種都合理,調查資料無法完全區分:
① 委託帶來資訊:把整個任務交給 AI 的人,能直接觀察到它到底能不能把事情做好,這是最直接的「眼見為憑」。② 信任帶來委託:本來就相信 AI 能力強的人,才更願意放手把任務整個交出去——是「先信任、才委託」,不是「先委託、才發現能力強」。
用「工作相關使用比例」或「Claude Code 使用比例」換掉「自動化使用比例」,也能看到類似的正向關係——這三者本身也彼此相關(Claude Code 天生偏自動化、工作任務也常偏自動化)。
甲君每次都自己開車,只偶爾在難停車路段讓代駕開一小段,很少機會完整觀察代駕的技術;乙君長途出差直接把整趟路交給代駕,自己在後座休息,親眼見證代駕應付各種路況,因此評價更高。但誰也說不清——是乙君本來就比較信任代駕才敢整趟交出去,還是交出去之後才越來越信任。
小試身手:猜猜看,也想想因果
看完三個發現,來兩題檢查一下有沒有抓到重點——包括那個「先有雞還是先有蛋」的自動化悖論。
這些感知會怎麼牽動大家對工作變化、性別差異,以及未來十年的想像?往下捲。
工作衝擊、性別差異與對未來的期待
擔心失業,但更擔心「別人」失業;委託越多,反而越樂觀——最後,一起看看大家想要的未來長什麼樣
你擔心自己丟工作,還是更擔心同事丟工作?
調查問了受訪者對未來 12 個月的預期,而且不只問「你自己」,還問了「你的同輩」「資淺同事」「資深同事」。結果:超過三分之一的人認為某些人的 工作責任 會有顯著變化,而認為自己會「非自願丟工作」的比例大約 一成。
這個 10%,比美國官方統計的年化非自願離職率(約 13.4%)還要低一點。但因為受訪者偏向知識工作者、工作相對穩定——這群人原本的失業風險基準值可能更低——所以這個「看似偏低」的數字,其實可能已經反映出比這群人平常更高的擔憂。
受訪者認為自己在未來一年非自願丟工作的機率「很有可能」或「非常有可能」。
BLS JOLTS 統計的整體非自願離職率,10% 其實略低於這個對照基準。
在認為自己可能丟工作的人裡,把原因歸咎於 AI 的比例上限——因為問題把「工作變動」與「失業」合併計算,實際比例可能更低。
想像每個人都被問:「你自己家有多大機率在地震中受損?」「你朋友家呢?」多數人對「自己家」的評估比對「別人家」樂觀——不是自己家蓋得比較堅固,而是人天生覺得自己的處境比別人更安全可控。這正是本節現象的生活版本。
直接讀原文:誰最讓人擔心?
這一段是整節最扎心的發現——大家最擔心的,不是自己,而是剛入行的 資淺同事。原文+白話對照如下:
10% 的受訪者認為自己丟工作的機率「很有可能」或「非常有可能」。
值得注意的是,受訪者平均而言,更擔心「別人」丟工作,而不是自己。
大家特別擔心資淺同事——超過三分之一的人認為,資淺同事在未來一年丟工作的機率超過 60%。
這呼應了一個常見的心理模式:人們對自己處境的評價,往往比對別人處境更正面。
COVID 期間也觀察過類似現象:人們對自己財務狀況的自評,往往比對整體國家經濟的評分更正面。
如果你是管理者或資深工作者,這個發現在提醒你:團隊裡最需要被主動關注、協助適應 AI 變化的,可能不是你自己,而是剛入行的同事。可以想想他們手上哪些任務最容易被標準化,並幫他們往更需要判斷力的方向轉。
委託得越多,反而越樂觀?
調查測量了 AI 對六個工作品質面向的預期影響: 薪資、工作保障、再就業能力 這三個「錢包相關」面向,加上意義、自主性、人際互動這三個「心裡感受」面向。
結果在全部六個面向上, 自動化使用比例 較高的人都比使用比例較低的人更樂觀——效果最大的兩個面向是未來薪資跟找到新工作的能力。這聽起來有點反直覺:把工作交給 AI 做得越多,不是應該更擔心被取代嗎?但資料顯示恰恰相反。
研究者也檢查過「會不會只是本來就很興奮的人才又委託又樂觀」——他們控制了 使用年資 (早期 vs 後期採用者的替代指標),結果這個關係幾乎沒有改變,說明不完全是 愛用者選擇效應。
天天長途通勤都開自動駕駛的人,因為累積大量第一手經驗,清楚系統哪裡表現好、哪裡需要自己接手,反而對這項技術更樂觀;偶爾用一下、緊張盯著方向盤的人,因為了解有限,反而更悲觀懷疑。不是委託讓人盲目樂觀,是委託帶來的第一手觀察,讓人對能力與邊界有更踏實的認識。
動手配配看:這六個面向,委託越多都更樂觀
把下面六個工作品質面向,全部拖到「委託 AI 越多、越樂觀」這一格——因為原文說得很清楚:全部六個面向都呈現這個同向關係,沒有例外。
大多數受訪者也回報實際的生產力好處:速度提升 86%、涵蓋範圍擴大 82%、品質提升 69%、節省外購成本 27%。68% 說「學到更多」、57% 覺得技能更值錢——而且技能增值感隨自動化使用比例上升,但「學到更多」的比例不論委託多寡都幾乎持平,資料目前看不到技能退化的直接證據(但因為是自我評估,也無法完全排除)。
男女用 Claude 的方式,系統性地不一樣
女性只佔已串接受訪者的 12%,但她們展現的使用模式跟男性有明顯差異——而且這個差異在控制了職業差異之後依然存在,不是單純因為男女從事不同職業造成的。具體來說:女性使用 Claude 於工作的可能性稍微低一些,她們在 Claude Code 上的工作階段佔比低 0.24 個標準差(約 6.3 個百分點),自動化使用比例低 0.33 個標準差(約 7.3 個百分點)。
相對地,女性更常用迭代反覆的方式使用 Claude,並在 chat 介面花更多活躍時間——這被視為更協作式互動的訊號。
有人買了洗碗機就把碗丟進去、按下全自動,完全放手——這對應自動化模式的高使用比例。有人喜歡在旁邊看著、調水溫、多沖一次特別髒的鍋子——這對應增強模式/迭代協作。本節發現:女性平均更傾向後者,男性平均更傾向前者。這不代表誰用得比較好,只是兩種同樣合理的偏好。
十年後,AI 經濟該長什麼樣?
調查最後一題是開放式問題:「請大膽想像:十年後由 AI 塑造的經濟,你希望它長什麼樣子?」研究者用分類器把回答歸納成幾個主題,前三大主題如下:
超過半數受訪者提及。希望能跟 AI 一起完成有意義的任務,希望自己的職業依然重要,也希望新產業誕生、創造新工作機會。
略超過半數提及。希望 AI 能自動處理工作中枯燥的部分,讓人有更多時間留給工作以外有意義的事。
約三分之一提及。希望 AI 帶來的經濟成果能被廣泛分享,而不是只集中在少數人手上——這是共享的繁榮。
前兩大主題乍看矛盾——一邊想跟 AI 一起工作、保有意義,一邊又想把苦差事自動化、換取自由時間。但這兩者可以並存:人們要的不是全有全無,而是一種平衡,讓 AI 接手枯燥重複的部分,把人的時間留給真正需要判斷與情感投入的工作。這正呼應整份報告反覆出現的主題——AI 帶來的變化,最好是 輔助(augmenting) 而不是取代(displacing)人的價值。
小試身手
三篇文章的最後一站,來檢查一下你抓到重點了沒。
三篇 Anthropic 文章讀到這裡:你看過 Agent 怎麼被設計、怎麼被餵養情境,也看過人們怎麼感受這一切——這正是理解今天 AI 產業最關鍵的三個切片。