01

這份調查是怎麼來的

當使用紀錄回答不了「你怎麼想」,Anthropic 決定直接開口問

監視器拍得到「做了什麼」,拍不到「怎麼想」

前面幾章的分析材料,都是使用紀錄——什麼時候問了什麼問題、產出了什麼東西、用了多少運算資源。這些數字很客觀,卻有一個天生的盲點:它們只能告訴我們使用者「做了什麼」,卻無法告訴我們使用者「怎麼想」。

紀錄可以告訴你「這個人常常請 Claude 直接把整份報告寫完」,但它沒辦法告訴你:這個人是因為信任 AI 才這樣做,還是因為工作太忙迫不得已?他對這件事有沒有不安?他覺得自己的工作會不會因此消失?

要回答這些問題,唯一的辦法就是直接問。於是在 2026 年 4 月,Anthropic 推出了 Anthropic Economic Index Survey(AEI 調查)。

🏪
先給你一個畫面

想像一間便利商店裝了監視器,能精準記錄「誰在幾點幾分拿了什麼商品去結帳」。畫面很準,卻永遠回答不了「這位客人今天心情好不好」「他覺得這間店的服務有沒有進步」。想知道這些,店長只能走過去問——這正是 AEI 調查在做的事。

直接讀原文,旁邊就是白話

這篇報告怎麼描述調查的起點與做法?我們挑幾句關鍵原文,左邊放原文、右邊放白話中文,一句對一句。

原文 · Anthropic Economic Index In April 2026, we launched the Anthropic Economic Index Survey to build on this work. We link survey responses to usage data from mid-May to early June using privacy-preserving methods. We randomly sample up to 20 sessions per person within this time window (across Claude.ai, Cowork, and Claude Code, so that the mix of sessions reflects each person's typical usage across surfaces). We exclude respondents with fewer than five sessions to reduce sampling noise. The Economic Index Survey is not representative of the general population.
白話翻譯

2026 年 4 月,我們推出了 Anthropic Economic Index Survey,延續先前的研究。

我們用隱私保護技術,把問卷回答跟 5 月中到 6 月初的使用資料串接起來。

在這段期間內,每位受訪者隨機抽樣最多 20 個工作階段(涵蓋 Claude.ai、Cowork、Claude Code,讓樣本組合反映這個人跨介面的實際使用習慣)。

我們排除掉工作階段少於 5 個的人,藉此降低樣本噪音。

這份調查並不能代表一般大眾——這件事,報告自己講得很白。

🔗
串接的精神:像病歷去識別化研究

醫院研究人員能分析大量病歷找出疾病趨勢,但看到的是去除姓名、身分證號的資料。AEI 調查把問卷回答跟使用紀錄串接時,用的是同一種精神——保留分析價值,去除可識別個人的資訊。最後成功串接的樣本大約 9,700 人

先看「誰回答了」,再看「他們說了什麼」

在解讀任何調查結果之前,養成一個習慣:先確認樣本偏差有多大。AEI 調查的樣本組成,跟美國實際的職業分布差很多:

30%
電腦與數學相關職業

佔調查樣本約 30%,但只佔美國實際就業市場約 4%——嚴重過度代表。

23%
管理職

佔調查樣本 23%,但只佔美國就業市場 7%;更妙的是它只佔 Claude 使用工作階段的 4%。

體力型職業

運輸物流、餐飲服務、營建等職業,在調查樣本與 Claude 使用紀錄中都明顯偏低。

⚠️
管理職的落差告訴我們什麼?

管理職佔問卷回答 23%,卻只佔 Claude 使用工作階段 4%。這意味著很多管理者是用 Claude 做「管理工作之外」的事情(例如寫信、整理資料),而不是把 Claude 當管理決策的助手。這份調查更能代表「知識工作者,尤其是工程師與管理者」怎麼看 AI,不能直接套用在所有職業身上。

量 AI 影響力的三把尺

研究 AI 對工作的影響時,常用一個詞叫職業暴露度——某個職業裡,有多少比例的任務「可以用 AI 做」。但這句話其實藏著三把完全不同的量尺:

📊
觀察暴露度
Observed Exposure

實際去看 Claude 的使用紀錄,統計「這個職業的哪些任務,已經真的被人拿來讓 Claude 做」。回顧式、保守,只算已經發生的事。就像看電鍋這個月「真的煮過」哪些菜。

🗣️
自我報告暴露度
Reported Exposure

直接問受訪者:「你覺得 AI 現在能獨立完成你多少比例的工作任務?」是憑感覺回答的主觀數字,容易受樣本偏差影響。

🚀
理論暴露度
Theoretical Exposure

不看實際使用,而是評估「以 AI 現有能力,理論上可以做到這個職業裡多少任務」。前瞻式、樂觀,算的是能力上限。就像食譜書上「號稱能煮」的所有菜色。

🍚
電鍋比喻

把電鍋想成 AI:使用紀錄本上「這個月真的煮過」的菜,是觀察暴露度;隨附食譜書上「理論上能煮」的菜,是理論暴露度。食譜書列的菜色一定比廚房實際做過的多——能力存在,不代表真的被用到。

核心發現:大家「覺得」的,介於中間

調查也問了受訪者對未來的看法——預期暴露度:你覺得一年後 AI 能做到多少?結果發現一個一致的模式:自我報告的暴露度,系統性地高於觀察暴露度,但又低於理論暴露度上限。也就是說,大家覺得 AI 比實際觀察到的更強,但又還沒強到理論上限。

把三把尺按數值從低到高排一次,拖拖看:

觀察暴露度
自我報告暴露度
理論暴露度
最低:只算已經真的被使用的部分
拖到這裡
中間偏高估:受訪者自己感覺的比例
拖到這裡
最高:AI 能力上限,不管有沒有真的被用到
拖到這裡
💪
健身房比喻

問全體會員「真正到場次數」(觀察暴露度)通常偏低,很多人辦了卡卻很少去;問「願意填滿意度問卷的會員」自己覺得用了多少潛力(自我報告暴露度),這群人本來就比較投入,回報會偏高;問教練「理論上這張卡能提供多少訓練效果」(理論暴露度),答案幾乎一定是「幾乎全部」——這是設施能力的天花板,跟誰真正用它無關。

這個落差不是壞消息,是行動指南

下次覺得「AI 已經能做我工作的一大半」時,先想想這個感覺可能被高估了。這個排序關係其實給我們一個實用的自我檢查工具:

  • 如果理論暴露度高、觀察暴露度低,代表潛力還沒被開發——可能是教育訓練不足、流程沒調整、信任還沒建立,這是機會訊號,不是立即威脅。
  • 如果觀察暴露度已經很高,代表變化已經真實發生,值得認真規劃應對。

制定團隊或組織的 AI 導入計畫時,優先參考「已驗證能做到的事」——也就是觀察暴露度,而不是單純依賴大家的主觀感受,才不會過度樂觀地規劃資源配置。

🧭
下次看到「AI 能做 XX% 的工作」時

先問自己一句:這是觀察到的,還是理論上的?分清楚,你的判斷就不會被牽著走。

小試身手

看懂這一格,你就抓住了整章的量尺骨架。來兩題:

使用紀錄(如 Claude 對話紀錄)跟問卷調查最主要的差別是什麼?
如果某個職業的「理論暴露度」很高,但「觀察暴露度」很低,最合理的解讀是什麼?
🔭
下一站

這些量尺量出來,大家到底覺得 AI 現在跟未來的能力如何?往下捲,看受訪者怎麼說。

02

大家覺得 AI 能力如何

近六成人相信明年更強、但高所得國家與資深老手反而喊「沒那麼厲害」——還有一個會讓你愣一下的自動化悖論

先問你兩個問題,Anthropic 也是這樣問受訪者的

上一模組看完「調查怎麼來的」,這一模組要看調查真正問出了什麼。Anthropic Economic Index Survey 問了每位受訪者兩個問題:「AI 現在能完全獨立做完你多少比例的工作?」以及「你猜一年後呢?」, 選項是五段等級,從「幾乎沒有」到「幾乎全部」。

結果很一致:接近六成的人,對「一年後」選了比「現在」更高的等級,超過三分之一甚至認為, 一年後 AI 能做完自己工作的「大部分」或「幾乎全部」。這不是一小撮樂觀者,是一個相當普遍的預期。

🌊
先給你一個畫面:潮水上漲

把不同職業對 AI 能力的感知,想成海邊不同地點量到的水位。有些地方地勢低,水已經淹到腳踝;有些地方地勢高,水還在遠方沙灘上。但如果你問「接下來一年潮水會再漲多高」,不同地點量到的漲幅卻出奇地相似——因為潮水上漲是整片海洋一起發生的事,不會因為某處地勢高,漲潮速度就變慢。這就是本節標題「rising tide 潮水上漲」要說的畫面。

直接讀原文,旁邊就是白話

這幾句話,是整份報告開場定調的關鍵句——先讀原文,再看白話怎麼說。

原文 · Anthropic Economic Index Survey We find that most respondents expect significant AI progress over the next year. While people's perception of AI capabilities depends on their experience, where they live, and how exposed their job is to AI, their expectations about the pace of future progress are strikingly uniform, consistent with a "rising tide," in which AI capabilities improve broadly. Close to 6 in 10 respondents chose a higher band for next year than for today. Over a third expect AI to be able to do most or nearly all of their work tasks next year. In other words, a software engineer and a construction manager anticipate roughly the same increment of progress within their profession.
白話翻譯

我們發現,大多數受訪者都預期,接下來一年 AI 會有明顯的進步。

雖然大家對「AI 現在能力如何」的感知,跟他的經驗、住在哪裡、工作暴露度都有關,但對「未來進步速度」的預期卻驚人地一致——就像「潮水上漲」,AI 能力是廣泛地、整片一起提升的。

接近六成的受訪者,對「一年後」選的等級比「現在」更高。

超過三分之一的人,預期一年後 AI 能做完他們工作的大部分、甚至幾乎全部。

換句話說,一個軟體工程師跟一個工地主管,對自己這行「進步幅度」的預期,其實差不多。

💡
起點不同,漲幅相似

這正是本節最重要的區分:「現在覺得 AI 能做多少」因人而異、落差很大;但「覺得明年會進步多少」卻幾乎不分職業,全部人一致看漲。

三個發現,拼出這一節的全貌

把本節三小節的核心數字放在一起看,你會看到一個相當有畫面的故事:

🌊
普遍看漲的預期

近六成受訪者覺得「一年後」AI 能做的比「現在」更多,超過三分之一認為明年 AI 能做完自己工作的大部分或幾乎全部。

📉
所得與經驗的反差

高所得國家受訪者回報的 AI 暴露度比低所得國家低約 10 個百分點;15 年以上資深工作者也比新人低約 10 個百分點——現在看得少,不代表未來預期也保守。

🔁
自動化悖論

越常把整段任務直接委託給 Claude 的人,回報的 AI 暴露度越高,對未來也越樂觀——反直覺,但資料一致這樣顯示。

為什麼「有錢」跟「資深」反而覺得 AI比較弱?

這兩個發現乍看違反直覺——高所得國家科技基礎設施通常更完善,理論上該覺得 AI 更好用才對;資深員工經驗豐富,應該更懂得怎麼「使喚」AI 才對。但調查數字剛好相反。

高所得國家:低約 10 個百分點

可能是 AI 對低所得國家勞工日常任務的替代比例其實更高,即使「職業層級」的暴露度指標在高所得國家更高(因為那裡知識工作職業比較多)。IMF 也指出,低所得國家勞工可能缺乏讓 AI 從「取代」變成「輔助」所需的互補技能與基礎設施

15 年以上資深者:低約 10 個百分點

資深工作者在後續問答中最常提到,AI 缺乏判斷力、情境理解,以及建立信任、管理人際關係的能力——這些是靠多年累積的隱性知識 tacit knowledge,很難被一套通用模型複製。

👨‍🍳
老師傅腦中沒寫進食譜的訣竅

給新手廚師跟 15 年老師傅同一套「AI 食譜機器人」:新手可能覺得「哇,大部分工作它都能做」,因為他很多決定本來就是照食譜、照標準流程走;老師傅卻搖頭——機器能照食譜做出標準菜色,但它不知道「這批食材比較老,火要小一點」「這位常客不喜歡太鹹」。這些沒寫進任何食譜書的訣竅,正是最難被複製的部分。

而且有趣的是,這兩個變數只影響「現在」的感知,幾乎不影響「未來一年進步幅度」的預期——又呼應了上一屏「潮水上漲」的一致性:起點不同,但漲幅預期相似。

自動化悖論:先信任才委託,還是先委託才信任?

Anthropic 把使用者跟 Claude 協作的方式分成兩大類:自動化模式(把整個任務直接交出去,例如「幫我把這份文件翻成英文」)跟增強模式(人跟 AI 反覆來回、逐步修改,人全程深度參與)。一個人對話中屬於自動化模式的比例,就是「自動化使用比例」。

本節的核心發現:自動化使用比例越高的人,回報的 AI 暴露度(現在跟一年後)都越高

🔁
反直覺的地方在這裡

你可能以為,越常「偷懶」把整段任務丟給 AI 的人,應該對 AI 的能力比較沒把握才對(畢竟自己沒盯著細節)。但資料剛好相反——委託得越多,反而越覺得 AI 能幹。因果方向可能有兩種,而且兩種都合理,調查資料無法完全區分

委託帶來資訊:把整個任務交給 AI 的人,能直接觀察到它到底能不能把事情做好,這是最直接的「眼見為憑」。② 信任帶來委託:本來就相信 AI 能力強的人,才更願意放手把任務整個交出去——是「先信任、才委託」,不是「先委託、才發現能力強」。

用「工作相關使用比例」或「Claude Code 使用比例」換掉「自動化使用比例」,也能看到類似的正向關係——這三者本身也彼此相關(Claude Code 天生偏自動化、工作任務也常偏自動化)。

🚗
代駕比喻

甲君每次都自己開車,只偶爾在難停車路段讓代駕開一小段,很少機會完整觀察代駕的技術;乙君長途出差直接把整趟路交給代駕,自己在後座休息,親眼見證代駕應付各種路況,因此評價更高。但誰也說不清——是乙君本來就比較信任代駕才敢整趟交出去,還是交出去之後才越來越信任。

小試身手:猜猜看,也想想因果

看完三個發現,來兩題檢查一下有沒有抓到重點——包括那個「先有雞還是先有蛋」的自動化悖論。

自動化使用比例越高的人,對 AI 能力的評價也越高——這背後的因果方向,本節抱持什麼態度?
根據本節,15 年以上資深工作者最常提到 AI「缺乏」的是哪些能力?
🎬
下一站

這些感知會怎麼牽動大家對工作變化、性別差異,以及未來十年的想像?往下捲。

03

工作衝擊、性別差異與對未來的期待

擔心失業,但更擔心「別人」失業;委託越多,反而越樂觀——最後,一起看看大家想要的未來長什麼樣

你擔心自己丟工作,還是更擔心同事丟工作?

調查問了受訪者對未來 12 個月的預期,而且不只問「你自己」,還問了「你的同輩」「資淺同事」「資深同事」。結果:超過三分之一的人認為某些人的 工作責任 會有顯著變化,而認為自己會「非自願丟工作」的比例大約 一成

這個 10%,比美國官方統計的年化非自願離職率(約 13.4%)還要低一點。但因為受訪者偏向知識工作者、工作相對穩定——這群人原本的失業風險基準值可能更低——所以這個「看似偏低」的數字,其實可能已經反映出比這群人平常更高的擔憂。

10%
自認失業機率

受訪者認為自己在未來一年非自願丟工作的機率「很有可能」或「非常有可能」。

13.4%
美國整體年化離職率

BLS JOLTS 統計的整體非自願離職率,10% 其實略低於這個對照基準。

38%
歸咎於 AI 的上限估計

在認為自己可能丟工作的人裡,把原因歸咎於 AI 的比例上限——因為問題把「工作變動」與「失業」合併計算,實際比例可能更低。

🏚️
地震風險評估的比喻

想像每個人都被問:「你自己家有多大機率在地震中受損?」「你朋友家呢?」多數人對「自己家」的評估比對「別人家」樂觀——不是自己家蓋得比較堅固,而是人天生覺得自己的處境比別人更安全可控。這正是本節現象的生活版本。

直接讀原文:誰最讓人擔心?

這一段是整節最扎心的發現——大家最擔心的,不是自己,而是剛入行的 資淺同事。原文+白話對照如下:

原文 · Anthropic Economic Index 10% rated losing their own jobs as likely or very likely. Notably, respondents were on average more worried about job loss for others than for themselves. Respondents were especially worried about job loss for their junior colleagues, with over one third stating that the probability of a junior colleague losing their job in the next year was over 60%. This mirrors a familiar pattern of people rating their own circumstances more favorably than other people’s. A similar phenomenon was observed during Covid, when self-reported financial well-being exceeded perceptions about the national economy.
白話翻譯

10% 的受訪者認為自己丟工作的機率「很有可能」或「非常有可能」。

值得注意的是,受訪者平均而言,更擔心「別人」丟工作,而不是自己。

大家特別擔心資淺同事——超過三分之一的人認為,資淺同事在未來一年丟工作的機率超過 60%。

這呼應了一個常見的心理模式:人們對自己處境的評價,往往比對別人處境更正面。

COVID 期間也觀察過類似現象:人們對自己財務狀況的自評,往往比對整體國家經濟的評分更正面。

🧭
給管理者的具體提醒

如果你是管理者或資深工作者,這個發現在提醒你:團隊裡最需要被主動關注、協助適應 AI 變化的,可能不是你自己,而是剛入行的同事。可以想想他們手上哪些任務最容易被標準化,並幫他們往更需要判斷力的方向轉。

委託得越多,反而越樂觀?

調查測量了 AI 對六個工作品質面向的預期影響: 薪資、工作保障、再就業能力 這三個「錢包相關」面向,加上意義、自主性、人際互動這三個「心裡感受」面向。

結果在全部六個面向上自動化使用比例 較高的人都比使用比例較低的人更樂觀——效果最大的兩個面向是未來薪資跟找到新工作的能力。這聽起來有點反直覺:把工作交給 AI 做得越多,不是應該更擔心被取代嗎?但資料顯示恰恰相反。

研究者也檢查過「會不會只是本來就很興奮的人才又委託又樂觀」——他們控制了 使用年資 (早期 vs 後期採用者的替代指標),結果這個關係幾乎沒有改變,說明不完全是 愛用者選擇效應

🚗
自動駕駛的比喻

天天長途通勤都開自動駕駛的人,因為累積大量第一手經驗,清楚系統哪裡表現好、哪裡需要自己接手,反而對這項技術更樂觀;偶爾用一下、緊張盯著方向盤的人,因為了解有限,反而更悲觀懷疑。不是委託讓人盲目樂觀,是委託帶來的第一手觀察,讓人對能力與邊界有更踏實的認識。

動手配配看:這六個面向,委託越多都更樂觀

把下面六個工作品質面向,全部拖到「委託 AI 越多、越樂觀」這一格——因為原文說得很清楚:全部六個面向都呈現這個同向關係,沒有例外。

薪資 pay
工作保障 job security
意義 meaning
再就業能力
自主性 autonomy
人際互動
自動化使用比例較高的人,對這個面向的預期:更樂觀
全部拖到這裡
📊
順便看生產力數字

大多數受訪者也回報實際的生產力好處:速度提升 86%、涵蓋範圍擴大 82%、品質提升 69%、節省外購成本 27%。68% 說「學到更多」、57% 覺得技能更值錢——而且技能增值感隨自動化使用比例上升,但「學到更多」的比例不論委託多寡都幾乎持平,資料目前看不到技能退化的直接證據(但因為是自我評估,也無法完全排除)。

男女用 Claude 的方式,系統性地不一樣

女性只佔已串接受訪者的 12%,但她們展現的使用模式跟男性有明顯差異——而且這個差異在控制了職業差異之後依然存在,不是單純因為男女從事不同職業造成的。具體來說:女性使用 Claude 於工作的可能性稍微低一些,她們在 Claude Code 上的工作階段佔比低 0.24 個標準差(約 6.3 個百分點),自動化使用比例低 0.33 個標準差(約 7.3 個百分點)。

相對地,女性更常用迭代反覆的方式使用 Claude,並在 chat 介面花更多活躍時間——這被視為更協作式互動的訊號。

🍽️
洗碗機的比喻

有人買了洗碗機就把碗丟進去、按下全自動,完全放手——這對應自動化模式的高使用比例。有人喜歡在旁邊看著、調水溫、多沖一次特別髒的鍋子——這對應增強模式/迭代協作。本節發現:女性平均更傾向後者,男性平均更傾向前者。這不代表誰用得比較好,只是兩種同樣合理的偏好

十年後,AI 經濟該長什麼樣?

調查最後一題是開放式問題:「請大膽想像:十年後由 AI 塑造的經濟,你希望它長什麼樣子?」研究者用分類器把回答歸納成幾個主題,前三大主題如下:

🤝
人機協作、有意義的工作

超過半數受訪者提及。希望能跟 AI 一起完成有意義的任務,希望自己的職業依然重要,也希望新產業誕生、創造新工作機會。

🧹
自動化苦差事、換取自由時間

略超過半數提及。希望 AI 能自動處理工作中枯燥的部分,讓人有更多時間留給工作以外有意義的事。

🥧
共享的繁榮

約三分之一提及。希望 AI 帶來的經濟成果能被廣泛分享,而不是只集中在少數人手上——這是共享的繁榮

前兩大主題乍看矛盾——一邊想跟 AI 一起工作、保有意義,一邊又想把苦差事自動化、換取自由時間。但這兩者可以並存:人們要的不是全有全無,而是一種平衡,讓 AI 接手枯燥重複的部分,把人的時間留給真正需要判斷與情感投入的工作。這正呼應整份報告反覆出現的主題——AI 帶來的變化,最好是 輔助(augmenting) 而不是取代(displacing)人的價值。

小試身手

三篇文章的最後一站,來檢查一下你抓到重點了沒。

根據本節,受訪者對「誰」的失業風險表達出最高程度的擔憂?
「人機協作有意義的工作」與「自動化苦差事換取自由時間」這兩個心願看似矛盾,本節如何解釋兩者可以並存?
🔭
三篇讀完了

三篇 Anthropic 文章讀到這裡:你看過 Agent 怎麼被設計、怎麼被餵養情境,也看過人們怎麼感受這一切——這正是理解今天 AI 產業最關鍵的三個切片。