來勢洶洶的 MCP,就是 AI Agent 的未來?
當全世界的媒體焦點都集中在關稅所帶來的紛擾時,在新聞的小角落,一則關於 AI 的資訊引起了我們的注意: 4 月 9 日,Google DeepMind 的 CEO Demis Hassabis 在 X (前身為 Twitter) 上表示,Google 將在其 Gemini 模型和 SDK(Software Development Kit)中加入對 Anthropic 的 MCP 的支援。他認為 MCP 是一個「好的協定」,並且「正迅速成為 AI Agent時代的開放標準」。
在這之前,上個月底OpenAI已宣布將把 MCP 應用於所有OpenAI的產品,包括 ChatGPT 的桌面應用程式以及在Agents API文件中承認 MCP。而其他AI生態系的參與者,例如 Microsoft 與 Amazon 等,早已宣布支持 MCP,並整合到如 Azure OpenAI、Amazon Q Developer CLI 等服務中。隨著 Google Gemini 的加入,目前全球AI生態系中最主要參與者都已採用並支持了 MCP。
當人們在說 2025 年是 AI Agent 元年,MCP 被廣泛採用與支持是否成為了AI Agent 落地並進入應用的標準?是否所有的軟體開發商都必須擁有自己的 MCP Server?首先,我們必須對什麼是 MCP(Model Context Protocol)有一個基本的了解。
許多人會將 MCP 比做 AI 的「USB Type-C」,即連接 AI 模型與外部資料來源和工具的通用接口。在 MCP 之前,不同的 AI 模型(例如 OpenAI 的 GPT、Anthropic 的 Claude、Google 的 Gemini)有不同的工具調用介面和 API 調用格式。這就像 USB 標準出現之前,各種設備使用不同的連接埠,限制了互通性和便利性。而在 AI 時代,將 AI 模型連接到外部應用程式、軟體和服務(例如 Google Sheet、Slack、Salesforce)通常需要為每個軟體建立獨特的整合方案,包括使用不同的 API、外掛程式或專有連接器。
藉由 MCP,AI Agent 可以存取更廣泛的工具和資料,從而執行更多樣化和複雜的任務。例如,AI Agent 可以透過 MCP 連接到資料庫查詢資訊、調用 API 執行操作、讀取檔案或執行工作流程。目前已經有大量的 Server 被開發出來,涵蓋了各種不同的應用領域。
全球知名投資機構 a16z 為此發表了一篇文章,深度介紹了 MCP 與 AI 工具生態的未來,值得作為我們理解 MCP 的敲門磚。本文節錄部分,幫助讀者快速理解 MCP 的運作方式:
「MCP(Model Context Protocol,模型上下文協議)是一種開放協議,允許系統以一種可廣泛整合各種應用的方式,向 AI 模型提供上下文資訊。MCP 定義了 AI 模型如何調用外部工具、獲取資料以及與應用程序進行串連與互動 。
舉例來說,透過正確的 MCP Server組合,用戶可以將每個客戶端變成一個「萬能 APP」。以 Cursor 為例:雖然 Cursor 是一個程式碼編輯器,但它也是一個良好實作的 MCP客戶端。用戶可以使用 Slack MCP Server將自己變成一個Slack客戶端、使用 Resend MCP Server變成一個電子郵件自動發送器、以及使用 Replicate MCP Server變成一個圖像產生器。
更強大的 MCP 使用方式是在一個客戶端上安裝多個Server來解鎖新的流程,例如可以安裝一個Server從 Cursor 產生網頁前端 UI,同時也可以調用Agent去使用圖像生成的 MCP Server來產生網站的宣傳圖片。
除了 Cursor 之外,現今大多數的使用案例可以歸納為以開發者為中心、本地優先的工作流程,或是使用 LLM 客戶端的全新體驗。
對於每天都在程式碼中工作和生活的開發人員來說,一個普遍的想法是:「我不想為了做 xxx 而離開我的 IDE」。MCP 伺服器是實現這個夢想的絕佳途徑。 開發人員現在無需切換到 Supabase 來查看資料庫狀態,只需要使用 Postgres MCP Server直接從他們的 IDE 執行唯讀 SQL 命令,並用 Upstash MCP Server來建立和管理快取索引。在迭代程式碼時,開發人員還可以利用 Browsertools MCP 來讓Coding Agent存取即時環境以獲取回饋和進行debug。
除了與開發工具互動的工作流程之外,MCP Server解鎖的一個新用途,即能夠透過網路爬蟲,或根據文件自動生成 MCP Server,為Coding Agent添加高度準確的上下文資訊。開發人員無需手動連接外部工具,即可直接從現有的文件或 API 快速啟動 MCP Server,使 AI Agent可以立即訪問這些工具 。這意味著開發人員花費在模板程式碼(boilerplate)上的時間更少,而更多時間可以用於實際使用工具,不論是提取上下文、執行命令,或拓展 AI Agent的能力。」
然而,雖然從近期 MCP 的種種最新發展上,可以看到 MCP 在推動 AI Agent 的發展上扮演著重要的角色,但 MCP 可能不是 AI Agent 的唯一或最終的未來。
在MCP之前,OpenAI的Plugin方案、開源的Langchain、基於Python的Pydantic等,都做過類似的嘗試,希望讓 AI 模型能夠與外部應用程式和資料互動。這些方案都由於一些限制而並未成功,例如過度抽象化、debug能力不足、開發和設定繁瑣笨重等問題,這些問題在MCP身上也同樣存在。
同時,類似MCP的服務也不斷出現,例如 Google 表示支持MCP協議的同時,同樣推出了自己版本的協議Agent2Agent(A2A),試圖填補MCP的不足之處。AI Agent 領域正處於快速發展的階段,現在採用特定的框架(包括底層的協議等)可能會限制未來適應新的技術和思維方式。
所謂新的技術突破,最有可能的就是在底層大型語言模型上的突破。隨著技術迭代,底層AI模型將變得更聰明,使用自然語言和 Python 腳本可能比 MCP 更有效率和靈活。另外,隨著大模型的迭代與技術突破,AI將能夠透過視覺畫面去認識世界,模擬人類和應用程式互動。例如Microsoft近期開源的OmniParser V2,能夠讓AI以人類使用滑鼠的方式操作電腦。在這種情況下,AI 大模型將有更強的通用性。而相比之下,MCP 需要設定客戶端、伺服器和使用 SDK,顯得較為笨重,有可能就此不再被需要。
雖然 MCP 為 AI Agent 的發展提供了一個重要的基礎,解決了許多先前的痛點,並促進生態系統的形成。但MCP並非AI Agent的終極想像,或許像是一個過渡性的解決方案,幫助我們建立更強大的 AI Agent,但最終的形態可能還需要時間來確定。