AI領域,能否讓智能體像人類一樣在計算機上自主完成各種任務,一直是一個具有挑戰(zhàn)性的課題。而今天我們介紹的Cradle框架,正是向這一方向邁出了重要的一步。通過Cradle,基礎模型可以通過屏幕截圖作為輸入,鍵盤和鼠標操作作為輸出,在統(tǒng)一的界面下執(zhí)行復雜的計算機任務。 在2024年6月27日,Cradle框架迎來了重大更新!該框架現(xiàn)已擴展到四款游戲:荒野大鏢客2(RDR2)、星露谷物語(Stardew Valley)、都市:天際線(Cities: Skylines)和Dealer's Life 2,以及包括Chrome、Outlook、Capcut、美圖和飛書在內的各種軟件。此外,我們還發(fā)布了最新的論文。歡迎大家查閱! 通過點擊下方任意視頻縮略圖,觀看Cradle在各大環(huán)境中的表現(xiàn)。 Cradle目前提供對OpenAI和Claude的API訪問,請在項目根目錄創(chuàng)建 示例 前往OpenAI獲取OpenAI API密鑰,或Azure Portal獲取Azure OpenAI的API密鑰,Anthropic獲取Claude的API密鑰。 請按照以下步驟設置Python環(huán)境并安裝所需依賴: 您可以選擇以下任一方式安裝OCR工具Spacy: 或者 由于每個游戲和軟件之間存在巨大差異,我們提供了具體的設置說明: 對于希望將我們的框架應用于新游戲的用戶,這一部分主要展示Cradle的核心目錄和組織結構,我們將重點標注對遷移到新游戲的相關模塊,并提供詳細說明。 在通用計算機控制領域,還有一些其他值得關注的項目: OpenAI's Codex:這是一個由OpenAI開發(fā)的代碼生成模型,能夠通過自然語言指令生成代碼,并執(zhí)行特定任務。它在代碼生成和自動化任務中表現(xiàn)尤為出色。 Google's DeepMind:DeepMind團隊開發(fā)了一系列能夠執(zhí)行復雜任務的AI模型,其中包括AlphaGo、AlphaStar等,它們展示了AI在解決復雜問題和高競爭環(huán)境中的潛力。 IBM Watson:Watson是一個能夠在多領域提供AI解決方案的智能系統(tǒng),廣泛應用于醫(yī)療、金融、教育等領域,通過自然語言處理和機器學習技術,提供智能化服務。 Microsoft's Bonsai:Bonsai是一個由微軟推出的工業(yè)控制AI平臺,能夠通過機器教學和強化學習技術,幫助企業(yè)實現(xiàn)生產流程的智能化和自動化。 每個項目都有其獨特的應用場景和技術優(yōu)勢,它們共同推動了通用計算機控制和智能體技術的發(fā)展。希望Cradle框架能為更多用戶帶來便利,助力基礎模型在通用計算機任務中展現(xiàn)其強大潛力。
? 最新更新
最新視頻
??
??
??
??
??
? 安裝指南
準備環(huán)境文件
.env
文件存儲API密鑰(其中一個即可)。.env
文件內容:OA_OPENAI_KEY = "your_openai_key"
RF_CLAUDE_AK = "your_claude_access_key"
RF_CLAUDE_SK = "your_claude_secret_key"
AZ_OPENAI_KEY = "your_azure_key"
AZ_BASE_URL = "your_azure_base_url"
IDE_NAME = "Code"
設置
Python 環(huán)境
#?克隆倉庫
git?clone?https://github.com/BAAI-Agents/Cradle.git
cd?Cradle
#?創(chuàng)建新conda環(huán)境
conda?create?--name?cradle-dev?python=3.10
conda?activate?cradle-dev
pip?install?-r?requirements.txt
安裝OCR工具
python?-m?spacy?download?en_core_web_lg
pip?install?https://github.com/explosion/spacy-models/releases/download/en_core_web_lg-3.7.1/en_core_web_lg-3.7.1.tar.gz
? 開始使用
? 文件結構
Cradle
├── cache # 緩存GroundingDino和bert-base-uncased模型
├── conf # 環(huán)境和llm模型的配置文件
├── deps # Cradle框架的依賴項,可忽略
├── docs # Cradle框架的文檔,可忽略
├── res # Cradle框架的資源
│ ├── models # 可忽略
│ ├── tool # RDR2的子查找器
│ ├── [games or software] # 游戲或軟件的資源,如rdr2、dealers、skylines、stardew等
├── requirements.txt # Cradle框架的需求文件
├── runner.py # Cradle框架的主入口
├── cradle # Cradle的核心模塊
│ ├── config # Cradle框架的配置
│ ├── environment # Cradle框架的環(huán)境
│ │ ├── [games or software] # 游戲或軟件的環(huán)境
│ ├── gameio # 直接包裝技能注冊和環(huán)境控制的接口
│ ├── log # Cradle框架的日志
│ ├── memory # Cradle框架的記憶模塊
│ ├── module # 目前只有技能執(zhí)行模塊,未來會遷移其他模塊,如動作規(guī)劃、自我反思等
│ ├── planner # Cradle框架的計劃模塊,將統(tǒng)一接口用于動作規(guī)劃、自我反思等模塊
│ ├── runner # 對每個游戲和軟件的執(zhí)行邏輯
│ ├── utils # 一些輔助功能,如保存和加載json
│ └── provider # Cradle框架的提供者模塊
│ ├── augment # 圖像增強方法
│ ├── llm # 調用LLM模型,如OpenAI的GPT-4o、Claude等
│ ├── object_detect # 物體檢測方法
│ ├── process # 用于動作規(guī)劃、自我反思等模塊的預處理和后處理方法
│ ├── video # 視頻處理方法
│ ├── others # 其他操作方法,如保存和加載坐標等
│ └── ...
└── ...
同類項目介紹
文章為作者獨立觀點,不代表DLZ123立場。如有侵權,請聯(lián)系我們。( 版權為作者所有,如需轉載,請聯(lián)系作者 )

網站運營至今,離不開小伙伴們的支持。 為了給小伙伴們提供一個互相交流的平臺和資源的對接,特地開通了獨立站交流群。
群里有不少運營大神,不時會分享一些運營技巧,更有一些資源收藏愛好者不時分享一些優(yōu)質的學習資料。
現(xiàn)在可以掃碼進群,備注【加群】。 ( 群完全免費,不廣告不賣課!)