精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

比 o3 更快更準(zhǔn)?聽說有人打造了一個超強郵件助手 ART·E 原創(chuàng)

發(fā)布于 2025-6-11 07:02
瀏覽
0收藏

你有沒有遇到過這種情況?

突然收到一條消息:“我弟弟周五航班的時間是幾點?”
你打開郵箱,翻來覆去地查找,輸入關(guān)鍵詞,一頁一頁瀏覽,好不容易才找到那封關(guān)鍵郵件。

這種操作在 2025 年還存在,是不是有點反人類了?

最近,有一個項目就瞄準(zhǔn)了這個痛點,推出了一個名叫 ART·E 的電子郵件研究代理。它并不是那種“看起來很厲害”的模型,而是真正能幫你從海量郵件中快速準(zhǔn)確找到答案的工具。

最讓人驚訝的是,它的表現(xiàn)竟然超過了 o3,不僅回答正確率更高,運行速度更快,成本也低了將近 64 倍。

比 o3 更快更準(zhǔn)?聽說有人打造了一個超強郵件助手 ART·E-AI.x社區(qū)

比 o3 更快更準(zhǔn)?聽說有人打造了一個超強郵件助手 ART·E-AI.x社區(qū)

ART·E 是什么?它真的有用嗎?

ART·E 全稱 ART·E(可能是某個縮寫,但目前還沒公開),是一個通過強化學(xué)習(xí)訓(xùn)練出來的 AI 助手,專門用于從你的郵箱中查找和回答問題。

比如:

  • “RSVP 方式是什么?”
  • “修訂版 anexb.doc 文件在哪兒下載?”
  • “公司差旅政策里關(guān)于酒店報銷的規(guī)定是什么?”

這些問題聽起來是不是很眼熟?沒錯,這就是我們?nèi)粘I钪薪?jīng)常碰到的真實場景。

而 ART·E 的目標(biāo)很簡單:讓你不再手動翻找郵件,直接發(fā)問,它就能給出答案。

更夸張的是,它不僅能回答出這些問題,還能告訴你這些答案來自哪幾封郵件,出處一目了然。

數(shù)據(jù)從何而來?Enron 郵件庫成了訓(xùn)練寶庫

為了訓(xùn)練這樣一個模型,首先需要一個龐大的數(shù)據(jù)集。

于是開發(fā)者們盯上了 Enron——這家在 2001 年因財務(wù)造假被起訴的能源公司。當(dāng)時公布的近 50 萬封郵件,意外地成為了研究人員的寶藏。

最終,他們從中挑選了 8 個員工的郵箱作為測試集,另外選了 20 個作為訓(xùn)練集。每個郵箱至少包含 5,000 封郵件,有些甚至超過 10,000 封。

光有郵件還不夠,還需要大量真實的問題與答案對來模擬用戶可能提出的查詢。

于是,GPT-4.11 被派上用場了。每批處理 20 封郵件,自動生成多個問題和答案,同時還會打一個“how_realistic”分值,來過濾掉那些不合理的提問。

最終,得到了一個包含約 4000 個問題的合成數(shù)據(jù)集。

舉幾個真實的例子看看你就明白了:

問題

答案

來源

周二下午與 EES 會議討論什么問題?

強制公用事業(yè)公司支付拖欠的 PX 信用額度、是否應(yīng)向客戶收取新的 1 分附加費、是否應(yīng)將客戶重新轉(zhuǎn)回捆綁式服務(wù)等

Expand Source

我去科羅拉多斯普林斯的大陸航空航班確認(rèn)號是多少?

N1BTZH

Expand Source

e-commerce交易禁運國家有哪些?

巴林、伊拉克、科威特、黎巴嫩、利比亞、阿曼、卡塔爾、沙特阿拉伯、敘利亞、阿聯(lián)酋、也門

Expand Source

這些數(shù)據(jù)既貼近現(xiàn)實,又具備代表性,非常適合用來訓(xùn)練和評估模型。

工具設(shè)計簡潔高效,只圍繞核心任務(wù)展開

為了讓模型專注于核心任務(wù),環(huán)境的設(shè)計也被盡可能簡化。

提供了三個基礎(chǔ)工具函數(shù):

def search_emails(keywords, sent_after=None, sent_before):
    """根據(jù)關(guān)鍵詞及時間范圍搜索郵件"""
    # 返回最多10封匹配的郵件ID和摘要片段
    
def read_email(message_id):
    """讀取指定ID郵件的完整內(nèi)容"""
    
def return_final_answer(answer: str, sources: list[str]):
    """返回最終答案及引用郵件ID列表"""

這三個工具已經(jīng)足夠讓模型完成大部分的操作了。

所有數(shù)據(jù)都存儲在一個 SQLite 數(shù)據(jù)庫中,并使用 FTS5 全文檢索引擎來加速搜索。

整個流程也非常簡單:

  1. 接收初始提示詞:任務(wù)描述 + 用戶問題;
  2. LLM 生成下一步動作(調(diào)用哪個工具);
  3. 執(zhí)行工具,獲取結(jié)果;
  4. 將工具返回的信息加入上下文;
  5. 重復(fù)上述步驟,直到返回答案或達(dá)到最大步數(shù)(默認(rèn)為 10)。

沒有復(fù)雜的遞歸邏輯,也沒有花里胡哨的中間層,就是最為直接的執(zhí)行路徑。

測試現(xiàn)成模型:別急著訓(xùn)練,先看看大模型能干啥

很多人拿到新任務(wù)第一反應(yīng)就是“趕緊訓(xùn)練一個模型”,但在正式訓(xùn)練之前,先嘗試一些現(xiàn)成的大模型其實是非常有必要的。

原因有幾個:

  1. 可能你發(fā)現(xiàn)現(xiàn)有的模型已經(jīng)做得很好了,根本不需要再訓(xùn)練;
  2. 很多時候模型表現(xiàn)差是因為提示詞缺失、工具不可靠或者任務(wù)模糊,這些問題 RL 也解決不了;
  3. 最重要的是,當(dāng)你最終超越這些模型時,那一刻的成就感會讓你覺得一切努力都值得。

所以這次也測試了不少主流模型,包括 GPT-4o、Qwen-14B、o3、o4-mini 等等。

并通過 LLM-as-judge 的方式來做自動評估:

def judge_answer(golden_answer, model_answer):
    """判斷模型回答是否正確"""
    prompt = f"請比較以下兩個答案是否一致:\n\nGolden Answer: {golden_answer}\nModel Answer: {model_answer}"
    response = call_llm(prompt)
    return response.strip().lower() == "yes"

結(jié)果顯示,即使是目前最強的大模型,在這類任務(wù)上的準(zhǔn)確率也不高。這就為我們提供了改進的空間。

獎勵函數(shù)怎么設(shè)計?告訴模型你要什么

這是整個過程中最關(guān)鍵的一環(huán)之一。

很多人都會誤解:我已經(jīng)有一個評價函數(shù)了,還需要什么獎勵函數(shù)?

其實不然。雖然我們可以用 LLM 作為裁判來衡量答案是否正確,但這只是一個最終目標(biāo)。而在 RL 中,我們還可以引導(dǎo)模型同時優(yōu)化多個指標(biāo),比如:

  • 準(zhǔn)確性(Correctness)
  • 幻覺抑制(Hallucination Penalty)
  • 步數(shù)最小化(Turn Minimization)

最終采用的獎勵函數(shù)如下:

def calculate_reward(correct, hallucinated, turns):
    base_reward = 1.0 if correct else -1.0
    hallucination_penalty = -0.5 if hallucinated else 0
    turn_bonus = 0.1 * (10 - turns) / 10  # 鼓勵更少步驟
    return base_reward + hallucination_penalty + turn_bonus

其中:

  • ??correct?? 表示答案是否正確;
  • ??hallucinated?? 表示是否虛構(gòu)答案;
  • ??turns?? 是完成任務(wù)所用的步驟數(shù)。

這個函數(shù)背后的核心思想在于:既要鼓勵模型回答正確,又要懲罰錯誤行為(如幻覺),還要讓它盡可能高效完成任務(wù)。

比 o3 更快更準(zhǔn)?聽說有人打造了一個超強郵件助手 ART·E-AI.x社區(qū)

比 o3 更快更準(zhǔn)?聽說有人打造了一個超強郵件助手 ART·E-AI.x社區(qū)

訓(xùn)練過程揭秘:GRPO + ART 庫實戰(zhàn)

訓(xùn)練部分使用的是他們自己開源的 ART(Agent Reinforcement Trainer)庫,采用 Group Relative Policy Optimization(GRPO)算法。

整個流程非常清晰:

  1. 加載一批問題(每次加載 12 個);
  2. 每個問題跑 4 次軌跡(trajectory);
  3. 對每個軌跡計算獎勵;
  4. 使用 GRPO 公式更新模型權(quán)重;
  5. 每 30 步運行一次驗證集測試;
  6. 直到模型在驗證集上停止提升為止。

完整的訓(xùn)練腳本只有幾十行代碼:

from art.trainer import GRPOTrainer
from art.envs.email_agent_env import EmailAgentEnv

env = EmailAgentEnv()
trainer = GRPOTrainer(env=env, model="qwen-14b", reward_func=calculate_reward)

# 開始訓(xùn)練
trainer.train(
    dataset_path="data/synthetic_qa_dataset.json",
    num_epochs=2,
    learning_rate=1.2e-5,
    batch_size=12,
    rollout_per_questinotallow=4,
    save_dir="results/art-e/",
    log_to_wandb=True
)

訓(xùn)練監(jiān)控方面也有一些小技巧:

  • 觀察獎勵標(biāo)準(zhǔn)差:如果所有軌跡得分接近,說明模型陷入局部最優(yōu);
  • 跟蹤多個指標(biāo):包括準(zhǔn)確率、幻覺率、平均步數(shù)等;
  • 定期查看模型輸出:防止 Reward Hacking,比如模型學(xué)會了重復(fù)調(diào)用同一個工具來“占滿”回合數(shù)從而拿更多獎勵。

最終,整個訓(xùn)練在一塊 H100 GPU 上完成,耗時不到一天,總成本約為 80 美元。

性能對比:ART·E vs o3,誰更勝一籌?

最后來看一下 ART·E 的實際表現(xiàn):

指標(biāo)

ART·E

o3

準(zhǔn)確率

89%

70%

平均步數(shù)

3.2

4.1

運行成本($/query)

$0.002

$0.128

幻覺率

2.3%

8.9%

可以看到,ART·E 不僅在準(zhǔn)確性上遠(yuǎn)超 o3,在成本和效率上也實現(xiàn)了質(zhì)的飛躍。更關(guān)鍵的是,它能回答很多 o3 根本無法理解的問題。

比 o3 更快更準(zhǔn)?聽說有人打造了一個超強郵件助手 ART·E-AI.x社區(qū)

結(jié)語:通往通用 Agent 的一小步

比 o3 更快更準(zhǔn)?聽說有人打造了一個超強郵件助手 ART·E-AI.x社區(qū)

ART·E 的誕生并不是終點,而是探索真正智能代理(Intelligent Agent)旅程中的重要一步。

它證明了一個道理:即使是最前沿的問題,也可以通過合理的方法、合適的數(shù)據(jù)以及一點巧思,打造出令人驚艷的產(chǎn)品。


本文轉(zhuǎn)載自??Halo咯咯??    作者:基咯咯


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
標(biāo)簽
已于2025-6-11 07:02:01修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
久久婷婷人人澡人人喊人人爽| 欧美精品少妇videofree| 中文字幕国内自拍| 操你啦视频在线| 99国产精品99久久久久久| 国产精品精品视频一区二区三区| 国产精品三区在线观看| 西瓜成人精品人成网站| 3d成人动漫网站| 1024精品视频| 日韩少妇视频| 欧美激情一区在线观看| 国产经品一区二区| 波多野结衣电影在线播放| 欧美日韩三级| 在线观看亚洲视频| 日本黄色片在线播放| 精品国产一区二| 色999日韩国产欧美一区二区| 中文字幕一区二区三区在线乱码| 飘雪影视在线观看免费观看| 岛国精品一区二区| 91在线视频免费| 亚洲国产成人精品女人久久| 影音先锋亚洲精品| 久久国产精彩视频| 五月婷婷六月香| 亚洲精品亚洲人成在线观看| 精品捆绑美女sm三区| 五月婷婷六月合| 伊人色综合一区二区三区影院视频 | 国产精品女上位| 韩日午夜在线资源一区二区| www.黄色片| 国产一区二区三区在线看麻豆| 国产精品极品在线| 探花国产精品一区二区| 久久一本综合频道| 国产91精品久久久久久| 国产成人自拍视频在线| 在线国产日韩| 久久久久中文字幕2018| 久青草免费视频| 欧美日韩一区二区三区四区在线观看| 日韩视频在线观看免费| 日本成人精品视频| 91亚洲国产| 北条麻妃久久精品| 日本a级片视频| 永久91嫩草亚洲精品人人| 久久五月天色综合| 亚洲成人生活片| 欧美精品色网| 欧美福利在线观看| 久久网一区二区| 亚洲国产日韩欧美一区二区三区| 欧美国产日韩视频| 中文在线观看免费网站| 亚洲毛片视频| 欧洲美女7788成人免费视频| 国产精品视频一区在线观看| 视频一区免费在线观看| 国产精品亚洲自拍| 国产精品久久欧美久久一区| 国产精品一区专区| 国产欧美一区二区在线播放| 肉丝一区二区| 久久精品亚洲国产奇米99| 亚洲丰满在线| 在线观看操人| 大伊人狠狠躁夜夜躁av一区| 日日碰狠狠躁久久躁婷婷| 粉嫩91精品久久久久久久99蜜桃| 欧美人动与zoxxxx乱| 图片区乱熟图片区亚洲| 国偷自产av一区二区三区| 亚洲乱码国产乱码精品精天堂| xxxx日本免费| 亚洲成人av| 97久久精品人人澡人人爽缅北| 中文字幕69页| 国产在线播放一区| 极品日韩久久| 婷婷在线视频| 亚洲高清视频在线| 91香蕉视频污版| 日韩欧美一级| 亚洲色图在线观看| 国产乱国产乱老熟300| 国产乱码精品| 51精品国产人成在线观看| 午夜成人免费影院| 国产精品不卡一区| 国产一区二区视频播放| 日本一区二区中文字幕| 亚洲精品狠狠操| 国产wwwwxxxx| 亚欧美中日韩视频| 亚洲自拍中文字幕| 番号集在线观看| 亚洲国产另类av| 性欧美1819| 私拍精品福利视频在线一区| 久久久成人精品视频| 成人午夜淫片100集| 国产一区二区三区蝌蚪| 日本在线视频不卡| av在线最新| 4438亚洲最大| 久久成人激情视频| 亚洲伦理精品| 999国产视频| 男人的天堂在线视频免费观看 | 日本黄色www| 日韩一区电影| 国产盗摄xxxx视频xxx69 | 一本色道久久88精品综合| 国产午夜精品无码| 国产一区二区三区精品视频| 亚洲电影免费| 三上悠亚激情av一区二区三区| 精品成人私密视频| 久久国产精品二区| 国产精品综合在线视频| 亚洲天堂av免费在线观看| 日韩中文影院| 亚洲小视频在线| 中文字幕日韩免费| 久久精品一级爱片| 少妇高清精品毛片在线视频| 午夜精品影视国产一区在线麻豆| 78m国产成人精品视频| 隣の若妻さん波多野结衣| 一区二区三区在线视频观看| 亚洲第一成肉网| 亚州av乱码久久精品蜜桃| 国产欧美精品一区二区三区介绍| 黄色大片在线看| 色婷婷亚洲一区二区三区| 日本不卡视频一区| 亚洲区欧美区| 麻豆精品传媒视频| 午夜影院在线观看国产主播| 日韩国产高清污视频在线观看| 久草视频精品在线| 成人国产精品免费观看| 国产精品又粗又长| 欧美成人基地| 人九九综合九九宗合| 男人av在线| 91精品办公室少妇高潮对白| 一区二区精品免费| 捆绑变态av一区二区三区| 亚洲精品高清国产一线久久| 四虎国产精品免费久久5151| 久久影视电视剧免费网站| va视频在线观看| 亚洲国产精品麻豆| 亚洲国产无码精品| 日本美女视频一区二区| 一区二区视频在线免费| 成人51免费| 欧美激情网站在线观看| 手机在线观看免费av| 色94色欧美sute亚洲13| 天堂网中文在线观看| 国产成人a级片| 国产欧美在线一区| 欧美高清视频手机在在线| 91精品国产99久久久久久红楼 | 亚洲一区二区乱码| 日本美女一区二区| 日韩欧美视频免费在线观看| 嫩草国产精品入口| 国产有码一区二区| 美女航空一级毛片在线播放| 亚洲男人天堂古典| 国产一区二区在线播放视频| 亚洲影视在线观看| 久久久久久久久久久久久久久| 久久se这里有精品| 国产在线播放观看| 日韩一区三区| 国产一区二区三区奇米久涩| 成人免费黄色| 久久久在线观看| fc2在线中文字幕| 日韩精品一区二区三区视频播放| 欧美 日韩 精品| 亚洲欧洲综合另类在线| 免费a在线观看播放| 久久精品国产亚洲aⅴ| 3d动漫一区二区三区| 国产精品不卡| 欧美日韩亚洲综合一区二区三区激情在线| 四虎在线精品| 日本一区二区三区四区视频| 91最新在线视频| 亚洲色图激情小说| 日韩专区第一页| 在线播放/欧美激情| 在线免费黄色av| 夜夜揉揉日日人人青青一国产精品| 六月婷婷七月丁香| 成人午夜av影视| www.污污视频| 久久久久免费| 成人一对一视频| 午夜精品av| 一本一道久久a久久综合精品| 亚洲美女久久| 国产高清在线精品一区二区三区| 成人激情久久| 国产日韩精品视频| jizzyou欧美16| 热久久这里只有| 久久青草伊人| 欧美极品美女电影一区| 国产黄a三级三级三级av在线看| 国产亚洲欧美日韩美女| 日本在线丨区| 亚洲精品久久久久久下一站| 性少妇videosexfreexxx片| 欧美日韩国产一区| 老熟妇一区二区三区啪啪| 欧美性xxxx在线播放| 日本系列第一页| 亚洲综合五月| 成人美女在线观看| 久久久av亚洲男天堂| 在线观看中文字幕2021| 一本色道久久加勒比精品| 国产污视频在线看| 亚洲国产另类av| 久久精品欧美一区二区| 亚洲精品日产精品乱码不卡| 熟女少妇a性色生活片毛片| 国产精品网友自拍| www..com.cn蕾丝视频在线观看免费版| 26uuu国产在线精品一区二区| 免费日本黄色网址| 91网上在线视频| 日本xxx在线播放| 91视频一区二区三区| 成人网站免费观看| 91视频你懂的| 国产精成人品免费观看| 日本一区二区高清| 成年人看的免费视频| 国产精品国产三级国产aⅴ无密码| 久久久久亚洲AV成人无在| 国产精品女同一区二区三区| 青青青手机在线视频| 国产精品黄色在线观看| 日韩在线中文字幕视频 | 欧美日韩午夜视频| 一级做a爱片久久| 国产精品7777777| 91久久精品一区二区三区| 亚洲色成人www永久网站| 欧美视频在线不卡| 国产同性人妖ts口直男| 亚洲国产精品久久久久久| 色哟哟在线观看| 最近2019中文字幕大全第二页| 黄av在线免费观看| 国内精品美女av在线播放| 伊人网在线播放| 国产日韩欧美视频| 成人在线tv视频| 欧美日本韩国国产| 91精品国产91久久久久久密臀| 青青青青在线视频| 模特精品在线| 午夜激情影院在线观看| 9人人澡人人爽人人精品| 中文字幕成人动漫| 亚洲欧美日韩国产中文在线| 97超碰人人干| 欧美视频一区二区三区在线观看 | 波多野结衣精品在线| 亚洲ⅴ国产v天堂a无码二区| 亚洲欧美一区二区不卡| 91视频免费网址| 欧美高清视频在线高清观看mv色露露十八 | 国产精品一区三区| 亚洲第一页av| 亚洲视频一区在线观看| 日韩在线观看第一页| 欧美丰满嫩嫩电影| 免费看男男www网站入口在线| 久久精品人人做人人爽| 特黄毛片在线观看| 亚洲综合视频1区| 精品精品久久| 男人添女荫道口图片| 久久99精品国产麻豆婷婷| 亚洲 欧美 日韩在线| 国产精品毛片大码女人| 国产无遮挡呻吟娇喘视频| 91精品国产入口| 狠狠色伊人亚洲综合网站l| 欧美国产日本在线| 日韩毛片网站| 日韩尤物视频| av不卡在线看| 国产精品一级无码| 国产精品久久久一区麻豆最新章节| 日韩av黄色片| 日韩一区二区电影在线| 91电影在线播放| 26uuu亚洲伊人春色| 视频精品二区| 一区中文字幕在线观看| 蜜臀精品久久久久久蜜臀| 无遮挡aaaaa大片免费看| 一区二区理论电影在线观看| 一二三区中文字幕| 伊人成人开心激情综合网| 亚洲天堂资源| 国产伦精品一区二区三区高清| 亚洲一区二区三区无吗| 亚洲天堂国产视频| 国产精品三级视频| 最近中文字幕在线免费观看| 亚洲日本成人网| 色是在线视频| 久久免费视频1| 国产精品日本| 国产精品亚洲无码| 狠狠久久五月精品中文字幕| 性xxxfllreexxx少妇| 久久久免费在线观看| 大型av综合网站| 日韩精品在线视频免费观看| 成人午夜大片免费观看| 日本三级午夜理伦三级三| 欧美精品一区二区三区一线天视频| 尤物在线网址| 91手机在线播放| 欧美日韩综合| 精品人妻一区二区免费| 亚洲一区二区美女| 手机在线观看免费av| 国产91成人在在线播放| 亚洲宅男一区| 久久综合伊人77777麻豆最新章节| 国产日韩三级在线| 亚洲一级黄色大片| 久久天天躁狠狠躁夜夜躁| 日韩av综合| 免费一级特黄毛片| 91网站在线观看视频| 国产精品免费精品一区| 中文国产亚洲喷潮| www.久久99| 91午夜在线观看| 26uuu精品一区二区在线观看| 在线观看亚洲黄色| 精品国产视频在线| 97se亚洲国产一区二区三区| 337p粉嫩大胆噜噜噜鲁| 国产婷婷一区二区| 97视频免费在线| 久久久久久国产精品三级玉女聊斋| 欧美黄色录像| 哪个网站能看毛片| 国产精品美女久久久久久久久久久 | 欧美一级视频精品观看| japanese色国产在线看视频| 鲁鲁狠狠狠7777一区二区| 久久99这里只有精品| 久久国产精品二区| 国产香蕉精品视频一区二区三区| 97久久精品一区二区三区的观看方式| 男人天堂a在线| 国产欧美日韩综合| 国产成人精品av在线观| 欧美亚洲日本黄色| 99久久精品费精品国产| 男女性杂交内射妇女bbwxz| 91久久免费观看| 欧美1234区| 亚洲视频导航| hitomi一区二区三区精品| 在线观看免费观看在线| 久久久亚洲国产天美传媒修理工| 精品中文字幕一区二区三区av| 天天操精品视频| 色综合天天性综合| 色呦呦呦在线观看| 日韩电影天堂视频一区二区| 丁香激情综合国产| 中文字幕视频一区二区| 国精产品一区一区三区有限在线| 久久一区91| a毛片毛片av永久免费| 日韩欧美亚洲另类制服综合在线| 精品视频一区二区三区四区五区| 蜜臀精品一区二区|