精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

AI生成高數題,難出新高度:MIT提出可出題做題、評分的算法模型

新聞 人工智能 算法
DeepMind 的一項研究登上《Nature》封面,通過引導直覺解決了兩大數學難題;之后,OpenAI 教 GPT-3 學會了上網,能夠使用基于文本的 Web 瀏覽器。

  

前段時間,DeepMind 的一項研究登上《Nature》封面,通過引導直覺解決了兩大數學難題;之后,OpenAI 教 GPT-3 學會了上網,能夠使用基于文本的 Web 瀏覽器。

就在 2021 年的最后一天, MIT 與哥倫比亞大學、哈佛大學、滑鐵盧大學的聯合研究團隊發表了一篇長達 114 頁的論文,提出了首個可以大規模自動解決、評分和生成大學水平數學問題的模型,可以說是人工智能和高等教育的一個重要里程碑。其實在這項研究之前,人們普遍認為神經網絡無法解決高等數學問題。

AI生成高數題,難出新高度:MIT提出可出題做題、評分的算法模型

值得一提的是,該研究用到了 OpenAI 的 Codex。

這項研究有多厲害呢?我們以下圖為例,下圖展示了計算洛倫茨吸引子及其投影,計算和演示奇異值分解 (SVD) 方法的幾何形狀等。機器學習模型很難解決上述問題,但這項研究表明它們不僅可以解決這些問題,還可以大規模解決所屬課程以及許多此類課程問題。

該研究表明對文本進行預訓練并在代碼上進行微調的神經網絡,可以通過程序合成(program synthesis)解決數學問題。具體而言,該研究可將數學問題轉化為編程任務,自動生成程序,然后執行,以解決 MIT 數學課程問題和來自 MATH 數據集的問題。其中,MATH 數據集是專門用于評估數學推理的高等數學問題最新基準,涵蓋初級代數、代數、計數與概率、數論與微積分。

此外,該研究還探索了一些提示(prompt)生成方法,使 Transformer 能夠為相應主題生成問題解決程序,包括帶有圖象的解決方案。通過量化原始問題和轉換后的提示之間的差距,該研究評估了生成問題的質量和難度。

AI生成高數題,難出新高度:MIT提出可出題做題、評分的算法模型

論文地址:https://arxiv.org/pdf/2112.15594.pdf

方法

數據集

該研究首先從 MIT 的以下六門課程中,每門課程隨機選取了 25 個問題:

  • 單變量微積分;
  • 多元微積分;
  • 微分方程;
  • 概率與統計概論;
  • 線性代數;
  • 計算機科學數學。

對于 MATH 數據集,該研究從每個主題中隨機抽取 5 個問題,并通過在應用線性代數新課程 COMS3251 上的實驗驗證了該方法的結果不僅僅是過擬合訓練數據。

AI生成高數題,難出新高度:MIT提出可出題做題、評分的算法模型

方法流程

如下圖 2 所示,該研究使用 Codex 將課程問題轉換為編程任務并運行程序以解決數學問題。下圖共包含 A-E 5 個面板,每個面板的左側部分顯示了原始問題和重新表述的提示,其中提示是通過添加上下文、交互、簡化描述等形成的。

AI生成高數題,難出新高度:MIT提出可出題做題、評分的算法模型

該研究將從原始課程問題到 Codex 提示的轉換分為以下三類:

  • 原生提示:Codex 提示和原始問題相同;
  • 自動提示轉換:Codex 提示和原始問題不同,由 Codex 自動生成;
  • 手動提示轉換:Codex 提示和原始問題不同,由人工生成。

問題與提示之間的差距

將問題轉換為 Codex 提示的關鍵是:從語義上講,原始問題與產生正確解決方案的提示之間的接近程度。為了度量原始問題和成功提示之間的差距,該研究使用 Sentence-BERT 嵌入之間的余弦相似度,如下圖 3 所示。

AI生成高數題,難出新高度:MIT提出可出題做題、評分的算法模型

Sentence-BERT 使用 siamese 和 triplet 神經網絡結構對預訓練的 BERT 模型進行微調。其中至關重要的是,Sentence-BERT 能夠在句子級別生成語義嵌入,從而可以在長文本之間進行語義相似性比較。

在該研究的實驗中,原始問題和生成正確答案的提示之間的相似度如下圖 4 所示。

AI生成高數題,難出新高度:MIT提出可出題做題、評分的算法模型

Codex 用于提示生成

在某些課程中,直接使用未轉換的原始問題提示 Codex,無法產生正確的解決方案。因此,需要將原始問題轉化為 Codex 可以處理的形式,主要分為以下三類:

  • 主題上下文形式:該形式為 Codex 提供了與一般課程和特定問題相關的主題和子主題,以幫助指導 Codex 生成相關正確的答案。例如,對于概率中的條件期望問題,提供有關貝葉斯定理、期望等的上下文信息會很有幫助。
  • 庫上下文:該形式為 Codex 提供了解決給定問題所需的編程包 / 庫。例如,指導 Codex 使用 Python 中的 numpy 包來解決線性代數問題。
  • 定義上下文:很多時候,Codex 對某些術語的定義缺乏現實背景。舉例來說,Codex 不理解撲克牌中的 Full House 是什么意思。因此讓 Codex 理解這些術語并明確定義,可以更好地指導其程序合成。

生成問題以及人類評估

該研究使用 Codex 為每門課程生成新的問題,通過數據集創建有編號的問題列表來完成,這個列表在生成隨機數量的問題之后會被截斷斷,結果將用于提示 Codex 生成下一個問題。不斷的重復這個過程,就可以為每門課程產生許多新的問題。

該研究對參加過這些課程或同等課程的、來自 MIT 和哥倫比亞大學的學生進行了一項長期調查。調查的目的是比較每門課程機器生成的問題與人工編寫的問題的質量和難度。該研究為每門 MIT 的課程隨機抽取五個原始問題和五個生成的問題。在調查中,學生被要求閱讀每門課程的十個問題,這些問題是人工編寫的問題和機器生成的問題的混合。

對于 60 個問題中的每一個,學生都被問到三個問題,如圖 5 所示:他們是否認為給定的問題是 (i) 人工編寫的或機器生成的,(ii) 適合或不適合特定課程,以及 (iii) ) 在 1(最簡單)和 5(最難)之間的范圍內,問題的難度級別是多少。要求學生提供他們對數學問題的評分,而不是解決這些問題。該調查以在線和匿名的形式提供。

AI生成高數題,難出新高度:MIT提出可出題做題、評分的算法模型

調研結果

問題求解

研究者共求解了補充資料中展示的 210 個問題,其中包括 6 門課程各自對應的 25 個隨機問題以及 MATH 數據集中 6 個主題(初級代數、代數、數論、計數與概率、中極代數、微積分)各自對應的 10 個隨機問題。

生成新問題

研究者生成了 120 個新問題,其中包括 6 門課程和 6 個 MATH 主題各自對應的 10 個新問題。下表 2 展示了每門課程和每個 MATH 主題對應的一個生成問題。生成一個問題只需不到 1 秒的時間,研究者可以生成任意數量的問題。他們為 Codex 能夠生成正確答案的 25 個隨機選擇的問題創建了提示,切入隨機問題,并讓 Codex 完成下一個新問題。

AI生成高數題,難出新高度:MIT提出可出題做題、評分的算法模型

學生調研結果

研究者表示,共有 13 位參與者完成了全部 60 個問題的問答調研,平均耗時 40 分鐘。下圖 6 總結了學生調研中人工編寫(human-written)和機器生成(machine-generated)問題的比較情況,并得出了以下幾項結果:

  • 機器生成的問題要比人工編寫的問題難度高,但在置信區間內;
  • 人工編寫的問題要比機器生成的問題更適合課程;
  • 人工編寫的問題更容易被認為人寫的,并且將機器生成問題看作機器生成和人工編寫的概率相同。
AI生成高數題,難出新高度:MIT提出可出題做題、評分的算法模型

答案定級

Codex 能夠回答所有隨機采樣的大學水平和 MATH 數據集數學問題,無論它們是原始狀態還是整理后狀態。

挑戰

研究者的方法還有一些無法解決的技術障礙。

1、輸入圖像。Codex 的一個基礎限制是它只能接收基于文本的輸入。因此,Codex 無法使用圖形或圖表等必要的視覺組件來回答問題。

2、高等數學證明。這項研究的另一個限制是缺乏對高等數學的證明。研究者強調稱,這是由研究自身的廣度而不是 Codex 的證明能力導致的。事實上,該研究中提交至 Codex 的大多數簡單分析證明都已成功地被執行,這令人震驚,因為證明通常不是基于代碼的。

3、程序評估。該研究的最后一步是執行程序,例如使用 Python 解釋器。參加大學水平課程的學生也會編寫代碼來解決他們的部分問題。因此,該研究以與人類學生相同的方式測試神經網絡解決問題的能力,讓他們使用必要的工具。還有關于神經程序評估的工作,演示了使用機器學習來預測程序輸出。LSTM 用于成功預測某些線性時間和恒定空間程序的輸出 (18)。這些都增加了內存暫存器以允許更大的程序類別 (19)。最近的方法使用因果 GNN (20) 和 transformer (21)。盡管評估任意代碼是不可判定的,但特殊情況,例如由另一個 transformer 生成的用于解決簡單數學問題的程序,原則上應該是可學習的。

4、理論復雜性。計算復雜度的結果表明,該研究無法解決大學數學課程中一般問題的每一個具體實例。例如,以下問題具有難以處理的結果:向量 v 可以表示為來自集合 S 的向量之和嗎?以下一階微分方程的解是什么?但是,我們知道作業和考試給出的問題可以由人類解決,因此這些復雜性結果不適用于該研究的特定實例解決。

 

 

 

責任編輯:張燕妮 來源: 機器之心Pro
相關推薦

2020-11-25 15:58:59

AI 數據人工智能

2023-10-14 13:06:11

AI視頻

2020-08-24 14:25:02

AI 數據人工智能

2023-07-11 13:07:53

中國AI麻將

2025-07-02 07:25:00

惡意數據集LLMAI

2025-04-15 08:01:12

2011-10-13 10:08:51

iOS 5iOS

2016-11-10 16:28:04

2020-06-09 10:15:21

模型人工智能自然語言

2015-09-14 16:12:12

云計算大數據高度

2020-11-17 20:25:22

智能人機數智化

2025-01-23 20:42:44

2020-07-03 18:01:06

邊緣計算物聯網技術

2024-09-25 14:57:52

2025-04-17 14:19:46

2025-05-21 09:04:38

點贊
收藏

51CTO技術棧公眾號

成人黄色在线看| 欧美精品国产白浆久久久久| 中文字幕佐山爱一区二区免费| 国产在线精品一区免费香蕉| 久久精品视频国产| 成午夜精品一区二区三区软件| 亚洲午夜精品在线| 黑色丝袜福利片av久久| 日韩一级二级| 国产精品人成在线观看免费| 日韩成人av网址| av观看久久| 亚洲毛片一区二区三区| 亚洲高清影视| 亚洲午夜色婷婷在线| 精品人妻人人做人人爽夜夜爽| 一二三四视频在线中文| 亚洲免费观看在线视频| 亚洲欧美第一页| 亚洲免费伊人电影在线观看av| 国产一区二区视频播放| 免费黄网站在线| 久久影音资源网| 97视频热人人精品| 国产又粗又猛又爽又黄视频| 一区二区日韩免费看| 欧美老女人性视频| 久久精品在线观看视频| 在线一级成人| 精品卡一卡二卡三卡四在线| 国产在线观看中文字幕| 中老年在线免费视频| 一区二区三区免费观看| 一区中文字幕在线观看| 成人在线观看网站| 97se狠狠狠综合亚洲狠狠| 69174成人网| 亚洲视频一区二区三区四区| 可以看av的网站久久看| 2021久久精品国产99国产精品| 久久久久久久久毛片| 日韩久久精品| 中文字幕综合一区| www.黄色在线| 九九亚洲精品| 国产视频精品免费播放| 日韩精品xxx| 久久精品九色| 日韩三级高清在线| 中文字幕在线视频一区二区三区 | 26uuu国产在线精品一区二区| 91福利入口| 朝桐光av在线一区二区三区| 国产精品一区免费在线观看| 91久久久在线| 国产成人三级在线播放| 国产又粗又猛又爽又黄91精品| 国产在线拍揄自揄视频不卡99| 最近中文在线观看| 美腿丝袜亚洲综合| 国产在线拍偷自揄拍精品| 国产欧美熟妇另类久久久| 国产一区二区三区久久久| 亚洲一区二区三区乱码aⅴ蜜桃女| 国产欧美综合视频 | 色欧美日韩亚洲| 欧美 日韩 国产 激情| 欧美片第1页| 在线观看网站黄不卡| 色婷婷成人在线| 亚洲成人a级片| 日韩欧美国产精品一区| 任你躁av一区二区三区| 欧美日韩一区二区三区不卡视频| 日韩精品久久久久久久玫瑰园| 青青草福利视频| 日本不卡二三区| 粗暴蹂躏中文一区二区三区| 久久久无码一区二区三区| 亚洲国产专区| 国产精品成人在线| 国产夫绿帽单男3p精品视频| 成人动漫一区二区三区| 日本黄网免费一区二区精品| 毛片免费不卡| 午夜国产不卡在线观看视频| 日韩一级免费在线观看| 国产精品久久久久久av公交车| 精品美女一区二区三区| 李宗瑞91在线正在播放| 天天av综合| 97精品一区二区三区| 久久这里只有精品9| 国产中文字幕一区| 国产成人在线色| 综合一区av| 亚洲成人av片在线观看| 大乳护士喂奶hd| 色呦呦免费观看| 美女网站一区二区| 国产精品午夜av在线| 丁香婷婷在线| 亚洲在线视频一区| 欧洲亚洲一区| 欧美另类暴力丝袜| 欧美午夜性色大片在线观看| 欧美疯狂party性派对| 欧美日韩综合视频网址| 一路向西2在线观看| 亚洲天堂av资源在线观看| 亚洲欧美日韩一区二区三区在线| 很污很黄的网站| 亚洲国产一区二区三区a毛片 | 国产一区二区三区四区五区 | 最新黄色av网址| 亚洲黄网站黄| 亚洲综合国产精品| 高清日韩av电影| 亚洲成人av电影| 手机精品视频在线| 欧美视频网址| 人体精品一二三区| 色噜噜一区二区三区| 亚洲女同女同女同女同女同69| 中文字幕在线观看第三页| 国产suv精品一区| 欧美成人免费在线观看| 亚洲视屏在线观看| 久久久久久久久99精品| 精品少妇人妻av免费久久洗澡| 动漫一区二区三区| www国产91| 中文字幕乱码一区二区| 日本一区二区三区dvd视频在线| 青青草视频在线免费播放 | 琪琪一区二区三区| 免费观看国产成人| 都市激情国产精品| 欧美人与性动xxxx| 国产在线免费看| 老司机免费视频一区二区| 日韩在线导航| 中文字幕日本一区二区| 亚洲桃花岛网站| 神马久久久久久久| 久久久99久久精品欧美| 日本黄色三级大片| 性欧美lx╳lx╳| 人体精品一二三区| 成年网站在线| 欧美日韩国产综合一区二区三区| 中文字幕在线观看二区| 久久99国产精品麻豆| 中文字幕欧美人与畜| 久久91视频| 久久亚洲春色中文字幕| 精品国产无码一区二区| 一区二区三区四区亚洲| 无码人妻精品一区二区三| 狠狠入ady亚洲精品经典电影| 国产99在线播放| 草草视频在线| 亚洲视频axxx| 一区二区日韩在线观看| 国产精品国产三级国产专播品爱网| 欧美午夜aaaaaa免费视频| 国产精品久久久久久麻豆一区软件 | 日韩国产一二三区| 操日韩av在线电影| 日本xxxxwww| 日韩欧美亚洲范冰冰与中字| 三级网站在线免费观看| 久久精品国产一区二区三区免费看| 99久久久无码国产精品性色戒| 亚洲2区在线| 日本精品免费一区二区三区| yjizz视频网站在线播放| 91精品国产一区二区三区 | 超碰超碰在线| 亚洲电影成人av99爱色| 日本免费精品视频| 亚洲人成伊人成综合网小说| 色悠悠在线视频| 久久蜜桃资源一区二区老牛| 宅男一区二区三区| 欧美日韩一本| 成人美女免费网站视频| 2021天堂中文幕一二区在线观| 亚洲深夜福利在线| www.国产黄色| 91久久精品一区二区三区| 国产一区二区精彩视频| 91女人视频在线观看| 成年人三级黄色片| 国产精品亚洲产品| 三年中国中文在线观看免费播放| 久久夜色精品国产噜噜av小说| 国产精品网站大全| 久草在线资源站手机版| 久久好看免费视频| 国模大尺度视频| 日本55丰满熟妇厨房伦| 在线观看美女av| 国产一区二区在线播放视频| 亚洲手机视频| 欧美午夜精品久久久久久蜜| 久久99成人| 国产成人精品视频在线| 污污网站在线观看| 最近2019年好看中文字幕视频| 欧美 日韩 国产 成人 在线| 欧美日韩和欧美的一区二区| 一区精品在线| 性欧美freesex顶级少妇| 久久精品国产亚洲精品| 精品无码一区二区三区在线| 丰满肥臀噗嗤啊x99av| 在线观看视频一区| 在线看成人av| 亚洲乱码日产精品bd| 亚洲天堂岛国片| 91麻豆免费看| 久久久久久久人妻无码中文字幕爆| 美女在线一区二区| 人妻丰满熟妇av无码区app| 狠狠爱www人成狠狠爱综合网| 中文字幕剧情在线观看一区| 国产精品欧美三级在线观看| 精品一区二区国产| 成人搞黄视频| 成人羞羞视频免费| 精品国产一区二| 国产日韩视频在线观看| free欧美| 青青草原成人在线视频| av午夜在线观看| 欧美激情视频免费观看| av在线播放国产| 裸体女人亚洲精品一区| www.在线视频.com| 精品中文一区| 日本在线观看不卡视频| 午夜精品福利电影| 中文字幕有码在线视频| 日韩在线观看成人| 99er在线视频| 欧美做爰啪啪xxxⅹ性| 捆绑调教美女网站视频一区| 人妻无码视频一区二区三区| 国产九九精品| 每日在线观看av| 五月婷婷在线观看| 亚洲国产一区二区三区四区| 欧美熟女一区二区| 亚洲精品在线一区二区| 欧美在线精品一区二区三区| 欧美精品一区二区三区在线| 亚洲av无码一区二区三区观看 | 日韩aaa久久蜜桃av| 91网免费观看| 国产精品久久久久野外| 爱草tv视频在线观看992| 色综合天天综合网国产成人网| 动漫一区在线| 欧美激情综合色综合啪啪五月| 97超碰免费在线| 99riav国产精品| 91亚洲国产成人精品一区二三| 亚洲人体一区| 91视频精品| 最新av在线免费观看| 欧美日本久久| av免费观看国产| 久久久久久亚洲精品杨幂换脸| 黄色永久免费网站| 国产精品影视网| 亚洲欧美久久234| 黄色手机在线视频| 四虎影视在线播放| 欧洲一区在线电影| 在线播放国产一区| 91麻豆精品国产| www.com在线观看| 亚洲欧美激情四射在线日| 欧美一区二区少妇| 日韩一区二区久久久| 成人免费高清观看| 中文字幕在线不卡| 亚洲美女av网站| 在线观看av免费观看| 三级亚洲高清视频| 北条麻妃亚洲一区| 99精品视频在线观看| 亚洲av成人无码久久精品| 亚洲黄色av一区| 欧美超碰在线观看| 欧美大片一区二区| 国产一级在线观看| 国产欧美日韩中文久久| 亚洲激情成人网| 亚洲这里只有精品| 国产精品一区二区在线看| 91黄色免费视频| 国产人成一区二区三区影院| 九九久久免费视频| 欧美在线三级电影| 特级丰满少妇一级aaaa爱毛片| 综合久久五月天| 国产精品电影| 欧美刺激午夜性久久久久久久| 国产精品视频成人| 成年人视频软件| 国产精品私人影院| 久久久无码精品亚洲国产| 欧美日韩色综合| 日韩a在线观看| 欧美激情视频一区二区三区不卡| 素人啪啪色综合| 欧美国产视频在线观看| 黄色成人在线网站| 国产欧美精品一二三| 色呦呦在线播放| 欧美视频成人| 有码中文亚洲精品| 国产乱子伦三级在线播放| 色综合五月天导航| 95精品视频| 亚洲国产欧美一区二区三区不卡| 亚洲精品看片| www.四虎精品| 亚洲人精品午夜| 97超视频在线观看| 午夜日韩在线观看| 国产专区一区二区三区| 大胸美女被爆操| 欧美人体一区二区三区| 欧美色精品在线视频| 国产黄色一区二区| 日韩在线一区二区三区免费视频| 在线视频超级| 国产一区二区无遮挡| 狠狠爱www人成狠狠爱综合网| 99国产精品免费视频| 欧美视频久久| 日韩视频一区二区三区在线播放 | 在线视频精品免费| 精品亚洲精品福利线在观看| 涩涩网在线视频| 久久精品国产精品青草色艺 | 二区三区在线视频| 日韩日本欧美亚洲| 国产一区二区三区影院| 欧美美女网站色| 毛片在线不卡| 亚洲xxx大片| 激情综合激情| 菠萝菠萝蜜网站| 欧美日韩一区二区在线播放| 男生女生差差差的视频在线观看| 国产91在线播放九色快色| 国产欧美一区二区精品久久久| 国产精彩免费视频| 中日韩av电影| 国产熟女精品视频| 久久久久久av| 久久99国产成人小视频| 一区二区xxx| 亚洲免费观看高清完整版在线观看熊 | 中文在线永久免费观看| 欧美视频在线观看 亚洲欧| 国产高清一区在线观看| 成人激情视频在线观看| 欧美午夜不卡影院在线观看完整版免费| 日本在线不卡一区二区| 色呦呦国产精品| 国产日产一区二区| 国产精品一区免费观看| 媚黑女一区二区| 无码人中文字幕| 欧美大片免费久久精品三p| 最新日韩精品| 天天爱天天做天天操| 99国产精品视频免费观看| 中文 欧美 日韩| 欧美激情视频在线观看| 综合亚洲自拍| 亚欧精品在线视频| 精品久久久久久中文字幕大豆网| 国产福利在线看| 高清不卡一区二区三区| 日韩二区三区在线观看| 久久机热这里只有精品| 国产一级揄自揄精品视频| av成人综合| 一起操在线视频| 精品久久久久久中文字幕大豆网| 黄在线免费观看| 久久婷婷人人澡人人喊人人爽| 韩国成人精品a∨在线观看| 久久久久久久久久久久久久av|