有在關心 AI 人工智能發展的朋友應該都知道 AI 系統是需要訓練的,為了要讓他們可以準確的執行「特定任務」,這些人工智能需要收集十分龐大的數據。
而一項新的研究發現,原來有很多人開始「偷吃步」花錢訓練 AI 模型,簡單來說就是這些人覺得訓練 AI 是一個很麻煩的工作,所以就把這個責任又在「外包」丟給別人做。
有許多公司使用像是 Amazon Mechanical Turk 等的「外包網站」(Crowdsourcing Website),並將「小任務」交給網站的「合約工作人員」,大家能在這些網站上,發布一些各種難以自動化的任務給這些合同工,例如:解決驗證碼、標記數據和註文字材料等等。然後,這些「工人」完成的數據就會交還給公司,公司再輸入到 AI 模型裏訓練 AI。
不過,現在大家都說這些所謂的「合同工」其實就是 AI 人工智能?所以,言下之意就是這些公司其實是付了錢給 AI 的「合約工作人員」去訓練其他 AI 的?要不要太搞笑?
大家都來用 ChatGPT 偷吃步
由於這些合同工人們的工資很低,而且還被要求要很快完成大量的任務,所以很多公司就會乾脆把任務交給 ChatGPT 等工具來完成,以最大限度地提高他們自己「利潤」。
就以瑞士聯邦理工學院(EPFL)的作為例子,它們的一組研究人員在合同工網站 Amazon Mechanical Turk 上僱傭了 44 名「員工」,總結 16 篇醫學研究的論文。
結果,EPFL 之後使用了自己訓練的 AI 模型分析了這些「員工」的回答,而它們的 AI 模型都在答案裡「發現」使用過 ChatGPT 的明顯偷吃步「痕跡」,例如:回答詞語選擇缺乏多樣性等。另外,EPFL 還調查到這些「員工」有複製貼上答案,表示「員工們」是在其他地方複製答案的。
EPFL 估計大概有 33% 到 46% 的員工使用過 OpenAI 的 ChatGPT 等 AI 模型。
用 AI 訓練 AI 反而越錯越離譜?
這項新的研究也指出,隨著 ChatGPT 和其他 AI 系統變得更加「強大」和普及,相信這樣的事情只會變得越來越多。但使用由 AI 生成的數據來訓練 AI 可能會帶來更多的錯誤,甚至將「虛假資訊」當作為事實。
計算機科學初級研究員 Ilia Shumailov 指出,如果 AI 生成的錯誤數據用於訓練其他 AI 模型,那些錯誤就會被這些 AI 模型吸收,之後想再弄清楚它們的起源會變得越來越困難,更糟的是,這個問題並沒有簡單的解決辦法。
這次這個研究帶出了現今科技公司傾向於依賴「合約工作人員」來完成和整理數據等重要工作的問題,還強調了現在最需要新的方法來「驗證」數據究竟是由人類還是 AI「產生」的。而如今我們能做的就是必須仔細查看最容易被自動化的工作,並找出防止這種情況發生的方法!
© 2023 LA Weekly Asia. All rights reserved.