Google 釋出兩神經語言對話資料集
Google 釋出兩神經語言對話資料集
News from: iThome & Google AI blog.
Google強調自家資料集中的對話,保留了人類口語的特徵,可用於提升使用者與數位助理的對話品質。
Web site: https://ai.googleblog.com/2019/09/announcing-two-new-natural-language.html
Google釋出Coached Conversational Preference Elicitation(CCPE)和Taskmaster-1兩個可用於訓練數位助理對話能力的資料集,其中CCPE能幫助人工智慧學習人類表達偏好的方法,而Taskmaster-1則能增加訓練語料庫的大小以及對話者的多樣性。
雖然近年來數位助理的對話能力,比起過去已經有長足的進步,但是仍然未達到與人類相同的理解程度,Google提到,這是因為缺乏能夠反應人類表達需求和偏好的訓練資料。數位助理的學習限制,來自於人類希望數位助理理解人類表達的方式,人類雕琢了訓練數位助理模型的字句,而造成了人工智慧的學習偏差。
雖然近年來數位助理的對話能力,比起過去已經有長足的進步,但是仍然未達到與人類相同的理解程度,Google提到,這是因為缺乏能夠反應人類表達需求和偏好的訓練資料。數位助理的學習限制,來自於人類希望數位助理理解人類表達的方式,人類雕琢了訓練數位助理模型的字句,而造成了人工智慧的學習偏差。
為了解決這個問題,Google發布了CCPE以及Taskmaster-1兩個對話資料集,裡面的對話皆採用名為綠野仙蹤(Wizard of Oz)的方法,該方法配對兩個參與對話的人,其中一人扮演語音助理使用者,另一位則扮演理想的數位助理,整個設計模仿今日人類與數位語音助理對話過程,並能在自動化系統環境中,保留口語對話的特徵。
Google表示,由於人類扮演的數位助理,能夠精確理解用戶的要求,因此Google同時也能捕捉用戶,真實呈現自己想法與偏好的表達方式,而Google便捕捉這些對話,製作成CCPE以及Taskmaster-1兩個對話資料集。
CCPE資料集包含12,000個註釋範例語句的502個對話,由一人扮演使用者對麥克風講話,而音訊直接向扮演數位助理的人工助理播放,並由人工助理以文字輸入回應,回應以文字轉語音技術轉成音訊後播放給使用者聽,模擬使用者與數位助理對話的真實情況。
CCPE資料集中對話的內容在談論電影偏好,Google提到,真實人類的對話,包含了合成對話難以重現的不流暢和錯誤等自然情況,另外,這個資料集還呈現了許多人類描述偏好的方法,而且Google也發現,由系統所提供的電影喜好過濾器,可能不適合使用者用來描述喜好的語言。CCPE資料集是第一個大規模呈現喜好描述豐富度的資料集。
Taskmaster-1則是任務面向的資料集,Taskmaster-1裡的對話除了採用綠野仙蹤方法之外,也使用書寫完整對話的方法,來增加語料庫大小以及談話者的多樣性。書寫方法是由一個人同時扮演用戶以及人工助理,依照任務概述獨自創建完整的對話,Google提到,雖然口語對話會更接近對話語言,但是書寫的對話複雜豐富,而且更便宜且易於收集。
Taskmaster-1包含了訂購披薩、建立汽車維修預約、設置租車、訂購電影票、訂購咖啡以及預約餐廳6種任務對話。這個資料集使用簡單注釋架構,建立資料的人員可以簡單地為資料加上標籤。
News from: iThome & Google AI blog.
Google強調自家資料集中的對話,保留了人類口語的特徵,可用於提升使用者與數位助理的對話品質。
Web site: https://ai.googleblog.com/2019/09/announcing-two-new-natural-language.html
Google釋出Coached Conversational Preference Elicitation(CCPE)和Taskmaster-1兩個可用於訓練數位助理對話能力的資料集,其中CCPE能幫助人工智慧學習人類表達偏好的方法,而Taskmaster-1則能增加訓練語料庫的大小以及對話者的多樣性。
雖然近年來數位助理的對話能力,比起過去已經有長足的進步,但是仍然未達到與人類相同的理解程度,Google提到,這是因為缺乏能夠反應人類表達需求和偏好的訓練資料。數位助理的學習限制,來自於人類希望數位助理理解人類表達的方式,人類雕琢了訓練數位助理模型的字句,而造成了人工智慧的學習偏差。
雖然近年來數位助理的對話能力,比起過去已經有長足的進步,但是仍然未達到與人類相同的理解程度,Google提到,這是因為缺乏能夠反應人類表達需求和偏好的訓練資料。數位助理的學習限制,來自於人類希望數位助理理解人類表達的方式,人類雕琢了訓練數位助理模型的字句,而造成了人工智慧的學習偏差。
為了解決這個問題,Google發布了CCPE以及Taskmaster-1兩個對話資料集,裡面的對話皆採用名為綠野仙蹤(Wizard of Oz)的方法,該方法配對兩個參與對話的人,其中一人扮演語音助理使用者,另一位則扮演理想的數位助理,整個設計模仿今日人類與數位語音助理對話過程,並能在自動化系統環境中,保留口語對話的特徵。
Google表示,由於人類扮演的數位助理,能夠精確理解用戶的要求,因此Google同時也能捕捉用戶,真實呈現自己想法與偏好的表達方式,而Google便捕捉這些對話,製作成CCPE以及Taskmaster-1兩個對話資料集。
CCPE資料集包含12,000個註釋範例語句的502個對話,由一人扮演使用者對麥克風講話,而音訊直接向扮演數位助理的人工助理播放,並由人工助理以文字輸入回應,回應以文字轉語音技術轉成音訊後播放給使用者聽,模擬使用者與數位助理對話的真實情況。
CCPE資料集中對話的內容在談論電影偏好,Google提到,真實人類的對話,包含了合成對話難以重現的不流暢和錯誤等自然情況,另外,這個資料集還呈現了許多人類描述偏好的方法,而且Google也發現,由系統所提供的電影喜好過濾器,可能不適合使用者用來描述喜好的語言。CCPE資料集是第一個大規模呈現喜好描述豐富度的資料集。
Taskmaster-1則是任務面向的資料集,Taskmaster-1裡的對話除了採用綠野仙蹤方法之外,也使用書寫完整對話的方法,來增加語料庫大小以及談話者的多樣性。書寫方法是由一個人同時扮演用戶以及人工助理,依照任務概述獨自創建完整的對話,Google提到,雖然口語對話會更接近對話語言,但是書寫的對話複雜豐富,而且更便宜且易於收集。
Taskmaster-1包含了訂購披薩、建立汽車維修預約、設置租車、訂購電影票、訂購咖啡以及預約餐廳6種任務對話。這個資料集使用簡單注釋架構,建立資料的人員可以簡單地為資料加上標籤。
留言
張貼留言