數據比你更懂你:台灣新創團隊用文字分析,挖掘客戶的心
數據比你更懂你:台灣新創團隊用文字分析,挖掘客戶的心
News from: Inside.
語言,作為人類世界的超強推理系統,在未來 AI 人工智慧時代,語言所帶來的大量文字數據將成為機器探究你內心的珍貴寶庫。然而,相較於拼音系統的英文,中文單詞更簡短、單字也帶有圖像化概念,中文進行語意分析時可能門檻較高。那麼,中文世界裡的新創團隊如何透過文字分析,讓數據比你更懂你呢?
語言,人類世界最強推理系統
許晉源指出,語言是人工智慧核心之一,而國內外學術圈探究自然語言分析時的常見研究題目,例如:問答、摘要、推論、目標導向的對話等,即與 AI 人工智慧息息相關。從「語言」出發,路星所打造的交友平台也與眾不同。雖然是遊戲化交友軟體,但相較於多數只強調媒合的交友平台,路星經營理念卻圍繞著透過「對話」所帶來的「真實想法」。
文字數據能呈現使用者所思所想,路星即是藉著不同故事主題的聊天機器人內容設計,刺激使用者針對各個主題產生大量對話,並將對話內容結合 AI 語意分析。路星不僅透過文字數據分析結果,理解使用者真實想法、提升交友配對成功精準度,也透過平台後端語意分析技術,協助廣告主精準投放。
除了聊天機器人(ChatBot)和對話式廣告,路星更將文字分析應用進一步地跨越到心理疾病和群眾外包(Crowdsourcing)領域。由於社交平台為匿名式,成了不少網友抒發情緒、吐苦水的管道,少數發言內容甚至有自殺傾向;因此路星與學界合作,將文字數據分析應用於情緒分析及心理問題潛在風險預警。
平台的匿名特性,也難免出現部分性騷擾、謾罵等不良言論內容。路星因此打造一個群眾外包的人工標註服務,由使用者自行檢舉,並採用機器學習中的監督式學習(Supervised learning)來識別、偵測性騷擾和謾罵言詞。
從語言出發,回歸語言所帶來的故事;路星期望透過對話所帶來的資訊交換,讓人與人的交友關係回歸真實的交流與互動。
用 B2B 工具提供文字分析,領業者走完最後一哩路
不過,屬於象形文字的中文單詞更簡短、單字也帶有圖像化概念,相較於拼音系統的英文,當透過斷詞進行語言分析時,中文的門檻較高;再加上過去繁體中文語料庫和資料集較少,雖然近年台灣產官學研逐漸開放相關資料,但目前還不及英文世界的豐富語料庫。
還好,網路時代讓應用文字數據分析擁有得天獨厚優勢。除了資料取得較容易, 黃鐘揚更進一步指出,影像較難界定出明確範圍,但文字數據不論哪一國語言,都有一定字元數量。因此,文字分析較容易先以大量資料進行機器學習的非監督式學習(Unsupervised Learning),之後再以少量資料進行監督式學習,讓文字分析的結果更能接近溝通目的。 「影像用來識別和判讀,語音用來下指令,文字則是扮演溝通角色。」他為文字數據下了一個簡明扼要的定位。
除了各類型數據在應用領域各有其不同角色,企業在 AI 人工智慧領域也各自扮演不同角色;優拓資訊即是期望扮演「專業工具」提供者的角色,透過工具來協助業者駕馭最新的 AI 技術,讓自身的服務得以落地,走完人工智慧最後一哩路。
優拓資訊以自然語意分析技術自行研發自然語意理解引擎(NLU),並以開源聊天機器人框架 Bottender 為基礎,開發完整、好用的對話式 AI 建置工具 Yoctol.AI,協助企業打造可以即時回應客服需求、甚至進行分眾行銷的對話機器人。優拓資訊曾協助許多大型企業建置客服與行銷機器人,接下來的目標是將 Yoctol.AI 工具開放,讓所有的企業、商家、甚至是個人都可以創造出聰明的對話機器人。
上世紀問世的當今科技巨擘 Google,企業名取自宇宙最大單位「googol」;而優拓資訊企業名 Yoctol 則取自宇宙最小單位「yocto」,期望透過文字數據見微知著,在 21 世紀的現今,從最小的資訊當中發掘出最大的應用價值。
數據應用是一段不斷反饋的過程,不該為數據而數據
相對於影像或語音,文字數據較容易結構化,資料量又較易累積,已長期扮演企業發展數據應用的墊腳石。儘管新版本的 AlphaGo Zero 早已透過大幅躍進的運算技術跳脫數據量限制,但人類世界終究不若圍棋世界規則明確、勝負分明,企業在發展數據應用時,也不能為數據而數據。
他表示,雖然目前許多議題都可以發展數據應用,但仍得回歸企業本身經營方針,並用數據協助判斷決策方向。例如,在各個不同發展階段,AsiaYo 都有不同策略目標。從如何新增用戶數量、如何衝高訂單數、如何增加合作民宿數量、如何協助新招募旅館訂到第一批客人,到如何提高整體營收,每個階段都得採用不同的數據應用決策。
而在這不斷成長的過程中,身為結合文字數據分析的跨區、跨語言旅遊智慧訂房平台,雖然已經擁有台、日、韓、泰等地超過六萬個房源,當許多企業傾向採用聊天機器人來處理不同語言市場的客服業務時,AsiaYo 則仍然以真人為客服主力。
「真人是最後一步,複雜問題得用真人處理;因為絕多數打電話來的顧客都是遇到難題,他們需要與真人講講話、發洩情緒。」他認為,雖然大多數結構式資料可以透過機器處理,例如:確認或修改訂單、回答基本問題、進行精準行銷等;但從服服務業長遠經營角度來看,若要讓使用者覺得平台不會「棄你於不顧」,專職的真人客服仍得隨時在線,才能打造良好的服務體驗。
語言帶來的大量文字數據,將成為機器探究客戶內心樣貌的珍貴寶庫;目前政府對於資料運用和數據創新等發展也十分重視,今年度經濟部工業局以數據創新服務生態系推動計畫,著重於輔導數據新創團隊發展各種資料創新應用,而這個早已被長期應用的文字數據,在未來 AI 人工智慧時代又有什麼樣的新型態應用?想 了解在萬物聯網時代,如何透過文字分析讓數據比你更懂你,請即刻報名 資策會於今年 11 月 29 日舉辦的 「創新、創意、創業,打造數據新契機」論壇暨講座活動。在上午場的數據應用論壇當中,資策會將邀請 INSIDE 編輯擔任主談人,與旗艦團隊一同探討「智慧旅宿科技應用與擴散」,並由新創 CTO 傾囊相授「如何活用數據發展創新事業」;而下午場的新創與趨勢講座,更將帶您參與擁有卓越成果的台灣新創團隊,在文字和影像數據創新上的應用思維與實戰經驗。
留言
張貼留言