一、數(shù)據(jù)標(biāo)注員是做什么的?
首先談?wù)勈裁词菙?shù)據(jù)標(biāo)注。數(shù)據(jù)標(biāo)注有許多類型,如分類、畫框、注釋、標(biāo)記等等,我們會(huì)在下面詳談。
要理解數(shù)據(jù)標(biāo)注,得先理解AI其實(shí)是部分替代人的認(rèn)知功能。回想一下我們是如何學(xué)習(xí)的,例如我們學(xué)習(xí)認(rèn)識(shí)蘋果,那么就需要有人拿著一個(gè)蘋果到你面前告訴你,這是一個(gè)蘋果。然后以后你遇到了蘋果,你才知道這玩意兒叫做“蘋果”。
類比機(jī)器學(xué)習(xí),我們要教他認(rèn)識(shí)一個(gè)蘋果,你直接給它一張?zhí)O果的圖片,它是完全不知道這是個(gè)啥玩意的。我們得先有蘋果的圖片,上面標(biāo)注著“蘋果”兩個(gè)字,然后機(jī)器通過學(xué)習(xí)了大量的圖片中的特征,這時(shí)候再給機(jī)器任意一張?zhí)O果的圖片,它就能認(rèn)出來了。
這邊可以順帶提一下訓(xùn)練集和測試集的概念。訓(xùn)練集和測試集都是標(biāo)注過的數(shù)據(jù),還是以蘋果為例子,假設(shè)我們有1000張標(biāo)注著“蘋果”的圖片,那么我們可以拿900漲作為訓(xùn)練集,100張作為測試集。機(jī)器從900張?zhí)O果的圖片中學(xué)習(xí)得到一個(gè)模型,然后我們將剩下的100張機(jī)器沒有見過的圖片去給它識(shí)別,然后我們就能夠得到這個(gè)模型的準(zhǔn)確率了。想想我們上學(xué)的時(shí)候,考試的內(nèi)容總是不會(huì)和我們平時(shí)的作業(yè)一樣,也只有這樣才能測試出學(xué)習(xí)的真正效果,這樣就不難理解為什么要?jiǎng)澐忠粋€(gè)測試集了。
我們知道機(jī)器學(xué)習(xí)分為有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。無監(jiān)督學(xué)習(xí)的效果是不可控的,常常是被用來做探索性的實(shí)驗(yàn)。而在實(shí)際產(chǎn)品應(yīng)用中,通常使用的是有監(jiān)督學(xué)習(xí)。有監(jiān)督的機(jī)器學(xué)習(xí)就需要有標(biāo)注的數(shù)據(jù)來作為先驗(yàn)經(jīng)驗(yàn)。
在進(jìn)行數(shù)據(jù)標(biāo)注之前,我們首先要對數(shù)據(jù)進(jìn)行清洗,得到符合我們要求的數(shù)據(jù)。數(shù)據(jù)的清洗包括去除無效的數(shù)據(jù)、整理成規(guī)整的格式等等。具體的數(shù)據(jù)要求可以和算法人員確認(rèn)。
二、常見的幾種數(shù)據(jù)標(biāo)注類型
1.分類標(biāo)注:分類標(biāo)注,就是我們常見的打標(biāo)簽。一般是從既定的標(biāo)簽中選擇數(shù)據(jù)對應(yīng)的標(biāo)簽,是封閉集合。如下圖,一張圖就可以有很多分類/標(biāo)簽:成人、女、黃種人、長發(fā)等。對于文字,可以標(biāo)注主語、謂語、賓語,名詞動(dòng)詞等。
適用:文本、圖像、語音、視頻
應(yīng)用:臉齡識(shí)別,情緒識(shí)別,性別識(shí)別
2.標(biāo)框標(biāo)注:機(jī)器視覺中的標(biāo)框標(biāo)注電腦標(biāo)注員好做嗎,很容易理解,就是框選要檢測的對象。如人臉識(shí)別,首先要先把人臉的位置確定下來。行人識(shí)別,如下圖。
適用:圖像
應(yīng)用:人臉識(shí)別,物品識(shí)別
3.區(qū)域標(biāo)注:相比于標(biāo)框標(biāo)注,區(qū)域標(biāo)注要求更加精確。邊緣可以是柔性的。如自動(dòng)駕駛中的道路識(shí)別。
適用:圖像
應(yīng)用:自動(dòng)駕駛
4.描點(diǎn)標(biāo)注:一些對于特征要求細(xì)致的應(yīng)用中常常需要描點(diǎn)標(biāo)注。人臉識(shí)別、骨骼識(shí)別等。
適用:圖像
應(yīng)用:人臉識(shí)別、骨骼識(shí)別
5.其他標(biāo)注:標(biāo)注的類型除了上面幾種常見,還有很多個(gè)性化的。根據(jù)不同的需求則需要不同的標(biāo)注。如自動(dòng)摘要,就需要標(biāo)注文章的主要觀點(diǎn),這時(shí)候的標(biāo)注嚴(yán)格上就不屬于上面的任何一種了。(或則你把它歸為分類也是可以的,只是標(biāo)注主要觀點(diǎn)就沒有這么客觀的標(biāo)準(zhǔn),如果是標(biāo)注蘋果估計(jì)大多數(shù)人標(biāo)注的結(jié)果都差不多。)
三、有什么發(fā)展前途?
數(shù)據(jù)標(biāo)注員可以說是AI消滅了一部分工作又創(chuàng)造出來的一種工作。在未來AI發(fā)展良好的前提下,數(shù)據(jù)的缺口一定是巨大的??梢灶A(yù)見3-5年內(nèi)數(shù)據(jù)標(biāo)注員的需求會(huì)一直存在。
至于發(fā)展,其實(shí)所謂一些熟能生巧的工作,都是有被替代掉的風(fēng)險(xiǎn)的。深度學(xué)習(xí)解決的一件事情就是熟能生巧。在這個(gè)崗位上,其實(shí)你的一些想法就代表了AI的想法,AI會(huì)根據(jù)你標(biāo)注的數(shù)據(jù)進(jìn)行學(xué)習(xí),想想還是有點(diǎn)成就感的。
數(shù)據(jù)標(biāo)注可以說是AI的入門級(jí)崗位電腦標(biāo)注員好做嗎,未來可轉(zhuǎn)向其他AI崗位。如項(xiàng)目實(shí)施顧問等,這就要求更多的工作技能,需要再工作中積累。