工智能大模型時代,八種常見的“數據標注”方法
數據標注是指對收集到的、未處理的原始數據或初級數據,包括語音、圖片、文本、視頻等類型的數據進行加工處理,并轉換為機器可識別信息的過程,比較常見的數據標注有這幾種
矩形框標注
矩形框標注是一種對目標對心記性目標檢測標注的簡單處理方式,常用于標注自動駕駛下的人、車、物等
多邊形標注
多邊形標注是指在靜態圖片中,使用多邊形框,標注處不規則的目標物體,相對于矩形框標注,多邊形標注能夠更精準的框定目標,同時對于不規則物體,也更據有針對性
語義分割
語義分割是指根據物體的屬性,對復雜不規則圖片進行區域劃分,并標注對應上屬性,以幫助訓練圖像識別模型,常應用于自動駕駛、人機交互,虛擬現實等領域
關鍵點標注
關鍵點標注模板最大的應用即是對臉部的關鍵點進行標注,通過不同方位的關鍵點標注,可以判斷圖像上的人物的功能
3D點云標注
3D點云標注是指利用激光雷達采集的數據進行框選標注,供計算機視覺與無人駕駛等人工智能模型的訓練使用
3D立方體標注
與點云標注不同,3D立方體標注還是基于二維平面圖像的標注,標注員通過對立體物體的邊緣框定,進而獲得滅點,測量出物體之間的相對距離
目標追蹤
目標追蹤是指在動態的圖像中,進行抽幀標注,在每一幀圖片中將目標物體標注出來,進而描述他們的運動軌跡,這類標注常應用于訓練自動駕駛模型以及視頻識別模型
屬性判別
屬性判別是指通過人工或及其配合的方式,識別出圖像中的目標物體,并將其標注上對應屬性
數據標注的你,和即將從事這個行業的大家,是不是都有遇到過文件打開是亂碼、文件后綴不常見,提示沒有應用軟件可以打開……一系列的問題呢?
特別是剛進入數據標注這個行業,或者是平時不太玩電腦對計算機了解較淺的小伙伴們,是蒙圈不知道該如何處理,今天呢,砸門就梳理一些關于數據標注文件格式的基礎知識,作為新手的你一定要了解一下喲
文件格式
文件格式(或文件類型)是指電腦為了存儲信息而使用的對信息的特殊編碼方式,是用于識別內部儲存的資料。比如有的儲存圖片,有的儲存程序,有的儲存文字信息。
每一類信息,都可以一種或多種文件格式保存在電腦存儲中。每一種文件格式通常會有一種或多種擴展名可以用來識別,但也可能沒有擴展名。擴展名可以幫助應用程序識別的文件格式
對于硬盤機或任何電腦存儲來說,有效的信息只有0和1兩種,所以電腦必須設計有相應的方式進行信息-位元的轉換。對于不同的信息有不同的存儲格式,文件格式也意味著文件的用途
我們日常常用的擴展名有哪些
1.辦公軟件中的Word文件.docx,PPT文件.pptx,Excel文件.xlsx;
2.圖形文件多以.png、.jpg、.gif結尾;
3.音樂和視頻文件則是.mp3、.mp4、.wav、.wmv;
4.文本.txt;
windows環境下的可執行文件.exe
對于這些擴展名大家習以為常,并不覺得奇怪,那么在數據標注的過程中,我們可能會遇到哪些文件格式呢?
文本標注
通常較為常見的文本標注文件格式是txt、xlsx這個兩種格式,具體的要看自己當時做的項目數據方的一個要求,來進行后綴就行了
圖像標注
圖像標注涉及計算機視覺、機器視覺....等技術,所以格式種類相對更豐富一些,較為常見的有:bmp,jpg,png,tif,gif,pcx,tga,exif,fpx,svg,psd,cdr,pcd,dxf,ufo,eps,ai,raw,WMF,webp等。其中用得最多的就是bmp、jpg、png了
當然標注完之后還是需要根據數據的需求制定特定的數據輸出格式,或者某一項標注工具下指定的標注格式,例如下圖這幾種標注工具,導出的數據格式各有不同
音頻標注
無損格式:例如WAV、FLAC、APE、ALAC、CDA
有損格式:例如MP3、AAC、Opus
所以我們在標注的時候使用的原始數據WAV格式也會多一些。其標注的結果文件除了上面通用的標注文件格式外,還有用Praat軟件標注的后級名為“TextGrid”的文件,它是一種“分段”文件,詳細記錄了語音的總時長、每一個標注層內所有標注區間的時長及標注內容等信息
視頻標注
視頻數據標注任務的數據結果可包含視頻標簽的時間位置、空間位置和標簽信息等內容。不同標注任務和要求會產出不同的結果,但不影響定義數據格式及其組成部分。
標注文件的輸出格式推薦使用易解析、易存儲的數據格式, 包括JSON、XML等
醫療標注
影像數據(CT/DR)
RAW,裸格式:就是最原始的圖像,沒有經過任何處理,拍出來是什么樣就是什么樣;
BMP格式:BMP不壓縮,可以任意選擇圖像灰度深度或圖像位數;
DICOM格式:DICOM是一種統一的兼容各種CT,MRI,PET等醫學影像的圖像存儲方式;.dcm文件就是遵循DICOM標注的一種文件。
DICOM標準支持的設備包括心電圖、核磁共振成像、心血管、超聲心動圖等多種醫療社保,因而DCM文件被廣泛應用于醫療行業。一張CT片子對應多個.dcm文件
病理切片
.jpg格式,如果是一張病理切片如果被切分成.jpg格式的圖片通常會被切成少則幾十張多則幾百張的圖片
tif格式
這是一種靈活的位圖格式,其數據格式是一種3級體系結構,內部結構可以分為三部分:文件頭信息區、標識信息區和圖像數據區
以上就是目前數據標注涉及到的文件格式,即后期AI訓練師在數據處理中必須要了解到的基礎知識,下次我們接著分享大家必須要知道的基礎知識還有哪些`
天晚上,看學生提交的實習報告,我就發現有一個組交的作業,一個word文件中,有的圖片排版有合在一起的圖片,有的圖片都是分開的。
一看就是兩個人做的作業,然后拷貝出來,一起放到word中。
如果是一個人做,基本都是一個格式,不會有的圖片是合在一起的,有的圖片是分開的。格式明顯就是兩種。
晚上就問他們要源文件,還要說半天,哪些圖片需要發,哪些圖片不用發給我,才能夠說明白,非常麻煩。
平日里,我排版圖片一般都是用Adobe illustrator,插入幾張圖片,排成高度一致的一行,隨后加上直線和文字標注,最后導出300ppi的圖片,插入到word中。
這一種排版,是需要將AI文件保留,只有ai格式的文件才可以修改,jpeg格式的圖片是無法修改。
有的學生是Adobe illustrator都無法安裝到電腦上,就用其他軟件給圖片加標注,有的人還用ppt來添加標注。
我發現讓學生提交圖片,最好用表格或者文本框。
如果是用表格,兩行三列或者兩行四列的表格,下面的一行用來寫題注,上面的一行用來放圖片,三張或者四張或者兩張放到一起。調整成同樣的高度,讓表格的邊框不顯示就可以了。
也可以插入一個大的文本框,在文本框內放圖片,調整成同樣的高度,在圖片的下面繼續添加文本框,用來寫題注。
通過這樣來做排版圖片,每一張圖片是分散的,可以拷貝出來。
如果不這樣排版,單張的圖片是無法拿出來拷貝的。
有的學生是用PPT來做圖片的標注。這樣最不適合,原因是PPT導出的圖片分辨率是96ppi,分辨率是非常低的,打印出來分辨率太低,看不清楚。
這種圖片,只適合在電腦上觀看,沒法用來打印。這是為什么不用PPT來做圖片的文字標注的一個原因。
提交作業,盡量都是用文本框或者表格來排版圖片是最好的。
以后學生提交野外實習的作業,圖片的排板都讓學生用用表格或者文本框來放圖片。
如果學生用ai來做圖片,就需要將ai格式的文件發給我,還要繼續交流。結果卻發現,有的學生使用ppt格式做出來的圖片。這樣的圖片,需要問他們要ppt格式的文件。
這樣的源文件,才是可以修改,圖片也可以拷貝出來。
至于要添加非常多標注的圖片,還是用Adobe illustrator添加標注最好用。
#記錄我的2023#