日韩欧美在线观看按摩,日韩成人网站欧美日韩国产成人高清视,国产一级做a爰片在线看免费

欄目導航

公司新聞

新聞資訊

新聞資訊

工智能大模型時代，八種常見的“數據標注”方法

數據標注是指對收集到的、未處理的原始數據或初級數據，包括語音、圖片、文本、視頻等類型的數據進行加工處理，并轉換為機器可識別信息的過程，比較常見的數據標注有這幾種

矩形框標注

矩形框標注是一種對目標對心記性目標檢測標注的簡單處理方式，常用于標注自動駕駛下的人、車、物等

多邊形標注

多邊形標注是指在靜態圖片中，使用多邊形框，標注處不規則的目標物體，相對于矩形框標注，多邊形標注能夠更精準的框定目標，同時對于不規則物體，也更據有針對性

語義分割

語義分割是指根據物體的屬性，對復雜不規則圖片進行區域劃分，并標注對應上屬性，以幫助訓練圖像識別模型，常應用于自動駕駛、人機交互，虛擬現實等領域

關鍵點標注

關鍵點標注模板最大的應用即是對臉部的關鍵點進行標注，通過不同方位的關鍵點標注，可以判斷圖像上的人物的功能

3D點云標注

3D點云標注是指利用激光雷達采集的數據進行框選標注，供計算機視覺與無人駕駛等人工智能模型的訓練使用

3D立方體標注

與點云標注不同，3D立方體標注還是基于二維平面圖像的標注，標注員通過對立體物體的邊緣框定，進而獲得滅點，測量出物體之間的相對距離

目標追蹤

目標追蹤是指在動態的圖像中，進行抽幀標注，在每一幀圖片中將目標物體標注出來，進而描述他們的運動軌跡，這類標注常應用于訓練自動駕駛模型以及視頻識別模型

屬性判別

屬性判別是指通過人工或及其配合的方式，識別出圖像中的目標物體，并將其標注上對應屬性

數據標注的你，和即將從事這個行業的大家，是不是都有遇到過文件打開是亂碼、文件后綴不常見，提示沒有應用軟件可以打開……一系列的問題呢？

特別是剛進入數據標注這個行業，或者是平時不太玩電腦對計算機了解較淺的小伙伴們，是蒙圈不知道該如何處理，今天呢，砸門就梳理一些關于數據標注文件格式的基礎知識，作為新手的你一定要了解一下喲

文件格式

文件格式（或文件類型）是指電腦為了存儲信息而使用的對信息的特殊編碼方式，是用于識別內部儲存的資料。比如有的儲存圖片，有的儲存程序，有的儲存文字信息。

每一類信息，都可以一種或多種文件格式保存在電腦存儲中。每一種文件格式通常會有一種或多種擴展名可以用來識別，但也可能沒有擴展名。擴展名可以幫助應用程序識別的文件格式

對于硬盤機或任何電腦存儲來說，有效的信息只有0和1兩種，所以電腦必須設計有相應的方式進行信息－位元的轉換。對于不同的信息有不同的存儲格式，文件格式也意味著文件的用途

我們日常常用的擴展名有哪些

1.辦公軟件中的Word文件.docx，PPT文件.pptx，Excel文件.xlsx；

2.圖形文件多以.png、.jpg、.gif結尾；

3.音樂和視頻文件則是.mp3、.mp4、.wav、.wmv；

4.文本.txt；

windows環境下的可執行文件.exe

對于這些擴展名大家習以為常，并不覺得奇怪，那么在數據標注的過程中，我們可能會遇到哪些文件格式呢？

文本標注

通常較為常見的文本標注文件格式是txt、xlsx這個兩種格式，具體的要看自己當時做的項目數據方的一個要求，來進行后綴就行了

圖像標注

圖像標注涉及計算機視覺、機器視覺....等技術，所以格式種類相對更豐富一些，較為常見的有：bmp,jpg,png,tif,gif,pcx,tga,exif,fpx,svg,psd,cdr,pcd,dxf,ufo,eps,ai,raw,WMF,webp等。其中用得最多的就是bmp、jpg、png了

當然標注完之后還是需要根據數據的需求制定特定的數據輸出格式，或者某一項標注工具下指定的標注格式，例如下圖這幾種標注工具，導出的數據格式各有不同

音頻標注

無損格式：例如WAV、FLAC、APE、ALAC、CDA

有損格式：例如MP3、AAC、Opus

所以我們在標注的時候使用的原始數據WAV格式也會多一些。其標注的結果文件除了上面通用的標注文件格式外，還有用Praat軟件標注的后級名為“TextGrid”的文件，它是一種“分段”文件，詳細記錄了語音的總時長、每一個標注層內所有標注區間的時長及標注內容等信息

視頻標注

視頻數據標注任務的數據結果可包含視頻標簽的時間位置、空間位置和標簽信息等內容。不同標注任務和要求會產出不同的結果，但不影響定義數據格式及其組成部分。

標注文件的輸出格式推薦使用易解析、易存儲的數據格式，包括JSON、XML等

醫療標注

影像數據（CT/DR）

RAW，裸格式：就是最原始的圖像，沒有經過任何處理，拍出來是什么樣就是什么樣；

BMP格式：BMP不壓縮，可以任意選擇圖像灰度深度或圖像位數；

DICOM格式：DICOM是一種統一的兼容各種CT,MRI,PET等醫學影像的圖像存儲方式；.dcm文件就是遵循DICOM標注的一種文件。

DICOM標準支持的設備包括心電圖、核磁共振成像、心血管、超聲心動圖等多種醫療社保，因而DCM文件被廣泛應用于醫療行業。一張CT片子對應多個.dcm文件

病理切片

.jpg格式，如果是一張病理切片如果被切分成.jpg格式的圖片通常會被切成少則幾十張多則幾百張的圖片

tif格式

這是一種靈活的位圖格式，其數據格式是一種3級體系結構，內部結構可以分為三部分：文件頭信息區、標識信息區和圖像數據區

以上就是目前數據標注涉及到的文件格式，即后期AI訓練師在數據處理中必須要了解到的基礎知識，下次我們接著分享大家必須要知道的基礎知識還有哪些`

天晚上，看學生提交的實習報告，我就發現有一個組交的作業，一個word文件中，有的圖片排版有合在一起的圖片，有的圖片都是分開的。

一看就是兩個人做的作業，然后拷貝出來，一起放到word中。

如果是一個人做，基本都是一個格式，不會有的圖片是合在一起的，有的圖片是分開的。格式明顯就是兩種。

晚上就問他們要源文件，還要說半天，哪些圖片需要發，哪些圖片不用發給我，才能夠說明白，非常麻煩。

平日里，我排版圖片一般都是用Adobe illustrator，插入幾張圖片，排成高度一致的一行，隨后加上直線和文字標注，最后導出300ppi的圖片，插入到word中。

這一種排版，是需要將AI文件保留，只有ai格式的文件才可以修改，jpeg格式的圖片是無法修改。

有的學生是Adobe illustrator都無法安裝到電腦上，就用其他軟件給圖片加標注，有的人還用ppt來添加標注。

我發現讓學生提交圖片，最好用表格或者文本框。

如果是用表格，兩行三列或者兩行四列的表格，下面的一行用來寫題注，上面的一行用來放圖片，三張或者四張或者兩張放到一起。調整成同樣的高度，讓表格的邊框不顯示就可以了。

也可以插入一個大的文本框，在文本框內放圖片，調整成同樣的高度，在圖片的下面繼續添加文本框，用來寫題注。

通過這樣來做排版圖片，每一張圖片是分散的，可以拷貝出來。

如果不這樣排版，單張的圖片是無法拿出來拷貝的。

有的學生是用PPT來做圖片的標注。這樣最不適合，原因是PPT導出的圖片分辨率是96ppi，分辨率是非常低的，打印出來分辨率太低，看不清楚。

這種圖片，只適合在電腦上觀看，沒法用來打印。這是為什么不用PPT來做圖片的文字標注的一個原因。

提交作業，盡量都是用文本框或者表格來排版圖片是最好的。

以后學生提交野外實習的作業，圖片的排板都讓學生用用表格或者文本框來放圖片。

如果學生用ai來做圖片，就需要將ai格式的文件發給我，還要繼續交流。結果卻發現，有的學生使用ppt格式做出來的圖片。這樣的圖片，需要問他們要ppt格式的文件。

這樣的源文件，才是可以修改，圖片也可以拷貝出來。

至于要添加非常多標注的圖片，還是用Adobe illustrator添加標注最好用。

#記錄我的2023#

欧美vvv,亚洲第一成人在线,亚洲成人欧美日韩在线观看,日本猛少妇猛色XXXXX猛叫