欧美vvv,亚洲第一成人在线,亚洲成人欧美日韩在线观看,日本猛少妇猛色XXXXX猛叫

新聞資訊

    odule 1 My classmates

    【重點短語】

    1.be from...=come from... 來自......

    2....years old ......歲

    3.what about...=how about... ......怎么樣?

    4.in Class Ten, Grade Seven 在七年級十班

    5.the capital of... ...... 的首都/省會

    6.first name=given name 名

    7.last name=family name 姓

    8.English name 英文名字

    9.Chinese name 中文名字

    Module2 My family

    【重點短語】

    1.a photo of Tony’s family 一張Tony 的家庭的照片

    2.on the left of… 在......的左邊

    3.next to... 緊挨著.....; 緊靠......

    4.in front of... 在......前面(外面)

    in/atthe front of... 在......前部(內部)

    5.Tony’s parents Tony的父母

    6.in the photo 照片上, 在照片中

    7.at the bus station 在公共車站

    8.at a police station 在警察局

    9.a manager of atheater 一位劇院負責人

    =a theater manager

    10. a manager of ahotel 一位賓館經理

    =a hotel manager

    11.at/in the samehospital 在同一家醫院

    12.a bus driver 一位公共汽車司機

    13.a farm worker 一位農場工人

    14.a shop worker 一名店員

    15.an English teacher 一位英語教師

    16. a man/woman driver 一位男/女司機

    復數:men/women drivers

    Module 3 My school

    【重點短語】

    1.a lot of furniture 大量的教學設施;大量的家具

    2.on everyone’s desk 在每個人的課桌上

    on the teacher’s desk 在講桌上

    3.on the wall 在墻上

    4.at/in the front of...... 在.....前面(內部)

    5.a map of the world 一張世界地圖

    a map of China 一張中國地圖

    6.in the dining hall 在食堂里

    7.at the school gate 在校門口

    8.on/in the playground 在操場上

    9.a science lab 一個科學實驗室

    10.a sports hall 一個體育館

    11.an office building 一幢辦公樓

    12.a classroom building 一幢教學大樓

    13.in the science building 在科學樓里

    14.five computer rooms 五間微機室

    15.in the middle of...... 在......的中間

    16.on the left of...... 在......的左邊

    17.between the library and the dining hall 在圖書館和食堂之間

    18.be for....... 用于......; 為......準備的

    Module 4 Healthy food

    【重點短語】

    1.have/has got... 某人有......

    2.healthy food and drink 健康的飲品和飲料

    unhealthy food and drink 不健康的飲品和飲料

    3.go shopping for sth.=go to buy sth 去買......

    4.too much +不可數;

    too many+可數復數 太多.......

    5.be good for... 對......有好處

    6.be bad for… 對......有害處

    7.lots of...=a lot of...=many+可數復數 大量的......;許多......

    lots of...=a lot of...=much+不可數

    8.get sth for sb=buy sth for sb 為某人買......

    9.what kind of... 什么種類的......

    10.one’s favourite food and drink 某人最喜歡的食品飲料

    11.chicken soup 雞湯

    12.stay healthy 保持健康

    13.eat well 吃好

    14.have a good breakfast 吃一頓營養早餐

    15.have sth for breakfast 在早餐吃......

    16.remember to do sth 記得做......

    17.a bit tired 有一點兒累

    Module 5 My school day

    【重點短語】

    1.my school day 我的學校生活

    2.on Tuesday 在星期二

    3.have Chinese=have a Chinese lesson 上語文課

    4.at five to nine=at eight fifty-five 在八點五十五

    5.at half past seven=at seven thirty 在七點半

    6.on Wednesday afternoon 在星期三下午

    7.be good at...=do well in... 擅長于......, 在......做得好

    8.talk with/to sb 和......談話

    9.on weekdays=on the weekday 在工作日

    10.go to school 上學

    11.go home 回家

    12.have a healthy breakfast 吃健康早餐

    13.go swimming 去游泳

    14.play football 踢足球

    15.play with sb 和......玩耍

    16.make apple juice 制作蘋果汁

    17.in the kitchen . 在廚房里

    18.do sports 進行體育鍛煉

    19.want to do sth 想做......

    20.on weekends=on the weekend 在周末

    21.get up 起床

    22.have breakfast 吃早飯

    23.be next to.... 緊挨著..

    24.start work=start lessons 開始工作/學習

    25.have a break (for twenty minutes) 休息(20分鐘)

    26.go to the playground 到操場

    27.watch TV 看電視

    28.have dinner with sb 和...... 吃晚飯

    29.do one’s homework 做某人的家庭作業

    30.do one’s maths homework 做某人的數學家庭作業

    31.go to bed 上床睡覺

    32.go to sleep 入睡

    33.wash one’s face 洗臉

    34.make sb/sth +形容詞 使某人/物怎么樣

    make him happy 使他開心

    make the room clean 使房間干凈

    35.have a busy day 度過繁忙的一天

    36.after school 放學后(表時間的短語)

    37.finish school 放學(實義動詞短語)

    Revision Module A

    【重點短語】

    1.go to school 上學

    2.go home 回家

    3.have a healthy brea kfast 吃健康早餐

    4.go swimming 去游泳

    5.play football 踢足球

    6.play with sb 和......玩耍

    7.make apple juice 制作蘋果汁

    8.in the kitchen 在廚房里

    9.do sports 進行體育鍛煉

    10.want to do sth 想做......

    Module 6 A trip to the zoo

    【重點短語】

    1.a trip to the zoo 到動物園的參觀,動物園之旅

    2.welcome to... 歡迎到......

    3.many kinds of... 許多種......

    4.such as... 比如......

    5.different countries 不同的國家

    6.look at.... 看......

    7.lingling the panda 熊貓玲玲

    8.the black and white animal 黑白相間的動物

    9.live in Africa 生活在非洲

    10.a little fruit 一點兒水果

    11.30 kilos of bamboo a day 每天30公斤竹子

    12.as well as... 還有......

    13.the favourite of people 人們最喜歡的

    =people’s favourite

    14.all over the world 全世界

    15.an African animal 一只非洲動物

    16.live alone 單獨生活

    17.be good at swimming 擅長游泳

    18.catch other animals for food 抓其他動物為食

    19.the world of animals 動物世界

    Module7 Computers

    【重點短語】

    1.connect A to B 連接A到B,把A連接到B

    2.turn on / off... 打開/關閉 (名中后,代中間)

    turn up /down.... 調高/調低......

    3.write sth on the computer 在電腦上寫......

    4.open a new document 打開一個新文件

    5.click the mouse on...... 在......處點擊鼠標

    6.in the new document 在新文件里

    7.save the document 保存文件

    8.write a name for the document 給文件取個名

    9.visit sb 拜訪/看望某人

    10.print the document 打印文件

    11.put some paper in(the printer) 把一些紙放入(打印機)

    12.on Sundays 在星期天

    13.share sth with sb 和某人分享某物,和某人共同使用某物

    14.in/at my home 在我家里

    15.a manager of a company 一位公司的經理

    16.go on the Internet 上網

    17.check the times of trains 核查火車時刻表

    18.make travel plans 制作旅行計劃

    plan to do sth 計劃做某事

    19.listen to music 聽音樂

    20.watch movies=watch a movie 看電影

    21.every Friday night 每個星期五晚上

    22.search for some information about... 搜索一些有關......的信息

    23.check one’s email 查收電子郵件

    24.talk to sb on the Internet 在網絡上和......談話

    25.send emails to sb 發電子郵件給......

    26.play computer games 打電子游戲

    27.work for a company 為一家公司工作

    28.at/in the cinema 在電影院

    29.buy train tickets=buy a train ticket 買火車票

    30.remember to do sth 記住做某事(還沒做)

    31.play music 播放音樂

    32.plan for our holiday 計劃我們的假期

    33.use sth to do sth 使用……做…….

    Module 8 Choosing presents

    【重點短語】

    1.have a birthday party for sb 為某人舉行生日派對

    2.go to one’s birthday party 去參加某人的生日派對

    3.at a Chinese birthday party 在中國人的生日聚會上

    4.at the birthday dinner 在生日宴會上

    5.make a birthday cake for sb 為某人制作生日蛋糕

    6.give/send birthday cards 送生日賀片

    7.get birthday presents 收到生日禮物

    8.on one’s birthday 在某人的生日(那天)

    9.a box of chocolates 一盒巧克力

    10.a cinema ticket 一張電影票

    aconcert ticket 一張音樂會入場券

    11.choose a birthday present for... 為......選擇生日禮物

    12.stay/keep healthy 保持健康

    13.get some exercise 進行體育鍛煉

    14.every day 每天

    15.eleven silk scarves 11條絲綢圍巾

    16.人 spend +時間/錢+on sth 在某物上花費時間 / 錢

    人 spend +時間/錢+(in) doing sth 在做某事上花費時間 / 錢

    17.read magazines=read a magazine 閱讀雜志

    18.go to the cinema. 去看電影

    19.watch sports 觀看體育賽事

    20.go to concerts=go to the concert 去聽音樂會

    21.the CDs of one’s favourite songs 某人最喜愛的歌曲的唱片

    22.go to the football match 去看足球賽

    23.watch football matches on TV 在電視里看足球比賽

    24.at weekends=at the weekend 在周末

    25.watch AC Milan 看AC米蘭(的比賽)

    26.watch films=watch a film 看電影

    27.stay at home 待在家里

    28.on Saturday evening 在星期六晚上

    29.hear from sb 收到某人的來信

    30.watch sb play football 觀看某人踢足球

    Module 9 people and places

    【重點短語】

    1.stand in line 排隊

    2.take a photo of... 給......照相

    3.wait for a bus 等公共汽車

    4.walk on the Great Wall 在長城上走

    walk to school/work 走著去學校/上班

    walk home 走著回家

    5.talk with sb on the phone 在電話里和......說話

    6.right now=at the moment=now 現在

    7.be with sb 和......在一起

    8.be on sale 在出售

    9.lie in the sun 躺在陽光下

    10.send sth to sb by email 通過電子郵件發送某東西給某人

    11.enjoy the trip a lot 非常喜歡這次旅游

    12.it’s time to do sth 該做......的時間了

    it’stime for sth 該......的時間了

    13.go/be on a trip to +地點 參加到......的旅游

    14.get off / on 下/上(車,船......)

    15.leave work 下班

    16.drive to school/work 開車去學校/上班

    drive home 開車回家

    17.have afternoon tea 喝下午茶

    18.have a drink 喝酒,喝飲料

    19.go to the theater 去劇院看戲

    20.watch a film=see a film 看電影

    21.go home from work 下班回家

    22.start lessons 開始上課

    23.see friends=visit friends 拜訪某人,看望某人

    24.call home 給家人打電話

    25.a few+可數復數 一些......

    26.enjoy doing sth 喜歡做.......

    27.go back to... 回......

    28.hi from... 來自......的問候

    29.thank sb for sth 因某事謝謝某人

    thank sbfor doing sth 因做某事謝謝某人

    30.enjoy the sun 享受陽光

    31.look at the homes of ...... 觀賞......的房屋

    32.a movie star 電影明星

    33.a postcard from sb 來自于......的明信片

    34.call sb 給......打電話

    35.visit the Forbidden City 參觀故宮

    36.look at maps 看地圖

    37.have a good time=have fun=enjoy oneself 玩的高興,過的愉快

    38.play/do taijiquan 打太極拳

    39.play/do yangge 扭秧歌

    40.run for a bus.=run for buses 向公共汽車跑去,去趕公共汽車

    Module 10 Spring Festival

    【重點短語】

    1.get / be ready for...... 為......做準備

    get/be Aready for B 為B準備A

    2.Spring Festival 春節

    3.make big red lanterns 制作大紅燈籠

    4.learn a dragon dance 學舞龍

    5.clean the house 打掃房屋

    6.sweep the floor 打掃地板

    7.cook the meal 烹調食物

    8.be busy with sth 忙于某事

    be busy doing sth 忙于做某事

    9.be at work=be working 正在工作

    10.put sth away 把......放好; 整理......

    11.work hard 努力工作;study hard 努力學習

    12.jion sb 加入(某些人)

    13.hurry up 快點,趕快

    14.hurry to +地點 匆忙到 ......

    hurry todo sth 匆忙做某事

    15.sweep away bad luck 掃除霉運

    16.have a look at...=look at... 看一下......

    17.celebrate Spring Festival 慶祝春節

    18.have a traditional family dinner 吃一頓傳統的家庭團圓飯

    19.so much +不可數 如此多的......(不可數名詞)

    so many+可數 如此多的......(可數名詞)

    20.watch a special programme on TV 在電視里看一個特別的節目

    21.wear new clothes 穿著新衣服

    22.lucky money 壓歲錢

    23.have a big family dinner 吃一頓豐盛的家庭團圓飯

    24.traditional food 傳統食品

    25.on Christmas Day 在圣誕節

    26.Merry Christmas 圣誕快樂

    27.say happy new year to sb 祝某人新年快樂

    28.learn a lion dance 學習舞獅

    29.get presents from... 從......收到禮物

    30.at Lantern Festival 在元宵節

    Revision Module B

    【重點短語】

    1.help sb to do sth 幫助某人做某事

    help sbwith sth 幫助某人某事;在某方面幫助某人

    withone’s help=with the help of sb 在某人的幫助下

    2.colour paper 彩色紙

    3.the leaves of the tree 樹葉

    4.on one’s birthday 在某人生日那天

    5.at the weekend=at weekends 在周末

    6.make a lot of friends 交了大量朋友

    makefriends with... 和......交朋友

    7.write emails to sb 給某人寫電子郵件

    8.do/have PE 上體育課

    感謝閱讀「美圖數據技術團隊」的原創文章,關注我們持續獲取美圖最新數據技術動態。

    計算機理解自然語言是個很困難的問題。第一個重要的步驟是如何將文字表達成計算機可識別的方式。通常的做法是通過數學模型進行運算把文字(詞語)轉化成數字或向量表示。以下我們將分別簡述幾種常用的數學表述方法及中文詞嵌入最新的進展:

    1# 索引(Index)

    索引是把句子中所有出現的詞語提取出來建立一個詞典,給每個詞語賦予唯一的序號。如下例所示:

    [一棵,是,棗樹,另,一棵,也,是,棗樹]=[0, 1, 2, 3, 0, 4, 1, 2]

    由于這種序號可作為分類信號,序號之間的數值沒有實際物理意義,不能直接用于運算。

    2# 獨熱編碼(One-Hot Encoding)

    獨熱編碼是將每個詞語表達為一個詞典長度的向量,每個詞向量中對應詞語序號所在的位置為數值 1,其它位置均為 0。以上文中 [一棵,是,棗樹,另,一棵,也,是,棗樹] 為例,該編碼表達為:

    [[1, 0, 0, 0, 0],

    [0, 1, 0, 0, 0],

    [0, 0, 1, 0, 0],

    [0, 0, 0, 1, 0],

    [1, 0, 0, 0, 0],

    [0, 0, 0, 0, 1],

    [0, 1, 0, 0, 0],

    [0, 0, 1, 0, 0]]

    這種方法雖然可以對模型進行運算,但映射出來的詞向量都是兩兩正交,無法體現詞語間的語義相關性;而且矩陣過于稀疏,在詞典較大的情況下空間浪費很大。

    3# 共現編碼(Co-Occurence Encoding)

    共現編碼則是以某個詞為中心,找到它左右區間的詞語,根據臨近詞的位置定坐標,等所有詞都定好坐標后再將相同項相加,得到最終坐標向量。以上文中[一棵,是,棗樹,另,一棵,也,是,棗樹] 以 2-gram 為例, 該編碼表達為:

    [[0,1, 0, 0, 0],

    [1,0,1,0,0],

    [0,1,0,1,0],

    [1,0,1,0,0],

    [0,0,0,1,1],

    [1,0,1,0,0],

    [0,0,1,0,1],

    [0,1,0,0,0]]

    由于相同意義的詞周圍往往容易出現相同的詞,因此這種方法適用于找出詞義相近的詞語,同時亦考慮了詞出現的次序,但它同樣面臨著詞向量過長的問題。

    此外,還有其他各種傳統詞語的表示法,但是大多傳統的方法都會面臨詞典過大時帶來的詞向量過長、數據過于稀疏的問題。為了解決以上的問題,基于神經網絡的詞嵌入(word embedding)方法逐漸成為主流。

    詞嵌入是自然語言處理中語言模型與表征學習技術的統稱。概念上而言,它是指把一個維數為所有詞的數量的高維空間嵌入到一個維數低得多的連續向量空間中,每個單詞或詞組被映射為實數域上的向量。

    via 維基百科

    通俗來說,詞嵌入就是把詞典里的每一個詞分別表示為一個向量,得到的向量通常稱為「詞向量」,好的映射可以有效抽取詞語間的語義相關性。根據這個定義,實際上傳統的 one-hot encoding、index 等方法也可以被稱為詞嵌入方法,但從狹義的角度而言,以下討論的「詞向量」一詞,都是指基于神經網絡訓練的詞嵌入方法。

    詞嵌入在自然語義理解領域內所有任務中都擔任著最基礎、最核心的功能,包括文本分類、文本摘要、信息檢索、自動對話等,通過詞嵌入得到好的詞向量作為模型的初始參數,可以幫助幾乎所有的各類 NLP 任務取得更好的效果。

    一個好的「詞嵌入」可以讀取詞語與詞語之間的語義信息,同時也會避免稀疏性,節省空間。我們把詞語與詞語之間的語義相近程度稱為相似度,舉個例子:

    高興=(1.00, -0.31, 0.42, -0.02, -0.23)

    開心=(0.90, -0.25, 0.45, -0.10, -0.11)

    難過=(-0.80, 0.33, -0.35, 0.04, 0.09)

    天氣=(0.82, 0.21, -0.30, 0.55, 0.71)

    假設以上四個詞存在于同一個五維空間內,其中「高興」與「開心」語義較為接近,他們每個向量正負相同,在同一個區域內,并且各個維度的數值都十分接近,這種情況下可以說它的相似度高。而「高興」與「難過」是反義詞,用向量表達時正負值一般為相反,距離更遠。詞語「天氣」與其余詞沒有很明顯的語義相關關系,故無呈現出特殊相關規則。

    以上是對于相似度定性的討論,而一般定量地,相似度大小可以通過余弦相似度來衡量,余弦相似度可通過以下公式計算:

    在詞嵌入領域最經典的模型是連續詞袋模型(Continuous Bag Of Words, CBOW) 和跨詞序列模型(Skip-gram) ,如下圖所示是它們的結構模型。這兩個是由 Tomas Mikolov 等人 2013 年在論文《Efficient Estimation of Word Representations in Vector Space》中提出的。

    如圖所示,CBOW 是通過周圍的詞 w(t-2),w(t-1),w(t+1),w(t+2) 預測中間的詞 w(t),

    它會給所有詞賦予一個隨機的長度向量,接著將周圍的詞 w(t-2),w(t-1),w(t+1),w(t+2) 輸入線性模型內做非線性變換,通過 softmax 概率預測 w(t)。而 Skip-gram 是通過中間的詞 w(t)預測周圍的詞 w(t-2),w(t-1),w(t+1),w(t+2) ,最大化對 w(t-2),w(t-1),w(t+1),w(t+2)的預測之和。

    CBOW 和 skip-gram 模型在預測的過程中,不斷迭代更新最初隨機分配給每個詞語的向量。待訓練收斂后,最終的向量即為訓練所的的「詞向量」。

    中文詞嵌入


    不同語言體系需要訓練的詞向量亦不相同,近年來一些學者開始研究針對中文詞嵌入的訓練方式。中文詞嵌入是否訓練的好的效果評價標準主要有以下幾種:

    1# 詞語相似性

    數據集:wordsim240/wordsim296

    該數據集包含一系列詞語對,計算訓練好詞向量之后計算各詞語對的相似度,求相似度與人工打分相關系數 ρ 。

    2# 詞語推理

    數據集:CWE 自建數據集

    該數據集包括家庭信息、地理信息等 1125 條推理類數據,如「巴黎:法國==羅馬:?」,通過計算詞語推理的準確率來評價效果。

    3# 分類任務

    數據集:復旦語料(Fudan Corpus)等

    該數據集包含 9804 篇共 20 類文章,文章類型包括環境、農業、經濟、政治等。以預訓練的詞向量作為輸入,訓練文本分類模型,最終準確率為度量。

    4# 個案研究

    根據對模型特點的認知與思考,提取部分典型的、具有代表性的詞語個例,觀察其最鄰近的相關詞語等。


    接下來通過 7 篇代表最新技術進展的論文來直面感受中文詞嵌入的發展。

    1# Joint Learning of Character and Word Embeddings(IJCAI 2015)

    Xinxiong Chen, Lei Xu, Zhiyuan Liu, Maosong Sun, Huanbo Luan


    亮點:字符粒度的中文詞向量訓練& 變種—考慮字符在詞語中出現的區域

    摘要:Most word embedding methods take a word as a basic unit and learn embeddings according to words’ external contexts, ignoring the internal structures of words. However, in some languages such as Chinese, a word is usually composed of several characters and contains rich internal information. The semantic meaning of a word is also related to the meanings of its composing characters. Hence, we take Chinese for example, and present a character enhanced word embedding model (CWE). In order to address the issues of character ambiguity and non-compositional words, we propose multiple prototype character embeddings and an effective word selection method. We evaluate the effectiveness of CWE on word relatedness computation and analogical reasoning. The results show that CWE outperforms other baseline methods which ignore internal character information. The codes and data can be accessed from https://github.com/Leonard-Xu/CWE.

    筆記:此文為中文詞嵌入領域最早使用文字級別顆粒度進行訓練的文章。文章將詞語拆分為文字的組合,通過 CBOW 進行訓練,非常符合直觀思路。除了基本的 character embeddings 以外,文章還提出了基于此的幾項擴展:position-based character embeddings、cluster-based character embeddings、nonparametric clustrer-based character embeddings。其中 position-based character embeddings 對每一個字符給予三個帶訓練 vectors,分別是該字符屬于詞語開頭時、該字符屬于詞語中間時、該字符屬于詞語末尾時;cluster-based character embeddings 則對每個字符出現的上下文場景(如一同構成詞語的其它字)進行聚類,當聚類中心選為 N(c)個時,這個字符將有 N(c)種向量表示。在實驗中對比原版 character embeddings 時,文章報告的數據顯示 position-based 的變種比原版較好。


    2# Multi-Granularity Chinese Word Embedding(EMNLP 2016)

    Rongchao Yin, Quan Wang, Rui Li, Peng Li, Bin Wang


    亮點:將偏旁部首粒度也納入到 embeddings 的范圍。

    摘要:This paper considers the problem of learning Chinese word embeddings. In contrast to English, a Chinese word is usually composed of characters, and most of the characters themselves can be further divided into components such as radicals. While characters and radicals contain rich information and are capable of indicating semantic meanings of words, they have not been fully exploited by existing word embedding methods. In this work, we propose multi-granularity embedding (MGE) for Chinese words. The key idea is to make full use of such word-character-radical composition, and enrich word embeddings by further incorporating finer-grained semantics from characters and radicals. Quantitative evaluation demonstrates the superiority of MGE in word similarity computation and analogical reasoning.Qualitative analysis further shows its capability to identify finer-grained semantic meanings of words.

    筆記:標題中的「多尺度」,在文章中表現為,除了輸入上下文詞語、上下文詞語字符外,還輸入了預測詞語的偏旁部首(radicals)。偏旁部首在漢字中有一定的表義能力,顯式地對偏旁部首進行編碼增強了模型所能提取到的信息。


    3# Joint Embeddings of Chinese Words, Characters, and Fine-grained Subcharacter Components(EMNLP 2017)

    Jinxing Yu, Xun Jian, Hao Xin, Yangqiu Song


    亮點:拆分文字,將子字符信息納入到訓練中。

    摘要:Word embeddings have attracted much attention recently. Different from alphabetic writing systems, Chinese characters are often composed of subcharacter components which are also semantically informative.In this work, we propose an approach to jointly embed Chinese words as well as their characters and fine-grained subcharacter components. We use three likelihoods to evaluate whether the context words, characters, and components can predict the current target word, and collected 13,253 subcharacter components to demonstrate the existing approaches of decomposing Chinese characters are not enough. Evaluation on both word similarity and word analogy tasks demonstrates the superior performance of our model.

    筆記:JWE 主要是擴展了 MGE,文章認為 MGE 在子字符粒度僅使用偏旁部首的方式,依然遺漏了較多的文字構成信息。故 JWE 不僅保留了文字的偏旁部首,還將每一個漢字拆分成多個最小漢字的組合并進行訓練,這就是標題所提及的「fine-grained subcharacter components」。


    4# Improve Chinese Word Embeddings by Exploiting Internal Structure(HLT-NAACL 2016)

    Jian Xu, Jiawei Liu, Liangang Zhang, Zhengyu Li, Huanhuan Chen


    亮點:通過引入語義相似性,文章非常有效地解決了純粹使用文字粒度訓練帶來的噪音。

    摘要:Recently, researchers have demonstrated that both Chinese word and its component characters provide rich semantic information when learning Chinese word embeddings. However, they ignored the semantic similarity across component characters in a word. In this paper, we learn the semantic contribution of characters to a word by exploiting the similarity between a word and its component characters with the semantic knowledge obtained from other languages. We propose a similarity-based method to learn Chinese word and character embeddings jointly. This method is also capable of disambiguating Chinese characters and distinguishing non-compositional Chinese words. Experiments on word similarity and text classification demonstrate the effectiveness of our method.


    筆記:個人認為此文是前后各文中最有價值和說服力的一篇。對比 CWE 和 CBOW 對某特定詞語的最鄰近詞,可以發現由于 CWE 使用了文字編碼,故其具有很強的傾向將使用了同樣字的詞語找出來,即使該詞的語義相關性低/日常使用頻率低。SCWE 指出了 CWE 中存在的問題:

    1.漢語中一個文字往往有繁多的含義,故不考慮語義差異,純粹使用字符編碼會產生較多生搬硬套的情況,雖然 CWE 中有擴展唯一 char embeddings 的 position-based、cluster-based 等變種,但是并沒有顯式地對語義進行歸類提取。
    2.詞語和組成詞語的字,實際上可能存在不一樣的含義,或每個字對于詞語表義的權重并不一致,如「妻子」中的「子」字,一般認為與原詞意義相差較遠,「青蛙」中的「蛙」字比「青」字對詞語表義的權重更大等。


    SCWE 使用了以下幾個步驟,顯式地將文字語義添加入訓練過程中:

    1.對每一個漢字、詞語,使用金山詞霸進行漢英翻譯,得到多項英文釋義;

    2.合并字義項:訓練一個英文的 word embeddings,并對每一個漢字的各項英文釋義兩兩進行相似度比對,當小于某閾值時,將該漢字的此兩項釋義。合并合并完成后,某漢字剩余的釋義項數即為該字的 char vector 數量,并進行編號;

    3.對于每一個詞 w,假設其由 n 個漢字(c1, c2, ...)組成,則將該詞的英文釋義與每個組成漢字的每個釋義進行相似度計算,最后保留每個相似度的最大值(s1, s2, ...)和取到最大值時對應的字符釋義 index(n1, n2, ...);

    4.使用(s1, s2, ...)相似度添加對應字并訓練模型,得到 char vectors 和初步的 word vectors。

    5# Learning Chinese Word Representations From Glyphs Of Characters(EMNLP 2017)

    Tzu-Ray Su, Hung-Yi Lee

    亮點:采用文字的圖像壓縮特征進入訓練

    摘要:In this paper, we propose new methods to learn Chinese word representations. Chinese characters are composed of graphical components, which carry rich semantics. It is common for a Chinese learner to comprehend the meaning of a word from these graphical components. As a result, we propose models that enhance word representations by character glyphs. The character glyph features are directly learned from the bitmaps of characters by convolutional auto-encoder(convAE), and the glyph features improve Chinese word representations which are already enhanced by character embeddings. Another contribution in this paper is that we created several evaluation datasets in traditional Chinese and made them public.



    筆記:文章認為作為象形文字,漢字的圖像信息也包含了一定量的語義信息,比起手動切分子模塊/偏旁部首,可以直接采用整個字符的圖像提取特征。故文章采用(60pixels * 60pixels)的楷體繁體字,訓練了一個 5 層 encoder、5 層 decoder 的 CNN autoencoder,將每個字的圖像信息壓縮為一個 512 維的向量進行訓練。然而最終文章的測試數據顯示,GWE 并沒有表現出比原版 CWE 甚至是 CBOW 顯著更優,且其模型會因圖像的相似產生部分反語義的誤差(如,GWE 中詞語「山峰」和「蜂蜜」的語義相關度比其它模型都要高)。


    6# cw2vec: Learning Chinese Word Embeddings with Stroke n-gram Information(AAAI 2018)

    Shaosheng Cao, Wei Lu, Jun Zhou, Xiaolong Li


    亮點:使用筆畫粒度的信息進行訓練。

    摘要:We propose cw2vec, a novel method for learning Chinese word embeddings. It is based on our observation that exploiting stroke-level information is crucial for improving the learning of Chinese word embeddings. Specifically, we design a minimalist approach to exploit such features, by using stroke n-grams, which capture semantic and morphological level information of Chinese words. Through qualitative analysis, we demonstrate that our model is able to extract semantic information that cannot be captured by existing methods. Empirical results on the word similarity, word analogy, text classification and named entity recognition tasks show that the proposed approach consistently outperforms state-of-the-art approaches such as word-based word2vec and GloVe, character-based CWE, component-based JWE and pixel-based GWE.



    筆記:文章先將漢字拆分成按筆畫(strokes)順序編碼的序列,其中筆畫共分為五類(橫、豎、撇、捺、折),然后取一定長度的 stroke n-grams(文章中使用 3 ~ 12)作為特征,采用 skip-gram 的方式進行訓練。文章使用下圖左簡單說明了使用筆畫編碼的動機:ridical-based 的 MGE 在拆分文字時只提取了部分信息;component-based 的 JWE 在拆分文字時將文字拆分為最細的粒度,但細粒度的子字符與原字符的語義間很可能不是很好的組成關系;stroke-based 的方法,如果按作者的預想,可以智能地提取合適的子字符區域,潛在中使得子區域的語義匹配更加準確。


    7# A Hybrid Learning Scheme for Chinese Word Embedding

    Wenfan Chen, Weiguo Sheng


    亮點:混合了 compositional 和 predictive 方法,用兩種模型結構共同訓練。

    摘要:To improve word embedding, subword information has been widely employed in state-of-the-art methods. These methods can be classified to either compositional or predictive models. In this paper, we propose a hybrid learning scheme, which integrates compositional and predictive model for word embedding. Such a scheme can take advantage of both models, thus effectively learning word embedding. The proposed scheme has been applied to learn word representation on Chinese. Our results show that the proposed scheme can significantly improve the performance of word embedding in terms of analogical reasoning and is robust to the size of training data.

    圖 1


    圖 2

    筆記:文章提出此前對中文的多種 word embeddings 方法主要可以分為兩類:compositional 和 predictive,作者對其的解釋為,predictive 的模型使用多個分離的信息向量來預測目標詞語;而 compositional 的模型將所有的信息通過各種方式組合成一個向量然后預測目標詞語。而文章標題「Hybrid」意味著,模型同時使用了 compositional 和 predictive 兩種模型進行訓練并得到結果,其中 predictive 的模型如圖 1 所示,其組成與文章 JWE 基本一樣;predictive 的模型如下圖 2,根據作者的解釋,白色圓點為 h1、h2...、h5 的平均值點,然后再與黑色圓點即目標詞點作 loss 計算。然而在這種結構下,個人認為所謂的 compositional 和 predictive 模型并沒有本質差異,或者可以認為 compositional 模型是 predictive 模型的一個特例。文章最終提供的數據指標也并沒有普遍的提升,個人認為不存在特別強的說服力。


    總結


    通過以上幾篇論文可以看出中文詞嵌入主要分為基于形態和基于語義兩個方向。

    基于形態的方法通過深入挖掘漢字的形態構成特征,將中文詞語拆分成字符、偏旁部首、子字符、筆畫等等細分的特征,這些特征與原詞語一并進入詞嵌入模型,給模型提供更多的語義信息。

    基于語義的方法顯式地對中文字符層級語義多樣性進行建模,可以有效處理一字多義的問題,更能通過字詞語義相似性的先驗,非平均地對待構成詞的不同字符。

    從發展及改進的角度看,基于形態的方法引入特征信息的同時也會引入一定的噪音,因此模型可能產生對噪音的過擬合(如經 CWE 訓練后,某個詞語的最近似詞非常傾向于出現在使用過同樣字的詞語中)。使用過細的特征可能會存在表義能力漸弱、噪音增加的問題,在元素拆分幾乎達到極致的情況下,如何適當地選擇特征層級、設計去噪方法以提高信噪比等方向值得思考。至于基于語義的方法,觀察到在 SCWE 中,英翻輔助的處理方式有助于在訓練前得到字義、詞義的基點并提供給模型,但該方法也同時存在字詞相似度信息不可變、新詞翻譯難處理等不足,有待于探索更多的處理方案。

網站首頁   |    關于我們   |    公司新聞   |    產品方案   |    用戶案例   |    售后服務   |    合作伙伴   |    人才招聘   |   

友情鏈接: 餐飲加盟

地址:北京市海淀區    電話:010-     郵箱:@126.com

備案號:冀ICP備2024067069號-3 北京科技有限公司版權所有