《《信息处理用现代汉语词类标记集规范》》的研制_第1页
《《信息处理用现代汉语词类标记集规范》》的研制_第2页
《《信息处理用现代汉语词类标记集规范》》的研制_第3页
《《信息处理用现代汉语词类标记集规范》》的研制_第4页
《《信息处理用现代汉语词类标记集规范》》的研制_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、的研製,R95921058 藍元君,前言:研究背景概述,(一)詞類標注研究 自動標記是為真實文本中的每個詞語標上正確的詞類 a. 規則方法 b. 概率方法 c. 混和:北京大學計算語言學研究所,前言:研究背景概述,(二)立項:信息處理用現代漢語詞類標記集規範 不要重複建設語料庫 要制訂預料庫建設的相關規範標準 各自獨力建立的語料庫能夠在不同的技術層面上兼容 大家可以共享的自然語言處理平台 可以做為國家規範的現代漢語詞類標記集體系,以便各個中文系席處理系統能夠使用規範統一的詞類標記 具有開放性,盡量包容各種學術觀點 有一致的思想和統一的策略以保證這些規範具有良好的一致性和可操作性,二.信息處理用

2、現代漢語詞類標記集規範的研製,(一)詞類標記集規範的確定原則 語法功能原則。語法功能是詞類劃分的主要依據。詞的意義不作為劃分詞類的主要依據,但有時也起某些參考作用 允許有兼類。根據各種統計研究,現代漢語的某些詞具有多種語法功能,但這多種功能的分佈概率不同。在資訊處理用現代漢語詞類體系中,各詞類的確立要根據詞的主要語法功能。 詞類標記集中的大類應能覆蓋現代漢語的全部詞。,二.信息處理用現代漢語詞類標記集規範的研製,(二)術語及解釋 詞:為滿足計算機處理真實本文的需要,不儘包括語言學意義上的詞,也包括一些比詞小的成分,如前接成分(前縋),後接成分(後綴),語素字,非語素字,;比詞大的成分,如成語,

3、慣用語,簡略稱語;標點符號,非漢字符號 詞類:對上述定義的詞按具法功能的原則劃分的類 基本詞類:指中名詞,動詞,形容詞等19個大類 小類:基本詞類下的分類;細類:基本詞類下具有某些特殊性質的詞的分類 兼類:一個詞具有兩類或兩類以上詞的主要句法分佈特徵,二.信息處理用現代漢語詞類標記集規範的研製,(三)有關兼類問題的處理原則 在某個特定的領域,一些詞可能已經具備了另一類或幾類詞得主要句法特徵,但在其他領域還不具備這些特徵 面對不同應用領域的漢語信息處理系統中的詞的兼類信息可以不同,二.信息處理用現代漢語詞類標記集規範的研製,(四)研製信息處理用現代漢語詞類標記集規範 調查,比對: 對於中文文本的

4、分詞和詞類標住的研究從很早就開始。如:白拴虎等,1991;余士汶,1994;姚天順,1995 調查的系統主要有北京大學,清華大學,北京語言大學,山西大學,復旦大學,東北大學以及美國賓夕法尼爾大學的詞類體系和標記集。 經過比對分析:不同的標記集中詞類的數目相差很大,名稱也不完全一致,但如果以分類大的層次(基本詞類)上看:分類的原則是一致的,都是以句法功能的角度劃分詞類。但在小類的分類上:就不大一樣,有的偏重句法,有的偏重語意,二.信息處理用現代漢語詞類標記集規範的研製,(四)研製信息處理用現代漢語詞類標記集規範 徵求意見,做標註實驗 標註的語料有:北京青年報,人民日報,小學語文中的全部現代文。近

5、40萬字。標註工作是先用自動標註軟體自動標註,在進行人工校對。 找專家討論,多次修正,進行研討會,二.信息處理用現代漢語詞類標記集規範的研製,(四)研製信息處理用現代漢語詞類標記集規範 完成 19個大類:這19個基本詞類是各個詞類標註系統的標註基礎,可根據該字的體系確定大類和小類 加上小類標記共92個詞類標記各系統可以根據需要選擇使用小類,也可以增加小類 兼類詞的標註方法為把他所兼的類用 ” / ”連接起來,如 n/v表示名詞兼動詞,三、信息處理用現在漢語詞類標記集規範,(一) 引言 用於現代漢語資訊處理系統中的漢語詞類和詞類標記集有很多種設計方案。經過多年的研究,人們對中文資訊處理系統中的詞

6、類問題,已經有了一個基本統一的認識,詞類體系大類大致相同,沒有太大實質性的分歧,不一致主要體現在大類數量不太一致,術語不太一致,有的把某一類作為小類來處理,有的升為大類。 各家資訊處理系統詞類標記集的不統一給中文資訊處理系統的資料交換帶來了困難。現在越來越需要有一套面向資訊處理的、統一的現代漢語詞類標記集,以減少資料轉換的麻煩。資訊處理用現代漢語詞類標記集規範正是為了滿足這種需要而設計的。 資訊處理用現代漢語詞類標記集規範吸收了語言學家的研究成果,並兼顧各家的分類體系,是一套從資訊處理的實際要求出發的現代漢語詞類標記集的規範,它提供了現代漢語書面語詞類標記集的符號體系,使得各種中文資訊處理系統

7、能夠用較為統一的、各方都接受的詞類標記體系標注各自的系統。,三、信息處理用現在漢語詞類標記集規範,(二) 適用範圍 本規範適用於漢語語料庫的深加工和漢語句法自動分析等漢語資訊處理領域,它解決詞類標記集的統一問題,具有開放性和靈活性,以便適用於持不同學術觀點的中文資訊處理系統。 本規範不妨礙對詞類問題的進一步研究,它不是對詞類問題的總結、評述,更不是詞類研究的終結。,三、信息處理用現在漢語詞類標記集規範,(三) 規範的內容 1. 詞類標記集規範的確定原則 語法功能原則。語法功能是詞類劃分的主要依據。詞的意義不作為劃分詞類的主要依據,但有時也起某些參考作用。 兼類性原則。允許有兼類。根據各種統計研

8、究,現代漢語的某些詞具有多種語法功能,但這多種功能的分佈概率不同。在資訊處理用現代漢語詞類體系中,各詞類的確立要根據詞的主要語法功能。 覆蓋性原則。詞類標記集中的大類應能覆蓋現代漢語的全部詞。,(三) 規範的內容 2. 有關說明 為滿足電腦處理真實文本的需要,資訊處理用現代漢語詞類標記集規範中的符號,不僅要覆蓋語言學意義上的詞,還要覆蓋比詞小的單位,如前接成分(首碼)、後接成分(尾碼)、語素字、非語素字等,以及比詞更大的單位,如成語、慣用語、簡稱、略語以及標點符號、非漢字符號等。只有這樣,資訊處理用現代漢語詞類標記集規範才能提供中文資訊處理所需的資訊,因此本規範的詞類標記集包括漢語詞類資訊及上

9、述那些比詞大的或比詞小的單位以及標點符號、非漢字符號等資訊。,三、信息處理用現在漢語詞類標記集規範,(三) 規範的內容 2. 有關說明 規範中的大類是各中文資訊處理系統中較為一致的部分,把它們列為大類並不意味著對詞類體系的限制,各中文資訊處理系統可根據自己的學術觀點採用不同的詞類體系,但應包含本規範中所列舉的大類。,三、信息處理用現在漢語詞類標記集規範,(三) 規範的內容 3. 詞類標記,名詞(n),名詞主要用來充任主語和賓語。例:“人民”、“玻璃”、 “孔繁森”、 “中國”、 “共產黨”、“杯子”、 “女方”等。 小類 專有名詞(np):指稱人和事物名稱的名詞。(a)人名(nph):包括姓(

10、複姓)、名、姓名、外號等。(b)地名(npp):如“北京”、“王府井”等名詞。(c)團體機構名(npi):如“共產黨”等名詞。 普通名詞(ng):如“人民”、“玻璃”、“杯子”、“女方”等名詞。(a)無量名詞(ngq):如:“詞彙”、“女方”等不受任何量詞修飾的普通名詞。 時間名詞(nt)/時間詞(t):如“今天”、“春節”、“宋朝”、“現在”、“春天”、“早晨”、“星期六”等名詞。 處所名詞(ns)/處所詞(s):如“近郊”、“兩側”、“空中”、“高處”、“隔壁”等名詞。 方位名詞(nl)/方位詞(f):如“上”、“下”、“前”、“後”、“左”、“右”、“東”、“中間”、“前面”、“外頭”等

11、名詞。(a)單純方位名詞(nfm)/單音節方位詞(fm):如:“上”、“下”、“前”、“後”、“東”、“西”、“南”、“北”、“左”、“右”、“裡”、“外”、“中”、“內”、“間”、“旁”等方位詞。(b)複合方位名詞(nfd)/雙音節方位詞(fd):如:“前面”、“中間”、“之後”等方位詞。,數詞(m),數詞一般不單獨充任句子成分,在一定條件下能充任主語或賓語。例:“一”、“第一”、“百”、“零”、“百萬”、“乙”、“倆”等。 小類 基數詞(mc):如“三”、“五十”、“二百零三”等表示數目的數詞。(a)系數詞(mcx):如“一、二、三、四、十”、“兩”等能單獨表示一個確切數目的數詞。(b)位

12、數詞(mcw):如:“十”、“百”、“千”、“萬”、“億”等能代表一個基本位數的數詞。 序數詞(mo):如:“第一”等表示次序的數詞。一般由數前接成分加上基數詞構成。(a)序列詞(mos):如“甲、乙、丙、丁、戊、己、庚、辛”和“子、醜、寅”、“甲午、庚子”等表示序列的數詞。 數量數詞(mq):如: “倆”、“仨”等。 助數詞(mu):如:“分之”、“又”、“點”等。,量詞(q),量詞不能單獨充任句子成分,常跟數詞組成數量短語修飾名詞或動詞。例:“個”、“群”、“克”、“把”、“次”、“種”、“些”、“人次”、“小時”等。 小類 名量詞(qn):常和名詞連用的量詞。(a)個體量词(qns):如

13、:“位”、“輛”、“張”等表示個體的量詞。(b)度量詞(qnm):如:“克”、“千米”等計量單位。(c)複合量詞(qnc):如:“人次”、“架次”、“噸公里”等量詞。(d)不定量词(qni): 如:“點”、“些”等表示不定量的量詞。 動量詞(qv): 如:“次”、“回”、“趟”等常和動詞連用的量詞。 時量詞(qt):如:“天”、“小時”等表示時間的量詞。,形容詞(a),主要能充任定語、謂語。例:“好”、“紅”、“勇敢”、“危險”、“漂亮”、“突然”等。 小類 性質形容詞(aq):如“大”、“小”、“偉大”、“美麗”等形容詞。 情狀形容詞(ad):如:“早”、“晚”、“及時”、“突然”、“偶然”

14、、“完全”、“熱情”、“勉強”等既能加“的”充任定語,又能充任謂語,又能充任狀語的形容詞。 非謂形容詞(an)/區別詞(b):如“半自動”、“初等”、“淡紅”、“內向型”、“公共”等形容詞。 唯謂形容詞(ap):如:“料峭”、“集中”、“分明”等形容詞。 狀態形容詞(as)/狀態詞(z):如“亮堂堂”、“白花花”、“殷紅”、“灰不溜秋”等形容詞。,動詞(v),主要能充任謂語。例:“是”、“應該”、”躺“、“寫”、“學習”、 “希望”、“給”、“選舉”等。 小類 助動詞(vu):如:“應該”、“能”、“可以”、“願意”等動詞。 趨向動詞(vd):如: “下去”、“起來”等動詞。 系動詞(vl):

15、如:“系”、“為”、“乃”、“是”等動詞。 不及物動詞(vi):如:“躺”、“咳嗽”等動詞。 及物動詞(vt):如:“取得”、“喜歡”等動詞。(a)體賓動詞(vtn):如:“姓”、“寫”、“騎”、“買”、“捆”、“駕駛”等動詞。(b)小句賓動詞(vts):如:“希望”、“認為”等帶主謂結構或動詞結構作賓語的一類動詞,。(c)雙賓動詞(vtd):如:“給”、“問”、“送”、“還”等動詞。(d)兼語動詞(vtc):如:“選舉”、“讓”、“派”等動詞。(e)形式動詞(vtf):如:“進行”、“加以”等動詞。,副詞(d),一般只能充任狀語。例:“不”、“很”、“都”、“忽然”、“最”、“剛剛”等。 小

16、類 程度副詞(dd):如:“很”、“十分”、“非常”等副詞。 關聯副詞(dc):如:“只有才”、“即使也”中的“才”和“也”等副詞。 可修飾名詞性成分的副詞(dn):如:“就”、“僅”等副詞。,代詞(r),代詞能替代名詞、形容詞、動詞、副詞等詞或片語,能在篇章中起聯繫作用,能在語境中起指別作用。例:“你”、“我”、“他們”、“這”、“那兒”、“哪兒”、“誰”、“什麼”、“怎樣”、“這樣”等。 代詞的數量有限,它的句法結構功能和短語組合功能可逐個進行分析。,介詞(p),介詞不能單獨充任句子成分。介詞短語能充任狀語或補語,有的再加“的”後可以充任定語。例:“以”、“於”、“對於”、“關於”、“在”

17、等。,連詞(c),用於連接詞、短語、句子,以表達它們之間的相互關係。例:“和”、“與”、“而且”、“或者”、“雖然”、“但是”、“只要”、“因為”等。 小類 並立連詞(cc):如:“和”、“及”、“與”、“則”、“並且”、“與其”等連詞。 從屬連詞(cs):如:“因為”、“雖然”、“只要”、“如果”、“即使”、“以便” 等連詞。,助詞(u),助詞不能單獨充任句子成分,大都附著在詞、短語或句子後面,個別的附著在詞前面,起不同的句法作用。例:“的”、“地”、“得”、“了”、“著”、“過”、“所”、“似的”、“等等”、“罷”等。 小類 結構助詞(us):如“的”、“地”、“得”等助詞。 動態助詞(u

18、a):如“著”、“了”、“過”等助詞。 比況助詞(uc):如“似的”、“一樣”等助詞。 替代助詞(ur):如“等”、“等等”、“云云”等助詞。 語氣助詞(um)/語氣詞(y):如“了”、“的”、“呢”、“嗎”、“吧”、“罷”、“了“、“啊”等助詞。,嘆詞(e),嘆詞在句中的位置比較靈活,通常不與其他詞發生特定的關係,也不充任句子成分,能獨立成句;嘆詞後一定有停頓,因此書面上嘆詞後常有標點符號。例:“唉”、“哎呀”、“嗯”、“哼”、“喂”等。,擬聲詞(o),可以獨立成句或在句中作插入語。擬聲詞加“的”可以作定語加“地”可以作狀語。例:“嘩啦”、“唧哩咕咚”、“撲通通”、“滴答”、“轟轟”等。,慣

19、用語(i),慣用語是漢語中的固定用法,包括成語、慣用語、諺語、格言等。它們在漢語中語義內容豐富,穩定性強。 小類 名詞性慣用語(in):如:“海市蜃樓”、“井底之蛙”等。 謂詞性慣用語(ip):如:“眾口難調”、“吃老本”、“碰釘子” 、“通情達理”等。 連詞性慣用語(ic):如:“總而言之”、“由此可見”、“一方面,一方面”、“一則二則”等在句段間起關聯作用並且習慣上常在一起搭配使用的詞或短語。,簡稱和略語(J),簡稱和略語是漢語中專有名詞或常用語的簡略表達形式。一般具有地域性或行業性,有的簡稱、略語使用的範圍很廣,生命力很強。簡稱、略語在句中通常起名詞或區別詞的作用,少數有動詞的作用。對於

20、在句中作用很明確的簡稱、略語,可歸入相應的類。如:“奧運”、“中共”等可歸入名詞。 小類 名詞性簡稱和略語(jn):如:“人大”、“作協”、“奧運會”等起名詞作用的簡稱略語。 動詞性簡稱和略語(jv):如:“離退休”等起動詞作用的簡稱略語。 形容詞性簡稱和略語(ja):如:“短平快”、“中小(型)”等簡稱略語。,前接成分(首碼)(h),前接成分是一種輔助的構詞成分,加在詞或語素的前面,構成合成詞。一般說來,只表示某種附加的或語法的意義。例:“阿”、“老”、“反”、“超”、“自”等都是前接成分(首碼)。 小類 名前接成分(hn):如:“阿”、“老”、“准”、“自”等可構成名詞的前接成分。 數前接

21、成分(hm):如:“第”、“初”等可構成數詞的前接成分。,後接成分(尾碼)(k),後接成分是一種輔助的構詞成分,加在詞或語素後面,構成合成詞。一般說來,只表示某種附加的或語法的意義,例:“子”、“頭”、“兒”、“性”、“學”、“論”、“界”等。 小類 名後接成分(kn):如:“子”、“兒”、“性”、“家”、“派”、“界”等可構成名詞的後接成分。 動後接成分(kv):如:“化”等可構成動詞的後接成分。,語素字(g),語素指中文字元集中,沒有被作為單音節詞歸入上述各類中的具有意義的漢字,如:“訊”、“究”、“潔”等是不成詞語素。 小類 名詞性語素(gn):如:“訊”、“民”等。 動詞性語素(gv)

22、:如:“究”、“觀”、“視”等。 形容詞性語素(ga):如:“潔”、“殊”等。,非語素字(x),非語素字指中文字元集中單獨使用時不具有意義的漢字,如:“葡”、“萄”、“琵”、“琶”、“玻”、“璃”等。 非語素字與其他的字組成單詞時,才顯示出它的意義。如,“葡萄”、“琵琶”、“玻璃”。,其他(w),未知詞(wu):指在文本的處理過程中,無法歸入上述類別的詞,這些詞往往要在後面的處理步驟中作進一步的加工處理。 標點符號(wp) 阿拉伯數字串(wd) 其他符號(wo),如外文字串等。,(四) 規範的使用 中文資訊處理系統在使用本規範時,應注意規範中第一個層次上的十九個基本詞類是各個詞類標注系統的標注

23、基礎,在這個基礎上各個系統可以根據自己的體系確定大類和小類。 規範中的小類是對資訊處理系統中常用小類的列舉,各個系統可以根據需要選擇使用,也可以增加小類。 兼類詞的標注方法為把它所兼的類用“/”連接起來,如,n/v表示名動兼類詞,n/a/v表示名動形兼類詞等等。,(五) 詞類標記集說明 詞類標記集由英文字母和10個(0-9)阿拉伯數字組成。每個英文字母開頭,後跟字母或數字,長度不超過4個字符。 標記的第一位大馬,標是信息處理用現代漢語詞類的基本詞類,共26類。用應為字母表示。 標記的第二、三位代碼,表示信息處理用現代漢語詞類的基本詞類下的各級細類。用阿拉伯數字或字母表示。當用英文字母表示十,說

24、明這個戲類具有字母所代表的基本詞類的屬性。 標記中其餘各位代碼,用以表示與現代漢語詞類相關的其他信息。,標記的記憶提示(1),形容詞(a): a取自英語ADJECTIVE的第一個字母。 情狀形容詞(ad): d取自英語ADVERBIAL的第二個字母。 非謂形容詞(an):n取自英語NON-PREDICTIVE的第一個字母。 唯謂形容词(ap):p取自英語PREDICATIVE的第一個字母。 性質形容詞(aq):q取自英語QUALITATIVE的第一個字母。 狀態形容詞(as):s取自英語STATE的第一個字母。 區別詞(b):b取自漢字“別”的聲母。 連詞(c) :c取自英語CONJUNCTI

25、ON的第一個字母。 並立連詞(cc):c取自英語COORDINATE的第一個字母。,標記的記憶提示(2),從屬連詞(cs): s取自英語SUBORDINATE的第一個字母。 副詞(d):d取自英語ADVERB的第二個字母。 關聯副詞(dc):c取自英語CORRELATIVE的第一個字母。 程度副詞(dd):d取自英語DEGREE的第一個字母。 可修飾名詞性成分的副詞(dn):n取自英語NOUN的第一個字母。 嘆詞(e):e取自英語EXCLAMATION的第一個字母。 方位詞(f):f取自漢字“方”的聲母。 雙音節方位词(fd):d取自英語DISYLLABLE的第一個字母。 單音節方位词(fm)

26、:m取自英語MONOSYLLABLE的第一個字母。,標記的記憶提示(3),語素字(g): 絕大多數語素都能作為合成詞的“詞根”,g取漢字“根”的聲母。 形容詞性語素(ga):a取自英語ADJECTIVE的第一個字母。 名詞性語素(gn):n取自英語NOUN的第一個字母。 動詞性語素(gv):v取自英語VERB的第一個字母。 前接成分(h):h取自英語HEAD的第一個字母。 數前接成分(hm):m取自英語NUMERALS的第三個字母。 名前接成分(hn):n取自英語NOUN的第一個字母。 慣用語(I):i取自英語IDIOM的第一個字母。 連詞性慣用語(ic):c取自英語CONJUNCTION的第

27、一個字母。,標記的記憶提示(4),名詞性慣用語(in):n取自英語NOUN的第一個字母。 謂詞性慣用語(ip):p取自英語PREDICATE的第一個字母。 簡稱和略語(j):j取自漢字“簡“的聲母。 形容詞性簡稱和略語(ja):a取自英語ADJECTIVE的第一個字母。 名詞性簡稱和略語(jn):n取自英語NOUN的第一個字母。 動詞性簡稱和略語(jv):v取自英語VERB的第一個字母。 後接成分(k) 名後接成分(kn):n取自英語NOUN的第一個字母。 動後接成分(kv):v取自英語VERB的第一個字母。,標記的記憶提示(5),數詞(m):m取自英語NUMERALS的第三個字母。 基數詞(

28、mc):c取自英語CARDINAL的第一個字母。 位數詞(mcw):w取自漢字“位”的聲母。 系數詞(mcx):x取自漢字“系”的聲母。 序數詞(mo):o取自英語ORDINAL的第一個字母。 序列詞(mos):s取自英語SERIAL的第一個字母。 數量數詞(mq):q取自英語QUANTITY的第一個字母。 助數词(mu):u取自英語FUNCTIONAL的第二個字母。,標記的記憶提示(6),名詞(n):n取自英語NOUN的第一個字母。 普通名詞(ng):g取自英語GENERAL的第一個字母。 無量名詞(ngq):q取自英語QUANTITY的第一個字母。 方位名詞(nl):l取自英語LOCATI

29、ON的第一個字母。 專有名詞(np): p取自英语PROPERNOUN的第一個字母。 人名(nph):h取自英語HUMAN的第一個字母。 團體機構名(npi):i取自英語INSTITUTION的第一個字母。 地名(npp):p取自英語PLACE的第一個字母。 處所名词(ns):s取自英語SPACE的第一個字母。 時間名词(nt):t取自英語TIME的第一個字母。,標記的記憶提示(7),擬聲詞(o):o取自英語ONOMATOPOEIA的第一個字母。 介詞(p):p取自英語PREPOSITION的第一個字母。 量詞(q):q取自英語QUANTITY的第一個字母。 名量詞(qn):n取自英語NOUN的第一個字母。 複合量詞(qnc):c取自英語COMPOUND的第一個字母。 不定

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论