LIVAC语料库的语料经机器分词和人工校对后,分别作了多种词性标注,主要包括名词(一般名词、人名、地名、专名等),动词(不及物动词、兼语动词、趋向动词、动名词等),形容词(性质形容词、状态形容词等)等共40多种词类。上述标注将为语言工程提供优良的素材,也可供多方面的研究发展,包括对泛华语地区的社会、文化与语言的深入研究。
中文报章分词范例:
<奧運|x> <見證> <中國|g> <腳步> ( {時評} )@ {范正偉}
“ <奧運|x> <舉辦> <之> <日> ,<就> <是> <我> <中華|g> <騰飛> <之時> !” <一|#> <個> <世紀> <前> ,<名> <愛國> <教育家> <張伯苓|n> <曾> <這樣> <預言> 。 <隨著> <8月> <8|#> <日> <的> <臨近> ,<眾多> “ <涉奧> ” <話題> <成> <了> <本> <次> <兩會> <代表> <委員> <們> <討論> <的> <焦點> 。 <一|#> <幅> <奧運圖> <見證> <著> <中華民族> <百|#> <年> <強國> <夢> 。 <1908|#> <年> ,<一|#> <本> <名> <為> 《 <天津|g> <青年> 》 <的> <雜誌> <向> <國人> <提出> <三|#> <個> <追問> :<中國|g> <何時> <才> <能> <派> <一|#> <位> <選手> <參加> <奧運會|x> ? <中國|g> <何時> <才> <能> <派> <一|#> <支> <隊伍> <參加> <奧運會|x> ?<中國|g> <何時> <才> <能> <舉辦> <奧運會|x> ?……
中文报章词性标注范例 :
<奧運|Nz#> <見證|Vt#> <中國|Ng#> <腳步|Nc#> ( {時評} )@ {范正偉}
“ <奧運|Nz#> <舉辦|Vt#> <之|Us#> <日|Nc#> ,<就|Dc#> <是|Vc#> <我|Rc#> <中華|Ng#> <騰飛|Vi#> <之時|Nc#> !” <一|Mc#> <個|Qc#> <世紀|Nc#> <前|Ub#> ,<名|Ac#> <愛國|Ac#> <教育家|Nc#> <張伯苓|Nn#> <曾|Dc#> <這樣|Rc#> <預言|Vt#> 。 <隨著|Pc#> <8月|Nt#> <8|Mo#> <日|Qc#> <的|Us#> <臨近|Vn#> ,<眾多|Ac#> “ <涉奧|Vn#> ” <話題|Nc#> <成|Vc#> <了|Ua#> <本|Rc#> <次|Qc#> <兩會|Nz#> <代表|Nc#> <委員|Nc#> <們|Ub#> <討論|Vt#> <的|Us#> <焦點|Nc#> 。 <一|Mc#> <幅|Qc#> <奧運圖|Nc#> <見證|Vt#> <著|Ua#> <中華民族|Nz#> <百|Mc#> <年|Qc#> <強國|Vn#> <夢|Nc#> 。 <1908|Mo#> <年|Qc#> ,<一|Mc#> <本|Qc#> <名|Nc#> <為|Vc#> 《 <天津青年|Ny#> 》 <的|Us#> <雜誌|Nc#> <向|Pc#> <國人|Nc#> <提出|Vt#> <三|Mc#> <個|Qc#> <追問|Vn#> :<中國|Ng#> <何時|Rc#> <才|Dc#> <能|Va#> <派|Vp#> <一|Mc#> <位|Qc#> <選手|Nc#> <參加|Vt#> <奧運會|Nz#> ?<中國|Ng#> <何時|Rc#> <才|Dc#> <能|Va#> <派|Vp#> <一|Mc#> <支|Qc#> <隊伍|Nc#> <參加|Vt#> <奧運會|Nz#> ?<中國|Ng#> <何時|Rc#> <才|Dc#> <能|Va#> <舉辦|Vt#> <奧運會|Nz#> ?……