菜单

境内可外用免费语言材质库下载能源集中, 语言翻译必备:国内外2一个语言材质库推荐

2019年3月27日 - mg娱乐场www4355com

国内可外用免费语料库下载能源集中图片 1

 

(一) 国家语言文字工作委员会
1.国家语言文字工委现代国语语言材料库http://www.cncorpus.org/
现代汉语通用平衡语料库未来再一次开放网络查询了。重开后的在线搜索速度更快,作用更强,同时提供查找结果下载。现代中文语言材料库在线提供免费检索的语料约两千万字,为分词和词性标注语料。

2.西夏普通话语言材料库http://www.cncorpus.org/login.aspx
网站今后还伸张了一亿字的东晋中文生语言材质,研商清代中文的也得以去查询和下载。同时,还提供了分词、词性标注软件、词频计算、字频总结软件,基于国家语言文字工委语言材料库的字频词频计算结果和公布的词表等,以供就学钻研语言文字的教员同学利用。
 
 (二) 北京大学总计语言学切磋所
《人民早报》标注语言材质库http://www.icl.pku.edu.cn/icl\_res/
《人民早报》标注语言材质库中二分之一的语言材质(1999年上八个月)共1300万字已经经过《人民早报》音信音信基本公开提供许可使用权。当中2个月的语言材质(1999年二月)近200万字在互连网上揭橥,供自由下载。
 
(三) 新加坡语言大学
普通话国际教育技术研究开发宗旨:HSK动态作文语言材质库http://202.112.195.192:8060/hsk/login.asp
语言所:香港(Hong Kong)口语语言质感询问系统(B J K
Y)http://www.blcu.edu.cn/yys/6\_beijing/6\_beijing\_chaxun.asp
 
(四)四川中心商量院
中研院语言材料库WWW版全数机能均开花利用,但为防主机能源耗用过剧及顾及数据传输之实际限制,暂以检索结果为限量的标准化:院内检索限三千0行数据,院外检索限三千行数据。

1.现代普通话平衡语言材质库http://www.sinica.edu.tw/SinicaCorpus/
专程针对语言分析而规划的,每种文句都依词断开,并标示词类。语言材质的征集也尽量做到现代国语分配在不一样的主旨和语式上,是当代中文无穷多的说话中3个代表性的样本。现有语言材料库首要针对语言分析而规划,由宗旨商讨院音信所、语言所词库小组成功,内涵盖简介、使用表达,现行反革命的语言材质库是4.0的版本。

2.古中文语言质感库http://www.sinica.edu.tw/ftms-bin/ftmsw
 古汉语语言材质库涵盖以下七个语言材质库:
上古汉语、中古汉语(含大藏经)、近代华语、别的、出土文献。部分数码取自史语所汉籍全文数据库,故两者间略有重迭。此语言材料库之出土文献语料库,全部取自史语所汉朝竹简小组所创造的数据库。

3.近代华语标记语言质地库http://www.sinica.edu.tw/Early\_Mandarin/
为应中文学和艺术学商讨供给而建构的语言材质库。最近素语言材料库所收集的语料已含盖上古中文(先秦至辽朝)、中古中文(西楚魏晋南北朝)、近代普通话(唐五代从此)超过四分一的最首要语言材料,并己陆续开放利用;在标记语言材质库方面,上古汉语及近代普通话都已有局地语言质地形成标注的做事,并视结果稳步提供上线检索。

 

4.树图数据库http://treebank.sinica.edu.tw/
「汉语句結構樹資料庫」(Sinica Treebank Version 3.0)
包含了6個檔案,61,087個中文樹圖,361,834個詞,是大旨商讨院詞庫小組從中心钻探院平衡語料庫
(Sinica Corpus)
中抽取句子,經由電腦剖析成結構樹,並加以人工立异、檢驗後所得的收获。在中文言句結構樹中,作者們標示了普通话句語意和語法的訊息。此一「汉语句結構樹資料庫」近来開放網上檢索及資料移轉,以供學者專家在国语句法、語意關係商讨參考之用。另有1000個句結構樹開放下載。

 

5.中国和英国双语知识本体词网http://bow.sinica.edu.tw/
整合词网,知识本体,与天地方统一标准记的词汇知识库。

 

6.搜文解字http://words.sinica.edu.tw/
涵盖「搜词寻字」、「军事学之美」、「游戏解惑」、「古文字的社会风气」八个单元,可由部件、部首、字、音、词互查,并可查询在四书、老、庄、宋词中的出处,及直接连接到出处,阅读原来的作品。

7.文国寻宝记http://www.sinica.edu.tw/wen/
在搜文解字的根底之上,以普通话管工学习者为对象,进一步将字、词、音的探寻成效与国编、华康、南一等二种版本的国立小学国语课本结合,与唐诗三百首、唐诗三百首、红楼、水浒传等文艺典籍结合,提供网络上国语历史学习的资料。

 

8.唐诗三百首http://cls.admin.yzu.edu.tw/300/
以国中、小学上学的小孩子为重点行使对象,提供吟唱、绘画、书法等多媒体数据,文字数据报含作者毕生、读音标注、翻译、批注、评注、故事出处等材料;检索点包涵作者、诗题、诗句、综合质地、体裁分类等;检索结果能够列出全文,并精选标示相关之文字及多媒体数据。并提供了一套能够自行检查格律、韵脚、批阅和修改的「依韵入诗格律自动物检疫查和测试索引教学系统」,帮助孩子们依韵作诗,帮衬导师批阅和修改习作。

 

9.汉籍电子文献http://www.sinica.edu.tw/~tdbproj/handy1/
涵盖整部25史
整部阮刻13经、超过两千万字的湖北史料、一千万字的大正藏以及别的经典。

 

10.红楼梦互连网教研数据主导http://cls.hs.yzu.edu.tw/HLM/home.htm
元智高校中华夏族民共和国军事学网络种类研讨室所付出的「网络展书读—中夏族民共和国法学网络系列」,为商量为主CEO罗凤珠先生主持,红楼是中间3个子种类,别的还包含善本书、诗经、明朝诗词、作诗填词等子系统。此网站为国内Internet最大中中原人民共和国教育学切磋数据库,提供用户最完整的炎黄文学切磋数据。
 
(五)中华夏族民共和国传播媒介高校
1.中中原人民共和国传播媒介高校文件语言材料库检索系统
http://ling.cuc.edu.cn/RawPub/
2.在线分词标注系统
http://ling.cuc.edu.cn/cucseg/
3.新词语研商能源库
http://ling.cuc.edu.cn/newword/web/index.asp
4.音录制语言材料检索系统
http://ling.cuc.edu.cn/mmcpub(目前系统正在升级改造中)
 
(六)罗萨Rio艺术高校
清华新闻寻找商讨室对外共享语言材质库能源http://ir.hit.edu.cn/demo/ltp/Sharing\_Plan.htm
该语言材质库为汉英双语语言材质库,10万对齐双语句对,文本文件格式,同义词词林扩大版,77,343条用语,秉承《同义词词林》的编写制定风格,同时采纳五级编码种类,多文书档案自动文章摘要语料库,三十七个主题,文本文件格式,同一主旨下是同一事件的不等广播发表,汉语依存树库,不带关系5万句,带关系1万句,LTML化,分词、词性、句法部分人工标注,可以图形化查看,问答系统难点集,6264句,已标明难题项目,LTML化,分词、词性、句法、词义、浅层语义等程序处理得到,单文书档案自动文章摘要语言材质库,211篇,分不一致体制,LTML化,文章摘要句标注,分词、词性、句法、词义、浅层语义、文本分类、指代消解等程序处理获得。
 
(七)北大东军事和政院学
中文均衡语言材质库TH-ACorpus:http://www.lits.tsinghua.edu.cn/ainlp/source.htm(似乎在改版,一直上不去)
 
(八)东方之珠教院
言语资源音讯科学核心及其语言材质库实验室http://www.livac.org/index.php?lang=sc
自一九九五年起来,以「共时」情势处理了超过的大批量华语语言材质,通过精细的技能,累积众多规范的总结数据,建立了LIVAC
(Linguistic Variation in Chinese Speech
Communities)共时语料库。本语言材质库最大特征是行使「共时性」视窗格局,严酷地定时分别采访来自多地的定量同类语言材质,可供各样客观的相比研讨,方便有关的音讯科学和技术提升与行使。别的,语言材质库又兼顾了「历时性」,方便各方职员客观地观测与探讨视窗内的有代表性的语言发展完美动态。
 
(九)中科院计算技术斟酌所
跨语言语言质感库http://mtgroup.ict.ac.cn/new/resource/index.php(目前不可用,不知道是否在升级)
当下的双语句对数据库中有约180,000对已对齐的中国和英国文句子。
本数据库帮助简单的中国和英国文查询服务。
查询结果包蕴句对数码、中文句子、英文句子、句对来自。
 
(十)中文语言财富联盟
汉语语言财富结盟http://www.chineseldc.org/
(Chinese Linguistic Data
Consortium,简称ChineseLDC)的创设。ChineseLDC是吸收国内高校,科学探讨机构和商店参与的开放式语言财富联盟。其目标是建成能表示当今中文音信处理水平的,通用的粤语语言新闻知识库。ChineseLDC
将建设和采访汉语信息处理所须要的种种语言能源,包罗词典,语言材料库,数据,工具等。在确立和收集语言财富的基本功上,分发能源,促成统一的正经和专业,推荐给用户,并且针对中文新闻处理领域的关键技术建立评测机制,为粤语消息处理的根基研商和使用开发提供支撑。(之所以排行这么后,是因为是国家出资的档次,却不曾什么样免费能源。)

域外语言材料库资源(链接皆可用,内有语言材料库简介)

  1. 杨百翰大学
     
    杨百翰大学语言质感库http://view.byu.edu/杨百翰大学的Mark
    Davies教师开发的语言材质库统一检索平台,整合了United States当代保加塞维利亚语语言材料库、United States野史土耳其(Turkey)语语言质感库、美利坚独资国一时杂志语言材质库、BNC、罗马尼亚(România)语言材质库、葡萄牙共和国语料库等四个语料库的财富。该网站每月有60,000人的使用量,只怕是近年来最广大选取的互连网语言材质库。
     
  2. 联合国官方资料库
    联合国文件数据库(提供80万份各类语言平行文书档案)http://documents.un.org/simple.asp
    本文件系统包罗了一九九四年的话联合国印发的有着标准文件。但是,联合国的早期文件也慢慢添加到本系统。本文件系统也提供从一九五〇年的话联合国民代表大会会、安理会、经济及社会理事委员会和托管理事会通过的保有决议。本系统不提供消息稿、联合国出版物、联合国条约汇编或音讯部印发的资源信息素材。由日本赠送的3万多份数字化文件已被扩充进正式文件系统。
     
  3. 兰开斯特高校
    兰开斯特汉语语言材料库 (LCMC)
    http://ota.oucs.ox.ac.uk/scripts/download.php?otaid=2474
    应学术界对免费对群众开放的平衡的现世普通话语言质感库的要求的状态下筹建的。
    LCMC
    语言材质库是由兰开斯特高校语言学系担负的并取得英帝国经社切磋委员会援救(项目代号:RES-000-220125)的研商项目。
    LCMC语言材质库是与 Freiburg-LOB Corpus of British English
    (即FLOB)平行对应的华语语言材质库,它助长大家从事中文的单语和英汉双语的对峙统一商讨。通过该网址可防止费索取LCMC预料用于钻探之用。http://ota.oucs.ox.ac.uk/scripts/download.php?otaid=2474
     
  4. 语言开放典藏社会群众体育(OLAC)
    OLAC(Open Language Archives
    Community)http://search.language-archives.org/index.html语言开放典藏社群是由个人或组织所组成的国际性合作协会。许多种类的协会需要语言资源,如:语言学家、工程师、教师、演说家,也有许多机构提供片段性的架构,如:文件管理器、软件开发者和出版者。理论上,用户希望透过单一接口便可以取得任何需要的资源,其中资源种类涵盖:①资料(Data):任何描述语言的相关信息;②工具(Tool):有助于创造、浏览、查询或使用语言数据的计算器资源;③建议(Advice):譬如,告知使用者什么资源具有高可靠度?在此情境中哪一种工具适合采用?当新的数据衍生出时该如何创造?但实际上,却有着语言资源散布在不同的网站、使用者无法得到想要的资源、语言资源在不同网站拥有不同名字(Name)造成召回率(recallrate)低,在其他领域有相同意义,造成正确率低(precision
    rate)、许多言语财富并非以文字为根基、不鲜明是或不是有建议适当软件,以及所提议的建议是还是不是深入…等难题。OLAC因此诞生。藉由下列步骤实行创办世界性语言财富的杜撰教室:针对语言财富数字典藏发展一致性的实践辅导;发展网络上享有互操作性且提供存取相关语言能源的储存器(Repositories)和劳务大旨。简介能够参见http://140.109.18.114/blog/?p=1049
     
  5. SKETCHENGINE多语言语言材质库
    www.sketchengine.co.uk
    各类邮箱能够挂号1回,免费期是3个月,免费期过了就再登记一个信箱,再登记一回。在那之中中文语料库是不曾加工的生语言质地库,使用价值非常小。关键是中间的捷克语语言材料库实际上是原本要付钱才能动用的BNC,能够好好利用。
      
  6. COCA———美利坚联邦合众国当代罗马尼亚(罗曼ia)语语言质地库(Corpus of Contemporary A2merican English)
    http://www.americancorpus.org/
    由美利哥B righam Young University的M ark
    Davies助教开发的高达3.6亿语汇的United States最新当代乌克兰语语言材质库,是当今世界上最大的意大利语平衡语言质感库。与任何语言材料库不一样的是它是免费在线供大家使用,给大地保加利亚语学习者带来了福音,是记忆力强的三个立陶宛语学习能源,也是洞察美利哥乌克兰语应用和生成的三个绝佳窗口。

国内外语言材质库建设一览

北大语言音信工程系捷译双语语言材质库Web对齐工具(自动+手动)开放注册
做客地址在 http://aligner.pkucat.com
文档:http://aligner.pkucat.net/doc/html/
设若有须求者能够给  yjs@pkucat.com 老师写信申请,表达身份和理由即可。
http://bbs.pkucat.com/modcp.php?action=moderate&op=members

已表明可用的英汉平行语料库(部分)

–TEC
http://www.umist.ac.uk/ctis/research/research-overview.htm
翻译语言材质库方面则以英帝国里约热内卢大学科技(science and technology)高校(UMIST)
翻译商量宗旨1993年创办的社会风气上先是个翻译语言材质库( Translational
EnglishCorpus , TEC)
最为著名。该语言材质库首要收集从各国语言翻译成乌克兰(УКРАЇНА)语的文书,近期已有上千万词的语言材质(指标是5
千万词) ,分随笔(约占80 %) 传记、报纸和杂志多少个子库。它并不要求必须双语对齐。
该库不仅对语言材质实行了附码标注,还富含许多超语言音信的标号,如对翻译景况(包括译者姓名、性别、民族、职业、翻译方向等)
、翻译格局、翻译类型、源语、原书意况、出版社等等均一一予以标注。

–浙大双语语料库
浙大计算语言学钻探所的双语语言材质库,英汉对齐的句子已有5万多对,并支付了对应的对齐工具和双语语言材质库管理软件。正在此基础上做汉英对照短语库,估摸规模将达数八万条。

–中国和英国双语在线(主管)测试开通
网址为 http://www.fleric.org.cn/ceo/

–紅樓夢漢英平行語料庫
http://score.crpp.nie.edu.sg/hlm/index.htm

— The Babel English-Chinese Parallel Corpus
http://www.lancs.ac.uk/fass/projects…abel/babel.htm

The Babel English-Chinese Parallel Corpus,which was created on our
research project Contrasting English and Chinese (ESRC Award Reference
RES-000-23-0553),consists of 327 English articles and their translations
in Mandarin Chinese. Of these 115 texts (121,493 English tokens plus
135,493 Chinese tokens) were collected from the World of English between
October 2000 and February 2001 while the remaining 212 texts (132,140
English tokens plus 151,969 Chinese tokens) were collected from Time
from September 2000 to January 2001. The corpus contains a total of
544,095 words (253,633 English words and 287,462 Chinese tokens). Here
is a list of the titles of the articles included in the corpus.

The corpus is tagged for part of speech and aligned at the sentence
level. The English texts were tagged using the CLAWS C7 tagset while
Chinese texts were tagged using the Peking University tagset. Sentence
alignment was done automatically and corrected by hand. The corpus is
also marked for paragraph and sentence. But different markup systems
were adopted for the two subcorpora. For the component of the World of
English, sentences were marked consecutively throughout whereas for
Time, sentences were marked within each paragraph.

The Babel parallel corpus can be accessed via the ParaConc Web or MySql
interface (both hosted at The Institute of Education, Singapore). Users
can search in either English or Chinese texts. The concordancer returns
matched whole sentences and their translations as well as the their
locations. At the bottom of the resulting concordance page is a query
report that indicate the query strings and distribution of matches.
Users can also specify the format the output concordances as POS-tagged
or plain texts.

–上海浙大语言工程商量所日前有JDEST,LOB,BROWN,CLEC多少个语言质地库共计700万词可供网上查找,
并能够对寻找和总计数据结果下载.
http://corpus.sjtu.edu.cn/WebCast/

–The Translational English Corpus (TEC)
http://www.llc.manchester.ac.uk/ctis/research/english-corpus/
http://ronaldo.cs.tcd.ie/tec/jnlp/

–English Chinese Parallel Concordancer (E-C Concord)
The Hong Kong Institute of Education.
Project leader: Dr. Wang Lixun. Program designers: Chris Greaves, Wang
Lixun
http://ec-concord.ied.edu.hk/paraconc/index.htm

–Academia Sinica Balanced Corpus of Modern Chinese
大旨研商院现代汉语平衡语言材料库
http://www.sinica.edu.tw/SinicaCorpus/

–Lancaster Corpus of Mandarin Chinese
http://bowland-files.lancs.ac.uk/cor…gi-bin/conc.pl
may be changed to
http://www.lancs.ac.uk/fass/projects/corpus/LCMC/

–People’s Daily 2000 corpus
some related information here
http://www.lancs.ac.uk/fass/projects/corpus/pdc2000/default.htm
–A Parallel Corpus of Chinese Legal Texts 中國法例文本漢英平行語料庫
http://score.crpp.nie.edu.sg/law/index.htm

–语言材质库语言学与西班牙语教育教学。华师范大学海外语言文化高校语言质地库语言学研商室
http://sfs.scnu.edu.cn/corpus4u/default.aspx

语言材质库工具

http://www.fleric.org.cn/crg/tools.htm 北京外语大学语言材质库语言学沙龙
Beiwai Corpus Research Group (CRG)

Corpus tools developed by group members
Chi-square and loglikelihood Calculator,
(卡方检验和对数似然率总计工具)
TreeTagger for Windows, (语言质感库词性标注工具TreeTagger的Windows界面)
Colligator 1.0 & 2.0, (语言材质库类联接分析工具)
PatternBuilder 1.0, (赋码语言材质库检索协理理工程师具)
The Edinburgh Associative Thesaurus (EAT) for
Windows,(斯图加特联想词库Windows查询工具)
Wordlist Tools 1.0 Beta,(词表分析工具)
My Good Old Blackboard,(小编的电子黑板)
BFSU Stanford Parser 1.0,(英文自动句法分析工具)。
BFSU Stanford POS Tagger 1.0,(英文自动词性赋码工具)。
BFSU Sentence Collector 1.0,(例句提取工具)。
BFSU NewWord Marker 1.0,(生词标注工具)。
BFSU Sentence Segmenter 1.0,(英文自动分句工具)。
Web Colligator。
Collocator 1.0: A collocation extraction tool,(搭配分析工具)。
Log-likelihood ratio calculator,(对数似然率总括器)。
Readability Analyzer 1.0 ,(英文文本可读性分析工具)。

Other free corpus tools
AntConc: A free
concordancer(跟WordSmith主要效能看似的语言材质库索引工具)
Range: Vocabulary coverage tools(基于底表的各自词汇衡量工具)

语言材料库检索软件Paraconc 和Multiconcord:

Paraconc由Barlow制作(该软件的演示版可在网上下载),该软件的性状是足以拓展多达多种语言的还要摸索,也许是3个原稿的八个译本的探寻。这一软件的脾气是足以灵活定义语言、索引行的轻重缓急、标注符号的隐显,而且帮忙通配符检索。

Multiconcord也是二个在Windows窗口下运作的软件。那种软件和Paraconc在摸索功用上相似,但搜索结果在显示格局上不一样。另外,Paraconc能够寻找纯文本格式的文书;Multiconcord
则需求二个Minimark 程序来压低水平地方统一标准记文本,如< p > (段落) 和<
s > (句子)。

 

 

 

 

【新书推荐介绍】《语言材料库与翻译》

Original 2017-04-06 管新潮
陶友兰 当代外语研商

 图片 2

语言材料库与翻译

图片 3

 管新潮  陶友兰  著

(复旦出版社,2017)

目录

 

第1章 绪论

1.1 语料库的来源与升华

1.1.1 语言质地库的定义

1.1.2代表性语言材料库及其特色

1.2 语言材质库的门类

1.2.1 单语与双语(多语)类型

1.2.2 平行与可比类型

1.2.3 通用与专用项目

1.2.4 单向与双向(多向)类型

1.2.5 小结

1.3 语言质地库语言学与翻译学

1.3.1 语言材质库语言学

1.3.2 语言材质库翻译学

1.4 本书概要

本章亮点:

l  对负有代表性的18种语言材质库进行了概述

l  对各个语言材质库类型的概念与功力拓展了证实

l  对语料库语言学和语言材质库翻译学举行了实用性介绍

第二章 语言材质库技术和翻译技术

2.1 引言

2.2 语料库技术

2.2.1 语料格式转换工具

2.2.2 语言材质降噪工具

2.2.3 语言材质对齐工具

2.2.4 语言材料库检索和剖析工具

2.2.5 难点与展望

2.3 翻译技术

2.3.1 文书档案管理类工具

2.3.2 源文准备类工具

2.3.3 译文处理类工具

2.3.4 翻译管理类工具

2.3.5 语言材质管理类工具

2.3.6 本地化学工业具

2.3.7 难点与展望

本章亮点:

l  实例介绍怎么着针对分歧的PDF文书档案利用差异的转移工具,达到最好功用

l  举例表明怎么着利用最强降噪工具WO奥迪Q7D软件

l  系统介绍语料对齐工具、原则、效果与追寻和动用

l  详细描述系统的翻译技术须求动用的六大类工具:

文书档案管理类工具——内容管理类别、撰写系统、桌面排版系统

源文准备类工具——文字处理软件、语音识别软件

译文处理类工具——总结机扶助翻译、机译、修正工具

翻译管理类工具——翻译管理连串、品质担保工具、项目管理软件

语言质感管理类工具——翻译记念工具、术语管理工科具

第①章 语料库成立流程

3.1 引言

3.2 语言材质库的筹划

3.3 语料采集和降噪

3.3.1 语言质地采集

3.3.2 语言质地降噪

3.4 语言材料对齐及其保存格式

3.4.1 语言质感对齐

3.4.2 语言材质对齐保存格式

3.5 语料库应用

3.5.1 案例1:总括机支持翻译项目利用

3.5.2 案例2:以结合语言质感库磨练翻译能力

3.5.3 案例3:某大型大巴成立集团的语料品质升级

3.5.4 案例4:对法律法规术语外译的提出

3.5.5 案例5:语言质地库证据在U.S.的法庭应用

3.5.6 案例6:两岸三地英汉科学普及历时平行语言质感库

3.5.7 案例7:德汉《资本论》双语平行语言质感库

本章亮点:

l 介绍语料库设计供给关爱的安插性参数

l 讲述语言材质采用原则与操作规范、水库蓄水容量规模、文件名命名等细节

l 建议如何给语言材料降噪,如何进展语言材料对齐操作以及保存格式、格式交流等,某些是作者个人执行经验,具体表达创设进度中相遇的差别难点以及缓解方案

l
列举了具有代表性的七个语言质地库案例,表明什么在翻译实践中央银行使语言材质库提高翻译效果和质量,如以组合语言材料库操练翻译能力、语言材质库证据的法庭应用等

第肆章 语言材质库质量

4.1 引言

4.2 语言材料库品质的多维性

4.2.1 语言材质库的统筹品质

4.2.2 语言质地的翻译品质

4.2.3 语言材料的采集与降噪品质

4.2.4 平行语料库的对齐品质

4.2.5 应用于现实品种的语言材质组合品质

4.3 源自于翻译实践的语言材质库质量

4.3.1 相关规范的翻译流程设置

4.3.2 品质担保意见与工具

4.3.3 句对库中的高品质句对

4.4 应用于译学研讨的语言材料库品质

本章亮点:

l 第③回对语料库性能进行了多维性描述,包涵语言质地库的安顿性质量、语料的翻译质量、语言材质的募集与降噪品质、平行语言质地库的对齐品质、语言质地组合质量

l 分析了渊源于翻译实践的语言材料库品质存在的局地题材,并建议相应对策

l 依照译文错误类型与翻译品质关系模型,尝试建议翻译品质评估建立模型

l 提议专门的品质担保意见来消除翻译质量难点

 

第六章 语言质感库与翻译实践

5.1 引言

5.1.1 总括机支持翻译的特色

5.1.2 计算机支持翻译的归类

5.2 语言质感库与回忆库

5.2.1 语言材质库与记念库的分化

5.2.2 记念库的创导与维护

5.2.3 记忆库的同盟

5.2.4 回忆库的换代与重组

5.2.5 回忆库的任何职能

5.3 翻译项目中语言材质库的采纳

5.3.1 双语平行语言质地库的翻译应用

5.3.2 可比语言材质库的翻译应用

5.3.3 单语语言材质库的翻译应用

5.4 双语平行语言材质库数据挖掘

5.4.1 专业通用词概念

5.4.2 法律双语平行语言材质库的多少挖掘

5.4.3 艺术学双语平行语言材质库的数量挖掘

5.5 译入非母语时的语言材料库作用

5.5.1 汉语翻译外现状

5.5.2 语言材质库的运用

5.6 大规模句对库与机械和工具翻译

5.6.1 句对库的概念和品质

5.6.2 总括机支持翻译与机械和工具翻译的结合

本章亮点:

l 不相同语言质地库和回想库之间的涉嫌,论述回忆库的始建、维护、匹配、更新、组合等概念与成效

l 实例演示怎样在翻译项目中采取双语平行语言材质库、可比语料库或单语语言质感库

l 论述一种最大升高翻译实践效果的换代方式:从双语平行语言材质库(如历史学、法律)中挖掘出特定领域专属的标准通用词,实践注脚效果明显

l 演讲怎么样确认保证句对库的品质,怎么样将所得到的句对名下相关的天地,怎么样以高质量的句对来落到实处机器翻译

第六章 语言质感库与翻译教学

6.1 引言

6.2 基于语言质地库的翻译教学实践

6.2.1 使用语言材质库自主学习

6.2.2 创设学习者语言材质库

6.2.3 学生自行建造英汉平行语料库

6.3 语言质地库与翻译教材编写制定

6.3.1 实现翻译教材具体内容和有关语言材质库链接

6.3.2 鲜明语言材质难易程度

6.3.3 以真实语言材质编译例句并提供多样译文范例

6.4 翻译教学语料库平台设计与构想

本章亮点:

l  教会学生怎么着运用语言材料库实行独立学习

l  教会学生怎么着创造学习者语言材质库、英汉平行语言质地库

l  指引老师运用语言材质库编译教材

l  设计与构想一体化翻译教学语言材质库平台

 

附录

汉英双语对照术语表

 

本书特点

提笔写作本书的意在对协调20多年来从事翻译实践经验的计算,具体说是对翻译实践与翻译技术、语言质地库、翻译教学等相结合的实践经验的总括,期望能够因而经验计算进而在翻译实践理论上有所长进。文中所展现的经总括回顾后的文字表述定能对翻译实践和MTI教学实践具有扶助。自个儿自以为本书已经具备了以下三大特征:

l  对翻译实践的可应用性;

l  对MTI教学的可适应性;

l  对翻译理论的可拓展性。

第三,对翻译实践的可应用性。本书所展现的知识均以自个儿多年来所做的豁达翻译实践为根据,能够说有近8/10的剧情是截然依靠于经验的下结论、归咎、提炼和升华。那是可应用性特点的一种面向翻译实践的反映。另一反映是将经过总括、总结、提炼和进步后的文字表述交由产业界专家审定,确认其对实际翻译实践具有辅导意义后才予以定稿。本书对翻译实践的可应用性还映今后疏散于书中不一样章节的各样有关翻译或语言材料库技术使用的“小技巧”。

其次,对MTI教学的可适应性。MTI教学中的总括机支持翻译是翻译技术的一部分或内部的三个环节,其并不可能表示全体翻译技术。由此,翻译技术的MTI教学有其复杂,即怎么样将不一样的翻译技术知识揉合在一块并有效地传授给学生,以及怎么样教会学生以习得的翻译技术知识去消除实际采纳难点。因为技术在不断更新和进化,而且立异和升华的进程在相连加紧,现有的技巧恐怕会在若干年后遗失其踪迹。由此可见,翻译技术或语料库技术教学的首要并不在于教会某项技术,而是怎么着使学员习得应用技术去解决难题的能力。

其三,对翻译理论的可拓展性。一种理论的产生在其初阶阶段必然是实行实验,然后是总计归纳,最后才上涨为辩驳层面。翻译技术理论的产生也不例外。翻译技术有多面内容可供学术切磋,如人机互动翻译的境界研商、技术环境下的翻译策略、技术背景下的译员行为切磋、集团翻译商讨,等等。

 

小编简介

管新潮,职业译者,长时间致力德英汉翻译实践,至今已累计翻译和查对德英汉字数达三千万(包涵审阅核查);首要翻译领域关系海洋工程与船舶创制(斯拉维尼亚语)、法学(塞尔维亚共和国语)、法律(立陶宛(Lithuania)语)、机电(英语)等;建有各项连锁语言材料库,如英汉文学平行语料、英汉海洋工程平行语言材质库、英汉法律平行语言材质库、德汉合同文本平行语言材质库、马克思《资本论》德汉平行语言材质库(百年)等。曾经或正在为国际著名公司提供语言服务化解方案,如德意志联邦共和国劳氏船级社、挪威船级社、艾斯维尔出版社和施普林格出版社、三星(Samsung)技术集团、毕马威咨询企业等。现任上海浙大外语大学MTI导师。

 

 

 

 

 

言语翻译必备:国内外二十多个语言质地库推荐

2016-10-29 译匠

语言质感库通常指为语言研讨收集的、用电子格局保留的语料,由自然出现的书面语或口语的样书集聚而成,用来表示一定的语言或语言变体。经过科学选材和标注、具有方便范围的语言质感库能够反映和记录语言的实际上采取境况。下边推荐一些优质的语言材质库能源。

 

国内语料库能源

1. 国家语言文字工作委员会现代国语语言材质库

 http://www.cncorpus.org

 现代普通话通用平衡语言材质库今后再一次开放互连网查询了。重开后的在线搜索速度更快,作用更强,同时提供查找结果下载。现代汉语语言材质库在线提供免费检索的语言材料约三千万字,为分词和词性标注语言材质。

 

2. 国家语言文字工委明朝中文语言材质库

 http://www.cncorpus.org/login.aspx

 网站未来还增添了一亿字的北魏粤语生语言材料,研讨西楚汉语的也能够去询问和下载。同时,还提供了分词、词性标注软件、词频总括、字频总括软件,基于国家语委语言材质库的字频词频总括结果和发布的词表等,以供就学钻研语言文字的教职工同学利用。

 

3. 北大“《人民早报》标注语言质地库”

 http://www.icl.pku.edu.cn/icl\_res

 

4. 南开语言质地库——北大中中原人民共和国语言学探究中央

 http://ccl.pku.edu.cn/corpus.asp

 浙大语言质感库由“现代国语语料库”、“秦朝中文语言材质库”、“汉英双语语言材质库”七个语言材料库组成。个中,清华总结语言学商量所的双语语言质地库,英汉对齐的语句已有5万多对,并付出了相应的对齐工具和双语语言材质库管理软件。正在此基础上做汉英对照短语库,估计规模将达数100000条。(汉英双语语言材质库如今仅对厦旅长内用户开放)

 

5. 新加坡语言大学高翻大学的“高翻记念库”

 http://stitm.blcu.edu.cn

 

6. 哈工业余大学学东军事和政院学国语均衡语言材质库TH-ACorpus

 http://www.lits.tsinghua.edu.cn/ainlp/source.htm

 

7. 宗旨切磋院“现代国语平衡语言材料库”

 http://www.sinica.edu.tw/SinicaCorpus

 专门针对语言分析而设计的,各类文句都依词断开,并标示词类。语言材质的收集也尽大概做到现代汉语分配在不一样的核心和语式上,是当代中文无穷多的言语中三个代表性的范本。现有语言材质库首要针对语言分析而设计,由中心研究院消息所、语言研讨所词库小组成功,内涵盖简介、使用表达,现行反革命的语言材质库是4.0的版本。

 

8. 大旨钻探院“近代华语标记语言质感库”

 http://app.sinica.edu.tw/kiwi/pkiwi/index.html

 

9. 中心研讨院汉籍电子文献(瀚典全文检索系统)

 http://hanji.sinica.edu.tw

 包罗整部25史
整部阮刻13经、超越三千万字的青海史料、1000万字的大正藏以及其余经典。

 

10. 红楼网络教研资料中央

  http://cls.hs.yzu.edu.tw/HLM/home.htm

  元智大学中华人民共和国文化艺术网络类别钻探室所支付的“互联网展书读—中夏族民共和国军事学互联网种类”,为研讨为主决策者罗凤珠先生主持,红楼是里面两个子系统,其余还包涵善本书、诗经、西魏诗词、作诗填词等子系统。此网站为国内Internet最大中夏族民共和国医研数据库,提供用户最完整的神州文化艺术研讨数据。

 

11. 《红楼》汉英平行语言材料库

  http://corpus.usx.edu.cn/hongloumengshiyongshuoming.htm

 

12. 搜文解字

  http://words.sinica.edu.tw

  包罗“搜词寻字”、“法学之美”、“游戏解惑”、“古文字的社会风气”八个单元,可由部件、部首、字、音、词互查,并可查询在四书、老、庄、宋词中的出处,及直接连接到出处,阅读原来的书文。

 

13. 中华夏族民共和国农业学院“传媒语言语言质地库在线分词标注系统”

  http://ling.cuc.edu.cn/cucseg

 

14. 中中原人民共和国传播媒介高校“媒体语言语言材质库(MLC)”

  http://ling.cuc.edu.cn/RawPub

 

15. 浙大音讯寻找钻探室对外共享语料库能源

  http://ir.hit.edu.cn/demo/ltp/Sharing\_Plan.htm

  该语言质地库为汉英双语语言材料库,10万对齐双语句对,同义词词林扩充版。77,343条用语,秉承《同义词词林》的编撰风格,同时利用五级编码连串,多文书档案自动文章摘要语言材料库。叁二十个主旨,同一大旨下是同一事件的两样电视发表。中文依存树库,不带关系5万句,带关系1万句,LTML化,分词、词性、句法部分人工标注,能够图形化查看。问答系统难题集,6264句,已标明难点项目,LTML化,分词、词性、句法、词义、浅层语义等程序处理得到。单文书档案自动文章摘要语言材质库,211篇,分不一样体裁,LTML化,文章摘要句标注,分词、词性、句法、词义、浅层语义、文本分类、指代消解等程序处理得到。

 

16. 香港(Hong Kong)教院“LIVAC粤语共时语言质地库”

  http://www.livac.org/index.php?lang=sc

  自一九九五年上马,以“共时”格局处理了超越的大气汉语语言材质,通过精细的技术,累积众多纯粹的总括数据,建立了LIVAC(Linguistic
Variation in Chinese Speech
Communities)共时语言材质库。本语言质地库最大特色是运用“共时性”视窗形式,严刻地定时分别收载来自多地的定量同类语言材质,可供种种客观的相比商量,方便有关的音讯科技(science and technology)发展与利用。别的,语言质地库又兼任了“历时性”,方便各方人士客观地洞察与探讨视窗内的有代表性的言语发展完善动态。

 

17. 国语语言财富联盟

  http://www.chineseldc.org

  Chinese Linguistic Data
Consortium(简称ChineseLDC)是吸收国内高等学院和学校,科学商讨机构和公司插手的开放式语言财富联盟。其目标是建成能代评释日汉语新闻处理水平的,通用的华语语言信息知识库。ChineseLDC将建设和采访粤语消息处理所急需的各类语言能源,包涵词典、语言材质库、数据、工具等。在创造和采集语言财富的功底上,分发能源,促成统一的正儿八经和正规,推荐给用户,并且针对中文新闻处理领域的关键技术建立评测机制,为汉语音信处理的底蕴切磋和平运动用开发提供支撑。(之所以排名这么后,是因为是国家出资的花色,却没有啥样免费财富。)

 

 图片 4

 

 

外国语言材质库财富

1. 杨百翰大学语言质感库

 http://view.byu.edu

 杨百翰大学的马克Davies教授开发的语言材质库统一检索平台,整合了美利坚合众国当代乌克兰语语言材料库、U.S.历史德语语言材质库、美利坚独资国时代杂志语言材质库、BNC、波兰语言质感库、葡萄牙共和国语言材质库等多个语言材质库的财富。该网站每月有60,000人的使用量,也许是当下最常见接纳的互连网语言材质库。

 

2. 联合国文件数据库

 http://documents.un.org/simple.asp

 本文件系统包含了一九九四年来说联合国印发的全部标准文件。可是,联合国的最初文件也慢慢添加到本系统。本文件系统也提供从1948年来说联合国民代表大会会、安理会、经济及社会理事委员会和托管理事委员会通过的具备决议。本系统不提供新闻稿、联合国出版物、联合国条约汇编或信息部印发的资源音讯资料。由扶桑捐献赠送的3万多份数字化文件已被扩展进正式文件系统。

 

3. 兰开斯特粤语语言材料库(LCMC)

 http://ota.oucs.ox.ac.uk/scripts/download.php?otaid=2474

 应学术界对免费对群众开放的平衡的现代汉语语言材质库的必要的景况下筹建的。LCMC语言质感库是由兰开斯特大学语言学系顶住的并得到大不列颠及英格兰联合王国经社研商委员会援助(项目代号:RES-000-220125)的钻研项目。
LCMC语言材质库是与 Freiburg-LOB Corpus of British English
(即FLOB)平行对应的国语语言材质库,它有助于大家从事汉语的单语和英汉双语的自己检查自纠研商。通过上述网址可以防费索取LCMC预料用于钻探之用。

 

4. 语言开放典藏社会群众体育(OLAC)

 http://search.language-archives.org/index.html

 Open Language Archives
Community(OLAC),语言开放典藏社群是由个体或团队所结合的国际性同盟家协会会。许多类其他协会需求语言能源,如:语言学家、工程师、教授、演讲家,也有许多部门提供应影片段性的架构,如:文件管理器、软件开发者和出版者。理论上,用户愿意因此单一接口便能够收获别的需求的能源,在那之中财富类型涵盖:①素材(Data):任何描述语言的有关音讯;②工具(Tool):有助于创造、浏览、查询或行使语言数据的总计器能源;③提出(Advice):譬如,告知使用者什么能源有着高可信度?在此地步中哪个种类工具适合利用?当新的多寡衍生出时该怎么着创立?但事实上,却拥有语言能源分布在差异的网站、使用者不可能得到想要的能源、语言财富在差异网站有着分歧名字(Name)造成召回率(recall
rate)低,在此外领域有一样意义,造成正确率低(precision
rate)、许多言语能源并非以文字为根基、不明确是不是有建议适当软件,以及所建议的提出是不是深刻……等题材。OLAC由此诞生。

 

5. SKETCHENGINE多语言语言质地库

 http://www.sketchengine.co.uk

 每种邮箱能够登记二次,免费期是贰个月,免费期过了就再登记2个邮箱,再登记壹回。当中中文语言材料库是平素不加工的生语言材质库,使用价值非常的小。关键是内部的葡萄牙共和国语语言材质库实际上是本来要付钱才能采取的BNC,能够好好利用。 

 

6. 美利坚联邦合众国当代罗马尼亚(România)语语言材质库(COCA)

 http://www.americancorpus.org

 Corpus of Contemporary American English(COCA),由U.S.Brigham Young
University的马克Davies教师开发的高达3.6亿词汇的美利坚联邦合众国新星当代塞尔维亚(Република Србија)语语料库,是当今世界上最大的匈牙利(Magyarország)语平衡语言材质库。与其它语言材质库不一样的是它是免费在线供咱们利用,给海内外丹麦语学习者带来了福音,是不足多得的1个意大利共和国语学习财富,也是观测美利坚合众国保加哈里斯堡语应用和转移的贰个绝佳窗口。

相关文章

发表评论

电子邮件地址不会被公开。 必填项已用*标注

网站地图xml地图