• 語料庫

    Corpus
    美國當代英語語料庫(單語)

    美國當代英語語料庫(單語)

    美國當代英語語料庫(Corpus of Contemporary American English,簡稱COCA)是目前最大的免費英語語料庫,它由包含5.2億詞的文本構成,這些文本由口語、小說、流行雜志、報紙以及學術文章五種不同的文體構成。
    美國楊百翰大學BNC語料庫(單語)

    美國楊百翰大學BNC語料庫
    (單語)

    由美國楊百翰大學語言學教授創立,下設多個字庫,語料極其豐富。
    美國國家語料庫(單語)

    美國國家語料庫(單語)

    最大的關于美語使用現狀的語料庫,記錄了自1990年起美語口頭和書面語,詞量達2200萬。
    BNC (British National Corpus) (單語)

    BNC (British National Corpus)
    (單語)

    英國國家語料庫由牛津出版社、朗文出版公司和大英圖書館等機構共同建立。其中包括廣泛的書面語和口語,書面語90%,口語10%,總詞量超過1億。
    Corpus Concordance English (單語)

    Corpus Concordance English
    (單語)

    綜合多個語料庫,內容包括歷屆美國總統演講及電視節目、學術、法律等,有口語和書面語兩種形式,詞量達數千萬。
    Michigan Corpus of Academic Spoken English (單語)

    Michigan Corpus of Academic Spoken English(單語)

    密歇根大學英語語言所建立,內容主要為學術英語口語,詞量達184萬。
    Online BLCKWIC Concordancer(雙語,英語、日語)

    Online BLCKWIC Concordancer
    (雙語,英語、日語)

    商業信函及其他信函類語料庫,由日本人建立,包括商業信函、名人信函、美國總統國情咨文部分名著等。
    BOE——柯林斯英語語料庫(the Bank of English)

    BOE——柯林斯英語語料庫
    (the Bank of English)

    為目前世界三大著名語料庫之一,該語料庫(The Bank of English)為英國伯明翰大學與Harper Collins出版社合作建立的COBUILD語料庫的一部分,目前固定在4.5億詞的規模,可以在線檢索。
    WebCorp

    WebCorp

    由伯明翰城市大學英語學院英語研究小組開發的網絡語料庫WebCorp 除了具有傳統語料庫檢索軟件的詞表(wordlist)、語篇統計(token與type數目統計)、KWIC索引(語境共現)、搭配統計(Key phrases)、詞語型式(pattern)統計等功能以外,還具有網絡語料庫特有的功能。它能夠設定常見詞(stop words)排除,將the、a等常見詞從搭配中自動去除掉,這樣檢索出來的詞語搭配更加精煉準確;能夠設定搜索的域名范圍、時間范圍,可以提供不同地區、不同時期的語料資源。
    紹興文理學院語料庫

    紹興文理學院語料庫

    由紹興文理學院建立,主要語料有魯迅作品、四書五經、傳統經典、毛鄧選集、兩岸三地法律等。
    北京大學中國語言學研究中心

    北京大學中國語言學研究中心

    CCL語料庫中包含現代漢語語料、古代漢語語料兩類單語語料,涉及的文獻時間從公元前11世紀到當代。其中現代漢語語料約6 億字符,涵蓋了文學、戲劇、報刊、翻譯作品、網絡語料、應用文、電視電影、學術文獻、史傳、相聲小品、口語等多個類型。CCL語料庫中古代漢語語料約2億字符,收錄了從周代到民國的語料及大藏經、二十五史、歷代筆記、十三經注疏、全唐詩、諸子百家、全元曲、全宋詞、道藏、辭書、蒙學讀物等的雜類語料。除了兩大單語語料庫的擴容外,近年來CCL語料庫還融入了一些專題語料庫。
    北京語言大學語料庫中心BCC語料庫”

    北京語言大學語料庫中心
    BCC語料庫

    BCC語料庫是以漢語為主,兼有英語、西班牙語、法語、德語、土耳其語等語言的語料庫,其中漢語語料規模約150億字,涵蓋了報刊、文學、微博、科技、綜合和古漢語等多領域語料。BCC語料庫包括了生語料、分詞語料、詞性標注語料和句法樹,目前已對現代漢語、英語、法語的語料進行詞性標注。
    清華大學中英平行語料庫

    清華大學中英平行語料庫

    清華大學中英平行語料庫由清華大學自然語言處理與社會人文計算實驗室在國家“863 計劃” 項目“ 互聯網語言翻譯系統研制” 的支持下,利用自身研發的互聯網平行網頁獲取軟件和雙語句子自動對齊軟件獲取并處理得到的,共包含285萬中英平行句對。
    香港教育學院“LIVAC漢語共時語料庫”

    香港教育學院
    “LIVAC漢語共時語料庫”

    LIVAC漢語共時語料庫以嚴謹、恒常與「共時」方式,搜索和處理了超常的大量具代表性漢語平面媒體語料,并通過精密的技術,累積了泛華語地區眾多精確的語言和語用統計數據。本語料庫最大特點是采用「共時性」視窗模式,剖析來自香港,北京,上海,臺灣,澳門,新加坡等多地有代表性的定量華語媒體語料。直至2016年,LIVAC已累計過濾25億漢字語料,并已處理逾6億字,累積并持續提煉出2百多萬詞條。
    中文語言資源聯盟

    中文語言資源聯盟

    中文語言資源聯盟是由中國中文信息學會語言資源建設和管理工作委員會發起,由中文語言(包括文本、語音、文字等)資源建設和管理領域的科技工作者自愿組成的學術性、公益性、非盈利性的社會團體,具有完整性、權威性、系統性和開放性的特點,涵蓋中文信息處理各個層面上所需要的語言語音資源,包括詞典、各種語音語言語料庫、工具等。
    漢語中介語語料庫”

    漢語中介語語料庫”

    漢語中介語語料庫由北京語言大學于1992年開始建設。該語料庫立足于漢語教學已收錄1635位外國學生共5774篇成篇成段的漢語作文或練習材料,總字數約353萬,其中1731 篇約104萬字的語料經過斷句、分詞和詞性標注等加工處理。目前該全球漢語中介語料庫仍處于努力建設過程中,北京語言大學仍然努力于建設全球漢語中介語語料庫,其規模預計達5000萬字,包括筆語語料、口語語料和多模態子庫。筆語語料規模預計達4500萬字,其中2000萬字將加工成為熟語料;口語語料450小時,約合400萬字;多模態語料110小時,約合100萬字。