曰韩少妇内射免费播放,射精专区一区二区朝鲜,国产 欧美 亚洲 中文字幕,又硬又粗进去好爽A片66

語料工具

Corpus Tools
ABBYY FineReader

ABBYY FineReader

ABBYY FineReader是一款OCR軟件,可以進行文件識別、自動保留排版格式,后臺批處理識別等功能。用戶可以利用ABBYY FineReader進行對不可編輯文本的掃描,如圖像、PDF等格式的語料,以獲取Microsoft Word等格式的可編輯的文檔。
天若OCR文字識別

天若OCR文字識別

天若OCR文字識別是一款界面簡潔、功能強大的OCR識別軟件,可將圖片中的文本轉(zhuǎn)換成可編輯文本,將表格識別后轉(zhuǎn)換成可編輯表格,進行識別翻譯、截圖及截圖標注等,處理圖像或PDF等格式語料極為方便。
AntConc

AntConc

AntConc是一款免費的單語語料檢索工具,支持Windows, MacOS等系統(tǒng),具有索引、索引定位、詞叢、搭配、詞表和關(guān)鍵詞單等多種功能,界面簡單,方便用戶操作,可以極大提高語料檢索的效率。
TextForever

TextForever

TextForever可以用來進行文本HTML到TXT的轉(zhuǎn)換、文件切分、文檔合并、文本提取、TXT文件分行、HTML代碼整理等功能。在使用Teleport Ultra軟件提取網(wǎng)頁中的語料后,我們可以使用TextForever軟件對所獲取的語料進行格式處理,搜集所需格式的語料,兩個軟件的搭配使用使得語料搜集過程更加方便快捷。
Microsoft Word

Microsoft Word

微軟Word是微軟公司開發(fā)的一款文字處理軟件。相信大家日常辦公都會或多或少用到它,其實它還有許多隱藏技能,今天為大家介紹其中之一——語料清洗。

具體來說,利用Ctrl+H快捷鍵調(diào)出查找與替換對話框,點擊“更多”,單擊勾選“通配符”,借助通配符快速清洗語料。

EmEditor

EmEditor

EmEditor是一個輕量級、可擴展、易于使用的Windows文本編輯器,適用于Windows系統(tǒng)。EmEditor在64位和32位版本中都可用。我們可以在EmEditor軟件中利用正則表達式快速清洗語料,具體操作是導入文本后,點擊“搜索”,單擊“替換”,再勾選“正則表達式”,利用正則表達式清洗語料。

正則表達式學習參考:

https://www.runoob.com/regexp/regexp-tutorial.html

在線正則表達式測試平臺:

https://tool.oschina.net/regex

Notepad++

Notepad++

Notepad++是一款與EmEditor類似的軟件,Notepad++是Windows操作系統(tǒng)下的一套免費的文本編輯器,有完整的中文化接口及支持多國語言編寫的功能(UTF8技術(shù))。同樣,我們也可以借助它,并利用正則表達式清洗語料,操作與EmEditor類似。
斑斕科技小助手

斑斕科技小助手

斑斕科技小助手是一款基于VBA的Word小工具,與庫酷和文檔整理器不同的是,它可以直接在Word中使用,功能豐富,提供各種快捷鍵,操作簡單方便,為語料處理提供極大的幫助。
ABBYY Aligner

ABBYY Aligner

ABBYY Aligner 2.0是一個工具對齊并行文本和創(chuàng)建翻譯記憶數(shù)據(jù)庫,提供了編輯對齊結(jié)果的功能,并可以保存為TMX格式,以便在CAT工具中進一步使用,可以提高工作效率。
Tmxmall

Tmxmall

Tmxmall是一款在線語料對齊工具,語料對齊方便用戶調(diào)整對齊結(jié)果,其自主研發(fā)的智能對齊算法可以自動對齊原文,支持46種語言,2070種語言對,極大提高語料對齊效率。
ParaConc

ParaConc

ParaConc是一款雙語或多語平行語料庫建設(shè)與檢索工具,具有語料對齊、平行文本預覽功能、平行文本檢索、檢索行排序、詞頻統(tǒng)計、搭配提取等功能,可以用于語料檢索、對比分析、語言學習和翻譯研究培訓等。