技术与工具|AntConc:实用的本地语料库检索工具 您所在的位置:网站首页 xml怎么建立语料库 技术与工具|AntConc:实用的本地语料库检索工具

技术与工具|AntConc:实用的本地语料库检索工具

2024-07-09 08:35| 来源: 网络整理| 查看: 265

01

写在前面

读者朋友们大家好🤗上期推文中小编向大家推荐了一款简单易上手的语料库检索工具AntConc,大家是否仍意犹未尽?本期推文小编将详细介绍AntConc每一个工具的功能和具体操作方法,快打开电脑下载软件跟小编一起学习操作吧!官网链接:http://www.laurenceanthony.net/software/antconc/小编使用的是AntConc 4.1.0版本,推荐大家下载最新版本,另外本期推文中用到的材料小编一并呈送给大家!

▲AntConc 4.1.0

02

功能展示

A.导入文件

AntConc是单语语料库分析工具,因此只能导入单语文件。AntConc支持导入.doc、.txt和.pdf等多种格式文件,小编推荐大家导入txt格式文件,编码为UTF-8。准备好文件之后,点击File👉Open File(s)as 'Quick Corpus...'👉找到对应文件导入即可。

▲打开文件导入后的文件信息:

▲导入后的信息文件AntConc支持同时选中多个文件导入。使用快捷键Ctrl+O,点击Save即可将导入的文件保存为.db格式文件,相当于创建了一个基于导入文件的语料库,可供下次使用。此外,AntConc内置了英式英语和美式英语语料库,用户可选择使用。

▲将临时语料库保存为个人语料库

B.检索显示及高级检索

(1)上下文关键词上下文关键词(KWIC)是一种常用的语料库检索显示方式,关键词居中,其前后的语句同时显示。

▲KWIC界面小编导入了2022年GWR部分文本,一起来检索work这个单词试试。

▲搜索Work查看索引条数:5个

▲查看索引(2)文件(File)双击蓝色部分,即可跳转到File工具中查看原文件对应语境。

▲查看语境在此页面,大家可进行如下操作:(1)在搜索框输入自己想要的检索词如CPC,再按开始(Start),检索词便会突出显示(默认蓝色),并一览检索词在原文出现的位置。 (2)下方的 Hit Location 按钮,便可检索词快速定位查找,轻松跳到上一个或下一个检索词上。其中Case为大小写敏感、Regex为正则表达式。(3)关于正则表达式的学习,小编推荐一个网站https://www.runoob.com/regexp/regexptutorial.html

▲语境检索(3)定位(Plot)点击Plot可以根据索引定位查看该文本中单词出现的频率和分布的位置,点击蓝条可直达文本。

▲查看定位(4)高级检索在KWIC检索界面下方点击Adv Search可进行高级检索。① 同时检索多个单词

▲高级检索

▲同时检索多个词高级检索②:使用通配符检索从Global Settings-->Search中的Wildcards可以看到通配符使用方法。

▲通配符使用方法示例:用“*ing”查找所有带ing的单词

▲使用通配符检索高级检索③:根据语境检索,如限制范围,检索搭配。比如限制从work左边5个单词到work右边5个单词内,出现with的句段:

▲限制范围

▲搭配检索

C.词丛

词丛工具可生成目标文件中检索词周围排列成序的词丛列单。在此页面,我们可以进行的操作如:1) 既可按照频率、词头、词尾排序,也可以按照词丛第一个单词的出现概率排序。所有的排列顺序还可以一键反向!(点击Invert Order就好啦)2)用户也可以选择每个词丛的最大或最小长度(指单词数哦),以及列出词丛的最小频率。也可以选择检索词在词丛中的分布位置,词丛左边或右边。

▲Cluster界面

D.N元模式

N元模式也就是部分词丛,它与Cluster功能操作起来很像,那么为何会将其又单独列为一个功能呢?我们先来了解一下此处何为N元呢?其实小编觉得在该模式下,语料所进行的工作像极了咱们N年前所学的排列组合。假如你只需要3个单词,那么你的N元范围就是3,如目标文档中一句“The Covid-19 pandemic is still ongoing. ”,该句中的3元就是“The Covid-19 pandemic”“Covid-19 pandemic is”“pandemic is still”“is still ongoing”。

▲N元模式界面

E.搭配

▲Collocate界面相信在COCA语料库中,搭配这一功能你已烂熟于心。(没有?那面壁去……)此处,小编为你亮出新鲜知识点,语料库在判断几个单词组成的词组能否构成搭配会取决于以下三个重要参数:对数似然值,交互信息值(MI)和T值(T-Score)。对数似然值:是反映真实性的一种指标,一般数值越高,相关性越高。在同一方框内还有其他选项,如卡方检验(Chi-Squared):值越大,偏差越小,相关性越低。交互信息值( Mutual Information Score):MI值表示的是互相共现的两个词中,一个词对另一个词的影响程度或者说一个词在语料库中出现的频数所能提供的关于另一个词出现的概率信息。MI值测量的是搭配强度,它有助于识别科技术语和固定词组。T值(T-Score):T值是根据假设检验中的t检验计算得来的。T值反映的是对显著搭配词的把握性,能使研究者有把握地确定与节点词共现频数较高的显著搭配词。

F.词单

词单工具对语料中所有的单词进行计数,并按照词频、词性、单词的字母顺序等规则排序。点击窗口最下方的“Sort by”下拉选项,可以选择排序规则来显示结果。

▲Word界面

G.关键词单

关键词单可以比较两个语料库中的关键词。使用快捷键Ctrl+O打开语料库管理工具,在目标语料库和参考语料库中分别打开2022年政府工作报告和2017年政府工作报告,Sort by后选择type,然后点击“Star”进行搜索,可以得到如下结果:

▲Keyword检索结果根据列表可以看出,相较于2017年的政府工作报告,2022年政府工作报告中的关键名词是“carbon”和“covid”,与2022年国家的碳排放政策和防疫政策恰好吻合。

▲Keyword界面在语料库管理工具中交换目标语料库和参考语料库(即目标语料库改为17年政府工作报告),仅得到“progress”这一个关键词,可见相较于22年政府工作报告,17年政府工作报告更多地提到了“发展”。

H.词云

用户借助Antconc可以将语料库检索结果可视化。生成一个语料库的基本操作如下:(1)使用KWIC、Plot、File等工具生成数据(2)点击source下拉选项,根据需求选择需要生成词云的工具,也可以点击ScratchPad输入自定义文本生成词云。

▲词云界面(3)点击Star即可生成词云。如有需要可设置词云的颜色、形状、图片大小等参数。

03 总结

AntConc作为一款语料库检索工具,相比于WordSmith等专业工具,工具栏布局合理,操作简便,上手容易,对新人极为友好,只要有语料就能迅速搭建一个简易的原料库。当然,其缺点也很明显,缺少一些详细的功能,在做翻译研究时很受限。

主要参考资料

1. Larence Anthony,AntConc 4.0 使用教程,

https://www.bilibili.com/video/BV15T411V7Us?spm_id_from=333.337.search-card.all.click;vd_source=05abec20c6423945bd3aca52f1b4880a

2. 刘世界,AntConc语料库检索及分析软件_全系列完整版教程,

https://www.bilibili.com/video/BV1z5411t7FN?share_source=copy_web;vd_source=d4744805a3e716c7d611be8c989392d9

3. 免费的AntConc:强大好用的本地语料检索工具,

https://www.jianshu.com/p/3c7c178ddfcc

编辑:李丹平 张启雯 王琳审核:朱华 李丹平 张启雯

关注VX公众号“翻译技术教育与研究”、“语言服务行业”,了解更多语言服务行业与翻译技术相关的资讯和洞察~



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有