LABB-CAT是一款专业的语言学研究软件。对于语言学研究你可以来试试LABB-CAT。在成绩单上传期间,Labb-Cat找到了成绩单中指定的参与者。如果找不到匹配的参与者记录,将创建一个新的记录,支持消费的变化,每个绘图都属于“语料库”。如果选择错误的语料库,则可以使用菜单上的Series Manager选项在上传成绩单后进行此类更改; Labb-cat包含Unisyn图层管理器,用于摄取Unisyn Teact-特定的词典并包含在内。该脚本生成所需种类的字典,可以将生成的文件添加到labb-cat,然后配置图层管理器要使用文件使用单词标记标记字标记,支持Unisyn字典来制作Soundtock标记,使用纯文本文件的语音标签,使用西班牙语语法转录程序,有许多语言分析功能,如果需要下载它!
基本介绍:
Labb-Cat是一种用于存储音频或视频录制,文本成绩单和其他评论的基于浏览器的语言研究工具。
可以自动生成或手动添加各种类型的注释。
可以在成绩单和评论中搜索特定的文本或正则表达式。您可以以各种格式查看或保存搜索结果或整个成绩单,您可以通过Web浏览器在声学分析软件中播放或打开录制。
软件特色:
媒体和转录物存储
Labb-Cat本质上是一个音频/视频录制的存储库存储库。您可以使用经函数,PRAT或ELAN(可用于创建将与具有音频/视频记录中的记录文本中的对应位置对齐的文档)。然后将成绩单上传到Labb-Cat,后者可以存储有关发言人和转录物的其他信息。
激励任务
您还可以定义灵感任务,包括参与者阅读技巧,以及他们想要回答的问题。
当参与者(使用他们的浏览器或移动设备)执行任务时,它的声音将被录制并自动上传到Labb-Cat:
自动论
结合信号数据,原始的正面刻字成绩单以及一些第三方数据和工具,您可以自动注释记录书籍,例如:
词汇标签
使用Celex数据,您可以自动使用其他数据注释:
语音学
同步
形态学
单词
频率
还可以集成其他词典,包括CMU发音词典和Unisyn字典。
强制对准
使用HTK或WebMAUS,您可以强制话语水平的转录程序到单词和段级别:
统计数据
Labb-Cat数据库本身中的字频率数据可以直接在每个单词上进行计算和评论:
“语言查询和单词计数统计”(LIWC)可用于比较语料库和参考终止:
将时间对齐信息和来自Celex的音节计数组合,可以在不同的域上计算语音率:
脚本
您可以使用Python或JavaScript编写脚本编写脚本的脚本计算和注释任务:
IBM Watson个性化
Labb-Cat可以与IBM Watson的个性洞察Web服务集成,以执行对成绩单的个性化分析:
安装方法:
1.打开安装-abbcat-personal_20210216.jar进入安装界面,单击开始
2.提示开始将软件安装到计算机,等待安装结束
软件特色:
1,语音符号
根据您的语音数据,有几种方法可以获得单词音素转录:
2,词汇标记
Celex-Mevering英语,德语和荷兰语的Celex层数之一。
CMU发音词典 - 为美国英语,使用CMU发音Word Classification Manager。
Unisyn-使用Unisyn层经理进行各种英语品种。
定义己的字典并使用平面文件字典级别管理器将其集成到Labb-Cat中。
3,推断发音从拼写
西班牙语,使用西班牙语语言色调跟踪层数
基本Web服务:G2P-用于各种语言。
用字符映射器层管理器将自己的简单映射规则从拼写方法定义到语音系统。
4,Celex语音符号
如果您有权访问Celex数据库,则可以将Labb-Cat集成到它,允许使用来自Celex的数据来评论成绩单 - 可以包括:
标准调谐转录 - 例如,“差异”→“dɪfrəns”或“dɪfərəns”
形态学信息 - 例如“差异”→“差异+差异”
可能的语法类别 - 例如“差异”→“n”
频率数据
绍
音节数
5,手动注意
请注意,您可以手动添加它,例如
主题标签
文本标签
单
您可以使用PRAAT注释点或间隔:
官方教程:
转录指南
有多种工具来转录录制,Labb-Cat支持转录文件格式中最常用的工具。每个工具都有自己的功能,用于指
了转录的特定工具和文件格式之外,还有一些一般原则来促进后续处理Labb-Cat中的语音数据。
拼写
许多自动注释任务涉及查找标准字典,不注目的单词将不会注释,因此在可能性中使用标准拼写非常重要。
使用常规拼写,如果您不确定如何拼写,请查找字典或映射。
用空格而不是偶数字符写下所有数字 - 例如
使用缩写时,如果分开每个字母,请在每个字母之间使用大写字母,否则,请使用没有空格的大写字母 - 例如
所有单词都应该完全拼写,例如“和”和“假设”。即使扬声器表示,最终的G S和D S-也不应该从单词中删除。
即使音节之间存在暂停,您也应该始终拼写单个单词作为整个单词。
不要组织你的演讲。保持重复,填充和错误。
您可以定义一句短的单词和acRony字,只要您一致使用它们 - 例如,如果您使用cos作为简化版本,因为您将始终将其拼写为cos,而且永远不会导致它不会导致没有女孩。例如:
不满意
保持填充暂停的拼写非常重要。
建议使用最后三个拼写字母,因为三个拼写是m-m-可以匹配字典中字母m的名称,所以发音标记为/εm/如果它用两个m-mm拼写 - 这有时更换匹配毫米的单词,所以可以标记的发音/'mɪ-lɪ-“みtə/。
未填充的暂停可以用连字连字符(空间封闭)转录;某些模块使用此类暂停信息来帮助自动注释(例如,使用此类暂停注释与HTK优势强制对齐) - 例如
不完整的单词应在单词末尾标记〜(而不是偶数字符,可以解释为暂停),例如:
对于非常短暂的犹豫 - 但是,一些发音模块可以推断出这些单词的发音而无需手动发音标签。
文本标签和其他原始评论
某些转录工具允许单个单词以附加信息标记,而不允许其他工具。对于这些,例如,用单词标记单词的唯一方法是使用转录约定。
如果使用ELAN转录物,PRAAT TextGrids或纯文本文件作为成绩单,Labb-Cat可选择支持以下转录约定:
可以通过使用方括号中的单词来标记单词或犹豫的发音(即,单词和注释之间没有空格) - 例如
STUT〜[STVT]
例如,以通过在单词之后使用括号(即,单词和注释之间没有空间)来标记标准形式的犹豫形式(或具有非标准拼写的其他单词)的完整形式
STUT〜[STVT](口吃)
您可以使用方括号标记为空白的噪音,例如拼接方括号,例如拼接方括号
现在[舌头点击]
您可以使用空白来在空白处添加注释,例如,
这里击中我{指向圣殿}
话语
诸如强制对准的一些过程涉及记录中的各种治治,其对应于许多转录系统中的文本线。长期或短的话语可能难以处理。
理想情况下,成绩单中的每一行都应该是
515字长,并且包裹应在悬挂的语音中进行。
一些评论工具允许标记语音的时间段,即时间段,多于一个人。这些时间段应尽可能准确地对齐,因为同时忽略某些自处理(例如,强制对齐)。短暂的虽然声音是尽可能少的语音忽略。
强制对准
强制对齐是自动处理的声音记录及其状态记录,以确定单词和单词中呼叫的开头和结束时间。
Labb-Cat通过三种主要方法可以实现强制对齐:
1.具有BAS Web服务的Webmaus
2.带有Penn对准器的HTK(P2FA)预训练的声学模型
3.通过培训您的声学模型,HTK(“培训和对齐”)
对准精度
作为无人监督的自动过程,对齐并不总是最好的。各种因素会降低比较的质量:
数据不足(如果您使用的是“培训和对齐”方法)
记录质量,背景噪音等。
语音同步(默认忽略)
成绩单不正确
话语不正确
成绩单中没有暂停标记
字典和语音之间的语音系统不匹配。
例如,使用流变字典来对齐
因此,您应该检查并可能纠正至少一些数据。
检/更正
您可以通过两种方式检查/正确对齐:
1,Labb-Cat和Praat集成
2,Labb-cat和emu-webapp集成
在后面
在该数据是强制性之后,手机中的开始/结束时间将在字范围内,例如,这提供了许多分析和进一步注释的可能性。
1.使用PRAAT批处理目标令牌
2,重建音节
BAS Web服务管理器和WebMAUS
在巴伐利亚信号信号(BAS)中,很高兴的是一组语音处理Web服务包括一个名为WebMAUS的强制布置。您可以使用Web浏览器直接使用此服务,但Labb-cat还具有一个名为BAS Services Manager的自动模块。
一般过程如下所示:
注意:使用WebMAUS强制对齐要求Labb-Cat通过Internet将您的录音和成绩单发送给第三方。虽然BAS Web服务的第三个点的服务条款清楚地表明上传的数据将在24小时后删除,但只有在您同意参与者时才使用该服务。
如果您的声音使用以下任何语言,则可以使用WebMAUS for强制对齐:
Labb-Cat必须能够识别每个成绩单所使用的语言,因此您必须确保设置语言
在成绩单的“语言提示”属性中,或在语料库页面上(您可以为每个语料库定义所有转录定义语言)。
您可以通过以下方式在Labb-Cat中设置可用语言选项:转到“脚本属性”页面,然后单击“语言”属性“选项”按钮。该值必须是由两个字母组成的ISO639-1代码,以及可选地额外的国家/地区代码 - 例如由两个字母组成的en或en-nz。
脚步声
安装层管理器:
1.在Labb-cat中,单击菜单上的图层管理器链接,为您提供已安装的图层管理器列表。
2在页面底部,单击“选择文件”,
单击“列表管理器列表”后未安装图层管理器列表。
3.在列表中查找BAS Web服务管理器,然后单击其“安装”按钮。
4.单击使用条款并阅读条款。
5.关闭术语页面并返回Labb-Cat。
6.为“使用条款”选项选择“True”
7.单击“安装”。
您将看到图层管理器的信息页,包括有关如何设置强制对齐的说明。
设置一个图层以触发强制对齐:
1.单击菜单上的主层选项
2,页面底部有一个空白表,用于创建新图层。填写以下详细信息:
描述:对齐时间
简短描述:玛斯
图层类型:文本
图层管理器:BAS Web服务管理器
津贴:时间间隔
生成:总是
3,单击“新建”
4.您将看到一个允许您配置该图层的表。查看此页面的在线帮助以指导您。主要选择是“音素”编码:默认选项,光盘可能是最好的,因为这种音素编码可确保对其他模块很好,且易于搜索。但是,您可以选择放大器,在这种情况下,图层类型的段图层应设置为文本。
5,单击以保存
6.如果要立即强制QI语言库中的所有录制,请单击“再生”。
使用Praat检查/校正对齐
强制性对齐后,您可以使用Praat集成抄本页检查并从Labb-Cat中检查和纠正。
检查对齐:
1.在Labb-Cat中,打开一个页面。
2,检查HTK层和段层。
您将看到哪一行已被强制对齐,因为它们具有HTK时间戳并填充细分层。如果缺少某些线路,则可能是因为有一个未知的单词,另一个扬声器同时,或者可能是HTK,并且有很多原因,包括这种情况,包括缺乏培训数据。记录噪声大,转录不准确等)。
交互式抄本页面不显示单词或电话对齐,但您可以看到
使用Praat单词或电话对齐。您可以直接从Praat中的脚本页面打开一个声音,但首先,
必须建立Labb-cat / praat集成;只是执行一次:
3.在页面的右上角,播放控制器上方的控制,有一个praat图标? - 点击它。
4,按照显示的说明(这些指令根据您使用的Web浏览器而有所不同)。
愿你问你是否被允许? Labb-cat集成小程序?跑步。如果你检查?不再再次显示?每次打开记录时打开抄本时,都不会出现此消息。
您可能需要授予许可浏览器扩展才能安装,并且您可能需要连接到Internet以下载此扩展。
您还可以询问Praat的安装位置。导航到Praat的安装位置,然后双击? 。 Praat.exe?文档(在某些系统上,文件可以称为“Praat?)。
可以打开PRAAT程序,然后立即关闭,因为Labb-Cat测试可以与Praat通信。
现在已经建立了Praat集成,你应该是
从现在开始,访问成绩单中的Praat选项......
5.单击“对齐的行”,然后在菜单上选择“在PRAAT中打开文本网格”选项。
也许您想要允许访问“Labb-Cat Integration applet”? - 如果是这样,请检查“不再显示此内容”,然后单击允许。
PRAAT应该打开并显示行音频的声音谱,下面是一个包含单词和句子的TextGrid。
6.如果单击单词并按按钮,将播放单词的间隔。尝试各种单词,看看你如何看待HTK的准确性及其对齐。
尝试在成绩单中使用不同的线路来执行此操作。
在某些情况下,您将看到它非常好,但在其他情况下它不是很好。
7,调整单词并调用对齐使它们更准确,然后单击“抄本”页面(在Labb-Cat中的“导入更改”按钮。
这些更改标记为手动编辑,因此如果再次运行强制对齐,则不会被新错误覆盖。因此,您确实改进了什么,这很重要,因为HTK永远不会再改变它们。
关于你可以改变,有一些规则:
您不允许添加或删除单词(如有必要,请更正转录程序以完成此操作)。
所手机必须在他们自己的话语范围内。
部电话的开头应与单词的开头对齐,最后一个电话端应与单词的末尾对齐。
您不应该更改排放本身对齐(仅在选择“Praat”选项中选择“打开文本网格”时选择“±1 anceance”)。