[TOC]
## 试卷制作应遵循哪些规范
### 文本输入格式
- [content]、[word] 是用来说明文本的类型的,试卷中必须并且仅能有一个类型的头。
- [word]标记的试卷中,每行仅能有一个单词。
- [vocabulary]中罗列每个单词的音标,多发音的音标必须用“|”隔开。每个音标序列不能大于128字节。
### 英文单词自定义发音
> 用户可通过试卷音标标注指定单词发音,以下是几个题型的示例,供参考。
- 英文句子题型
[content]
May I help you. Yes please. Does this sweater come in yellow.
[vocabulary]
help/hh eh l p/
- 英文单词题型
- 示例一:
[word]
kitchen
[vocabulary]
kitchen/'k ih - ch ih n/
- 示例二:
[word]
off
[vocabulary]
off/oo f | ao f/
- 示例三:
[word]
they
there
[vocabulary]
there/dh ar/
> **注**:以上采用的音标均为讯飞音标,详细请参见 [科大讯飞语音评测试题格式及结果说明](http://www.kancloud.cn/iflytek_sdk/ise_protocol/325502) 文档中评测结果格式 --> 音标对照表。
### 英文分词分句的规则
- 句子结束的标点符号是“.!?;”,缩写中的点号不作为句子的结束标记进行句子切分;
- 引擎支持小数的解析,如果点号左右紧接着数字,则该点号为小数点;如果点号左右为非数字字符,则该点号为句子结束标点或者缩写中的点号。
- 单词题型中没有句子的概念,故不会根据句子结束标点进行分句。表示句子结束的标点在单词首尾将被过滤掉,在单词间将不做任何处理。
- 分词符号是“:\x0A,|\ ”、“|”、“\”、“,”、“.”以外的符号将转换为空格进行分词。
### 文本规范
- 文本中的标签必须拼写正确,而且不能杂含其他多余的字符;中括号“[ ]”为标签的符号,正文中不能出现中括号,否则解析结果为未定义。圆括号“( )”为标记符号,用于标记连读、停顿、句末升降调、重读等信息,括号内除去约定的字符外,不能为其他字符,否则解析结果不正确。
- 一个标签不能在一个文本中出现两次;不能在同一文本中出现两个同一类型的标签。
- 文本中第一个标签的前面不要出现任何字符。
- 标签和正文之间是通过换行来控制位置关系的,这种位置上的相对关系不能被打破。
- 生词中的音标标签必须按照文本格式要求标写,每行是一个单词对应其相应的音标,音标序列中不能杂含其他不是(引擎定义的)音标字符或非法字符。
- 引擎不对文本进行语义解析,例如:“-780”(引擎不能解析出这是一个负数)”。
- “ " ”、“ ' ”、“.”、“!”、“?”、“ ”、“:”、“;”、“-”、“|”、“\x0A”、“\t”以及数字、字母之外的字符将被过滤掉。全角的标点将被转换为半角,全角字符或者非法字符不能超过全文字符的10%。
- 英文文本中,除了 . (如:p.m),- (如:80-year-old),' (如:I'm) 这三个字符外,其余字符均会判定为非法字符。
- 文本内容不区分大小写。
## 试卷制作中常见错误及修改方法
> 文本中的标点符号不能省略,否则会认为是非法格式。
> 常见错误码:28682(试卷内容有误),28693(试卷格式有误),28694(存在未登录词)
- 28682错误码:试卷内容不正确。常见的几种错误:如出现了大量的全角字符,中文,圆括号中的标记符合规范、编码错误(将试卷保存为ANSI编码格式)等,可仔细检查试卷内容,进行删改。
- 28693错误码:试卷格式有误。可参照 [科大讯飞语音评测试题格式及结果说明](http://www.kancloud.cn/iflytek_sdk/ise_protocol/325501) 中的试题格式进行修改。
- 28694错误码:存在未登录词。表明有引擎无法处理的文本,请参照**文本规范**检查文本内容。