步子百科步子百科

ty是什么意思(TyDi)

问答技术每天都在帮助人们——当人们面临诸如“鱿鱼墨是什意思否可以安全食用?”之类的问题时。,什意思用户可以询问语音助手或键入搜索并期望得到答案。什意思去年,什意思我们向研究界发布了英语自然问题数据集,什意思以提供一个挑战反映真实用户的什意思需求。然而,什意思有成千上万种不同的什意思语言,其中许多使用非常不同的什意思方法来构建意义。例如,什意思虽然英语改变单词以表示一个对象(“book”)与许多(“books”),什意思但阿拉伯语还有第三种形式来表示是什意思否有两个(“كتابان”,kitaban),什意思而不仅仅是什意思单数(“ كتاب”, kitab ) 或复数 (” كتاب”, kutub )。此外,什意思某些语言(例如日语)在单词之间不使用空格。创建能够理解语言表达含义的多种方式的机器学习系统具有挑战性,而训练此类系统需要来自将应用它们的各种语言的示例。

为了鼓励多语种问题回答,今天我们发布的研究泰迪QA,一个问题回答语料库覆盖11泰pologically迪诗的语言。在我们的论文“ TyDi QA:在类型多样的语言中寻找信息的问答基准”中描述,我们的语料库受到类型多样性的启发,这是一种不同语言以不同结构方式表达含义的概念。因为我们为这个语料库选择了一组在类型上彼此相距遥远的语言,所以我们希望在这个数据集上表现良好的模型能够泛化到世界上的大量语言。

类型多样的语言集合

TyDi QA 包括来自 11 种语言的超过 200,000 个问答对,代表了各种语言现象和数据挑战。其中许多语言使用非拉丁字母,例如阿拉伯语、孟加拉语、韩语、俄语、泰卢固语和泰语。其他人以复杂的方式组成单词,包括阿拉伯语、芬兰语、印度尼西亚语、斯瓦希里语、俄语。日语使用四个字母(以“ 24时间でのサーキット周回数”中的四种颜色表示),而韩语字母本身具有很强的组合性。这些语言的范围也从在网络上有很多可用数据(英语和阿拉伯语)到很少(孟加拉语和斯瓦希里语)。我们希望能够应对这些挑战的系统能够在大量语言中取得成功。

创建真实数据

研究界使用的许多早期 QA 数据集都是通过首先向人们展示段落,然后 让他们根据阅读段落可以回答的内容写出问题来创建的。但是,由于人们可以在编写每个问题时看到答案,因此这种方法产生的问题通常包含与答案相同的词。因此,在此类数据上训练的机器学习算法将有利于单词匹配,而忽略了满足用户需求所需的更细微的答案。

为了构建更自然的数据集,我们从想要答案的人那里收集了问题,但没有知道答案了。为了激发问题,我们向人们展示了维基百科中用他们的母语编写的一段有趣的文章。然后我们让他们问一个问题,任何问题,只要文章没有回答,他们实际上想知道答案。这类似于你自己的好奇心可能会引发关于你在街上看到的有趣事物的问题。我们鼓励我们的问题作者发挥他们的想象力。一段关于冰的文章是否让你想到了夏天的冰棒?伟大的!问谁发明了冰棒。重要的是,问题是直接用每种语言编写的,而不是翻译的,因此许多问题与英语优先语料库中的问题不同。孟加拉语中的一个问题是:“সফেদা ফল খেতে কেমন?” (是什么人心的味道怎么样?)从来没有听说过吗?这可能是因为它在印度比美国更普遍。

对于这些问题中的每一个,我们都用适当的语言对最匹配的维基百科文章进行了谷歌搜索,并要求一个人找到并突出显示该文章中的答案。当我们在提问者面前没有答案时,我们预计问题和答案之间会出现一些有趣的分歧,再加上世界语言中语言现象的惊人广度,我们发现情况更加复杂。

例如,在芬兰语中,有一些引人入胜的例子,其中单词day和week在问题和答案中表现得非常不同。为了成功地从整个维基百科文章中选择这个答案句,系统需要能够识别芬兰语单词viikonpäivät、seitsenpäiväinen和viikko之间的关系

作为一个研究社区共同取得进步

我们希望这个数据集能够推动研究社区以创新的方式为世界各地的用户创建更有用的问答系统。为了跟踪社区的进展,我们建立了一个排行榜,参与者可以在其中评估他们机器学习系统的质量,并且还开源了一个使用数据的问答系统。请访问挑战网站查看排行榜并了解更多信息。