Соревнование по разрешению кореферентности для русского языка (CodaLab)
Мы приглашаем вас поучаствовать в соревновании по поиску кореферентных выражений в новостных текстах на русском языке. Кореферентными считаются языковые выражения, соответствующие одному объекту действительности, например:
Соседи [Абрамовича]0 по поместью недовольны дизайном [его]0 владения.
Разрешение кореференции важно для многих задач NLP более высокого уровня, таких как саммаризация, question answering и извлечение информации. Это уже третье соревнование по разрешению кореференции в рамках конференции Диалог, но первое с таким объемом данных: train/dev датасет содержит около ~1 млн слов.
Корпус представляет собой файлы в формате JSON для каждого новостного текста в отдельности, разметка - пары начала и конца упоминаний (в символах с начала текста), каждая цепочка в отдельном списке.
{
"entities": [[[0, 24], [152, 155]], [[60, 68], [70, 73]]],
"includes": [[], []],
"text": "Лидеры европейских стран собрались на неформальный саммит в Брюсселе, где должны выработать единую позицию по иракской проблеме. По итогам понедельника они заявили, что считают...\n"
}
[[0, 24], [152, 155]]
относится к спанам Лидеры европейских стран0 и они0
[[60, 68], [70, 73]]
к Брюсселе1, где1.
Случаи с расщепленными антецедентами, т.е. когда сущности являются частью одной большой "родительской" сущности, мы выделяем отдельно. Пример такого случая: Tom и Sid в "родительской" сущности they в этом предложении:
At half-past nine, that night, Tom0 and Sid1 were sent to bed, as usual. They0,2 said their prayers, and Sid1 was soon asleep.
В разметке JSON-файлов для обозначения этого явления используется ключ "include":
{
"entities" : [[[31, 34]], [[39, 42], [100, 103]], [[71, 75]]],
"includes" : [[], [], [0, 1]],
"text": "At half-past nine, that night, Tom and Sid were sent to bed, as usual. They said their prayers, and Sid was soon asleep\n"
}
Где "includes" : [[], [], [0, 1]]
в этом случае обозначает, что сущность #2 (Tom and Sid, they) - это родительская сущность по отношению к сущности 0 (Tom) и 1 (Sid).
Для оценки решений мы используем метрику LEA (a Link-based Entity Aware metric), прочитать про нее можно в оригинальной статье Moosavi and Strube (2016) или в статье корпуса RuCoCo. Для расщепленных антецедентов и их родительских сущностей скор рассчитывается отдельно, как для еще одной цепочки. В нашем репозитории можно посмотреть скрипт с оценкой.
Код базового решения находится в папке baseline, описание в статье корпуса RuCoCo, решение построено с использованием в качестве энкодера модели ruRoberta-large (от Sber AI).
- 13 января — публикация train и dev датасетов, тестовых данных;
- 23 марта 23:59 (GMT +3) — последний день для отправки решений в фазе public;
- 26 марта 23:59 (GMT +3) — последний день для отправки решений в фазе private;
- 1 апреля — дедлайн для подачи статьи.
Участники, занявшие 1, 2 или 3 место в приватной фазе соревнования, обязаны предоставить docker контейнер с решением, чтобы подтвердить статус победителей. Лидеры лидерборда, не приславшие контейнер по просьбе организаторов, удаляются из финального лидерборда.
Участники соревнования RuCoCo вне зависимости от места в лидерборде могут опубликовать статью с описанием решения и анализом результатов в сборнике конференции Диалог (индексируется SCOPUS). Решение о принятии статьи в сборник SCOPUS принимают рецензенты. Участники, желающие подать статьи в сборник Диалога, должны прислать организаторам docker контейнеры с решением.
- Владимир Добровольский (ABBYY)
- Мария Мичурина (РГГУ)