NLP: Datasets


Обзор NLP задач

Конечная цель NLP - это свободное общение с интеллектуальной системой на естественном языке (диалог, получение информации, постановка задачи и т.п.). Для тестирования различных моделей выбираются формальные частные задачи, которые можно разбить на три больших группы: задачи классификации, разметки и генерации.

Задачи классификации

Задачи разметки

Задачи генерации


1 Billion Word Language Model Benchmark

Англоязычный корпус текстов описан в статье Chelba C., et.al (2014). Его словарь состоит из 793471 слов и имеет длину 0.8 миллиардов токенов. Слова вне словаря помечены (?) как <UNK> (их 0.28%). Тексты разбиты на предложения, в которых проведена токинизация. Предложения перемешаны:

The journalist 's job is to help inform the public on issues that matter .
The golfer , still the highest-paid athlete in the world , was second last year .
Anderson scored 12 points and Amanda Nisleit added 11 points and 12 rebounds .

Для загрузки корпус доступен по этой ссылке или по этой и в архиве занимает 1.7 Gb. Разбит на файлы.


ROC Story Cloze

ROCStories - это связные простые истории из четырёх предложений. В тестовом наборе к каждой истории добавляются два предложения, одно из которых является осмысленным продолжением истории, тогда как второе таковым не является. Например:

Karen was assigned a roommate her first year of college.
Her roommate asked her to go to a nearby city for a concert.
Karen agreed happily. The show was absolutely exhilarating.

Существует файл 100KStories.csv c 98'167 историями, суммарно с 4'859'629 токенами и 36'566 уникальными словоформами.


MultiNLI

MultiNLI - Natural Language Inference corpus c 433k парами предложений

Stanford Natural Language Inference (SNLI)

SNLI Corpus состоит из 570k пар английских предложений в которых второе из первого предложения или следует (entailment), или противоречит (contradiction) или нейтрально (neutral).
Text      : A man inspects the uniform of a figure in some East Asian country.   
Judgments : contradiction  CCCCC
Hypothesis: The man is sleeping

Text      : A soccer game with multiple males playing.   
Judgments : entailment    EEEEE
Hypothesis: Some men are playing a sport.

Text      : An older and younger man smiling.   
Judgments : neutral NNENN 
Hypothesis: Two men are smiling and laughing at the cats playing on the floor.


Stanford Question Answering Dataset (SQuAD)

SQuAD - набор данных для понимания прочитанного, состоящий из вопросов, заданных людьми в наборе статей Википедии, где ответом на каждый вопрос является фрагмент текста или промежуток из соответствующего отрывка для чтения. Вопрос может быть также безответным.
"data": [
   {"title": "Beyonc\u00e9", 
    "paragraphs": [{"qas": [       
       {"question": "When did Beyonce start becoming popular?",         
        "answers": [{"text": "in the late 1990s", "answer_start": 269}], 
        "is_impossible": false}, 
    
       {"question": "What areas did Beyonce compete in when she was growing up?",     
        "answers": [{"text": "singing and dancing", "answer_start": 207}], 
        "is_impossible": false}, 
        
       {"question": "In what city and state did Beyonce  grow up? ",     
        "answers": [{"text": "Houston, Texas", "answer_start": 166}], 
        "is_impossible": false}, 

Stanford Sentiment Analysis

Sentiment Treebank для прогнозирования настроения обзоров фильмов. Скачать данные можно здесь.
hide new secretions from the parental units  0
contains no wit , only labored gags    0
that loves its characters and communicates something rather beautiful about human nature  1

General Language Understanding Evaluation (GLUE)

Этот бенчмарк является коллекцией из одиннадцати задач на понимание языка: The Corpus of Linguistic Acceptability, The Stanford Sentiment Treebank, Microsoft Research Paraphrase Corpus, Semantic Textual Similarity Benchmark, Quora Question Pairs, MultiNLI Matched, MultiNLI Mismatched, Question NLI, Recognizing Textual Entailment, Winograd NLI, Diagnostics Main.

Страница загрузки содержит текстовые данные отдельно для каждой задачи.


CommonsenseQA

CommonsenseQA is a new multiple-choice question answering dataset that requires different types of commonsense knowledge to predict the correct answers . It contains 12,102 questions with one correct answer and four distractor answers. The dataset is provided in two major training/validation/testing set splits: "Random split" which is the main evaluation split, and "Question token split", see paper for details.

Литература