NLP: Datasets
Обзор NLP задач
Конечная цель NLP - это свободное общение с интеллектуальной системой на естественном языке (диалог, получение информации, постановка задачи и т.п.). Для тестирования различных моделей выбираются формальные частные задачи, которые можно разбить на три больших группы: задачи классификации, разметки и генерации.Задачи классификации
- Sentiment Analysis (определение тональности текста) - обычно отнесение данного текста к одному из двух классов (позитивный или негативный). Практически используется при анализе отзывов. К этому же типу задач относится выявление спама, фейковость новости и т.п.
- Next Sentence Prediction (предсказание следующего предложения) - система получает пару предложений и должна выдать степень уверенности в том что второе предложение естественным образом может следовать за первым (в некотором тексте).
- Natural Language Inference (NLI, вывод на естественном языке) - состоит из текста и предложения которое или следует (entailment), или противоречит (contradiction), или нейтрально (neutral) тексту, см. здесь или здесь. Аналогично предыдущему, но обычно предполагает определённую логическую связь посылки и следствия.
Задачи разметки
- Part of Speech Recognizing (разметка частей речи) - каждый токен текста необходимо отнести к той или иной части речи (существительное, прилагательное, глагол и т.д.).
- Named-Entity Recognizing (извлечение сущностей из текста) отнесение к группе токенов пометки, является ли она именем человека, организации, географического названия и т.д. (см., например, здесь).
- Question Answering (извлечение ответа) - даётся текст и вопрос к нему. Необходимо указать группу токенов в тексте, которые являются ответом на этот вопрос.
Задачи генерации
- Automatic summarization (автоматическое реферирование) - создание короткой версии данного текста. Сюда же относится задача упрощения текста (без его укорачивания).
- Machine translation (машинный перевод) - перевод текста с одного естественного языка на другой.
1 Billion Word Language Model Benchmark
Англоязычный корпус текстов описан в статье Chelba C., et.al (2014). Его словарь состоит из 793471 слов и имеет длину 0.8 миллиардов токенов. Слова вне словаря помечены (?) как <UNK> (их 0.28%). Тексты разбиты на предложения, в которых проведена токинизация. Предложения перемешаны:
The journalist 's job is to help inform the public on issues that matter . The golfer , still the highest-paid athlete in the world , was second last year . Anderson scored 12 points and Amanda Nisleit added 11 points and 12 rebounds .
Для загрузки корпус доступен по этой ссылке или по этой и в архиве занимает 1.7 Gb. Разбит на файлы.
ROC Story Cloze
ROCStories - это связные простые истории из четырёх предложений. В тестовом наборе к каждой истории добавляются два предложения, одно из которых является осмысленным продолжением истории, тогда как второе таковым не является. Например:
Karen was assigned a roommate her first year of college.
Her roommate asked her to go to a nearby city for a concert.
Karen agreed happily. The show was absolutely exhilarating.
- Right Ending: Karen became good friends with her roommate.
- Wrong Ending: Karen hated her roommate.
Существует файл
100KStories.csv
c 98'167 историями, суммарно с 4'859'629 токенами
и 36'566 уникальными словоформами.
- NN_Embedding и NN_Embedding_ROCStories.
- Mostafazadeh N., et al. A Corpus and Evaluation Framework for Deeper Understanding of Commonsense Stories (2016) - объявление создания dataset при помощи AMT workers.
- Schwartz R., et al. The Effect of Different Writing Tasks on Linguistic Style: A Case Study of the ROC Story Cloze Task (2017) Утверждают, что так как 1) историю, 2) её продолжение и 3) неправильное продолжение писали различные люди, то простой линейный классификатор может различить эти три случая.
MultiNLI
MultiNLI - Natural Language Inference corpus c 433k парами предложенийStanford Natural Language Inference (SNLI)
SNLI Corpus состоит из 570k пар английских предложений в которых второе из первого предложения или следует (entailment), или противоречит (contradiction) или нейтрально (neutral).Text : A man inspects the uniform of a figure in some East Asian country. Judgments : contradiction CCCCC Hypothesis: The man is sleeping Text : A soccer game with multiple males playing. Judgments : entailment EEEEE Hypothesis: Some men are playing a sport. Text : An older and younger man smiling. Judgments : neutral NNENN Hypothesis: Two men are smiling and laughing at the cats playing on the floor.
Stanford Question Answering Dataset (SQuAD)
SQuAD - набор данных для понимания прочитанного, состоящий из вопросов, заданных людьми в наборе статей Википедии, где ответом на каждый вопрос является фрагмент текста или промежуток из соответствующего отрывка для чтения. Вопрос может быть также безответным."data": [ {"title": "Beyonc\u00e9", "paragraphs": [{"qas": [ {"question": "When did Beyonce start becoming popular?", "answers": [{"text": "in the late 1990s", "answer_start": 269}], "is_impossible": false}, {"question": "What areas did Beyonce compete in when she was growing up?", "answers": [{"text": "singing and dancing", "answer_start": 207}], "is_impossible": false}, {"question": "In what city and state did Beyonce grow up? ", "answers": [{"text": "Houston, Texas", "answer_start": 166}], "is_impossible": false},
Stanford Sentiment Analysis
Sentiment Treebank для прогнозирования настроения обзоров фильмов. Скачать данные можно здесь.hide new secretions from the parental units 0 contains no wit , only labored gags 0 that loves its characters and communicates something rather beautiful about human nature 1
General Language Understanding Evaluation (GLUE)
Этот бенчмарк является коллекцией из одиннадцати задач на понимание языка: The Corpus of Linguistic Acceptability, The Stanford Sentiment Treebank, Microsoft Research Paraphrase Corpus, Semantic Textual Similarity Benchmark, Quora Question Pairs, MultiNLI Matched, MultiNLI Mismatched, Question NLI, Recognizing Textual Entailment, Winograd NLI, Diagnostics Main.
Страница загрузки содержит текстовые данные отдельно для каждой задачи.
CommonsenseQA
CommonsenseQA is a new multiple-choice question answering dataset that requires different types of commonsense knowledge to predict the correct answers . It contains 12,102 questions with one correct answer and four distractor answers. The dataset is provided in two major training/validation/testing set splits: "Random split" which is the main evaluation split, and "Question token split", see paper for details.
- Where would I not want a fox?
👍 hen house, 👎 england, 👎 mountains, 👎 english hunt, 👎 california - Why do people read gossip magazines?
👍 entertained, 👎 get information, 👎 learn, 👎 improve know how, 👎 lawyer told to - What do all humans want to experience in their own home?
👍 feel comfortable, 👎 work hard, 👎 fall in love, 👎 lay eggs, 👎 live forever
Литература
- Talmor A., et al. CommonsenseQA: A Question Answering Challenge Targeting Commonsense Knowledge Утверждают, что: "Our best baseline is based on BERT-large (Devlin et al., 2018) and obtains 56% accuracy, well below human performance, which is 89%."