Введение в обработку естественного языка

Опубликовано: Последние правки:
Опубликовано: Последние правки:
Drawing a whale with a pencil in sketch book

Статья находится в активной разработке. Она опубликована в таком виде не для издевательства над читателем, а только потому что редактор сказал "можно".

Вот наша цель - понимать остроту мемов.

Как это принято в науке, зададим некоторые ограничения, которые помогут формалиозовать задачу.

Начнем с английского языка, для которого существует множество исследований и опубликованных моделей. В дельнейшем выбранный алгоритм можно будет попробовать натренировать на русском языке.

Определение о дискриминации данное в статье, должно задавать классификацию как тренировочным так и тестовым мемам. Я думаю, что подход "без учителя" даст непреодолимое преимущество по сравнению с другими моделями, которые скорей всего будут использовать нейронные сети, которые в свою очередь очень зависят от тренировочных данных.

Если возможно описывать происходящее на картинке, пересказывать смысл текста, если он использует зашифрованные культурные знания, связывать текст с картинки с подписью и делать вывод опираясь на определение. Синтаксический анализ и машинное зрение должны привести нас к логическому выводу. Приступим.

Поисковые запросы:

  • language processing modality
  • machine learning generate questions from text
  • how machine can understand text
  • ...

Новые понятия

Статьи и зачем их стоит прочитать еще раз

... with respect to Linguistic Modality

Vishal Shukla

Gap Analysis of Natural Language Processing Systems with respect to Linguistic Modality

Плохой английский. Скудный литературный стиль. Но список разных имен и направлений затрагивает. Неплохая обзорная статья для начала. Жаль, что отсутствуют какие-либо детали.

Simulating Logical Calculi with Tensors

Edward Grefenstette

Towards a Formal Distributional Semantics: Simulating Logical Calculi with Tensors

tensors and matrices, can be used to simulate different aspects of predicate logic

Показан изоморфизм между тензорами и логикой первого порядка. Как это связано с изучением слов? Чтобы найти важные/значимые слова в тексте все слова в тексте собирают в длинные вектора и затем заполняют матрицу связей между ними. Слова - это вектора в многомерном пространстве. Эту интерпретацию никак не нарисовать, не описать. А вот с логическими высказываниями куда проще. Их может понять человек или хотя бы машина. Поэтому тензоры можно перевести в высказывания логики, советует автор.

Semantic Relations and Compositions

Peter D. Turney

Domain and Function: A Dual-Space Model of Semantic Relations and Compositions

TODO

Neural Self Talk

Yezhou Yang, Yi Li, Cornelia Fermuller, Yiannis Aloimonos

Neural Self Talk: Image Understanding via Continuous Questioning and Answering

Рекурентная нейронная сеть учится строить вопросы, модель длительной кратковременной памяти учится отвечать. Процесс обучения построен на картинках с привязанными к ним готовыми вопросами и ответами. Картинки распознаются через конволюционную нейронную сеть. Проверка успешности модели делалась субъективно через опрос.

Recursive Deep Models

Richard Socher, Alex Perelygin, Jean Y. Wu, Jason Chuang,Christopher D. Manning, Andrew Y. Ng and Christopher Potts

Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank

Приведен алгоритм, который пытается оценивать язвительность отзывов кинокритиков. Предложение разбивается на векторы, которые распологаются в виде бинарного дерева. Дерево задает иерархию вычисления специальной функции над частями предложения. Судя по иллюстрациям это помогает учесть влияние отрицания, а также замечать, как меняется оценка сложного предложения, состоящего из противоречащих простых частей. Однако обучение проходит в адаптации двух матриц/тензоров, которые ответственны за операции между двумя вершинами одного уровня на всех участках заданного дерева. Эти матрицы не привязаны к конкретным словам и следовательно их "память" размывается со временем. Хотя статья показывает, что лучше с этим размытие, чем без него. В статье критикуется метод, где к каждой вершине приписывается своя матрица. Оно и понятно - такой метод непонятно как обучать, т.к. структура дерева постоянно меняется.

Continuous Phrase Representations and Syntactic Parsing

Richard Socher, Christopher D. Manning, Andrew Y. Ng

Learning Continuous Phrase Representations and Syntactic Parsing with Recursive Neural Networks

TODO

Logical reasoning

Samuel R. Bowman

Can recursive neural tensor networks learn logical reasoning?

  • ?

TODO

Accurate Unlexicalized Parsing

Dan Klein, Christopher D. Manning

Accurate Unlexicalized Parsing

TODO

The cognitive dialogue

Yiannis Aloimonos and Cornelia Fermüller

The cognitive dialogue: A new modelfor vision implementing common sense reasoning

TODO

Backpropagation through structure

Christoph Goller, Andreas Küchler

Learning task-dependent distributed representations by backpropagation through structure

TODO

Embodied Language Processing

Katerina Pastra, Eirini Balta

Embodied Language Processing: A New Generation of Language Technology

TODO

Вопросы на StackOverflow

на которые я смогу ответить?

https://datascience.stackexchange.com/questions/56476/what-is-the-best-question-generation-state-of-art-with-nlp

Далее

Инструменты для обработки естественного языка