NLP Tutorial
NLP Tutorial
Processing)
Источник: https://isolution.pro/ru/t/natural-language-processing?alias=ucebnik-po-obrabotke-estestvennogo-azyka
Язык - это способ общения, с помощью которого мы можем говорить, читать и писать. Обработка
естественного языка (NLP) - это подраздел компьютерных наук, который занимается искусственным
интеллектом (AI), который позволяет компьютерам понимать и обрабатывать человеческий язык.
Это учебное пособие предназначено для выпускников, аспирантов и студентов-исследователей, которые либо
проявляют интерес к этому предмету, либо имеют этот предмет как часть своей учебной программы. Читатель
может быть как новичком, так и продвинутым учеником.
Читатель должен иметь базовые знания об искусственном интеллекте. Он / она также должен знать основные
термины, используемые в грамматике английского языка, и концепции программирования Python.
Введение
Язык - это способ общения, с помощью которого мы можем говорить, читать и писать. Например, мы думаем,
принимаем решения, планы и многое другое на естественном языке; именно на словах. Однако большой
вопрос, который стоит перед нами в эпоху искусственного интеллекта, заключается в том, можем ли мы таким
же образом общаться с компьютерами. Другими словами, могут ли люди общаться с компьютерами на своем
естественном языке? Для нас сложно разрабатывать приложения NLP, потому что компьютерам нужны
структурированные данные, а человеческая речь неструктурирована и часто неоднозначна по своей природе.
В этом смысле мы можем сказать, что обработка естественного языка (NLP) - это подраздел компьютерных
наук, особенно искусственный интеллект (AI), который заботится о том, чтобы компьютеры могли понимать и
обрабатывать человеческий язык. Технически, основная задача NLP – программировать компьютеры для
анализа и обработки огромного количества данных на естественном языке.
История NLP
Мы разделили историю NLP на четыре этапа. У фаз есть отличительные особенности и стили.
Первый этап (этап машинного перевода) - конец 1940-х - конец 1960-х гг.
Работа, проделанная на этом этапе, была сосредоточена в основном на машинном переводе (МП). Этот этап
был периодом энтузиазма и оптимизма.
Исследования NLP начались в начале 1950-х годов после расследования Бута и Риченса и меморандума
Уивера по машинному переводу в 1949 году.
1954 был годом, когда ограниченный эксперимент по автоматическому переводу с русского на
английский был продемонстрирован в эксперименте Джорджтаун-IBM.
В этом же году началось издание журнала MT (Машинный перевод).
Первая международная конференция по машинному переводу (МП) состоялась в 1952 году, а вторая - в
1956 году.
В 1961 году работа, представленная на Международной конференции в Теддингтоне по машинному
переводу языков и анализу прикладного языка, была кульминацией этого этапа.
Вторая фаза (фаза влияния ИИ) - конец 1960-х - конец 1970-х гг.
На этом этапе проделанная работа в основном была связана с мировым знанием и его ролью в
конструировании смысловых представлений и манипулировании ими. Вот почему эта фаза также называется
фазой со вкусом AI.
Лексическая двусмысленность
Двусмысленность отдельного слова называется лексической неоднозначностью. Например, обрабатывая
слово silver как существительное, прилагательное или глагол.
Синтаксическая двусмысленность
Такая двусмысленность возникает, когда предложение разбирается по-разному. Например, предложение
«Мужчина увидел девушку в телескоп». Неизвестно, видел ли мужчина девушку с телескопом или он видел
ее в свой телескоп.
Семантическая неоднозначность
Подобная двусмысленность возникает, когда значение самих слов может быть неправильно истолковано.
Другими словами, семантическая неоднозначность возникает, когда предложение содержит неоднозначное
слово или фразу. Например, предложение «Автомобиль ударился о столб, когда он двигался» имеет
семантическую двусмысленность, поскольку интерпретациями могут быть «Автомобиль, двигаясь, ударился о
столб» и «Автомобиль ударился о столб, когда столб двигался».
Анафорическая двусмысленность
Подобная двусмысленность возникает из-за использования анафорных сущностей в дискурсе. Например,
лошадь забежала в гору. Было очень круто. Вскоре она устала. Здесь анафорическое упоминание «оно» в двух
ситуациях вызывает двусмысленность.
Прагматическая двусмысленность
Подобная двусмысленность относится к ситуации, когда контекст фразы дает ей несколько интерпретаций.
Проще говоря, мы можем сказать, что прагматическая двусмысленность возникает, когда утверждение не
является конкретным. Например, предложение «Ты мне тоже нравишься» может иметь несколько
интерпретаций: ты мне нравишься (точно так же, как ты нравишься мне), ты мне нравишься (точно так же, как
кто-то другой).
Фазы NLP
На следующей диаграмме показаны фазы или логические шаги обработки естественного языка.
Морфологическая обработка
Это первая фаза NLP. Цель этого этапа - разбить фрагменты языкового ввода на наборы лексем,
соответствующих абзацам, предложениям и словам. Например, такое слово, как “uneasy” можно разбить на
два токена подслова как “un-easy”.
Синтаксический анализ
Это вторая фаза NLP. Цель этого этапа состоит в двух аспектах: проверить, правильно ли составлено
предложение, и разбить его на структуру, которая показывает синтаксические отношения между разными
словами. Например, предложение вроде “The school goes to the boy” будут отклонены синтаксическим
анализатором или парсером.
Семантический анализ
Это третья фаза NLP. Цель этого этапа - определить точное значение, или вы можете сказать значение словаря
из текста. Текст проверяется на осмысленность. Например, семантический анализатор отклонит предложение
типа «Горячее мороженое».
Прагматический анализ
Это четвертая фаза NLP. Прагматический анализ просто соответствует реальным объектам / событиям,
которые существуют в данном контексте, со ссылками на объекты, полученными на последнем этапе
(семантический анализ). Например, предложение «Положить банан в корзину на полку» может иметь две
смысловые интерпретации, и прагматический анализатор будет выбирать между этими двумя вариантами.
NLP - Анализ на уровне слов
В этой главе мы поймем анализ мирового уровня в обработке естественного языка.
Регулярные выражения
Регулярное выражение (RE, Regular Expression) - это язык для определения строк текстового поиска. RE
помогает нам сопоставить или найти другие строки или наборы строк, используя специальный синтаксис,
содержащийся в шаблоне. Регулярные выражения используются для поиска текстов как в UNIX, так и в MS
WORD одинаково. У нас есть различные поисковые системы, использующие ряд функций RE.
(0 + ε) (1 + ε) {ε, 0, 1, 01}
(а + б) * Это будет набор строк a и b любой длины, который также включает в себя нулевую
строку, т.е. {ε, a, b, aa, ab, bb, ba, aaa …….}
(а + б) * абб Это будет набор строк a и b, оканчивающихся строкой abb, т.е. {abb, aabb, babb, aaabb,
ababb, ………… ..}
(11) * Он будет состоять из четного числа единиц, который также включает пустую строку,
например {ε, 11, 1111, 111111, ……….}
(аа) * (бб) * б Это будет набор строк, состоящих из четного числа букв a, за которыми следует
нечетное количество символов b, т.е. {b, aab, aabbb, aabbbbb, aaaab, aaaabbb, ………… ..}
(aa + ab + ba + bb) * Это будет строка из a и b четной длины, которая может быть получена путем
объединения любой комбинации строк aa, ab, ba и bb, включая null, т.е. {aa, ab, ba, bb,
aaab, aaba, …………. .}
Конечные автоматы
Термин «автоматы», производный от греческого слова «αὐτόματα», означающего «самодействующий»,
является множественным числом «автомат», который может быть определен как абстрактное самоходное
вычислительное устройство, которое автоматически выполняет заданную последовательность операций.
Автомат, имеющий конечное число состояний, называется конечным автоматом (FA, finite-state automaton,
finite automaton или FSM, Finite-state machine).
Математически автомат может быть представлен 5-кортежем (Q, Σ, δ, q0, F), где -
Пример DFA
Предположим, что DFA
Q = {a, b, c},
Σ = {0, 1},
q 0 = {a},
F = {c},
Функция перехода δ показана в таблице следующим образом -
a a b
b b a
c c c
Пример NDFA
Предположим, что NDFA
Q = {a, b, c},
Σ = {0, 1},
q 0 = {a},
F = {c},
Функция перехода δ показана в таблице следующим образом -
Текущее состояние Следующее состояние для входа 0 Следующее состояние для входа 1
A a, b b
B c a, b
C b, c c
Морфологический анализ
Термин «морфологический синтаксический анализ» относится к синтаксическому анализу морфем. Мы
можем определить морфологический синтаксический анализ как проблему распознавания того, что слово
разбивается на более мелкие значимые единицы, называемые морфемами, создавая для него своего
рода лингвистическую структуру. Например, мы можем разбить слово лисы на два, лиса и -es . Мы
видим, что слово foxes состоит из двух морфем, одна - fox, а другая - -es .
В другом смысле мы можем сказать, что морфология - это изучение -
Формирование слов.
Происхождение слов.
Грамматические формы слов.
Использование префиксов и суффиксов при образовании слов.
Как формируются части речи (PoS) языка.
Типы морфем
Морфемы, самые маленькие смысловые единицы, можно разделить на два типа:
Stems (стебли)
Порядок слов
Стебли
Это основная значимая единица слова. Можно также сказать, что это корень слова. Например, в слове
foxes основа - fox.
Affixes- Как следует из названия, они добавляют словам некоторые дополнительные значения и
грамматические функции. Например, в слове лисы аффикс - es.
Кроме того, аффиксы также можно разделить на следующие четыре типа:
o Prefixes- Как следует из названия, корень стоит перед префиксом. Например, в слове
«расстегнуть ремень» используется префикс un.
o Suffixes- Как следует из названия, суффиксы следуют за корнем. Например, в слове кошки
суффикс -s.
o Infixes- Как следует из названия, инфиксы вставляются внутрь основы. Например, слово
cupful может иметь множественное число как cupsful, используя -s в качестве инфикса.
o Circumfixes- Они предшествуют стеблю и следуют за ним. Примеров циркумфиксов в
английском языке очень мало. Очень распространенный пример - «A-ing», где мы можем
использовать -A до начала, а -ing следует за корнем.
Порядок слов
Порядок слов будет определяться морфологическим анализом. Давайте теперь посмотрим на
требования для создания морфологического парсера -
Словарный запас
Самым первым требованием для построения морфологического парсера является лексика, которая
включает список основ и аффиксов вместе с основной информацией о них. Например, такая
информация, как основа существительного или основа глагола и т. Д.
Морфотактика
По сути, это модель упорядочивания морфем. В другом смысле модель, объясняющая, какие классы
морфем могут следовать за другими классами морфем внутри слова. Например, морфотактический факт
состоит в том, что морфема множественного числа английского языка всегда следует за
существительным, а не предшествует ему.
Орфографические правила
Эти правила написания используются для моделирования изменений, происходящих в слове. Например,
правило преобразования y в ie в словах вроде city + s = города, а не города.
Концепция парсера
Он используется для реализации задачи парсинга. Его можно определить как программный компонент,
предназначенный для приема входных данных (текста) и предоставления структурного представления
входных данных после проверки правильности синтаксиса в соответствии с формальной грамматикой.
Он также строит структуру данных, как правило, в виде дерева синтаксического анализа или
абстрактного синтаксического дерева или другой иерархической структуры.
Типы парсинга
Вывод делит синтаксический анализ на следующие два типа:
Анализ сверху вниз
Анализ снизу вверх
Понятие деривации
Чтобы получить входную строку, нам нужна последовательность производственных правил. Деривация -
это набор производственных правил. Во время синтаксического анализа нам нужно определить
нетерминал, который нужно заменить, а также определить производственное правило, с помощью
которого будет заменен нетерминал.
Типы деривации
В этом разделе мы узнаем о двух типах производных, которые можно использовать, чтобы решить, какой
нетерминал следует заменить производственным правилом:
Понятие грамматики
Грамматика очень важна и важна для описания синтаксической структуры правильно сформированных
программ. В литературном смысле они обозначают синтаксические правила разговора на естественных
языках. Лингвистика пыталась дать определение грамматики с момента появления естественных языков,
таких как английский, хинди и т. Д.
Теория формальных языков также применима в области компьютерных наук, в основном, в языках
программирования и структуре данных. Например, в языке «C» точные правила грамматики определяют,
как функции создаются из списков и операторов.
Математическая модель грамматики была дана Noam Chomsky в 1956 году, что эффективно для
написания компьютерных языков.
Математически грамматика G может быть формально записана как 4-кортеж (N, T, S, P), где -
N или же VN = набор нетерминальных символов, т. е. переменных.
T или же ∑ = набор терминальных символов.
S = Начальный символ, где S ∈ N
Pобозначает Правила производства для терминалов, а также для нетерминалов. Он имеет вид α
→ β, где α и β - строки на V N ∪ ∑ и по крайней мере один символ α принадлежит V N
пример
Перед тем, как привести пример грамматики избирательного округа, нам необходимо знать основные
моменты, касающиеся грамматики избирательного округа и отношения избирательного округа.
Все связанные структуры рассматривают структуру предложения с точки зрения отношения
избирательного округа.
Отношение избирательного округа происходит от деления подлежащего на предикат латыни, а
также греческой грамматики.
Основная структура предложения понимается с точки зрения noun phrase NP и verb phrase VP.
Мы можем написать предложение “This tree is illustrating the constituency relation” следующим
образом -
Грамматика зависимостей
Он противоположен грамматике избирательного округа и основан на отношениях зависимости. Его
представил Люсьен Тесньер. Грамматика зависимостей (DG) противоположна грамматике округа, потому
что в ней отсутствуют фразовые узлы.
пример
Прежде чем приводить пример грамматики зависимостей, нам нужно знать основные моменты,
касающиеся грамматики зависимостей и отношения зависимостей.
В DG языковые единицы, то есть Слова, связаны друг с другом направленными связями.
Глагол становится центром конструкции предложения.
Все остальные синтаксические единицы связаны с глаголом посредством направленной ссылки.
Эти синтаксические единицы называются dependencies.
Мы можем написать предложение “This tree is illustrating the dependency relation” следующим
образом;
Контекстная грамматика
Контекстно-свободная грамматика, также называемая CFG (Context-free grammar), представляет собой
обозначение для описания языков и надмножество регулярной грамматики. Это можно увидеть на
следующей диаграмме -
Набор терминалов
Он также называется токенами и определяется Σ. Строки образуются из основных символов терминалов.
Начальный символ
Производство начинается с начального символа. Он обозначается символом S. Начальным символом
всегда является нетерминальный символ.
Гипонимия
Это может быть определено как отношение между общим термином и экземплярами этого общего
термина. Здесь общий термин называется гипернимом, а его экземпляры - гипонимами. Например, цвет
слова - гипероним, а синий, желтый и т. Д. - гипонимы.
Омонимия
Его можно определить как слова, имеющие одинаковое написание или форму, но имеющие разное и
несвязанное значение. Например, слово «летучая мышь» является омонимическим словом, потому что
летучая мышь может быть инструментом для удара по мячу, или летучая мышь также является ночным
летающим млекопитающим.
Полисемия
Полисемия - это греческое слово, означающее «много знаков». Это слово или фраза с другим, но
родственным смыслом. Другими словами, мы можем сказать, что многозначность имеет то же написание,
но другое и родственное значение. Например, слово «банк» - многозначное слово, имеющее следующие
значения:
Финансовое учреждение.
Здание, в котором расположено такое заведение.
Синоним слова «на что положиться».
Разница между многозначностью и омонимией
И многозначные, и омонимические слова имеют одинаковый синтаксис или написание. Основное
различие между ними состоит в том, что в многозначности значения слов связаны, а в омонимии
значения слов не связаны. Например, если мы говорим об одном и том же слове «Банк», мы можем
написать значение «финансовое учреждение» или «берег реки». В этом случае это был бы пример
омонима, потому что значения не связаны друг с другом.
Синонимия
Это отношение между двумя лексическими элементами, имеющими разные формы, но выражающими
одинаковое или близкое значение. Примеры: «автор / писатель», «судьба / судьба».
Антонимия
Это отношение между двумя лексическими элементами, имеющими симметрию между их
семантическими компонентами относительно оси. Сфера антонимии заключается в следующем -
Application of property or not - Пример: «жизнь / смерть», «уверенность / неуверенность».
Application of scalable property - Пример: "богатый / бедный", "горячий / холодный"
Application of a usage - Пример: «отец / сын», «луна / солнце».
Представление о значениях
Семантический анализ создает представление о значении предложения. Но прежде чем углубляться в
концепцию и подходы, связанные с представлением значения, нам необходимо понять строительные
блоки семантической системы.
Лексическая семантика
Первая часть семантического анализа, изучающая значение отдельных слов, называется лексической
семантикой. Он также включает слова, подслова, аффиксы (части), составные слова и фразы. Все слова,
подслова и т.д. Вместе называются лексическими элементами. Другими словами, мы можем сказать, что
лексическая семантика - это отношения между лексическими элементами, значением предложений и
синтаксисом предложения.
Ниже приведены шаги, связанные с лексической семантикой.
Классификация лексических элементов, таких как слова, подслова, аффиксы и т. Д., Выполняется
в лексической семантике.
Декомпозиция лексических элементов, таких как слова, подслова, аффиксы и т. Д., Выполняется в
лексической семантике.
Также анализируются различия, а также сходство между различными лексико-семантическими
структурами.
Оценка WSD
Оценка WSD требует следующих двух входных данных -
Словарь
Самым первым входом для оценки WSD является словарь, который используется для определения
смыслов, которые необходимо устранить.
Тестовый корпус
Еще один ввод, требуемый WSD, - это аннотированный тестовый корпус, который имеет целевые или
правильные чувства. Тестовые корпуса могут быть двух типов:
Lexical sample - Этот вид корпусов используется в системе, где требуется устранить
неоднозначность небольшого набора слов.
All-words - Этот вид корпусов используется в системе, где ожидается устранение
неоднозначности всех слов в фрагменте текущего текста.
Контролируемые методы
Для устранения неоднозначности методы машинного обучения используют для обучения корпуса с
смысловыми аннотациями. Эти методы предполагают, что контекст сам по себе может предоставить
достаточно свидетельств, чтобы устранить неоднозначность смысла. В этих методах слова «знание» и
«рассуждение» считаются ненужными. Контекст представлен как набор «характеристик» слов. Он также
включает информацию об окружающих словах. Машинное обучение опорных векторов и обучение на
основе памяти - наиболее успешные подходы к обучению с учителем в WSD. Эти методы основаны на
значительном количестве корпусов, помеченных вручную смысловыми метками, создание которых очень
дорого.
Полу-контролируемые методы
Из-за отсутствия учебного корпуса большинство алгоритмов устранения неоднозначности смысла слов
используют полууправляемые методы обучения. Это связано с тем, что полу-контролируемые методы
используют как помеченные, так и немаркированные данные. Эти методы требуют очень небольшого
количества аннотированного текста и большого количества простого неаннотированного текста. Техника,
которая используется полууправляемыми методами, - это загрузка из исходных данных.
Неконтролируемые методы
Эти методы предполагают, что похожие смыслы возникают в аналогичном контексте. Вот почему чувства
могут быть вызваны из текста путем кластеризации вхождений слов с использованием некоторой меры
сходства контекста. Эта задача называется индукцией смысла слова или различением.
Неконтролируемые методы имеют большой потенциал для преодоления узких мест в получении знаний
из-за отсутствия зависимости от ручных усилий.
Машинный перевод
Машинный перевод или машинный перевод - наиболее очевидное применение WSD. В машинном
переводе лексический выбор слов, которые имеют разные переводы для разных значений, выполняется
WSD. Смыслы в машинном переводе представлены в виде слов на целевом языке. Большинство систем
машинного перевода не используют явный модуль WSD.
Лексикография
WSD и лексикография могут работать вместе, поскольку современная лексикография основана на
корпусах. С помощью лексикографии WSD предоставляет грубые эмпирические смысловые группировки,
а также статистически значимые контекстные индикаторы смысла.
Разница в оценках
Еще одна проблема WSD состоит в том, что системы WSD обычно тестируются путем сравнения
результатов выполнения задачи с тем, как задача выполнена человеком. Это называется проблемой
дисперсии среди оценок.
Словесная дискретность
Еще одна трудность WSD заключается в том, что слова не могут быть легко разделены на отдельные
субсмыслы.
Концепция согласованности
Согласованность и структура дискурса во многом взаимосвязаны. Согласованность, наряду со свойством
хорошего текста, используется для оценки качества вывода системы генерации естественного языка.
Возникает вопрос: что значит связность текста? Предположим, мы собрали по одному предложению с
каждой страницы газеты, тогда будет ли это дискурс? Конечно, нет. Это потому, что эти предложения не
демонстрируют связности. Связный дискурс должен обладать следующими свойствами:
Структура дискурса
Важный вопрос относительно дискурса заключается в том, какую структуру он должен иметь. Ответ на
этот вопрос зависит от сегментации, которую мы применили к дискурсу. Сегментации дискурса можно
определить как определение (распознание) типов структур для широкого дискурса. Реализовать
сегментацию дискурса довольно сложно, но это очень важно для видов приложений information retrieval,
text summarization и information extraction.
Текстовая согласованность
Лексическое повторение - это способ найти структуру в дискурсе, но оно не удовлетворяет требованию
связного дискурса. Чтобы достичь связного дискурса, мы должны сосредоточиться на конкретных
отношениях согласованности. Как мы знаем, отношение когерентности определяет возможную связь
между высказываниями в дискурсе. Хебб предложил такие отношения следующим образом:
Мы берем два срока S0 и S1 для представления значения двух связанных предложений -
Результат
Это означает, что состояние, утвержденное термином S0 может вызвать состояние, заявленное S1.
Например, два утверждения показывают результат отношений: Рам попал в огонь. Его кожа горела.
Объяснение
Это означает, что государство, утвержденное S1 может вызвать состояние, заявленное S0. Например, два
утверждения показывают отношения - Рам дрался с другом Шьяма. Он был пьян.
Параллелизм
Он выводит p (a1, a2,…) из утверждения S0 и p (b1, b2,…) из утверждения S1. Здесь ai и bi одинаковы для
всех i. Например, два утверждения параллельны - Рам хотел машину. Шьяму нужны были деньги.
Развитие
Он выводит одно и то же предложение P из обоих утверждений - S0 и S1. Например, два утверждения
показывают развитие отношения: Рам был из Чандигарха. Шьям был из Кералы.
Повод
Это происходит, когда изменение состояния можно вывести из утверждения S0, конечное состояние
которого можно вывести из S1 и наоборот. Например, два утверждения показывают пример связи: Рам
взял книгу. Он отдал его Шьяму.
Местоимения
Это форма определенной ссылки. Например, Рам рассмеялся так громко, как мог. Слово he
представляет собой местоимение, относящееся к выражению.
Демонстрации
Они демонстрируют и ведут себя иначе, чем простые определенные местоимения. Например, это (it) и
это (this) – указательные местоимения.
Имена
Это простейший тип ссылающегося выражения. Это также может быть имя человека, организации и
местонахождения. Например, в приведенных выше примерах Ram - это выражение, обозначающее имя.
Разрешение Coreference
Это задача поиска выражений в тексте, которые относятся к одному и тому же объекту. Проще говоря,
это задача поиска кореферных выражений. Набор выражений кореферринга называется цепочкой
кореференции. Например - Он, Главный Менеджер и Его - это относящиеся выражения в первом
отрывке, приведенном в качестве примера.
Пример
Например, проводится последовательность экспериментов по подбрасыванию скрытой монеты, и мы
видим только последовательность наблюдений, состоящую из орла и решки. Фактические детали
процесса - сколько монет было использовано, порядок их выбора - скрыты от нас. Наблюдая за этой
последовательностью орла и решки, мы можем построить несколько HMM для объяснения этой
последовательности. Ниже приведена одна из форм скрытой марковской модели для этой проблемы.
Мы предположили, что в HMM есть два состояния, и каждое из состояний соответствует выбору разных
смещенных монет. Следующая матрица дает вероятности перехода состояний -
Вот,
aij = вероятность перехода из одного состояния в другое от i до j.
a11 + a12= 1 и a 21 + a 22 = 1
P1 = вероятность выпадения орла первой монеты, т.е. смещение первой монеты.
P2 = вероятность выпадения орла второй монеты, то есть смещение второй монеты.
Мы также можем создать модель HMM, предполагая, что есть 3 или более монет.
Таким образом, мы можем охарактеризовать HMM следующими элементами:
N - количество состояний в модели (в приведенном выше примере N = 2, только два состояния).
M, количество различных наблюдений, которые могут появиться с каждым состоянием в
приведенном выше примере M = 2, т. Е. H или T).
A, распределение вероятностей перехода состояний - матрица A в приведенном выше примере.
P, распределение вероятностей наблюдаемых символов в каждом состоянии (в нашем примере
P1 и P2).
I, начальное состояние распределения.
С другой стороны, факт в том, что нам нужно много статистических данных, чтобы разумно оценивать
такие последовательности. Однако, чтобы упростить задачу, мы можем применить некоторые
математические преобразования наряду с некоторыми предположениями.
Использование HMM для маркировки POS - это особый случай байесовского вмешательства.
Следовательно, мы начнем с повторения проблемы, используя правило Байеса, которое гласит, что
вышеупомянутая условная вероятность равна -
(PROB (C1,..., CT) * PROB (W1,..., WT | C1,..., CT)) / PROB (W1,..., WT)
Мы можем исключить знаменатель во всех этих случаях, потому что мы заинтересованы в нахождении
последовательности C, которая максимизирует указанное выше значение. Это не повлияет на наш ответ.
Теперь наша проблема сводится к поиску последовательности C, которая максимизирует -
PROB (C1,..., CT) * PROB (W1,..., WT | C1,..., CT) (1)
Даже после уменьшения проблемы в приведенном выше выражении потребуется большой объем
данных. Мы можем сделать разумные предположения о независимости двух вероятностей в
приведенном выше выражении для преодоления проблемы.
Первое предположение
Вероятность тега зависит от предыдущего (модель биграмм) или двух предыдущих (модель триграммы)
или предыдущих n тегов (модель n-грамм), что математически можно объяснить следующим образом:
PROB (C1,..., CT) = Πi=1..T PROB (Ci|Ci-n+1…Ci-1) (n-gram model)
PROB (C1,..., CT) = Πi=1..T PROB (Ci|Ci-1) (bigram model)
Начало предложения можно объяснить, приняв начальную вероятность для каждого тега.
PROB (C1|C0) = PROB initial (C1)
Второе предположение
Вторая вероятность в уравнении (1) выше может быть аппроксимирована, если предположить, что слово
появляется в категории, независимой от слов в предшествующих или последующих категориях, что
можно математически объяснить следующим образом:
PROB (W1,..., WT | C1,..., CT) = Πi=1..T PROB (Wi|Ci)
Теперь, основываясь на двух вышеупомянутых предположениях, наша цель сводится к нахождению
последовательности C, которая максимизирует
Πi=1...T PROB(Ci|Ci-1) * PROB(Wi|Ci)
Теперь возникает вопрос, действительно ли нам помогло преобразование проблемы в приведенную
выше форму. Ответ - да, есть. Если у нас есть большой корпус с тегами, то две вероятности в
приведенной выше формуле можно рассчитать как -
PROB (Ci=VERB|Ci-1=NOUN) = (# of instances where Verb follows Noun) / (# of instances where Noun appears)
(2)
PROB (Wi|Ci) = (# of instances where Wi appears in Ci) /(# of instances where Ci appears) (3)
Описательная грамматика
Набор правил, в которых лингвисты и грамматики формулируют грамматику говорящего, называется
описательной грамматикой.
Перспективная грамматика
Это совершенно другое понимание грамматики, которое пытается поддерживать стандарт правильности
языка. Эта категория не имеет ничего общего с реальной работой языка.
Компоненты языка
Язык обучения делится на взаимосвязанные компоненты, которые являются как условными, так и
произвольными разделами лингвистического исследования. Объяснение этих компонентов следующее
Фонология
Самый первый компонент языка - фонология. Это изучение звуков речи определенного языка.
Происхождение слова можно проследить до греческого языка, где «телефон» означает звук или голос.
Фонетика, раздел фонологии, изучает звуки речи человеческого языка с точки зрения их производства,
восприятия или их физических свойств. IPA (Международный фонетический алфавит) - это инструмент,
который регулярно представляет человеческие звуки при изучении фонологии. В IPA каждый
письменный символ представляет один и только один речевой звук и наоборот.
Фонемы
Его можно определить как одну из звуковых единиц, отличающих одно слово от другого в языке. В
лингвистике фонемы пишутся между косыми чертами. Например, фонема /k/ встречается в таких словах,
как kit, skit.
Морфология
Это второй компонент языка. Это изучение структуры и классификации слов на определенном языке.
Слово происходит из греческого языка, где слово «морфе» означает «форма». Морфология
рассматривает принципы образования слов в языке. Другими словами, как звуки объединяются в
значимые единицы, такие как префиксы, суффиксы и корни. Также рассматривается, как слова могут
быть сгруппированы в части речи.
Лексема
В лингвистике абстрактная единица морфологического анализа, которая соответствует набору форм,
принимаемых одним словом, называется лексемой. То, как лексема используется в предложении,
определяется ее грамматической категорией. Лексема может быть индивидуальной или многословной.
Например, слово «разговор» является примером отдельной словарной лексемы, которая может иметь
множество грамматических вариантов, таких как разговоры, разговоры и разговоры. Многословная
лексема может состоять более чем из одного орфографического слова. Например, высказаться,
протянуть и т. Д. Являются примерами многословных лексем.
Синтаксис
Это третий компонент языка. Это изучение порядка и расположения слов в более крупных единицах.
Слово восходит к греческому языку, где слово suntassein означает «наводить порядок». Он изучает типы
предложений и их структуру, придаточных предложений, фраз.
Семантика
Это четвертый компонент языка. Это исследование того, как передается смысл. Значение может быть
связано с внешним миром или может быть связано с грамматикой предложения. Это слово восходит к
греческому языку, где слово semainein означает «обозначать», «показывать», «сигнализировать».
Прагматика
Это пятая составляющая языка. Это изучение функций языка и его использования в контексте.
Происхождение слова можно проследить до греческого языка, где слово «прагма» означает «дело»,
«дело».
Грамматические категории
Грамматическая категория может быть определена как класс единиц или функций в грамматике языка.
Эти единицы являются строительными блоками языка и имеют общий набор характеристик.
Грамматические категории также называют грамматическими признаками.
Перечень грамматических категорий описан ниже.
Число
Это простейшая грамматическая категория. У нас есть два термина, относящиеся к этой категории -
единственное и множественное число. Единственное число - это понятие «один», а множественное -
понятие «более одного». Например, собака / собаки, это / эти.
Пол
Грамматический род выражается вариацией личных местоимений и третьего лица. Примеры
грамматических родов единственного числа - он, она, оно; формы первого и второго лица - я, мы и ты; 3-
е лицо множественного числа они - либо общий, либо средний род.
Лицо
Еще одна простая грамматическая категория - это лицо. При этом признаются следующие три условия:
1st person - Говорящий распознается как первое лицо.
2nd person - Человек, который является слушателем или собеседником, признается вторым
лицом.
3rd person - Человек или предмет, о котором мы говорим, распознается как третье лицо.
Падеж
Это одна из самых сложных грамматических категорий. Это может быть определено как указание на
функцию именной группы (NP) или отношение именной фразы к глаголу или другим существительным
фразам в предложении. У нас есть следующие три падежа, выраженные личными и вопросительными
местоимениями:
Nominative case - Это функция субъекта. Например, я, мы, ты, он, она, оно, они и кто в
именительном падеже.
Genitive case - Это функция владельца. Например, my / my, our / ours, his, her / hers, its, their /
theirs, которые имеют родительный падеж.
Objective case - Это функция объекта. Например, я, мы, вы, он, она, они, кому объективны.
Степень
Эта грамматическая категория относится к прилагательным и наречиям. Он имеет следующие три
условия -
Positive degree - Он выражает качество. Например, большой, быстрый, красивый -
положительные степени.
Comparative degree - Он выражает большую степень или интенсивность качества в одном из
двух предметов. Например, сравнительно больше, быстрее, красивее.
Superlative degree - Он выражает наибольшую степень или интенсивность качества одного из
трех или более предметов. Например, самый большой, самый быстрый, самый красивый - это
превосходные степени.
Определенность и неопределенность
Обе эти концепции очень просты. Как мы знаем, определенность представляет собой референт, который
известен, знаком или идентифицируется говорящим или слушателем. С другой стороны,
неопределенность представляет собой референт, который неизвестен или незнаком. Понятие можно
понять в сочетании артикля с существительным -
definite article- The
indefinite article- a / an
Время
Эта грамматическая категория связана с глаголом и может быть определена как лингвистическое
указание времени действия. Время устанавливает отношение, поскольку указывает время события по
отношению к моменту разговора. В целом, он бывает следующих трех типов -
Present tense- Представляет возникновение действия в настоящий момент. Например, Рам много
работает.
Past tense- Представляет возникновение действия до настоящего момента. Например, шел
дождь.
Future tense- Представляет возникновение действия после настоящего момента. Например,
пойдет дождь.
Аспект
Эту грамматическую категорию можно определить как взгляд на событие. Он может быть следующих
типов:
Perfective aspect- Вид воспринимается как цельный и законченный в разрезе. Например, простое
прошедшее время, такое как yesterday I met my friend, на английском языке является
совершенным в аспекте, поскольку он рассматривает событие как законченное и цельное.
Imperfective aspect- Взгляд воспринимается как продолжающийся и неполный в аспекте.
Например, время причастия настоящего времени какI am working on this problem, на английском
языке несовершенный аспект, поскольку он рассматривает событие как неполное и
продолжающееся.
Наклонение
Эту грамматическую категорию немного сложно определить, но ее можно просто сформулировать как
показатель отношения говорящего к тому, о чем он / она говорит. Это также грамматическая особенность
глаголов. Он отличается от грамматических времен и грамматического аспекта. Примеры наклонений:
указательный, вопросительный, повелительный, повелительный, сослагательный, потенциальный,
оптативный, герундий и причастия.
Согласование
Его еще называют конкордом. Это происходит, когда слово изменяется в зависимости от других слов, к
которым оно относится. Другими словами, это подразумевает согласование значения какой-либо
грамматической категории между разными словами или частями речи. Ниже приведены согласования,
основанные на других грамматических категориях -
Agreement based on Person - Согласование между подлежащим и глаголом. Например, мы
всегда используем «Я есть» (I am) и «Он есть» (He is), но никогда не используем «Он есть» (He
am) и «Я есть» (I is).
Agreement based on Number – Эта согласование между подлежащим и глаголом. В этом случае
существуют особые формы глаголов для первого лица единственного числа, второго лица
множественного числа и так далее. Например, 1-е лицо единственного числа: Я действительно, 2-
е лицо множественного числа: Мы действительно, 3-е лицо единственного числа: мальчик поет, 3-
е лицо множественного числа: мальчики поют.
Agreement based on Gender - В английском языке родовые отношения между местоимениями и
антецедентами совпадают. Например, Он достиг своего места назначения. Корабль достиг пункта
назначения.
Agreement based on Case - Такой вид согласованности не является существенной особенностью
английского языка. Например, кто пришел первым - он или его сестра?
Репарандум и исправление
Эта поразительная особенность отличает устную и письменную грамматику английского языка друг от
друга. По отдельности он известен как феномен отказа, а в совокупности - как феномен ремонта.
Недостатки включают использование следующего -
Fillers words (заполнители слов) - Иногда между предложениями мы используем несколько
слов-заполнителей. Их называют наполнителями филлерной паузы. Примеры таких слов: uh и
um.
Reparandum and repair (репарандум и исправление) - Повторяющийся отрезок слов между
предложениями называется репарандумом. В том же сегменте измененное слово называется
исправлением. Рассмотрим следующий пример, чтобы понять это -
Does ABC airlines offer any one-way flights uh one-way fares for 5000 rupees?
В приведенном выше предложении рейс в одну сторону - это ремонт, а билет за 5000 рупий - это
исправление.
Перезапуск
После паузы или заполнителя происходит перезапуск. Например, в приведенном выше предложении
перезапуск происходит, когда говорящий начинает спрашивать о рейсах в одну сторону, затем
останавливается, исправляет себя, заполняя паузу, а затем снова начинает спрашивать о билетах в одну
сторону.
Фрагменты слов
Иногда мы произносим предложения с более мелкими фрагментами слов. Например, wwha-what is the
time? Здесь слова w-wha фрагменты слова.
Из приведенной выше диаграммы ясно, что пользователю, которому нужна информация, придется
сформулировать запрос в форме запроса на естественном языке. Затем IR-система ответит, извлекая
соответствующий вывод в форме документов о требуемой информации.
Классическая IR-модель
Это самая простая и легкая в реализации модель IR. Эта модель основана на математических знаниях,
которые также были легко распознаны и поняты. Boolean, Vector и Probabilistic - это три классические
модели IR.
Неклассическая IR-модель
Это полностью противоположно классической IR-модели. Такие модели IR основаны на принципах,
отличных от подобия, вероятности, булевых операций. Информационно-логическая модель, модель
теории ситуаций и модели взаимодействия являются примерами неклассической IR-модели.
Альтернативная IR-модель
Это усовершенствование классической IR-модели с использованием некоторых специфических методов
из других областей. Кластерная модель, нечеткая модель и модели скрытого семантического
индексирования (LSI, Latent Dirichlet allocation – Латентное размещение Дирихле) являются примером
альтернативной модели IR.
Инвертированный индекс
Первичная структура данных большинства IR-систем имеет форму инвертированного индекса. Мы
можем определить инвертированный индекс как структуру данных, которая перечисляет для каждого
слова все документы, которые его содержат, и частоту появления в документе. Это упрощает поиск
«совпадений» слова запроса.
Удаление стоп-слов
Стоп-слова - это часто используемые слова, которые вряд ли будут полезны для поиска. У них меньший
смысловой вес. Все такие слова находятся в списке, называемом стоп-листом. Например, артикли «a»,
«an», «the» и такие предлоги, как «in», «of», «for», «at» и т. Д. Являются примерами стоп-слов. Размер
инвертированного индекса можно значительно уменьшить с помощью стоп-листа. По закону Ципфа стоп-
лист, состоящий из нескольких десятков слов, уменьшает размер инвертированного индекса почти
вдвое. С другой стороны, иногда удаление стоп-слова может привести к удалению термина, который
полезен для поиска. Например, если мы удалим букву «А» из «Витамин А», это не будет иметь никакого
значения.
Стемминг
Стемминг, упрощенная форма морфологического анализа, представляет собой эвристический процесс
извлечения базовой формы слов путем отсечения концов слов. Например, слова «смеяться», «смеется»,
«смеяться» будут связаны с корнем слова «смеяться».
В наших последующих разделах мы обсудим некоторые важные и полезные модели IR.
Булева модель
Это самая старая модель поиска информации (IR). Модель основана на теории множеств и булевой
алгебре, где документы представляют собой наборы терминов, а запросы - это логические выражения
для терминов. Булеву модель можно определить как -
D- Набор слов, т. Е. Терминов индексации, присутствующих в документе. Здесь каждый член либо
присутствует (1), либо отсутствует (0).
Q - Логическое выражение, где термины - это термины индекса, а операторы - логические
произведения - И, логическая сумма - ИЛИ и логическая разница - НЕ
F - Булева алгебра над наборами терминов, а также над наборами документов
Если мы говорим об обратной связи по релевантности, то в логической модели IR прогноз
релевантности можно определить следующим образом:
R - Документ считается релевантным выражению запроса тогда и только тогда, когда он
удовлетворяет выражению запроса как -
((˅) ˄ ˄ ˜ ℎ)
Мы можем объяснить эту модель термином запроса как недвусмысленное определение набора
документов.
Например, термин запроса “economic” определяет набор документов, которые индексируются
термином “economic”.
Итак, каков будет результат после объединения терминов с логическим оператором AND? Он будет
определять набор документов, который меньше или равен наборам документов любого из отдельных
терминов. Например, запрос с условиями “social” и “economic” создаст набор документов,
проиндексированных с обоими условиями. Другими словами, документ установлен на пересечении обоих
наборов.
Итак, каков будет результат после объединения терминов с помощью логического оператора ИЛИ? Он
будет определять набор документов, который больше или равен наборам документов любого из
отдельных терминов. Например, запрос с условиями “social” или же “economic” создаст набор
документов, которые проиндексированы с помощью термина “social” или же “economic”. Другими
словами, набор документов представляет собой объединение обоих наборов.
Взвешивание терминов
Взвешивание терминов означает веса членов в векторном пространстве. Чем выше вес члена, тем
сильнее влияние этого члена на косинус. Более важным элементам модели следует присвоить больший
вес. Теперь возникает вопрос, как это смоделировать.
Один из способов сделать это - посчитать слова в документе как его вес термина. Однако, как вы
думаете, будет ли это эффективным методом?
Другой метод, который более эффективен, - использовать term frequency (tfij), document frequency
(dfi) и collection frequency (cfi).
Математически
где
N = документы в коллекции
n t = документы, содержащие термин t
Отзыв о релевантности
В качестве обратной связи по релевантности используются выходные данные, изначально
возвращенные заданным запросом. Этот исходный вывод можно использовать для сбора информации о
пользователе и определения того, подходит ли этот вывод для выполнения нового запроса. Отзывы
можно классифицировать следующим образом -
Явная обратная связь
Его можно определить как обратную связь, полученную от значимых оценщиков. Эти оценщики также
укажут релевантность документа, полученного в результате запроса. Чтобы повысить
производительность поиска запроса, информацию обратной связи о релевантности необходимо
интерполировать с исходным запросом.
Оценщики или другие пользователи системы могут явно указать релевантность, используя следующие
системы релевантности:
Binary relevance system - Эта система обратной связи по релевантности указывает, что документ
либо релевантен (1), либо нерелевантен (0) для данного запроса.
Graded relevance system- Система обратной связи с оцененной релевантностью указывает на
релевантность документа для данного запроса на основе оценки с использованием цифр, букв
или описаний. Описание может быть таким, как «нерелевантно», «в некоторой степени
актуально», «очень актуально» или «актуально».
Псевдо-обратная связь
Это также называется слепой обратной связью. Это метод автоматического локального анализа. Ручная
часть обратной связи по релевантности автоматизирована с помощью обратной связи по
псевдорелевантности, так что пользователь получает улучшенную производительность поиска без
расширенного взаимодействия. Основное преимущество этой системы обратной связи состоит в том, что
она не требует оценщиков, как в системе обратной связи с явной релевантностью.
Рассмотрите следующие шаги для реализации этой обратной связи -
Step 1- Во-первых, результат, возвращаемый исходным запросом, должен восприниматься как
релевантный результат. Диапазон релевантных результатов должен входить в топ 10-50
результатов.
Step 2 - Теперь выберите 20-30 лучших терминов из документов, используя, например, частоту
термина (tf) - вес, обратную частоту документа (idf).
Step 3- Добавьте эти термины в запрос и сопоставьте возвращенные документы. Затем верните
наиболее подходящие документы.
Приложения NLP
Обработка естественного языка (NLP) - это развивающаяся технология, которая создает различные
формы ИИ, которые мы видим в настоящее время, и ее использование для создания бесшовного, а
также интерактивного интерфейса между людьми и машинами будет по-прежнему оставаться главным
приоритетом для сегодняшнего и завтрашнего дня. когнитивные приложения. Здесь мы собираемся
обсудить некоторые из очень полезных приложений NLP.
Машинный перевод
Машинный перевод (МП), процесс перевода одного исходного языка или текста на другой язык, является
одним из наиболее важных приложений NLP. Мы можем понять процесс машинного перевода с помощью
следующей блок-схемы -
Типы систем машинного перевода
Существуют разные типы систем машинного перевода. Давайте посмотрим, какие бывают разные типы.
Прямой подход
Это менее популярный, но самый старый подход МП. Системы, использующие этот подход, способны
переводить SL (исходный язык) непосредственно на TL (целевой язык). Такие системы являются
двуязычными и однонаправленными по своей природе.
Интерлингва подход
Системы, использующие подход интерлингва, переводят SL на промежуточный язык, называемый
интерлингва (IL), а затем переводят IL в TL. Подход Интерлингва можно понять с помощью следующей
пирамиды МП
Трансферный подход
Этот подход включает три этапа.
На первом этапе тексты исходного языка (SL) преобразуются в абстрактные SL-ориентированные
представления.
На втором этапе представления, ориентированные на SL, преобразуются в представления,
ориентированные на эквивалентный целевой язык (TL).
На третьем этапе формируется окончательный текст.
Эмпирический подход МП
Это новый подход к МП. По сути, он использует большой объем необработанных данных в виде
параллельных корпусов. Необработанные данные состоят из текста и их переводов. Методы машинного
перевода на основе аналогов, примеров и памяти используют эмпирический подход МП.
Борьба со спамом
Одна из самых распространенных проблем в наши дни - это нежелательные электронные письма. Это
делает спам-фильтры еще более важными, потому что это первая линия защиты от этой проблемы.
Система фильтрации спама может быть разработана с использованием функций NLP с учетом основных
ложноположительных и ложноотрицательных проблем.
Моделирование N-грамм
Модель N-Gram - это N-символьный фрагмент более длинной строки. В этой модели N-граммы
нескольких разной длины одновременно используются при обработке и обнаружении спама.
Stemming слов
Спамеры, генераторы спам-писем, обычно изменяют один или несколько символов атакующих слов в
своих спам-сообщениях, чтобы они могли нарушить фильтры спама на основе содержимого. Вот почему
мы можем сказать, что фильтры на основе содержимого бесполезны, если они не могут понять значение
слов или фраз в электронном письме. Чтобы устранить такие проблемы при фильтрации спама,
разработана основанная на правилах техника выделения слов, которая может сопоставить слова,
которые похожи и звучат одинаково.
Байесовская классификация
Теперь это стало широко используемой технологией для фильтрации спама. Распространенность слов в
электронном письме измеряется по сравнению с их типичным появлением в базе данных нежелательных
(спам) и законных (любительских) сообщений электронной почты с помощью статистических методов.
Автоматическое обобщение
В эту цифровую эпоху самое ценное - это данные, или, можно сказать, информация. Однако
действительно ли мы получаем полезную информацию и требуемое количество информации? Ответ -
«НЕТ», потому что информация перегружена, и наш доступ к знаниям и информации намного превышает
наши возможности ее понять. Мы остро нуждаемся в автоматическом резюмировании текста и
информации, потому что поток информации через Интернет не прекратится.
Резюмирование текста можно определить как метод создания короткого и точного резюме более
длинных текстовых документов. Автоматическое суммирование текста поможет нам получить актуальную
информацию за меньшее время. Обработка естественного языка (NLP) играет важную роль в разработке
автоматического резюмирования текста.
Вопрос-ответ
Еще одно основное применение обработки естественного языка (NLP) - это вопросы и ответы.
Поисковые системы предоставляют нам информацию о мире, но им все еще не хватает ответов на
вопросы, задаваемые людьми на их естественном языке. У нас есть крупные технологические компании,
такие как Google, которые тоже работают в этом направлении.
Ответы на вопросы - это дисциплина компьютерных наук в области ИИ и NLP. Он ориентирован на
создание систем, которые автоматически отвечают на вопросы, задаваемые людьми на их естественном
языке. Компьютерная система, понимающая естественный язык, обладает способностью программной
системы переводить предложения, написанные людьми, во внутреннее представление, чтобы система
могла генерировать правильные ответы. Точные ответы можно получить, выполнив синтаксический и
семантический анализ вопросов. Лексический пробел, двусмысленность и многоязычие - вот некоторые
из проблем, с которыми сталкивается NLP при построении хорошей системы ответов на вопросы.
Анализ настроений
Еще одно важное приложение обработки естественного языка (NLP) - анализ тональности. Как следует
из названия, анализ настроений используется для определения настроений среди нескольких
сообщений. Он также используется для определения настроения, при котором эмоции не выражены
явно. Компании используют анализ настроений, приложение обработки естественного языка (NLP),
чтобы определять мнение и настроения своих клиентов в Интернете. Это поможет компаниям понять, что
их клиенты думают о продуктах и услугах. Компании могут судить о своей общей репутации по
сообщениям клиентов с помощью анализа настроений. Таким образом, мы можем сказать, что помимо
определения простой полярности, анализ настроений понимает настроения в контексте, чтобы помочь
нам лучше понять, что стоит за выраженным мнением.
Предпосылки
Последняя выпущенная версия Python 3 - Python 3.7.1 доступна для Windows, Mac OS и большинства
разновидностей ОС Linux.
Для Windows мы можем перейти по ссылке www.python.org/downloads/windows/, чтобы загрузить и
установить Python.
Для MAC OS мы можем использовать ссылку www.python.org/downloads/mac-osx/ .
В случае Linux разные версии Linux используют разные менеджеры пакетов для установки новых
пакетов.
o Например, чтобы установить Python 3 в Ubuntu Linux, мы можем использовать следующую
команду из терминала -
Чтобы узнать больше о программировании на Python, прочтите базовое руководство по Python 3 - Python
3
Установка NLTK
Перед тем как начать использовать NLTK, нам необходимо его установить. С помощью следующей
команды мы можем установить его в нашей среде Python -
Если мы используем Anaconda, то пакет Conda для NLTK можно создать с помощью следующей команды
-
import nltk
nltk.download()
Gensim
gensim - это надежная библиотека семантического моделирования, которую можно использовать во
многих приложениях. Мы можем установить его с помощью следующей команды -
Паттерн
Его можно использовать для изготовления правильно работающего gensim пакета. Следующая команда
помогает в установке шаблона -
пример
Input - Кровать и стул - это виды мебели.
У нас есть разные пакеты для токенизации, предоставляемые NLTK. Мы можем использовать эти пакеты
в зависимости от наших требований. Пакеты и детали их установки следующие:
Пакет sent_tokenize
Этот пакет можно использовать для разделения вводимого текста на предложения. Мы можем
импортировать его, используя следующую команду -
Пакет word_tokenize
Этот пакет можно использовать для разделения вводимого текста на слова. Мы можем импортировать
его, используя следующую команду -
Пакет WordPunctTokenizer
Этот пакет можно использовать для разделения вводимого текста на слова и знаки препинания. Мы
можем импортировать его, используя следующую команду -
Стемминг
По грамматическим причинам язык включает множество вариаций. Вариации в том смысле, что язык,
английский, а также другие языки, имеют разные формы слова. Например, такие слова, как
democracy, democratic, и democratization. Для проектов машинного обучения очень важно, чтобы
машины понимали, что эти разные слова, как указано выше, имеют одинаковую базовую форму. Вот
почему при анализе текста очень полезно извлекать базовые формы слов.
Выделение корней - это эвристический процесс, помогающий извлекать базовые формы слов путем
отсечения их концов.
Различные пакеты для стемминга, предоставляемые модулем NLTK, следующие:
Пакет PorterStemmer
Этот пакет определения корней использует алгоритм Портера для извлечения базовой формы слов. С
помощью следующей команды мы можем импортировать этот пакет -
Например, ‘write’ будет выходом слова ‘writing’ задано в качестве входных данных для этого стеммера.
Пакет LancasterStemmer
Этот пакет определения корней использует алгоритм Ланкастера для извлечения базовой формы слов. С
помощью следующей команды мы можем импортировать этот пакет -
Например, ‘writ’ будет выходом слова ‘writing’ задано в качестве входных данных для этого стеммера.
Пакет SnowballStemmer
Этот пакет выделения корней использует алгоритм Snowball для извлечения базовой формы слов. С
помощью следующей команды мы можем импортировать этот пакет -
Например, ‘write’ будет выходом слова ‘writing’ задано в качестве входных данных для этого стеммера.
Лемматизация
Это еще один способ извлечения базовой формы слов, обычно направленный на удаление флективных
окончаний с помощью словарного и морфологического анализа. После лемматизации основная форма
любого слова называется леммой.
Модуль NLTK предоставляет следующий пакет для лемматизации -
Пакет WordNetLemmatizer
Этот пакет извлечет базовую форму слова в зависимости от того, используется ли оно как
существительное или как глагол. Для импорта этого пакета можно использовать следующую команду -
пример
В следующем примере мы реализуем фрагменты существительных и фраз, категорию фрагментов,
которые будут находить фрагменты именных фраз в предложении, используя модуль NLTK Python.
Рассмотрим следующие шаги, чтобы реализовать разбиение именных фраз:
Step 1: Chunk grammar definition
На этом этапе нам нужно определить грамматику для фрагментов. Он будет состоять из правил, которым
мы должны следовать.
Step 2: Chunk parser creation
Далее нам нужно создать парсер чанков. Он проанализирует грамматику и выдаст результат.
Step 3: The Output
На этом этапе мы получим результат в виде дерева.
import nltk
grammar = "NP:{<DT>?<JJ>*<NN>}"
parser_chunking = nltk.RegexpParser(grammar)
parser_chunking.parse(sentence)
Output = parser_chunking.parse(sentence)
output.draw()
Используемые термины
NLP, Natural Language Processing - обработка естественного языка
Affix – аффикс
Prefix – префикс
Suffix – суффикс
Infix – инфикс
Circumfix – циркумфикс
Hyponymy – гипонимия
Homonymy – омонимия
Polysemy – полисемия
Synonymy – синонимия
Antonymy – антонимия
POS-tagging, или PoS-tagging, или POST, Part-of-speech tagging – тегеры части речи
Referent – референт
Corefer – корефер
Antecedent – антецедент
Stemming – cтемминг, процесс нахождения основы слова для заданного исходного слова