Discussion:
толковый словарь
(слишком старое сообщение для ответа)
Dmitry Gaivoronsky
2005-10-07 19:38:34 UTC
Permalink
Ohayou gozaimasu, Konstantin.

06 окт 2005, 17:33: Konstantin Seleznyov -> All...

DG>> Т.е., провести синтаксический анализ статьи и попытаться на его основе
DG>> выделить "смысл" каждой связи. В принципе, вполне решаемая задача...
KS> Во-первых, на сколько мне известно, пока ещё нет удовлетворительного
KS> решения задачи синтаксического анализа предложений русского языка,
KS> поэтому про решаемость задачи автоматическим способом пока говорить, как
KS> мне думается, не надо

Ты говоришь об общем случае, в то время как здесь задача гораздо конкретней и
проще. Предложения в сабже относительно простые, с достаточно однообразной
структурой, кучей стандартных оборотов и т.п.

KS> Вобщем-то, системы, способные выделять ключевые слова документа и степень
KS> их взаимосвязанности уже есть. Системы эти, как я понимаю, полезны и
KS> удобны при реферировании и аннотировании больших объёмов текстовой
KS> информации, но врят ли претендуют на умение "понимать" текст.

Опять же, толковые словари специально заточены на упрощение понимания -
отточенные формулировки, никакой лирики... Т.е. присутствует лишь "логическая"
составляющая, а вся трудноформализуемая "поэзия" выкинута. Поэтому с
семантической точки зрения задача тоже значительно облегчена.

KS> Во-вторых, для упомянутого "глубокого" понимания необходимо решить ряд
KS> достаточно интересных задач: синтаксический анализ, построение тезауруса,
KS> извлечение информации (в данном случае - сопоставление фрагментов
KS> исходного текста с тезаурусом).

Идея-то как раз и состоит в том, чтобы на основе относительно простых для
анализа текстов - толковых словарей - создать некоторый более-менее
универсальный семантический "тезаурус", с помощью которого затем анализировать
уже более сложные тексты. Короче, разбить трудную задачу на две более простых.

KS> Hо самое интересное далее - это так называемый "прагматический" уровень
KS> обработки текста, заключающийся собственно в формулировании целей
KS> понимания текста, какие сведения из него должны "выуживаться". Для
KS> всевозможных чат-ботов - это поддержание беседы, для систем перевода -
KS> построение аналогичного текста на другом языке и т.д.

О прагматике тут уже немного говорилось. Hо это уже следующий уровень
обработки, и тут все зависит от цели "понимания" - для разных задач могут быть
пригодны различные методы "выуживания" и использования "выуженного" смысла.


Sayonara... Dmitry.
Konstantin Seleznyov
2005-10-08 06:56:51 UTC
Permalink
Добрый день!

DG>Ты говоришь об общем случае, в то время как здесь задача гораздо
конкретней и
DG>проще. Предложения в сабже относительно простые, с достаточно
однообразной
DG>структурой, кучей стандартных оборотов и т.п.

Согласен, но тогда просто требуется гарантия того, что конкретная реализация
автоматического синтаксического
анализа в таком-то проценте случаев отработает правильно при обработке
текстов из конкретного толкового словаря.

DG>Опять же, толковые словари специально заточены на упрощение понимания -
DG>отточенные формулировки, никакой лирики... Т.е. присутствует лишь
"логическая"
DG>составляющая, а вся трудноформализуемая "поэзия" выкинута. Поэтому с
DG>семантической точки зрения задача тоже значительно облегчена.

Бесспорно, но ... читай дальше...

DG>Идея-то как раз и состоит в том, чтобы на основе относительно простых для
DG>анализа текстов - толковых словарей - создать некоторый более-менее
DG>универсальный семантический "тезаурус", с помощью которого затем
анализировать
DG>уже более сложные тексты. Короче, разбить трудную задачу на две более
простых.

Тут вопрос несколько другой: каким образом из статистической завкономерности
совстречаемости тех или иных слов
будет определяться, являются ли они синонимами/антонимами/гиперонимами
(связь частного случая и общего, например слова "стол" и "мебель")? А для
семантической обработки текста ( читай, понимания текста ) необходимы именно
семантические связи.

--
With best regards
Konstantin Seleznyov , Relex. Inc.
***@relex.ru / ICQ: 50242440

Loading...