
16 Языкознание
16.31 Прикладное языкознание
16.31.21 Автоматическая обработка текста.
Автоматический перевод. Автоматическое распознавание речи
Ж2-09/47650
36. Васильев В.Г. Тематическое упорядочение текстов при
формировании сводных документов/ В. Г. Васильев // Электрон. б-ки: перспектив.
методы и технологии, электрон. коллекции: ХI Всерос. науч. конф. RCDL'2009,
Петрозаводск, 17–21 сент. 2009 г.: тр. конф. – Петрозаводск, 2009. – С.
299–305. – Библиогр.: 20 назв.
Рассматривается новый подход к автоматизации процессов
подготовки сводных документов, основанный на тематическом упорядочении
текстов. Приводится описание и сравнительный анализ различных методов решения
данной задачи.
Ж2-09/47650
37. Некоторые особенности формирования электронного
корпуса текстов с синтаксической разметкой/ А. А. Рогов [и др.] // Электрон.
б-ки: перспектив. методы и технологии, электрон. коллекции: ХI Всерос. науч.
конф. RCDL'2009, Петрозаводск, 17–21 сент. 2009 г.: тр. конф. – Петрозаводск,
2009. – С. 276–283. – Библиогр.: 6 назв.
Описывается система, созданная авторами для проведения
синтаксической разметки текстов. Информационная система универсальна по
отношению к языку текста и типу разметки. Предусмотрена возможность создания
собственных правил для парсера текста при помощи определенного метаязыка (язык
регулярных выражений, набор правил), поиск вхождений текстов, частей текстов.
С использованием введенных атрибутов размеченный текст можно будет представить
в виде графа. Полученный в результате выполнения проекта синтаксически
размеченный корпус может быть использован при научных изысканиях в области
истории, грамматики, лексикографии, а также при изучении соответствующих
курсов студентами филологических специальностей.
Ж2-09/47650
38. Поиск неестественных текстов/ Е. А. Гречников [и др.]
// Электрон. б-ки: перспектив. методы и технологии, электрон. коллекции: ХI
Всерос. науч. конф. RCDL'2009, Петрозаводск, 17–21 сент. 2009 г.: тр. конф. –
Петрозаводск, 2009. – С. 306–308. – Библиогр.: 8 назв.
Описывается метод определения неестественного происхождения
документа, основанный на изучении статистики встречаемости пар соседних слов в
тексте. Тестирование показывает, что метод может быть использован как
отдельно, так и для существенного улучшения результатов уже известных методов
определения спама по контенту.
См. также № 75
16.31.31 Информационные и формализованные
языки
См. № 54, 64
16.31.41 Лингвистические вопросы перевода
См. № 45
|