Записки врачей для медицинских исследований

Новый подход к алгоритмическому различению слов с несколькими возможными значениями может помочь найти полезные данные в электронных медицинских записях.

За последние 10 лет врачи стали гораздо чаще вести учет в электронном виде. Эти записи могут содержать множество полезных для медицине данных: скрытые корреляции между симптомами, методами лечения и результатами, например, или указания на то, что пациенты являются перспективными кандидатами на испытания новых лекарств.

Большая часть этих данных, однако, похоронена в заметках о свободной форме врачей. Одна из трудностей в извлечении данных из неструктурированного текста – то, что компьютерные ученые называют смысловой смысловой смысловой нагрузкой. В примечаниях врача слово «выгрузка», например, может относиться к секреции тела – но оно также может относиться к освобождению из больницы. Возможность вывести смысл слов, предназначенных для использования, значительно упрощает для компьютеров поиск полезных паттернов в горах данных.

На ежегодной симпозиуме Американской ассоциации медицинской информатики (AMIA) на следующей неделе исследователи из Лаборатории компьютерных наук Массачусетского технологического института и лаборатории искусственного интеллекта представят новую систему для устранения различий в словах, используемых в клинических заметках врачей. В среднем, система на 75 процентов точна в двусмысленных словах с двумя чувствами, что заметно улучшает предыдущие методы. Но что более важно, говорит Анна Румшиски, постдоктор MIT, который помог возглавить новое исследование, он представляет собой принципиально новый подход к формулировке неоднозначности, который может привести к гораздо более точным системам, в то же время значительно сократив объем человеческих усилий, необходимых для их развития.

Записки врачей для медицинских исследований

Действительно, Румшиский говорит, что в документе, который был первоначально принят на симпозиуме AMIA, описана система, которая использовала более традиционный подход к однозначности слов со средней точностью лишь около 63 процентов. «По нашему мнению, этого было недостаточно, чтобы фактически можно было использовать, – говорит Румшиский. «Так что мы пытались вместо этого, это то, что было опробовано раньше в общей области, но никогда в биомедицинских или клинических областях».

Актуальное приложение

В частности, объясняет Румшиский, она и ее соавторы – аспирант Рэйчел Часин, чья магистерская диссертация – основа новой статьи; Петр Szolovits, профессор Массачусетского технологического института информатики и инженерии и науки и техники здравоохранения; и исследовательский филиал Озлем Узунер, который получил степень доктора философии в Массачусетском технологическом институте и в настоящее время является доцентом Университета в Олбани – адаптировал алгоритмы из исследовательской области, известной как тематическое моделирование. Тематическое моделирование позволяет автоматически идентифицировать темы документов, вызывая отношения между заметно выделяемыми словами.

«Твист на нем, который мы пытаемся перенести из общей области, заключается в том, чтобы рассматривать вхождения целевого слова в качестве документов и рассматривать чувства как скрытые темы, которые мы пытаемся сделать», – говорит Румшиски.

В тех случаях, когда обычный алгоритм моделирования темы будет искать через огромные тексты для определения кластеров слов, которые имеют тенденцию встречаться в непосредственной близости друг от друга, алгоритм Румшиский и ее коллег идентифицируют корреляции не только между словами, но и между словами и другими текстовыми «функциями» »- например, слова« синтаксические роли ». Например, если слово «выгрузка» предшествует прилагательному, оно гораздо более вероятно относится к секрету тела, чем к административному событию.

Как правило, алгоритмы моделирования темы присваивают разные веса различным темам: например, одна новостная статья может составлять 50 процентов относительно политики, 30 процентов – для экономики и 20 процентов – для иностранных дел. Аналогично, новый алгоритм исследований MIT присваивает разные веса различным возможным значениям двусмысленных слов.

Одно из преимуществ алгоритмов моделирования темы заключается в том, что они «неконтролируемы»: их можно развернуть на огромных текстовых текстах без человеческого контроля. Как следствие, исследователи могут продолжать пересматривать свой алгоритм так, чтобы он включал в себя больше возможностей, а затем устанавливал его на незапланированные медицинские документы, чтобы сделать свои собственные выводы. И чем больше функций он включает, тем более точным он должен быть, говорит Румшиски.

Рекомендуемые достопримечательности

Среди особенностей, которые исследователи планируют включить в алгоритм, перечислены в огромном тезаурусе медицинских терминов, составленном Национальными институтами здравоохранения, называемом Единой системой медицинского языка (UMLS). Действительно, ассоциация слов в UMLS была основой оригинального алгоритма исследователей – того, который достиг 63-процентной точности. Там проблема заключалась в том, что длина и структура путей от одного слова к другому в UMLS не всегда соответствовали смысловой разнице между словами. Но новая система внутренне идентифицирует только те соответствия, которые повторяются с достаточной частотой, что они, вероятно, будут полезны.

«Части [UMLS], которые имеют значение для различения чувств, в основном будут всплывать наверху», – говорит Румшиский. «Это дает вам, бесплатно, эту ассоциацию, если она действительна. Если это неправда, это не имеет значения.

Исследователи также экспериментируют с дополнительными синтаксическими и семантическими особенностями, которые могут помочь в устранении неоднозначности слова и со словевыми ассоциациями, установленными в соответствии с классификационной схемой классификации медицинских предметов «NIH». «Это все еще не идеально, потому что мы не интегрировали все лингвистические функции, которые хотим», – говорит Румшиский. «Но я подозреваю, что это путь».

«Около 80 процентов клинической информации похоронено в клинических заметках», – говорит Хонфан Лю, доцент медицинской информатики в клинике Майо. «Много слов или фраз здесь двусмысленно. Поэтому, чтобы получить правильную интерпретацию, вам нужно пройти фазу словесности. “”

Лю говорит, что, хотя некоторые вычислительные лингвисты применяют алгоритмы моделирования темы к проблеме смыслового смысла, «Я чувствую, что они работают над разновидностями игрушечных проблем. И здесь, я думаю, он действительно может быть использован в системах производства на натуральном языке ».”