IBM передает сообществу разработчиков решений с открытым исходным кодом передовую архитектуру для поиска информации и бизнес-анализа

 


Корпорация IBM объявила об открытии доступа к новой технологии с открытым исходным кодом, которая расширит возможности анализа информации в различных отраслях и областях применения и предоставит разработчикам инструментарий для поддержки нового класса программного обеспечения для анализа информации. Компания сделала первый шаг по передаче сообществу разработчиков решений с открытым исходным кодом архитектуры управления неструктурированной информацией Unstructured Information Management Architecture (UIMA), опубликовав исходный код UIMA на Web-сайте SourceForge.net — крупнейшем в мире ресурсе для разработчиков решений с открытым исходным кодом.
UIMA — это открытая прикладная среда, которая уже используется отраслевыми и академическими организациями в ходе коллективной работы по созданию, совершенствованию и развертыванию технологий анализа важнейшей информации, представленной в таких наиболее быстро растущих на сегодняшний день источниках информации, как неструктурированные информационные ресурсы предприятий и Интернет, — в том числе в документах, изображениях, полях комментариев и примечаний, электронных письмах и даже мультимедийных ресурсах, таких как аудио- и видеоматериалы. Новые технологии, созданные с использованием архитектуры UIMA, позволят извлекать ценные знания из информационных ресурсов организаций. В течение этого года IBM намерена перевести этот проект к полноценной модели разработки сообщества Open Source.
«Компании стремятся извлекать выгоды из имеющейся у них информации, однако ни один поставщик не может обеспечить все потребности в поиске, анализе текстов и бизнес-анализе для всех типов информации и всех отраслей, — утверждает Нельсон Маттос (Nelson Mattos), вице-президент по информации и взаимодействию подразделения IBM Research. — Мы передаем технологию UIMA сообществу разработчиков решений с открытым исходным кодом, чтобы способствовать внедрению инноваций и обеспечивать совместное использование аналитических программных инструментов различных поставщиков».
С декабря 2004 года, когда IBM представила архитектуру UIMA, активная деятельность экосистемы партнеров, клиентов и разработчиков решений с открытым исходным кодом позволила ускорить внедрение инноваций и разработку решений на базе UIMA.
Международная федерация производителей лекарственных препаратов и фармацевтических ассоциаций (International Federation of Pharmaceutical Manufacturers & Associations) — крупнейшая в мире организация, представляющая фармацевтические компании, — открыла в феврале портал информации о клинических испытаниях лекарственных препаратов. Использование архитектуры UIMA как компонента платформы IBM WebSphere Information Integrator OmniFind Edition позволяет осуществлять поиск по типам заболеваний, названиям препаратов или организациям, проводящим исследования, распознавая медицинские и географические синонимы на многих языках, без необходимости проводить индексацию вручную. Этот портал будет использоваться для того, чтобы свести воедино содержание существующих реестров и баз данных клинических исследований, чтобы предоставить врачам и пациентам возможность анализировать сводные результаты и находить исследования, к которым они могут присоединиться.
Клиника Майо (Mayo Clinic) также одной из первых начала использовать архитектуру UIMA для разработки в рамках активного сотрудничества с IBM в области обработки неструктурированных текстов. Клиника Майо использовала UIMA как основу для внедрения системы, предназначенной для извлечения знаний из приблизительно 20 миллионов клинических записей. Архитектура UIMA позволила гибко использовать различные средства аннотирования Клиники Майя, IBM и сообщества разработчиков решений с открытым исходным кодом по принципу plug-and-play, чтобы быстро создать мощное аналитическое решение с передовыми возможностями.
Мемориальный онкологический центр Слоуна-Кеттеринга (Memorial Sloan-Kettering Cancer Center) сотрудничает с IBM с целью создания информационного хранилища с доступом через Интернет, соответствующего требованиям Закона об использовании и защите сведений о пациентах (HIPAA). Это хранилище позволит клиницистам и исследователям из Мемориального онкологического центра Слоуна-Кеттеринга эффективно использовать информацию, ускоряя исследовательские работы по систематизации данных о раковых заболеваниях. Важным аспектом этого информационного хранилища является включение понятий из текстовых лабораторных отчетов Мемориального онкологического центра Слоуна-Кеттеринга с возможностью поиска. Эти понятия извлекаются автоматически с использованием решения IBM для анализа текстов, созданного на базе архитектуры UIMA.
К расширяющейся экосистеме UIMA присоединились создатели архитектуры General Architecture for Text Engineering (GATE, gate.ac.uk) из Шеффилдского университета, которые недавно объявили о разработке слоя взаимодействия с UIMA. Этот новый программный слой предоставляет пользователям GATE доступ к гибким возможностям развертывания UIMA, а пользователям UIMA — доступ к множеству полезных программных дополнений, используемых в среде GATE для анализа текстов, извлечения информации и обработки текстов на естественных языках в исследовательских и коммерческих целях.
Кроме того, архитектура UIMA получила поддержку со стороны Управления перспективных исследований Министерства обороны США (Defense Advanced Research Projects Agency, DARPA) и в настоящее время используется в рамках нового проекта DARPA по исследованиям и разработкам в области изучения языков — программы GALE (Global Autonomous Language Exploitation, глобальная система автоматической обработки языков). Целью этой пятилетней программы является участие отраслевых организаций и университетов в разработке и применении программных технологий для сбора, анализа и интерпретации гигантских объемов речевой и текстовой информации на многих языках и предоставления наиболее значимой и пригодной к использованию информации на английском языке. UIMA стала базовой интеграционной архитектурой для разработки приложений по управлению огромными массивами разнородной неструктурированной информации.
Кроме того, некоторые поставщики программного обеспечения, ранее объявившие о своих планах по поддержке UIMA — в том числе ClearForest, Cognos, Factiva и nStein Technologies, — уже представили первые совместимые с UIMA решения.
Доступ к программному обеспечению
Исходный код для базового внедрения архитектуры UIMA в настоящее время доступен для загрузки по адресу http://uima-framework.sourceforge.net/. Кроме того, с Web-сайта http://www.alphaworks.ibm.com/tech/uima можно бесплатно загрузить комплект средств разработки IBM UIMA SDK, включающий дополнительные средства и компоненты.
Архитектура UIMA является неотъемлемым компонентом портфеля IBM Content Discovery, объединяющего средства интеграции информационных ресурсов, корпоративного поиска, анализа текстов и поиска информации с учетом контекста. Архитектура UIMA встроена во многие решения IBM, в том числе в ПО IBM WebSphere Information Integrator OmniFind Edition, являющееся полнофункциональной платформой для обработки неструктурированной информации в составе решений для корпоративного поиска и бизнес-анализа.