IBM открывает исходный код технологии для анализа неструктурированной информации.

 


Корпорация IBM объявила о планах по открытию исходного кода своей технологии Unstructured Information Management Architecture (UIMA). Технология UIMA предназначена для поддержки нового класса программных приложений, способных обрабатывать текстовые документы и другой контент для выявления скрытого смысла, отношений и релевантных фактов.
Современная ситуация характеризуется лавинообразным нарастанием в различных организациях и в Интернете потока неструктурированной информации – состоящего из документов, изображений, комментариев, заметок, электронных писем и даже мультимедийных файлов, в том числе видео и аудио. Однако до недавнего времени не существовало технологий, которые позволяли бы программными средствами осуществлять поиск в этих разнородных данных и осмысленно интерпретировать их. Технология UIMA реализована в виде открытой программной среды со стандартными интерфейсами, позволяющими интегрировать средства анализа неструктурированной информации в любое приложение. Эта среда упрощает объединение программных инструментов анализа с комплексными корпоративными приложениями от нескольких различных поставщиков. Кроме того, в состав среды UIMA входят инструменты, ускоряющие создание и повторное использование аналитических программных компонентов для обработки неструктурированной информации.
Технология UIMA более четырех лет разрабатывалась подразделением IBM Research. Кроме того, значительную поддержку оказало Управление Перспективных Исследовательских Программ (DARPA) – центральная научно-исследовательская организация Министерства обороны США. DARPA и IBM сформировали рабочую группу из представителей авторитетных исследовательских организаций, которые использовали свой опыт в области анализа неструктурированной информации для совершенствования технологии UIMA.
"Управление перспективных исследовательских программ (DARPA) всегда интересовалось компьютерными инфраструктурами, которые позволяли бы большому числу людей совместно использовать результаты своей работы – в качестве примера можно рассмотреть сети ARPANet и Интернет, которые родились в стенах нашего Управления. Подобные проекты позволяют правительственным организациям при весьма малых финансовых затратах добиться значительного эффекта, имеющего мультипликативный характер, – заявил д-р Рональд Бречман (Ronald J. Brachman), руководитель департамента по технологиям обработки информации, DARPA. – В свое время мы увидели в технологии UIMA потенциальные возможности, которые позволили бы объединить и приумножить результаты работы большого исследовательского сообщества, и теперь с удовлетворением отмечаем устойчивое развитие этой технологии и мощную поддержку, которую оказывают ей члены нашей Рабочей группы. Наличие инфраструктуры с открытым кодом, упрощающей развертывание компонентов для анализа текста, позволит создавать более совершенные решения в интересах организаций, обеспечивающих национальную безопасность".
Среди участников рабочей группы несколько ведущих университетов, а также отраслевые исследовательские и проектные организации. Некоторые из участвовавших в работе университетов, в том числе Университет Карнеги Меллона, Колумбийский университет, Стэнфордский университет и Массачусетский университет в Амхерсте, уже используют технологию UIMA в учебном процессе и в исследовательских проектах. Среди других организаций, активно поддерживающих и использующих технологию UIMA – Science Applications International Corp., BBN Technologies, Mayo Clinic и MITRE Corporation. Кроме того, сегодня было объявлено о широком коммерческом применении технологии UIMA – более 15 поставщиков уже изъявили желание использовать эту технологию в своих программных продуктах.
"Среда UIMA впервые обеспечила возможность полноценного взаимодействия между различными программными средствами для поиска и выявления знаний, для бизнес-анализа и для анализа текста в различных областях, – отметил Артур Чикколо (Arthur Ciccolo), менеджер группы управления информацией и знаниями, подразделение IBM Research. – Эта инициатива IBM позволит многим организациям создавать революционные решения, способные использовать неструктурированную информацию совершенно новыми и весьма продуктивными способами".
Современные приложения для выявления знаний и бизнес-анализа смогут применить технологию UIMA при обработке информации, понимание и использование которой до недавнего времени вызывало определенные трудности. Кроме того, технология UIMA может быть использована при поддержке приложений расширенного корпоративного поиска – эта технология образует единый механизм для создания и применения решений по обработке текстов на естественном языке. Эта технология позволит компьютерам понимать и анализировать информацию из самых разнообразных источников, имеющихся у человека. В конечном итоге компьютеры смогут извлекать из подобной информации глубинный смысл – в том числе выявлять отношения, обуславливающие наличие определенных фактов.
Среда UIMA уже встроена в ряд продуктов IBM, в том числе в IBM WebSphere Information Integrator OmniFind Edition – первую коммерческую программную платформу для обработки контента в соответствии со стандартом UIMA. В продуктах IBM WebSphere Portal Server и Lotus Work Place для обработки контента также используется технология UIMA.
Эта технология будет передана группе Open Source Technology Group и, как ожидается, будет доступна через Web-сайт SourceForge к концу 2005 г. В данный момент среда UIMA может быть бесплатно загружена с Web-сайта IBM AlphaWorks по следующей ссылке: http://www.alphaworks.ibm.com/tech/uima.