Превращение огромного количества геномных данных в значимую информацию о клетке является большой проблемой биоинформатики, что имеет серьезные последствия для человеческой биологии и медицины. Исследователи из Калифорнийского университета в Сан-Диего и его коллеги предложили новый метод, который создает вычислительную модель клетки из больших сетей генных и белковых взаимодействий, обнаруживая, как гены и белки соединяются, чтобы сформировать клеточное оборудование более высокого уровня.
Выводы опубликованы в онлайн-публикации Nature Biotechnology от 16 декабря.
«Наш метод создает онтологию или спецификацию всех основных игроков в клетке и взаимоотношения между ними», – сказал первый автор Janusz Dutkowski, доктор философии, докторант-исследователь в Медицинском отделе Калифорнийского университета в Сан-Диего. Он использует знания о том, как гены и белки взаимодействуют друг с другом и автоматически организует эту информацию, чтобы сформировать полный каталог функций генов, клеточных компонентов и процессов.
«Что нового в нашей онтологии, так это то, что она создается автоматически из больших наборов данных. Таким образом, мы видим не только то, что уже известно, но и потенциально новые биологические компоненты и процессы – основы для новых гипотез », – сказал Дутковский.
Первоначально созданные философами, пытающимися объяснить природу существования, онтологии в настоящее время широко используются для инкапсуляции всего, что известно об объекте в иерархию терминов и отношений. Интеллектуальные информационные системы, такие как Siri от iPhone, построены на онтологиях, позволяющих рассуждать о реальном мире. Онтологии также используются учеными для структурирования знаний о таких предметах, как таксономия, анатомия и развитие, биологически активные соединения, болезни и клинический диагноз.
Генетическая онтология (GO) существует также, построенная в течение последнего десятилетия благодаря совместным усилиям сотен ученых. Он считается золотым стандартом для понимания структуры клеток и функции генов, содержащим 34 765 членов и 64 635 иерархических отношений, аннотирующих гены из более чем 80 видов.
«GO очень влиятелен в биологии и биоинформатике, но он также является неполным и трудно обновляется на основе новых данных», – сказал старший автор Трей Идекер, доктор философии, заведующий отделом генетики в Школе медицины и профессор биоинженерии в UC Инженерная школа Джейкобса Сан-Диего.
«Это экспертные знания, основанные на работе многих людей на протяжении многих-многих лет», – сказал Идекер, который также является главным исследователем Национального ресурса для сетевой биологии, базирующегося в Калифорнийском университете в Сан-Диего. «Основная проблема – это последовательность. Люди делают вещи по-разному, и это влияет на то, какие выводы включены в GO и как они связаны с другими результатами. Предлагаемый нами подход – более объективный способ определить, что известно и узнать, что нового ».
В своей работе Dutkowski, Ideker и его коллеги основывались на растущей мощности и полезности новых технологий, таких как высокопроизводительные анализы и биоинформатика, для создания подробных подробных наборов данных, описывающих сложные биологические сети. Чтобы проверить подход, ученые собрали несколько таких наборов данных, применили их метод, а затем сравнили полученную «сетевую извлеченную онтологию» с существующим GO.
Они обнаружили, что их онтология захватила большинство известных сотовых компонентов, а также множество дополнительных терминов и отношений, которые впоследствии вызвали обновления существующего GO.
Ни Ideker, ни Dutkowski говорят, что новый подход призван заменить текущий GO. Скорее, они рассматривают его как дополнительную высокотехнологичную модель, которая идентифицирует как известные, так и нехарактерные биологические компоненты, полученные непосредственно из данных, то, что текущий GO не преуспевает. Более того, они отмечают, что сетевая извлеченная онтология может постоянно обновляться и уточняться с каждым новым набором данных, приближая ученых ближе к полной модели ячейки.