{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "# Частоты кодонов" ] }, { "cell_type": "code", "execution_count": 1, "metadata": { "tags": [ "remove-cell" ] }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Populating the interactive namespace from numpy and matplotlib\n" ] } ], "source": [ "%pylab inline\n", "import pandas as pd\n", "from io import StringIO" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Одна из проблем при исследовании экспрессии белков связана с редкими кодонами в кодирующей последовательности. Рассмотрим частоты встречаемости (на 1000) кодонов в генах различных организмов. \n", "\n", ":::{note}\n", "Отношение 1 к 100 называется \"pro cent\" (лат. к сотне), в русском языке слово \"процент\" склоняют во всех падежах. А отношение 1 к 1000 - \"pro mille\" (лат. к тысяче). Это слово не склоняют.\n", "\n", "знак | русский | латынь | английский \n", "-|-|-|-\n", "\\% | процент | per centum | percent \n", "‰ | промилле | per mille | permille \n", "\n", ":::\n", "\n", "[Представленные данные](http://molbiol.ru/protocol/18_05.html) взяты из \"Codon-Usage Database\" содержащей 392382 полных кодирующих последовательностей для 11713 организмов. \n", "{cite}`nakamura2000`\n", "В таблице отобраны 7 видов со следующими обозначениями." ] }, { "cell_type": "code", "execution_count": 4, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "{'HUM': 'Homo sapiens',\n", " 'MUS': 'Mus musculus',\n", " 'DRO': 'Drosophila melanogaster',\n", " 'ATH': 'Arabidopsis thaliana',\n", " 'YSC': 'Saccharomyces cerevisiae',\n", " 'PIC': 'Pichia pastoris',\n", " 'ECO': 'Escherichia coli'}" ] }, "execution_count": 4, "metadata": {}, "output_type": "execute_result" } ], "source": [ "spec=dict([_s.strip().split(' ',1) for _s in '''\n", " HUM Homo sapiens\n", " MUS Mus musculus\n", " DRO Drosophila melanogaster\n", " ATH Arabidopsis thaliana\n", " YSC Saccharomyces cerevisiae\n", " PIC Pichia pastoris\n", " ECO Escherichia coli\n", " '''.strip().split('\\n')])\n", "spec" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Понимание смещения в частоте встречаемости кодонов занимает центральное место в таких областях, как молекулярная эволюция и биотехнология {cite}`plotkin2011`." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Скопируем текст таблицы, в которой представлены промилле кодонов с указанием аминокислоты у этих видов." ] }, { "cell_type": "code", "execution_count": 3, "metadata": { "tags": [ "hide-input" ] }, "outputs": [ { "data": { "text/html": [ "
\n", " | \n", " | HUM | \n", "MUS | \n", "DRO | \n", "ATH | \n", "YSC | \n", "PIC | \n", "ECO | \n", "
---|---|---|---|---|---|---|---|---|
Am | \n", "Codon | \n", "\n", " | \n", " | \n", " | \n", " | \n", " | \n", " | \n", " |
Arg | \n", "CGA | \n", "6.2 | \n", "6.6 | \n", "8.5 | \n", "6.3 | \n", "3.0 | \n", "4.4 | \n", "4.1 | \n", "
CGC | \n", "10.6 | \n", "9.5 | \n", "18.1 | \n", "3.8 | \n", "2.6 | \n", "2.2 | \n", "18.3 | \n", "|
CGG | \n", "11.5 | \n", "10.4 | \n", "8.2 | \n", "4.9 | \n", "1.8 | \n", "2.0 | \n", "6.5 | \n", "|
CGU | \n", "4.6 | \n", "4.7 | \n", "8.8 | \n", "9.0 | \n", "6.4 | \n", "6.8 | \n", "18.8 | \n", "|
AGA | \n", "11.9 | \n", "11.6 | \n", "5.2 | \n", "18.9 | \n", "21.3 | \n", "20.2 | \n", "4.5 | \n", "|
... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "
Met | \n", "AUG | \n", "22.1 | \n", "22.9 | \n", "23.6 | \n", "24.5 | \n", "21.0 | \n", "18.1 | \n", "25.9 | \n", "
Trp | \n", "UGG | \n", "13.2 | \n", "12.3 | \n", "9.9 | \n", "12.5 | \n", "10.4 | \n", "10.3 | \n", "13.8 | \n", "
Ter | \n", "UAA(ochre) | \n", "1.0 | \n", "0.7 | \n", "0.8 | \n", "0.9 | \n", "1.0 | \n", "0.9 | \n", "2.0 | \n", "
UAG(amber) | \n", "0.8 | \n", "0.6 | \n", "0.6 | \n", "0.5 | \n", "0.5 | \n", "0.5 | \n", "0.3 | \n", "|
UGA(opal) | \n", "1.6 | \n", "1.2 | \n", "0.5 | \n", "1.1 | \n", "0.7 | \n", "0.3 | \n", "1.0 | \n", "
64 rows × 7 columns
\n", "\n", " | \n", " | HUM | \n", "MUS | \n", "DRO | \n", "ATH | \n", "YSC | \n", "PIC | \n", "ECO | \n", "
---|---|---|---|---|---|---|---|---|
Am | \n", "Codon | \n", "\n", " | \n", " | \n", " | \n", " | \n", " | \n", " | \n", " |
Arg | \n", "AGA | \n", "11.9 | \n", "11.6 | \n", "5.2 | \n", "18.9 | \n", "21.3 | \n", "20.2 | \n", "4.5 | \n", "
AGG | \n", "11.9 | \n", "11.9 | \n", "6.3 | \n", "10.9 | \n", "9.3 | \n", "6.6 | \n", "2.6 | \n", "|
Ser | \n", "AGC | \n", "19.4 | \n", "19.6 | \n", "20.5 | \n", "11.3 | \n", "9.7 | \n", "7.7 | \n", "15.0 | \n", "
AGU | \n", "12.1 | \n", "12.5 | \n", "11.5 | \n", "14.0 | \n", "14.2 | \n", "12.8 | \n", "10.8 | \n", "