{ "cells": [ { "cell_type": "code", "execution_count": 121, "metadata": { "collapsed": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "gpu3\n" ] } ], "source": [ "import os\n", "os.environ[\"THEANO_FLAGS\"] = 'cuda.root=/usr/local/cuda,floatX=float32,device=gpu3,force_device=False'\n", "\n", "import theano\n", "print(theano.config.device)\n", "\n", "import mhcflurry, seaborn, numpy, pandas, pickle, sklearn, collections, scipy, time, logging, sys\n", "import mhcflurry.dataset\n", "import fancyimpute\n", "\n", "import sklearn.metrics\n", "import sklearn.cross_validation\n", "from collections import defaultdict\n", "import numpy as np\n", "import pepdata\n", "\n", "def print_full(x):\n", " pandas.set_option('display.max_rows', len(x))\n", " print(x)\n", " pandas.reset_option('display.max_rows')\n", "\n", "from matplotlib import pyplot\n", "%matplotlib inline\n" ] }, { "cell_type": "code", "execution_count": 2, "metadata": { "collapsed": true }, "outputs": [], "source": [ "min_peptides_to_consider_allele = 10\n", "max_ic50 = 50000\n", "data_dir = \"../data/\"" ] }, { "cell_type": "code", "execution_count": 3, "metadata": { "collapsed": false }, "outputs": [], "source": [ "all_train_data = mhcflurry.dataset.Dataset.from_csv(data_dir + \"bdata.2009.mhci.public.1.txt\")" ] }, { "cell_type": "code", "execution_count": 4, "metadata": { "collapsed": false }, "outputs": [ { "data": { "text/html": [ "
\n", " | \n", " | species | \n", "allele | \n", "peptide_length | \n", "cv | \n", "peptide | \n", "inequality | \n", "affinity | \n", "sample_weight | \n", "
---|---|---|---|---|---|---|---|---|---|
allele | \n", "peptide | \n", "\n", " | \n", " | \n", " | \n", " | \n", " | \n", " | \n", " | \n", " |
ELA-A1 | \n", "GSQKLTTGNCNW | \n", "None | \n", "ELA-A1 | \n", "12 | \n", "TBD | \n", "GSQKLTTGNCNW | \n", "= | \n", "605.000000 | \n", "1.0 | \n", "
HVKDETNTTEYW | \n", "None | \n", "ELA-A1 | \n", "12 | \n", "TBD | \n", "HVKDETNTTEYW | \n", "= | \n", "880.000000 | \n", "1.0 | \n", "|
LVEDVTNTAEYW | \n", "None | \n", "ELA-A1 | \n", "12 | \n", "TBD | \n", "LVEDVTNTAEYW | \n", "= | \n", "170.000000 | \n", "1.0 | \n", "|
RVEDKTNTAEYW | \n", "None | \n", "ELA-A1 | \n", "12 | \n", "TBD | \n", "RVEDKTNTAEYW | \n", "= | \n", "70.000000 | \n", "1.0 | \n", "|
RVEDVKNTAEYW | \n", "None | \n", "ELA-A1 | \n", "12 | \n", "TBD | \n", "RVEDVKNTAEYW | \n", "= | \n", "65.000000 | \n", "1.0 | \n", "|
RVEDVTLTAEYW | \n", "None | \n", "ELA-A1 | \n", "12 | \n", "TBD | \n", "RVEDVTLTAEYW | \n", "= | \n", "150.000000 | \n", "1.0 | \n", "|
RVEDVTNKAEYW | \n", "None | \n", "ELA-A1 | \n", "12 | \n", "TBD | \n", "RVEDVTNKAEYW | \n", "= | \n", "80.000000 | \n", "1.0 | \n", "|
RVEDVTNTAELW | \n", "None | \n", "ELA-A1 | \n", "12 | \n", "TBD | \n", "RVEDVTNTAELW | \n", "= | \n", "25.000000 | \n", "1.0 | \n", "|
RVEDVTNTAEYL | \n", "None | \n", "ELA-A1 | \n", "12 | \n", "TBD | \n", "RVEDVTNTAEYL | \n", "= | \n", "97.000000 | \n", "1.0 | \n", "|
RVEDVTNTAEYW | \n", "None | \n", "ELA-A1 | \n", "12 | \n", "TBD | \n", "RVEDVTNTAEYW | \n", "= | \n", "39.000000 | \n", "1.0 | \n", "|
RVEDVTNTALYW | \n", "None | \n", "ELA-A1 | \n", "12 | \n", "TBD | \n", "RVEDVTNTALYW | \n", "= | \n", "78.000000 | \n", "1.0 | \n", "|
RVEDVTNTKEYW | \n", "None | \n", "ELA-A1 | \n", "12 | \n", "TBD | \n", "RVEDVTNTKEYW | \n", "= | \n", "36.000000 | \n", "1.0 | \n", "|
RVEKVTNTAEYW | \n", "None | \n", "ELA-A1 | \n", "12 | \n", "TBD | \n", "RVEKVTNTAEYW | \n", "= | \n", "110.000000 | \n", "1.0 | \n", "|
RVLDVTNTAEYW | \n", "None | \n", "ELA-A1 | \n", "12 | \n", "TBD | \n", "RVLDVTNTAEYW | \n", "= | \n", "520.000000 | \n", "1.0 | \n", "|
Gogo-B0101 | \n", "RRFVNVVPTF | \n", "gorilla | \n", "Gogo-B0101 | \n", "10 | \n", "TBD | \n", "RRFVNVVPTF | \n", "= | \n", "196.000000 | \n", "1.0 | \n", "
ERYLKDQQL | \n", "gorilla | \n", "Gogo-B0101 | \n", "9 | \n", "TBD | \n", "ERYLKDQQL | \n", "= | \n", "14579.000000 | \n", "1.0 | \n", "|
GRFKLIVLY | \n", "gorilla | \n", "Gogo-B0101 | \n", "9 | \n", "TBD | \n", "GRFKLIVLY | \n", "= | \n", "3091.000000 | \n", "1.0 | \n", "|
IDFPKTFGW | \n", "gorilla | \n", "Gogo-B0101 | \n", "9 | \n", "TBD | \n", "IDFPKTFGW | \n", "= | \n", "107383.000000 | \n", "1.0 | \n", "|
IFFPKTFGW | \n", "gorilla | \n", "Gogo-B0101 | \n", "9 | \n", "TBD | \n", "IFFPKTFGW | \n", "= | \n", "3174.000000 | \n", "1.0 | \n", "|
IKFPKTFGW | \n", "gorilla | \n", "Gogo-B0101 | \n", "9 | \n", "TBD | \n", "IKFPKTFGW | \n", "= | \n", "3274.000000 | \n", "1.0 | \n", "|
ILFPKTFGW | \n", "gorilla | \n", "Gogo-B0101 | \n", "9 | \n", "TBD | \n", "ILFPKTFGW | \n", "= | \n", "998.000000 | \n", "1.0 | \n", "|
INFPKTFGW | \n", "gorilla | \n", "Gogo-B0101 | \n", "9 | \n", "TBD | \n", "INFPKTFGW | \n", "= | \n", "23443.000000 | \n", "1.0 | \n", "|
IRFPKTFGW | \n", "gorilla | \n", "Gogo-B0101 | \n", "9 | \n", "TBD | \n", "IRFPKTFGW | \n", "= | \n", "30.000000 | \n", "1.0 | \n", "|
IRYPKTFGW | \n", "gorilla | \n", "Gogo-B0101 | \n", "9 | \n", "TBD | \n", "IRYPKTFGW | \n", "= | \n", "54.000000 | \n", "1.0 | \n", "|
KRGILTLKY | \n", "gorilla | \n", "Gogo-B0101 | \n", "9 | \n", "TBD | \n", "KRGILTLKY | \n", "= | \n", "668.000000 | \n", "1.0 | \n", "|
KRKKAYADF | \n", "gorilla | \n", "Gogo-B0101 | \n", "9 | \n", "TBD | \n", "KRKKAYADF | \n", "= | \n", "6115.000000 | \n", "1.0 | \n", "|
KRYKSIVKY | \n", "gorilla | \n", "Gogo-B0101 | \n", "9 | \n", "TBD | \n", "KRYKSIVKY | \n", "= | \n", "100.000000 | \n", "1.0 | \n", "|
RRYQKSTEL | \n", "gorilla | \n", "Gogo-B0101 | \n", "9 | \n", "TBD | \n", "RRYQKSTEL | \n", "= | \n", "53.000000 | \n", "1.0 | \n", "|
SRDKTIIMW | \n", "gorilla | \n", "Gogo-B0101 | \n", "9 | \n", "TBD | \n", "SRDKTIIMW | \n", "= | \n", "128.000000 | \n", "1.0 | \n", "|
H-2-DB | \n", "AAAAAAYAAM | \n", "mouse | \n", "H-2-DB | \n", "10 | \n", "TBD | \n", "AAAAAAYAAM | \n", "= | \n", "7333.333333 | \n", "1.0 | \n", "
... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "
Patr-B2401 | \n", "SLYLELDTI | \n", "chimpanzee | \n", "Patr-B2401 | \n", "9 | \n", "TBD | \n", "SLYLELDTI | \n", "= | \n", "22409.304697 | \n", "1.0 | \n", "
SNYLELDTI | \n", "chimpanzee | \n", "Patr-B2401 | \n", "9 | \n", "TBD | \n", "SNYLELDTI | \n", "= | \n", "4803.932379 | \n", "1.0 | \n", "|
SPYLELDTI | \n", "chimpanzee | \n", "Patr-B2401 | \n", "9 | \n", "TBD | \n", "SPYLELDTI | \n", "= | \n", "8210.634469 | \n", "1.0 | \n", "|
SQYLELDTI | \n", "chimpanzee | \n", "Patr-B2401 | \n", "9 | \n", "TBD | \n", "SQYLELDTI | \n", "= | \n", "3841.245189 | \n", "1.0 | \n", "|
SRYLELDTI | \n", "chimpanzee | \n", "Patr-B2401 | \n", "9 | \n", "TBD | \n", "SRYLELDTI | \n", "= | \n", "18216.870451 | \n", "1.0 | \n", "|
SSYLELDTI | \n", "chimpanzee | \n", "Patr-B2401 | \n", "9 | \n", "TBD | \n", "SSYLELDTI | \n", "= | \n", "12389.030549 | \n", "1.0 | \n", "|
STYLELDTI | \n", "chimpanzee | \n", "Patr-B2401 | \n", "9 | \n", "TBD | \n", "STYLELDTI | \n", "= | \n", "22995.859278 | \n", "1.0 | \n", "|
SVYLELDTI | \n", "chimpanzee | \n", "Patr-B2401 | \n", "9 | \n", "TBD | \n", "SVYLELDTI | \n", "= | \n", "1504.790451 | \n", "1.0 | \n", "|
SYYLELDTI | \n", "chimpanzee | \n", "Patr-B2401 | \n", "9 | \n", "TBD | \n", "SYYLELDTI | \n", "= | \n", "21620.468423 | \n", "1.0 | \n", "|
TDATSILGI | \n", "chimpanzee | \n", "Patr-B2401 | \n", "9 | \n", "TBD | \n", "TDATSILGI | \n", "= | \n", "9.565772 | \n", "1.0 | \n", "|
TDNSSPPAV | \n", "chimpanzee | \n", "Patr-B2401 | \n", "9 | \n", "TBD | \n", "TDNSSPPAV | \n", "= | \n", "69.913924 | \n", "1.0 | \n", "|
TDYLELDTI | \n", "chimpanzee | \n", "Patr-B2401 | \n", "9 | \n", "TBD | \n", "TDYLELDTI | \n", "= | \n", "12.150058 | \n", "1.0 | \n", "|
TEAMTRYSA | \n", "chimpanzee | \n", "Patr-B2401 | \n", "9 | \n", "TBD | \n", "TEAMTRYSA | \n", "= | \n", "36866.750907 | \n", "1.0 | \n", "|
TESTLSTAL | \n", "chimpanzee | \n", "Patr-B2401 | \n", "9 | \n", "TBD | \n", "TESTLSTAL | \n", "= | \n", "52196.730666 | \n", "1.0 | \n", "|
TILGIGTVL | \n", "chimpanzee | \n", "Patr-B2401 | \n", "9 | \n", "TBD | \n", "TILGIGTVL | \n", "> | \n", "78125.000000 | \n", "1.0 | \n", "|
VDFIPVENL | \n", "chimpanzee | \n", "Patr-B2401 | \n", "9 | \n", "TBD | \n", "VDFIPVENL | \n", "= | \n", "1304.671425 | \n", "1.0 | \n", "|
VDILAGYGA | \n", "chimpanzee | \n", "Patr-B2401 | \n", "9 | \n", "TBD | \n", "VDILAGYGA | \n", "= | \n", "1529.550065 | \n", "1.0 | \n", "|
VDKNPHNTA | \n", "chimpanzee | \n", "Patr-B2401 | \n", "9 | \n", "TBD | \n", "VDKNPHNTA | \n", "> | \n", "78125.000000 | \n", "1.0 | \n", "|
VDPNIRTGV | \n", "chimpanzee | \n", "Patr-B2401 | \n", "9 | \n", "TBD | \n", "VDPNIRTGV | \n", "> | \n", "78125.000000 | \n", "1.0 | \n", "|
VDVQYLYGV | \n", "chimpanzee | \n", "Patr-B2401 | \n", "9 | \n", "TBD | \n", "VDVQYLYGV | \n", "= | \n", "26.168385 | \n", "1.0 | \n", "|
VDYLELDTI | \n", "chimpanzee | \n", "Patr-B2401 | \n", "9 | \n", "TBD | \n", "VDYLELDTI | \n", "= | \n", "8.751466 | \n", "1.0 | \n", "|
VEAQLHVWV | \n", "chimpanzee | \n", "Patr-B2401 | \n", "9 | \n", "TBD | \n", "VEAQLHVWV | \n", "= | \n", "11679.657915 | \n", "1.0 | \n", "|
VESENKVVI | \n", "chimpanzee | \n", "Patr-B2401 | \n", "9 | \n", "TBD | \n", "VESENKVVI | \n", "= | \n", "12912.904034 | \n", "1.0 | \n", "|
WDQMWKCLI | \n", "chimpanzee | \n", "Patr-B2401 | \n", "9 | \n", "TBD | \n", "WDQMWKCLI | \n", "= | \n", "45.677950 | \n", "1.0 | \n", "|
WEQDLQHGA | \n", "chimpanzee | \n", "Patr-B2401 | \n", "9 | \n", "TBD | \n", "WEQDLQHGA | \n", "= | \n", "58495.538057 | \n", "1.0 | \n", "|
WETARHTPV | \n", "chimpanzee | \n", "Patr-B2401 | \n", "9 | \n", "TBD | \n", "WETARHTPV | \n", "= | \n", "21366.204458 | \n", "1.0 | \n", "|
WEYVVLLFL | \n", "chimpanzee | \n", "Patr-B2401 | \n", "9 | \n", "TBD | \n", "WEYVVLLFL | \n", "= | \n", "3422.601957 | \n", "1.0 | \n", "|
YAAQGYKVL | \n", "chimpanzee | \n", "Patr-B2401 | \n", "9 | \n", "TBD | \n", "YAAQGYKVL | \n", "> | \n", "78125.000000 | \n", "1.0 | \n", "|
YDVVSKLPL | \n", "chimpanzee | \n", "Patr-B2401 | \n", "9 | \n", "TBD | \n", "YDVVSKLPL | \n", "= | \n", "281.737403 | \n", "1.0 | \n", "|
YVQMALMKL | \n", "chimpanzee | \n", "Patr-B2401 | \n", "9 | \n", "TBD | \n", "YVQMALMKL | \n", "> | \n", "78125.000000 | \n", "1.0 | \n", "
137654 rows × 8 columns
\n", "