Разное

Протеин esm: ESM Iso Whey 1000 — Body-Pit

Содержание

Калорийность протеин muscle pump. Химический состав и пищевая ценность.

Химический состав и анализ пищевой ценности

Пищевая ценность и химический состав

«протеин muscle pump».

В таблице приведено содержание пищевых веществ (калорийности, белков, жиров, углеводов, витаминов и минералов) на порцию съедобной части.

НутриентКоличествоНорма**% от нормы
в 100 г
% от нормы
в 100 ккал
100% нормы
Калорийность112 кКал1684 кКал6.7%6%1504 г
Белки27 г76 г35. 5%31.7%281 г
Жиры0.31 г56 г0.6%0.5%18065 г
Углеводы2 г219 г0.9%0.8%10950 г
Пищевые волокна0.9 г20 г4.5%4%2222 г
Витамины
Витамин А, РЭ1700 мкг900 мкг188. 9%168.7%53 г
Витамин В5, пантотеновая1.9 мг5 мг38%33.9%263 г
Витамин В6, пиридоксин0.5 мг2 мг25%22.3%400 г
Витамин В12, кобаламин1 мкг3 мкг33.3%29.7%300 г
Витамин C, аскорбиновая23 мг90 мг25. 6%22.9%391 г
Витамин D, кальциферол0.005 мкг10 мкг0.1%0.1%200000 г
Витамин Е, альфа токоферол, ТЭ2.7 мг15 мг18%16.1%556 г
Витамин Н, биотин50 мкг50 мкг100%89.3%100 г
Витамин РР, НЭ4 мг20 мг20%17. 9%500 г
Макроэлементы
Калий, K0.03 мг2500 мг8333333 г
Кальций, Ca0.01 мг1000 мг10000000 г
Натрий, Na0.03 мг1300 мг4333333 г
Незаменимые аминокислоты
Аргинин*0. 7 г~
Валин1.7 г~
Гистидин*0.6 г~
Изолейцин1.7 г~
Лейцин3. 8 г~
Лизин3 г~
Метионин1.2 г~
Треонин1.6 г~
Триптофан0. 9 г~
Фенилаланин2 г~
Заменимые аминокислоты
Аспарагиновая кислота3.3 г~
Глицин0. 6 г~
Глутаминовая кислота5.3 г~
Пролин1.6 г~
Серин1.7 г~
Тирозин2 г~
Цистеин0. 7 г~

Энергетическая ценность протеин muscle pump составляет 112 кКал.

Основной источник: Создан в приложении пользователем. Подробнее.

** В данной таблице указаны средние нормы витаминов и минералов для взрослого человека. Если вы хотите узнать нормы с учетом вашего пола, возраста и других факторов, тогда воспользуйтесь приложением
«Мой здоровый рацион».

Esm Казеин Калории и Пищевая Ценность




База данных продуктов питания и счетчик калорий 




Пищевая Ценность

Размер Порции

1 порция (35 г)

Энергетическая ценность

490 кДж

117 ккал

Жиры

0,70г

Углеводы

2,50г

Сахар

0,00г

Белки

25,40г



Редактировать этот Продукт

Эта информация неточная или неполная? Нажмите здесь, чтобы изменить.






6%

от РСК*

(117 кал)





Классификация калорий:

 

Углеводы (9%)

 

Жиры (5%)

 

Белки (86%)






* На основе РСК из 2000 калорий



Фотографии


Питательная ценность:


Кал

117

Жир

0,7г

Углев

2,5г

Белк

25,4г




1 порция (35 г) содержит 117 калорий.
Классификация калорий: 5% жир, 8% углев, 86% белк.


Похожие Протеиновый Порошок из ESM:

Другие разновидности Протеиновый Порошок:

Недавно Употребленные Продукты:


Обратите внимание, что некоторые продукты не могут быть пригодны для некоторых людей, и Вам настоятельно рекомендуется обратиться за консультацией к врачу перед началом любой потери веса или диетического режима. Хотя информация, представленная на этом сайте представлена ​​добросовестно и считается правильной, FatSecret не дает никаких заверений или гарантий относительно её полноты или точности, и вся информация, в том числе пищевая ценность, используется вами на свой риск. Все товарные знаки, авторское право и другие формы интеллектуальной собственности являются собственностью их соответствующих владельцев.

Сывороточный протеин от CMTech Base Nutition — CMT Научный подход

Описание:

Что такое «протеин»?

 

Это не какое-то «страшное» или наоборот «магическое» слово из обоймы маркетологов йогуртов, похудательных коктейлей, шампуней и спортивного питания. Это — просто белок. А белок ежедневно нужен нашему организму. Если точнее, ежедневно нам нужно 1-1,5 грамма белка (или 2-2,5 при усиленных тренировках) на каждый килограмм массы тела.

Наилучшие источники белка — это мясные, молочные продукты, блюда из яиц, рыбы и морепродуктов. Но если достаточное количество белка добрать сложно, а лишний раз «давиться» куриной грудкой и гречкой вам не хочется — есть смысл выпить белковый коктейль.

Протеиновый коктейль от CMTech содержит концентрат сывороточного белка — это «вытяжка» из молочной сыворотки, одного из основных компонентов молока. Сывороточный белок является одним из лучших источников белка для человека — к примеру, если белки коровьего молока всего на 20% состоят из белков сыворотки, то белки материнского — практически на 50%.

 

Пищевая ценность

В каждой порции 30 граммов (всего 30 порций или 900 граммов)

N.B.: Содержание белка в сырье зависит от показателя влажности (так как никакой порошок не бывает в реальных условиях полностью сухим), поэтому 5-10% содержания воды указывается отдельно от белков, жиров и углеводов в сухой массе (сухом веществе). Концентрат сывороточного белка (сырьё) содержит от 5 до 10% влаги, то есть в реальности белка даже в 80% сырье от 70% до 80% (чаще средне и ближе к высоким цифры).

Мы указываем минимально возможный процент белка, делая скидку на все возможные факторы. Это значит, что протеина в вашем коктейле будет не меньше, а с большой вероятностью больше, чем указано (а не наоборот, как зачастую бывает).

Мы регулярно тестируем нашу продукцию в независимых аккредитованных лабораториях на содержание белка и другие показатели. Результаты всех тестов вы можете найти по этой ссылке.

 

Состав: ультрафильтрованный концентрат сывороточного белка (КСБ-80), ароматизатор пищевой, загуститель ксантановая камедь (E415), эмульгатор лецитин (E322), краситель натуральный (в зависимости от вкуса краситель может отличаться или отсутствовать), поваренная соль, подсластитель сукралоза (E955), антислеживающий агент трикальцийфосфат (E341). Содержит лактозу, может содержать следы сои и яичного белка.

 

Пищевая ценность на порцию (30 г)

Белки: 22,6 г, том числе аминокислоты с разветвлёнными цепочками BCAA 5,1 г и 3,8 г глютамина.

Углеводы: 3,3 г Жиры: 2,5 г

Энергетическая ценность 126 ккал/525 кДж

 

Пищевая ценность (на 100 г)

Белки: 75,2 г, в том числе аминокислоты с разветвлёнными цепочками BCAA 16,9 г и 12,6 г глютамина.  

Углеводы: 11 г Жиры: 8,2 г

Энергетическая ценность 419 ккал/1750 кДж

Аминокислотный состав (граммов на 100 г готовой смеси)

Срок годности: 18 месяцев с даты производства.

Декларация о соответствии: ЕАЭС N RU Д-RU.АД-34.B.03140

facebookresearch / esm: Evolutionary Scale Modeling (ESM): предварительно обученные языковые модели для белков

Этот репозиторий содержит код и предварительно обученные веса для моделей языка трансформеров от Facebook AI Research, включая наши современные ESM-1b и MSA Transformer .
Эти модели подробно описаны в нашей статье «Биологическая структура и функция возникают в результате масштабирования неконтролируемого обучения до 250 миллионов белковых последовательностей» (Rives et al., 2019),
который первым предложил моделирование языка белков с помощью Transformers.

ESM-1b превосходит все протестированные модели языка однопоследовательных белков по ряду задач прогнозирования структуры.
Трансформатор MSA (ESM-MSA-1) может дополнительно повысить производительность за счет использования информации MSA.

Цитата

 @article {rives2019biological,
  автор = {Ривес, Александр и Мейер, Джошуа и Серку, Том и Гоял, Сиддхарт и Лин, Земинг и Лю, Джейсон и Го, Деми и Отт, Майл и Зитник, К.Лоуренс и Ма, Джерри и Фергус, Роб},
  title = {Биологическая структура и функция возникают в результате масштабирования неконтролируемого обучения до 250 миллионов белковых последовательностей},
  год = {2019},
  doi = {10.1101 / 622803},
  url = {https://www.biorxiv.org/content/10.1101/622803v4},
  журнал = {bioRxiv}
} 

ОглавлениеЧто нового

Сравнение с родственными работами

Контролируемые нисходящие потоки

Модель Вход Предварительная подготовка Параметры Программа самообучения Контакт
UniRep Последовательность UR50 * 18M 58. 4 21,9
SeqVec Последовательность UR50 * 93M 62,1 29,0
ЛЕНТА Последовательность ПФАМ * 38M 58,0 23,2
ProtBert-BFD Последовательность BFD * 420M 70,0 50,3
Prot-T5-XL-BFD Последовательность BFD * 3B 71.4 55,9
LSTM biLM (S) Последовательность UR50 / S 28M 60,4 24,1
LSTM biLM (L) Последовательность UR50 / S 113M 62,4 27,8
Трансформатор-6 Последовательность UR50 / S 43M 62,0 30,2
Трансформатор-12 Последовательность UR50 / S 85M 65. 4 37,7
Трансформатор-34 Последовательность UR100 670M 64,3 32,7
Трансформатор-34 Последовательность UR50 / S 670M 69,2 50,2
ESM-1b Последовательность UR50 / S 650M 71,6 56,9
ESM-MSA-1 MSA UR50 / S + MSA 100M 72.9 Скоро в продаже

Сравнение с моделями родственного языка белков.
(SSP) Точность Q8 вторичной структуры на CB513, трансформатор с точной настройкой свертки + головка LSTM.
(Контакт) Top-L контактная точность на большом расстоянии на испытательном наборе RaptorX с 32-слойной головкой ResNet.
Для получения дополнительной информации см. Rives et al. 2019.

* Предтренировочные наборы данных из родственных работ отличаются от наших.

Прогнозирование неконтролируемой структуры

Модель Вход Предварительная подготовка Параметры L л / 5
mfDCA MSA 33.0 54,2
Псиков MSA 32,6 58,1
Гремлин MSA 39,3 62,8
ЛЕНТА Последовательность ПФАМ * 38M 11,2 17,9
ProtBert-BFD Последовательность BFD * 420M 34,1 57.4
Prot-T5-XL-BFD Последовательность BFD * 3B 35,6 57,8
Трансформатор-6 Последовательность UR50 / S 43M 13,2 21,5
Трансформатор-12 Последовательность UR50 / S 85M 23,7 39,3
Трансформатор-34 Последовательность UR50 / S 670M 34. 7 56,0
ESM-1b Последовательность UR50 / S 650M 41,1 66,1
ESM-MSA-1 MSA UR50 / S + MSA 100M 57,7 83,1

Сравнение с родственными языковыми моделями белков при неконтролируемом предсказании контактов:
разреженная линейная комбинация головок внимания используется для прямого прогнозирования контактов с белками.Средняя точность контакта Top-L и Top-L / 5 на 14842 тестовых структурах, разреженная логистическая регрессия обучена на 20 структурах.
Методы анализа прямого связывания (Gremlin, mfDCA, Psicov) и ESM-MSA-1 используют trRosetta MSA, в то время как другие методы прогнозируют на основе одной последовательности.
Для получения дополнительных сведений о методе см. Rao et al. 2020.

Использование

Быстрый старт

В качестве предварительного условия у вас должен быть установлен PyTorch 1.5 или более поздней версии, чтобы использовать этот репозиторий.

Вы можете использовать этот однострочник для установки:

Мы также поддерживаем PyTorch Hub, что избавляет от необходимости клонировать и / или устанавливать этот репозиторий самостоятельно:

 импортная горелка
модель, алфавит = факел.hub.load ("facebookresearch / esm", "esm1b_t33_650M_UR50S") 

Затем вы можете загрузить и использовать предварительно обученную модель следующим образом:

 импортная горелка
импорт esm

# Загрузить модель ESM-1b
модель, алфавит = esm.pretrained.esm1b_t33_650M_UR50S ()
batch_converter = алфавит.get_batch_converter ()

# Подготовить данные (первые 2 последовательности из суперсемейства ESMStructuralSplitDataset / 4)
данные = [
    ("протеин1", "MKTVRQERLKSIVRILERSKEPVSGAQLAEELSVSRQVIVQDIAYLRSLGYNIVATPRGYVLAGG"),
    ("протеин2", "KALTARQQEVFDLIRDHISQTGMPPTRAEIAQRLGFRSPNAAEEHLKALARKGVIEIVSGASRGIRLLQEE"),
]
batch_labels, batch_strs, batch_tokens = batch_converter (данные)

# Извлечь представления по остаткам (на CPU)
с факелом. no_grad ():
    результаты = модель (batch_tokens, repr_layers = [33], return_contacts = True)
token_presentations = результаты ["представления"] [33]

# Генерация представлений для каждой последовательности посредством усреднения
# ПРИМЕЧАНИЕ: токен 0 всегда является токеном начала последовательности, поэтому первый остаток - токен 1.
sequence_presentations = []
для i, (_, seq) в перечислении (данные):
    последовательность_представлений.append (токен_представления [i, 1: len (seq) + 1] .mean (0))

# Посмотрите на предсказания контактов на карте неконтролируемого самовнимания
import matplotlib.pyplot как plt
для (_, seq), внимание_контактов в zip (данные, результаты ["контакты"]):
    plt.matshow (внимание_контакты [: len (seq),: len (seq)])
    plt.title (seq)
    plt.show () 

Массовое вычисление вложений из FASTA

Мы предоставляем сценарий, который эффективно извлекает вложения из файла FASTA.
Устройство cuda не является обязательным и будет обнаружено автоматически.
Следующая команда извлекает встраивание последнего слоя для файла FASTA из модели ESM-1b:

 $ извлечение питона.py esm1b_t33_650M_UR50S примеры / some_proteins.fasta my_reprs / \
    --repr_layers 0 32 33 --включить средний per_tok 

Каталог my_reprs / теперь содержит один файл .pt для каждой последовательности FASTA; используйте torch.load () для их загрузки.
extract.py имеет флаги, которые определяют, что включено в файл .pt :

  • --repr-Layers (по умолчанию: только final) выбирает, из каких слоев следует включать вложения.
  • --include указывает, какие вложения нужно сохранить.Вы можете использовать следующее:
    • per_tok включает полную последовательность с встраиванием каждой аминокислоты (seq_len x hidden_dim).
    • среднее значение включает вложения, усредненные по всей последовательности для каждого слоя.
    • bos включает в себя вложения из токена начала последовательности.
      (ПРИМЕЧАНИЕ: не используйте с предварительно обученными моделями — мы обучались без надзора за токенами bos)

Ноутбуки

Прогнозирование вариантов — использование вложений

Чтобы помочь вам начать работу с внедрениями, в этом учебном пособии по записной книжке jupyter показано, как обучить предиктор вариантов, используя вложения из ESM-1.Вы можете использовать аналогичный протокол для обучения модели для любой последующей задачи, даже с ограниченными данными.
Сначала вы можете получить вложения для примеров / P62593.fasta либо загрузив предварительно вычисленные вложения.
в соответствии с инструкциями в записной книжке или запустив следующее:

 # Получить вложения
$ python extract.py esm1_t34_670M_UR50S примеры / P62593.fasta примеры / P62593_reprs / \
    --repr_layers 34 - включить среднее 

Затем следуйте оставшимся инструкциям в руководстве.Вы также можете запустить руководство в записной книжке Colab.

Прогнозирование неконтролируемых контактов

Этот учебник по ноутбуку jupyter демонстрирует прогнозирование контактов с моделями ESM-1b и MSA Transformer (ESM-MSA-1).
Предсказание контактов основано на логистической регрессии по картам внимания модели.
Эта методология основана на нашем документе ICLR 2021,
Модели языка трансформерных белков — это изучающие структуру без учителя. (Рао и др., 2020)
Преобразователь MSA (ESM-MSA-1) принимает в качестве входных данных множественное выравнивание последовательностей (MSA) и таким же образом использует карты самовнимания связанных строк.См. Трансформатор MSA. (Рао и др. 2021).

ESMStructuralSplitDataset и прогнозирование контакта с самовниманием

В этом руководстве по ноутбуку jupyter показано, как загрузить и проиндексировать ESMStructuralSplitDataset ,
и вычисляет предсказания неконтролируемых контактов на карте собственного внимания с помощью ESM-1b.

Доступные модели и наборы данных

Предварительно обученные модели

Структурный разделенный набор данных ESM

Это набор данных пятикратной перекрестной проверки структур белковых доменов, который можно использовать для измерения обобщения представлений.
на разных уровнях структурного несходства.Набор данных реализует структурные опоры в семье, суперсемействе и свертке.
уровень. База данных SCOPe используется для классификации доменов. Независимо для каждого уровня прочности конструкции,
домены разбиты на 5 равных наборов, то есть на пять наборов складок, суперсемейств или семейств. Это гарантирует
что для каждого из пяти разделов структуры, имеющие одинаковую классификацию, не появляются в обоих
обучающие и тестовые наборы. Для заданного уровня классификации каждая структура появляется в тестовом наборе один раз, так что
в эксперименте с перекрестной проверкой каждая из структур будет оцениваться только один раз.

Набор данных содержит трехмерные координаты, карты расстояний и метки вторичных структур.
Для получения дополнительной информации о построении набора данных
см. Rives et al. Приложение A.10.2019.

В этом руководстве по записной книжке jupyter показано, как загрузить и проиндексировать ESMStructuralSplitDataset .

ESMStructuralSplitDataset при инициализации загрузит разделов и pkl .
Мы также предоставляем msas для каждого из доменов. Данные можно скачать прямо ниже.

Набор данных предварительного обучения Split

Разделенные файлы, устанавливающие, какие кластеры UniRef50 использовались в качестве набора для предварительной оценки для предварительного обучения.
в Rives et al. 2019 и Рао и др. 2021 можно найти здесь:

Эти файлы содержат только идентификаторы UniRef50 и UniRef100, соответствующие базе данных UniRef, выпуск от 2018-03
который выпущен Консорциумом UniProt по лицензии Creative Commons Attribution (CC BY 4.0).

Цитаты

Если вы сочтете модели полезными в вашем исследовании, мы просим вас процитировать
следующая бумага:

 @article {rives2019biological,
  автор = {Ривес, Александр и Мейер, Джошуа и Серку, Том и Гоял, Сиддхарт и Лин, Земинг и Лю, Джейсон и Го, Деми и Отт, Майл и Зитник, К.Лоуренс и Ма, Джерри и Фергус, Роб},
  title = {Биологическая структура и функция возникают в результате масштабирования неконтролируемого обучения до 250 миллионов белковых последовательностей},
  год = {2019},
  doi = {10.1101 / 622803},
  url = {https://www.biorxiv.org/content/10.1101/622803v4},
  журнал = {bioRxiv}
} 

Для прогнозирования контакта с самовниманием см. Следующий документ (препринт biorxiv):

 @article {rao2020transformer,
  author = {Рао, Рошан М и Мейер, Джошуа и Серку, Том и Овчинниковы, Сергей и Ривес, Александр},
  title = {Модели языка белков-трансформеров - это изучающие структуру без учителя},
  год = {2020},
  doi = {10.1101 / 2020.12.15.422761},
  url = {https://www.biorxiv.org/content/10.1101/2020.12.15.422761v1},
  журнал = {bioRxiv}
} 

Информацию о трансформаторе MSA см. В следующей статье (препринт biorxiv):

 @article {rao2021msa,
  author = {Рао, Рошан и Лю, Джейсон и Веркуил, Роберт и Мейер, Джошуа и Кэнни, Джон Ф. и Аббил, Питер и Серку, Том и Райвс, Александр},
  title = {MSA Transformer},
  год = {2021},
  doi = {10.1101 / 2021.02.12.430858},
  url = {https://www.biorxiv.org/content/10.1101 / 2021.02.12.430858v1},
  журнал = {bioRxiv}
} 

Большая часть этого кода основана на структуре моделирования последовательности fairseq. Мы используем fairseq для внутренних исследований по моделированию белкового языка. Мы настоятельно рекомендуем попробовать его, если вы хотите предварительно обучить языковые модели белков с нуля.

Лицензия

Этот исходный код находится под лицензией MIT, находящейся в файле LICENSE
в корневом каталоге этого исходного дерева.

esm / экстракт.py at master · facebookresearch / esm · GitHub

#! / Usr / bin / env python3 -u
# Авторские права (c) Facebook, Inc. и ее дочерних компаний.
#
# Этот исходный код находится под лицензией MIT, найденной в
# LICENSE в корневом каталоге этого исходного дерева.
импорт argparse
импортировать pathlib
импортная горелка
из esm import Alphabet, FastaBatchedDataset, ProteinBertModel, предварительно обученный
по умолчанию create_parser ():
парсер = argparse.ArgumentParser (
description = «Извлечь представления для каждого токена и выходные данные модели для последовательностей в файле FASTA» # noqa
)
parser.add_argument (
«расположение_модели»,
type = str,
help = «Файл модели PyTorch ИЛИ имя предварительно обученной модели для загрузки (см. README для моделей)»,
)
парсер.add_argument (
«fasta_file»,
тип = pathlib.Path,
help = «Файл FASTA для извлечения представлений»,
)
parser.add_argument (
«output_dir»,
тип = pathlib.Путь,
help = «выходной каталог для извлеченных представлений»,
)
parser.add_argument (
«—toks_per_batch», type = int, по умолчанию = 4096, help = «максимальный размер пакета»
)
парсер.add_argument (
«—repr_layers»,
тип = int,
по умолчанию = [- 1],
nargs = «+»,
help = «индексы слоев, из которых извлекаются представления (от 0 до num_layers включительно)»,
)
парсер.add_argument (
«-включить»,
type = str,
nargs = «+»,
choices = [«среднее», «per_tok», «bos», «контакты»],
help = «укажите, какие представления возвращать»,
требуется = True
)
парсер.add_argument («- nogpu», action = «store_true», help = «Не использовать графический процессор, даже если он доступен»)
синтаксический анализатор возврата
def main (аргументы):
Модель

, алфавит = предварительно обученная.load_model_and_alphabet (args.model_location)
модель.eval ()
, если torch.cuda.is_available (), а не args.nogpu:
модель = model.cuda ()
принт («Перенесенная модель в GPU»)
набор данных = FastaBatchedDataset.from_file (args.fasta_file)
пакетов = набор данных.get_batch_indices (args.toks_per_batch, extra_toks_per_seq = 1)
data_loader = torch.utils.data.DataLoader (
Набор данных

, collate_fn = алфавит.get_batch_converter (), batch_sampler = партии
)
print (f «Прочитать {args.fasta_file} с {len (dataset)} последовательностями»)
аргументов.output_dir.mkdir (родители = True, exist_ok = True)
return_contacts = «contacts» в args.include
подтвердить все (
— (model.num_layers + 1) <= i <= model.num_layers для i в args.repr_layers
)
repr_layers = [
(i + модель.num_layers + 1)% (model.num_layers + 1) для i в args.repr_layers
]
с torch.no_grad ():
для batch_idx, (метки, строки, токены) в перечислении (data_loader):
печать (
f «Обработка {batch_idx + 1} из {len (bches)} партий ({toks.size (0)} последовательности) «
)
, если torch.cuda.is_available (), а не args.nogpu:
toks = toks.to (device = «cuda», non_blocking = True)
out = модель (токи, repr_layers = repr_layers, return_contacts = return_contacts)
logits = out [«logits»].to (device = «cpu»)
представлений = {
layer: t.to (device = «cpu») для слоя, t in out [«представления»]. Items ()
}
, если return_contacts:
contacts = out [«contacts»]. To (device = «cpu»)
для i, метка в перечислении (метки):
аргументов.output_file = (
args.output_dir / f «{label} .pt»
)
args.output_file.parent.mkdir (родители = True, exist_ok = True)
result = {«label»: label}
# Вызвать клонирование тензоров, чтобы тензоры не отображались в более крупном представлении
# См. Https: // github.com / pytorch / pytorch / issues / 1995
, если «per_tok» в args.include:
результат [«репрезентации»] = {
слой: t [i, 1: len (strs [i]) + 1] .clone ()
для слоя, t в views.items ()
}
, если «означает» в аргументах.включают:
результат [«mean_presentations»] = {
слой: t [i, 1: len (strs [i]) + 1] .mean (0) .clone ()
для слоя, t в views.items ()
}
, если «bos» в аргументах.включают:
результат [«bos_presentations»] = {
слой: t [i, 0] .clone () для слоя, t в репрезентациях.items ()
}
, если return_contacts:
результат [«контакты»] = контакты [i,: len (strs [i]),: len (strs [i])].клон ()
torch.save (
результат,
args.output_file,
)
, если __name__ == «__main__»:
парсер = create_parser ()
args = парсер.parse_args ()
основной (аргументы)

esm / .gitignore на master · facebookresearch / esm · GitHub

esm / .gitignore на master · facebookresearch / esm · GitHub

Постоянная ссылка

В настоящее время невозможно получить участников

27 строк (25 слотов)

234 байта

# Вывод компилятора #
##################
*.ру [треска]
* .so
* .o
* .exe
* .класс
# Папки #
###########
бин /
сборка /
расст /
местный /
тмп /
__pycache __ /
*.яйцо-информация /
.ipynb_checkpoints /
.vscode /
# Junk #
########
.DS_Store *
. *. Swp
* .swp
*.журнал
* ~

Вы не можете выполнить это действие в настоящее время.

Вы вошли в систему с другой вкладкой или окном. Перезагрузите, чтобы обновить сеанс.
Вы вышли из системы на другой вкладке или в другом окне. Перезагрузите, чтобы обновить сеанс.

esm / hubconf.py на главном сервере · facebookresearch / esm · GitHub

esm / hubconf.py на главном сервере · facebookresearch / esm · GitHub

Постоянная ссылка

В настоящее время невозможно получить участников

16 строк (14 слотов)

412 байт

# Авторские права (c) Facebook, Inc.и его аффилированные лица.
#
# Этот исходный код находится под лицензией MIT, найденной в
# LICENSE в корневом каталоге этого исходного дерева.
dependencies = [«torch»]
от esm.предобученный импортный (
esm1_t34_670M_UR50S,
esm1_t34_670M_UR50D,
esm1_t34_670M_UR100,
esm1_t12_85M_UR50S,
esm1_t6_43M_UR50S,
esm1b_t33_650M_UR50S,
esm_msa1_t12_100M_UR50S,
)

Вы не можете выполнить это действие в настоящее время.Вы вошли в систему с другой вкладкой или окном. Перезагрузите, чтобы обновить сеанс.
Вы вышли из системы на другой вкладке или в другом окне. Перезагрузите, чтобы обновить сеанс.

Трансформаторные языковые модели белков — это неконтролируемые изучающие структуру

1 Введение

Неконтролируемое моделирование белковых контактов играет важную роль в вычислительном дизайне белков (Russ et al., 2020; Tian et al., 2018; Blazejewski et al., 2019) и является центральным элементом всех современных методов прогнозирования структуры (Wang et al., 2017; Senior et al., 2020; Ян и др., 2019). Стандартный биоинформатический конвейер для неконтролируемого прогнозирования контактов включает в себя несколько компонентов со специализированными инструментами и базами данных, которые разрабатывались и оптимизировались десятилетиями. В этой работе мы предлагаем заменить текущий многоступенчатый конвейер одним прямым проходом предварительно обученной сквозной языковой модели белка. 1

В прошлом году моделирование белкового языка с целью обучения без учителя исследовалось несколькими группами (Rives et al., 2019; Alley et al., 2019; Heinzinger et al., 2019; Рао и др., 2019; Мадани и др., 2020). Давняя практика в биоинформатике заключалась в подгонке линейных моделей к целевым наборам эволюционно связанных и выровненных последовательностей; Напротив, моделирование на языке белков обучает нелинейные глубокие нейронные сети на больших базах данных эволюционно разнообразных и невыровненных последовательностей. Было показано, что модели языка с высокой емкостью белков изучают основные внутренние свойства белков, такие как структура и функция, на основе данных последовательностей (Rives et al., 2019).

Направление работы в этой развивающейся области предлагает Transformer для моделирования языка белков (Rives et al., 2019; Rao et al., 2019). Изначально разработанная сообществом НЛП для представления долгосрочного контекста, основным нововведением модели Transformer является использование самовнимания (Vaswani et al., 2017). Самовнимание имеет особое значение для моделирования белковых последовательностей. В отличие от сверточных и рекуррентных моделей LSTM, Transformer строит карту попарного взаимодействия между всеми позициями в последовательности.В принципе, этот механизм имеет идеальную форму для моделирования контактов остаток-остаток.

Теоретически сквозное обучение с помощью языковой модели имеет преимущества по сравнению с конвейером биоинформатики: (i) оно заменяет дорогостоящие этапы запроса, согласования и обучения одним проходом вперед, что значительно ускоряет извлечение признаков; и (ii) он имеет общие параметры для всех семейств белков, что позволяет сделать обобщение за счет выявления общности миллионов эволюционно разнообразных и неродственных последовательностей.

Мы демонстрируем, что модели белков Transformer изучают контакты на картах самовнимания с современной производительностью. Мы сравниваем ESM-1b (Rives et al., 2020), крупномасштабную (параметры 650M) модель трансформатора, обученную на UniRef50 (Suzek et al., 2007), с конвейером Gremlin (Kamisetty et al., 2013), который реализует логарифмическая линейная модель, обученная с использованием псевдоядия (Balakrishnan et al., 2011; Ekeberg et al., 2013). Контакты могут быть извлечены из карт внимания модели Transformer с помощью разреженной линейной комбинации голов внимания, идентифицированных логистической регрессией.Контакты модели ESM-1b имеют более высокую точность, чем контакты Gremlin. Когда ESM и Gremlin сравниваются с доступом к одному и тому же набору последовательностей, выигрыш в точности от модели языка белка является значительным; Преимущество сохраняется в среднем даже тогда, когда Gremlin предоставляется доступ к оптимизированному набору множественных выравниваний последовательностей, включающих данные метагеномики.

Мы обнаруживаем линейную зависимость между сложностью языкового моделирования и точностью контакта. Мы также находим доказательства ценности совместного использования параметров: модель ESM-1b значительно превосходит Gremlin по протеинам с малой глубиной MSA.Наконец, мы исследуем способность языковой модели Transformer генерировать последовательности и покажем, что сгенерированные последовательности сохраняют контактную информацию.

3 Сопутствующие работы

Существует долгая история предсказания контакта с белками (Adhikari & Cheng, 2016) как с помощью MSA, так и в последнее время с использованием моделей языка белков.

Предсказание контактов с учителем

Недавно контролируемые методы, использующие глубокое обучение, привели к прорывным результатам в предсказании контактов с учителем (Wang et al., 2017; Джонс и Кандатил, 2018; Ян и др., 2019; Senior et al., 2020; Адхикари и Элофссон, 2020). Современные методы используют глубокие остаточные сети, обученные под наблюдением многих белковых структур. Входными данными обычно являются ковариационная статистика (Jones & Kandathil, 2018; Adhikari & Elofsson, 2020) или предполагаемые коэволюционные параметры (Wang et al., 2017; Liu et al., 2018; Senior et al., 2020; Yang et al., 2019). Другая недавняя работа с глубоким обучением использует в качестве входных данных последовательности или эволюционные особенности (AlQuraishi, 2018; Ingraham et al., 2019). Xu et al. (2020) демонстрирует, что включение коэволюционных функций имеет решающее значение для выполнения современных современных методов.

Неконтролируемое предсказание контакта

В отличие от контролируемых методов, модели неконтролируемого предсказания контакта обучаются на последовательностях без информации от белковых структур . В принципе, это позволяет им пользоваться преимуществами больших баз данных последовательностей, которые включают информацию из многих последовательностей, для которых недоступны структурные знания.Основной подход заключался в изучении эволюционных ограничений среди набора похожих последовательностей путем подгонки марковского случайного поля (модель Поттса) к лежащему в основе MSA, метод, известный как анализ прямой связи (DCA). Это было предложено Lapedes et al. (1999) и повторно введен Thomas et al. (2008) и Weigt et al. (2009).

Различные методы были разработаны для соответствия лежащему в основе марковскому случайному полю, включая DCA среднего поля (mfDCA) (Morcos et al., 2011), разреженную обратную ковариацию (PSICOV) (Jones et al., 2011) и максимизации псевдоядности (Balakrishnan et al., 2011; Ekeberg et al., 2013; Seemayer et al., 2014). Максимизация псевдодостоверности обычно считается современным для неконтролируемого прогнозирования контактов, и реализация Gremlin (Balakrishnan et al., 2011) используется в качестве основы повсюду. Мы также предоставляем базовые уровни mfDCA и PSICOV. В последнее время методы глубокого обучения также применялись для подбора MSA, и Riesselman et al. (2018) обнаружили доказательства того, что факторы, изученные с помощью модели VAE, могут коррелировать со структурой белка.

Прогнозирование структуры по контактам

Хотя мы не выполняем предсказание структуры в этой работе, было предложено множество методов для расширения предсказания контактов до предсказания структуры. Например, EVFold (Marks et al., 2011) и DCAFold (Sulkowska et al., 2012) предсказывают коэволюционирующие связи с использованием модели Поттса, а затем генерируют трехмерные конформации путем прямого сворачивания исходной конформации с моделированием отжига, используя предсказанный остаток -остаточные контакты как ограничения. Аналогичным образом FragFold (Kosciolek & Jones, 2014) и Rosetta (Ovchinnikov et al., 2016) включают ограничения из модели Поттса в конвейер на основе сборки фрагментов. Senior et al. (2019), используйте функции из модели Поттса, подходящей для максимизации псевдовероятности, для прогнозирования попарных расстояний с глубокой остаточной сетью и оптимизации окончательной структуры с помощью Rosetta. Все эти работы строятся непосредственно на конвейере неконтролируемого прогнозирования контактов.

Контактное предсказание на основе языковых моделей белков

С момента появления крупномасштабных языковых моделей для обработки естественного языка (Vaswani et al., 2017; Devlin et al., 2019), существует значительный интерес к разработке аналогичных моделей для белков (Alley et al., 2019; Rives et al., 2019; Heinzinger et al., 2019; Rao et al., 2019; Elnaggar et al. др., 2020).

Rives et al. (2019) были первыми, кто изучил языковые модели белков-трансформеров, продемонстрировав, что информация о контактах остаток-остаток может быть восстановлена ​​из изученных представлений с помощью линейных проекций, контролируемых структурами белков. Недавно Vig et al.(2020) провели обширный анализ внимания Transformer, выявив соответствия биологически значимым характеристикам, а также обнаружили, что разные уровни модели отвечают за изучение различных функций. В частности, Vig et al. (2020) изучили механизм самовнимания и обнаружили корреляцию между картами самовнимания и паттернами контактов, предположив, что их можно использовать для прогнозирования контактов.

Предыдущая работа по тестированию предсказания контактов с помощью моделей языка белков была сосредоточена на контролируемой проблеме.Bepler & Berger (2019) были первыми, кто настроил LSTM, предварительно обученный на последовательностях белков, для соответствия контактам. Рао и др. (2019) и Rives et al. (2020) проводят сравнительный анализ нескольких языковых моделей белков с использованием глубокой остаточной сети, соответствующей контролируемому обучению, поверх предварительно обученных функций языкового моделирования.

В отличие от предыдущей работы над моделями языка белков, мы обнаружили, что современный неконтролируемый предиктор контакта может быть непосредственно извлечен из карт самовнимания Transformer.Мы проводим тщательный анализ предсказателя контактов, показывая взаимосвязь между производительностью и глубиной MSA, а также затруднения языкового моделирования. Мы также предлагаем методы для повышения производительности с использованием последовательностей из MSA и для выборки последовательностей таким образом, чтобы сохранить контакты.

4 Модели

Мы сравниваем модели Transformer, обученные на больших базах данных последовательностей, с моделями Potts, обученными на индивидуальных MSA. Хотя модели Трансформеров и Поттса возникли в отдельных исследовательских сообществах, эти две модели имеют общие общие черты (Wang & Cho, 2019), которые мы используем здесь.Наш главный результат состоит в том, что точно так же, как Gremlin напрямую представляет контакты через свою парную составляющую (веса), Трансформатор также напрямую представляет контакты через свою парную составляющую (самовнимание).

4.1 Цели

Для набора обучающих последовательностей, X , Gremlin оптимизирует следующую потерю псевдодостоверности, когда одна позиция маскируется и прогнозируется из ее контекста. Поскольку входные данные для Gremlin выровнены, все они имеют длину L :

Потери моделирования на языке маскировки (MLM), используемые моделями Transformer, можно рассматривать как обобщение цели модели Поттса, если записать ее следующим образом:

В отличие от Gremlin, цель MLM, применяемая при моделировании языка белков, обучается на невыровненных последовательностях.Ключевым отличием MLM является одновременное маскирование и прогнозирование нескольких позиций, а не маскирование и прогнозирование по одному. Это позволяет масштабировать модель за пределы отдельных MSA до массивных наборов данных последовательности. На практике математическое ожидание под маскирующим шаблоном вычисляется стохастически с использованием одной выборки в каждую эпоху.

4.2 Gremlin

Логическая вероятность, оптимизированная Gremlin, описана в разделе A.3. Контакты извлекаются из попарных параметров Гремлина путем взятия нормы Фробениуса по размерам аминокислот, в результате получается матрица связи L × L .Поправка на среднее произведение (APC) применяется к этой матрице связи для определения окончательных прогнозов (раздел A.2).

Gremlin принимает MSA в качестве входных данных. Качество прогнозов на выходе сильно зависит от построения MSA. Мы сравниваем с Гремлином при двух условиях. В первом условии мы представляем Gremlin все MSA из обучающего набора trRosetta (Yang et al., 2019). Эти MSA были созданы из всех Uniref100, а также дополнены метагеномными последовательностями, когда глубина из Uniref100 слишком мала.TrRosetta MSA — ключевой ингредиент современного конвейера фолдинга белков. См. Yang et al. (2019) для обсуждения значительного влияния метагеномных последовательностей на конечный результат. Во втором параметре мы разрешаем Gremlin доступ только к той же информации, что и ESM Transformers, генерируя MSA через Jackhmmer на обучающем наборе ESM (подмножество Uniref50). См. Раздел A.5 для получения информации о параметрах Jackhmmer.

4.3 Трансформаторы

Мы оцениваем несколько предварительно обученных моделей трансформаторов, включая ESM-1 (Rives et al., 2019), ProtBert-BFD (Elnaggar et al., 2020) и TAPE Transformer (Rao et al., 2019). Ключевыми различиями между этими моделями являются наборы данных, размеры моделей и гиперпараметры (основные различия в архитектуре описаны в таблице 3). Лю и др. (2019) ранее показали, что эти изменения могут существенно повлиять на производительность окончательной модели. Помимо ESM-1, мы также оцениваем обновленную версию ESM-1b, которая является результатом развертки гиперпараметров. Различия описаны в разделе А.4. Трансформатор обрабатывает входные данные через серию блоков, чередующих уровни самовнимания с несколькими головками и уровни прямой связи. В каждом заголовке уровня самовнимания Transformer рассматривает закодированное представление как набор троек запроса-ключ-значение. Вывод головы — результат масштабированного внимания скалярного произведения:

Вместо того, чтобы вычислять внимание только один раз, подход с несколькими головками запускает масштабированное скалярное произведение внимания несколько раз параллельно и объединяет выходные данные. Поскольку самовнимание явно конструирует парные взаимодействия ( QK T ) между всеми положениями в последовательности, модель может непосредственно представлять взаимодействия остаток-остаток.В этой работе мы демонстрируем, что парные «карты собственного внимания» QK T действительно фиксируют точные контакты.

4.4 ЛОГИСТИЧЕСКАЯ РЕГРЕССИЯ

Чтобы извлечь контакты из трансформатора, мы сначала пропускаем входную последовательность через модель, чтобы получить карты внимания (одна карта для каждой головы в каждом слое). Затем мы симметризуем и применяем APC к каждой карте внимания независимо. Полученные карты проходят через L 1 -регуляризованную логистическую регрессию, которая применяется независимо к каждой паре аминокислот ( i, j ).Во время обучения мы тренируем только веса логистической регрессии; мы не распространяемся по всей модели. Во время тестирования весь конвейер прогнозирования может быть запущен за один прямой проход, обеспечивая единый сквозной конвейер для прогнозирования контакта с белками, который не требует каких-либо шагов извлечения из базы данных последовательностей. См. Рисунок 1 для иллюстрации этого конвейера и Раздел A.7 для полного описания настройки логистической регрессии.

Рисунок 1:

Конвейер прогнозирования контактов.Трансформатор сначала предварительно обучается на последовательностях из большой базы данных (Uniref50) с помощью моделирования на языке маскировки. После завершения обучения карты внимания извлекаются, проходят симметризацию и корректировку среднего продукта, а затем переходят в регрессию. Регрессия обучается на небольшом количестве ( n ≤ 20) белков, чтобы определить, какие головы внимания являются информативными. Во время тестирования прогнозирование контакта на основе входной последовательности может быть выполнено полностью на графическом процессоре за один прямой проход.

5 Результаты

Мы оцениваем модели с белками 15051 в наборе обучающих данных trRosetta (Yang et al., 2019), удалив 43 белка с длиной последовательности больше 1024, поскольку ESM-1b был обучен с размером контекста 1024. Из этих последовательностей Джекхммер терпит неудачу на 126, когда мы пытаемся построить MSA с использованием обучающего набора ESM (см. Раздел A .5). В итоге у нас осталось 14882 последовательности. Мы оставляем за собой 20 последовательностей для обучения, 20 последовательностей для проверки и 14842 последовательности для тестирования.

В таблице 1 приведены оценки моделей Gremlin, ESM-1, ESM-1b, а также моделей TAPE и ProtBERT-BFD. Доверительные интервалы находятся в пределах 0.5 процентных пунктов для всех статистических данных в таблицах 1 и 2. В таблице 1 все предикторы контактов модели Transformer обучены с помощью логистической регрессии для 20 белков. Мы обнаружили, что всего с 20 обучающими белками ESM-1b имеет более высокую точность, чем Gremlin, для контактов на короткие, средние и дальние расстояния.

Таблица 1:

Средняя точность 14842 тестовых структур для моделей трансформаторов, обученных на 20 структурах.

Таблица 2:

Абляции ESM-1b под ограниченным контролем и с информацией MSA. n — количество обучающих белков логистической регрессии. s — количество ансамблей последовательностей.

Таблица 3:

основных различий в архитектуре в моделях языка протеинового преобразователя

В дополнение к этому набору мы также оцениваем производительность 15 FM-доменов CASP13 в Разделе A.6. В среднем ESM-1b имеет более высокую точность на коротких, средних и длинных дистанциях, чем Gremlin по всем показателям, и, в частности, может значительно превосходить MSA с низким эффективным числом последовательностей. Мы также проводим сравнение с билинейной моделью, предложенной Ривесом и др.(2020). Модель логистической регрессии достигает точности контакта на большом расстоянии при L, равном 18,6, в то время как полностью контролируемая билинейная модель достигает точности на большом расстоянии при L, равном 20,1, что всего на 1,5 балла, несмотря на то, что обучение проводилось на 700-кратном большем количестве структур.

5.1 Абляции: ограничение надзора

В то время как задача языкового моделирования полностью неконтролируема, логистическая регрессия обучается с помощью небольшого количества контролируемых примеров. В этом разделе мы изучаем зависимость результатов от этого наблюдения, предоставляя доказательства того, что контакты действительно усваиваются в неконтролируемой фазе, а логистическая регрессия необходима только для извлечения контактов.

Top Heads

Здесь мы используем логистическую регрессию только для определения наиболее важных голов. После того, как они выбраны, мы отбрасываем веса из логистической регрессии и просто усредняем головы внимания, соответствующие значениям веса top-k. Взяв единственную лучшую голову из ESM-1b, мы приближаемся к производительности Gremlin при тех же данных, а усреднение пяти лучших голов позволяет нам превзойти Gremlin. Усреднение топ-10 голов превосходит полную логистическую регрессию по всем другим моделям Transformer и приближается к Gremlin с учетом оптимизированных MSA.

Low-N

Второй вариант, который мы рассматриваем, заключается в ограничении количества контролируемых примеров, предоставляемых для логистической регрессии. Мы обнаружили, что с только с одним обучающим примером , модель достигает дальности верхнего L-точности 39,2, что статистически неотличимо от Gremlin (p> 0,05). Используя всего 10 обучающих примеров, модель превосходит Gremlin по всем показателям. Поскольку эти результаты зависят от выбранных обучающих белков, мы также показываем загрузочное распределение производительности с использованием 100 различных моделей логистической регрессии в разделе A.10. Мы обнаружили, что с 1 белком эффективность может значительно различаться: среднее значение максимальной точности L = 35,6, медиана 38,4 и стандартное отклонение 8,9. Эта вариация значительно уменьшается при тренировке с 20 белками, при этом среднее значение дальности верхнего L составляет 40,1, медиана 41,1 и стандартное отклонение 0,3. См. Рисунок 12 для полного распределения всех статистических данных.

Только MSA

Наконец, мы рассматриваем контроль логистической регрессии только с помощью MSA, а не реальных структур.Это те же данные обучения, которые использовались в базовых показателях Gremlin. Для этого мы сначала обучаем Гремлина на каждом MSA. Мы берем выходные связи от Gremlin и помечаем верхние L-связи с разделением последовательностей ≥ 6 в каждом белке как истинные контакты, а все остальное как ложные контакты, создавая проблему бинарного решения. При обучении на 20 MSA мы обнаружили, что эта модель достигает P @ L на дальних дистанциях, равного 39,9, и в целом обеспечивает такие же характеристики на дальних дистанциях, что и Gremlin, при сохранении превосходной точности контакта на коротких и средних дистанциях.

5.2 Ансамблирование MSA

Модели трансформаторов в основном являются моделями с одной последовательностью, но мы можем дополнительно повысить производительность, объединяя предсказания из нескольких последовательностей при выравнивании. Для этого мы отменяем выравнивание каждой последовательности в выравнивании (удаляя любые пробелы), пропускаем полученную последовательность через преобразователь и регрессию и повторно выравниваем результирующие карты контактов с исходными выровненными индексами. Для этих экспериментов мы используем веса логистической регрессии, обученные на входах с одной последовательностью, а не повторно обучаем логистическую регрессию на входах с несколькими последовательностями.Мы также просто берем первые s последовательностей в MSA. В таблице 2 показаны улучшения производительности при усреднении по 16, 32 и 64 последовательностям.

Чтобы лучше понять этот результат, мы возвращаемся к настройке одиночной последовательности и изучаем изменение предсказания при переключении между последовательностями в выравнивании. Мы обнаружили, что точность контакта может значительно варьироваться в зависимости от точной последовательности, вводимой в модель, и что исходная последовательность запроса MSA не обязательно обеспечивает наивысшую точность контакта (рисунок 9).

Наконец, Alley et al. (2019) представили метод тонкой настройки, при котором предварительно обученная языковая модель дополнительно обучается на MSA интересующей последовательности («evotuning»). Ранее это исследовалось только для прогнозирования функций и для моделей с относительно низкой производительностью. Мы настраиваем полную модель ESM-1b (которая имеет в 50 раз больше параметров, чем UniRep) для 380 семейств последовательностей белков. Мы обнаружили, что после 30 периодов точной настройки P @ L на больших расстояниях увеличивается лишь незначительно, в среднем на 1.6 процентных пунктов (рисунок 16).

5.3 Распределение производительности

Хотя наша модель в среднем лучше, чем Gremlin при обнаружении контактов, распределение производительности по всем последовательностям в наборе данных по-прежнему неоднозначно. ESM-1b неизменно лучше извлекает контакты на короткие и средние расстояния (рис. 7), но лишь немного превосходит Gremlin по контактам дальнего действия, когда у Gremlin есть доступ к Uniref100 и метагеномным последовательностям. На рисунке 2 показано распределение P @ L на больших расстояниях для ESM-1b по сравнению сГремлин. В целом, ESM-1b имеет более высокий P @ L дальнего действия на 55% последовательностей в тестовой выборке.

Рисунок 2:

Слева: затруднения при проверке языкового моделирования при задержке Uniref50 и точности контакта в ходе предварительного обучения. ESM-1b был обучен с разной маскировкой, поэтому сложности между версиями несопоставимы. Справа: распределение характеристик P @ L на больших расстояниях ESM-1b по сравнению с Gremlin. Каждая точка окрашена в журнал количества последовательностей в MSA, используемых для обучения Гремлина.

Кроме того, мы исследуем взаимосвязь между глубиной MSA и точностью для коротких, средних и дальних контактов (рис. 3).Хотя наш конвейер прогнозирования контактов не использует явным образом MSA, все же существует некоторая корреляция между глубиной MSA и производительностью, поскольку глубина MSA является мерой того, сколько связанных последовательностей присутствует в обучающем наборе ESM-1b. Мы снова видим, что ESM-1b стабильно превосходит Gremlin на всех глубинах MSA для коротких и средних последовательностей. Мы также подтверждаем, что ESM-1b превосходит Gremlin в отношении извлечения контактов на большие расстояния для последовательностей с малым MSA (глубина <1000). ESM-1b также превосходит Gremlin в последовательностях с очень большими MSA (глубина> 16000), что согласуется с предыдущими исследованиями, показывающими плато производительности Gremlin для очень больших MSA, и предполагает, что ESM-1b не страдает теми же проблемами (Анищенко и др. al., 2017).

Рисунок 3: Производительность

Gremlin (trRosetta) с разбивкой по глубине MSA. Для сравнения также показаны характеристики ESM-1b для последовательностей в каждом бине.

Рисунок 4:

Веса логистической регрессии, обученные только для контактов в определенных диапазонах: локальные [3, 6), короткие [6, 12), средние [12, 24), длинные [24, ∞) ».

5.4 Веса логистической регрессии

В Разделе 5.1 мы показываем, что выбор только разреженного подмножества головок внимания может дать хорошие результаты для прогнозирования контактов.В целом, регуляризованная логистическая регрессия L 1 определяет, что 102/660 голов позволяют прогнозировать контакты (рис. 6b). Кроме того, мы обучаем отдельным логистическим регрессиям для выявления контактов в разных диапазонах (локальных, коротких, средних и дальних). Эти регрессии выявляют перекрывающийся, но не идентичный набор полезных ориентиров. Две головы внимания имеют 10-ку наивысших весов для обнаружения контактов на всех дистанциях. Одна голова внимания очень положительно коррелирует с местными контактами, но сильно отрицательно коррелирует с дальними контактами.Наконец, мы идентифицируем в общей сложности 104 головы внимания, которые коррелируют (положительно или отрицательно) с контактами только в одном из четырех диапазонов, предполагая, что определенные головы внимания специализируются на обнаружении определенных типов контактов.

5.5 Сложность и точность контакта

На рис. 2 показана взаимосвязь между производительностью задачи моделирования замаскированного языка (затруднение валидации) и предсказанием контакта (Long Range P @ L). Между сложностью проверки и контактной точностью для каждой модели существует линейная зависимость.Более того, при той же сложности 12-уровневая модель ESM-1 достигает того же P @ L дальнего действия, что и 34-слойная модель ESM-1, предполагая, что недоумение является хорошей прокси-задачей для прогнозирования контактов. Модели ESM-1 и ESM-1b обучаются с использованием разных шаблонов маскировки, поэтому их сложности нельзя сравнивать напрямую, хотя линейная связь четко видна в обоих. ESM-1 и ESM-1b имеют одинаковое количество параметров; ключевое отличие заключается в их гиперпараметрах и архитектуре. Показанные модели сходятся во время предварительного обучения с минимальным уменьшением сложности (или увеличением точности контакта) в более поздние эпохи.Это ясно свидетельствует о том, что как масштаб модели, так и гиперпараметры играют важную роль в способности модели узнавать контакты.

5.6 Калибровка, ложные срабатывания и надежность

Одна проблема с большими нейронными сетями заключается в том, что, хотя они могут быть точными в среднем, они также могут давать ложные результаты с высокой степенью уверенности. Мы исследуем эту возможность с нескольких точек зрения. Во-первых, мы обнаруживаем, что вероятности логистической регрессии близки к истинной вероятности контакта (среднеквадратичная ошибка = 0.014) и может использоваться непосредственно как мера уверенности модели (рисунок 11).

Во-вторых, мы анализируем ложные срабатывания, которые предсказывает модель. Мы обнаружили, что они, скорее всего, находятся на манхэттенском расстоянии 1–4 от истинного контакта (рис. 13а). Это говорит о том, что ложные срабатывания могут возникать из-за способа определения контакта (расстояние Cb-Cb в пределах 8 ангстрем) и могут быть отмечены как истинные контакты в соответствии с другим определением (Zheng & Grigoryan, 2017). Кроме того, когда мы исследуем пример, в котором предсказания модели не близки к истинному контакту, мы видим, что рассматриваемый пример является гомодимером, и что модель учитывает межцепочечные взаимодействия (рис. 14а).Хотя они не определяют структуру мономера, они важны для его функции (Анищенко и др., 2017).

В-третьих, мы проверяем устойчивость модели к вставкам, вставляя последовательные аланины в начало, середину или конец 1000 случайно выбранных последовательностей. Мы обнаружили, что ESM-1b может выдерживать до 256 вставок в начале или в конце последовательности и до 64 вставок в середине последовательности, прежде чем производительность начнет значительно ухудшаться. Это говорит о том, что ESM-1b изучает надежное неявное выравнивание белковой последовательности.См. Раздел A.12 для получения более подробной информации.

5.7 MSA Generation

Wang & Cho (2019) отмечают, что трансформеры, обученные цели MLM, могут использоваться генеративно. Здесь мы рассматриваем, сохраняют ли поколения от ESM-1b контактную информацию для данного белка. Способность генерировать последовательности, сохраняющие эту информацию, является необходимым условием для генерации биологически активных белков. Мы выполняем эту оценку, беря входной белок, маскируя несколько позиций и повторно прогнозируя их.Этот процесс повторяется 10000 раз, чтобы сгенерировать псевдо-MSA для входной последовательности (см. Алгоритм 1). Мы передаем полученную MSA в Gremlin для прогнозирования контактов. по всем последовательностям из нашего тестового набора эта процедура приводит к P @ L контакта на большом расстоянии 14,5. На рисунке 17 показан один пример, в котором процедура работает хорошо, когда Gremlin на псевдо-MSA имеет P @ L дальнего действия, равное 52,2. Для сравнения, стандартный трубопровод ESM-1b в этом примере достигает точности контакта 76,7.

A Приложение

A.1 Обозначение

На рисунках указана точность контакта в диапазоне от 0,0 до 1,0. В тексте и в таблицах мы указываем точность контакта в процентах в диапазоне от 0 до 100.

A.2 Коррекция среднего продукта (APC)

При прогнозировании контакта с белками APC обычно используется для корректировки фоновые эффекты энтропии и филогении (Dunn et al., 2008). Учитывая матрицу связи L × L F , APC определяется как

Где F i , F j и F — это сумма по i -й строке, j -й столбцу и полной матрице соответственно.Мы применяем APC независимо к симметричным картам внимания каждой головы в Transformer. Эти исправленные карты внимания передаются в качестве входных данных для логистической регрессии.

A.3 Подробности реализации Gremlin

Gremlin обучается путем оптимизации псевдодостоверности W и V , которые соответствуют попарным и индивидуальным аминокислотным склонностям. Приближение псевдодородности моделирует условные распределения исходного совместного распределения и может быть записано:

при условии, что W ii = 0 для всех i и что W ijab является симметричным как в последовательности ( i, j ), так и в аминокислоте ( a, b ).Кроме того, Gremlin использует параметр регуляризации, который регулируется в зависимости от глубины MSA.

A.4 Детали реализации ESM-1

Исходные модели ESM-1 были описаны в (Rives et al., 2019). ESM-1 обучается на Uniref50, в отличие от модели TAPE, которая обучается на Pfam (Finn et al., 2014), и модели ProtBERT-BFD, которая обучается на Uniref100 и BFD100 (Steinegger et al., 2019). ESM-1b — это новая модель, которая является результатом обширной развертки гиперпараметров, которая проводилась на более мелких 12-слойных моделях.ESM-1b является результатом увеличения этой модели до 33 слоев.

По сравнению с ESM-1, основные изменения в ESM-1b: более высокая скорость обучения; выпадение после встраивания слова; выученные позиционные вложения; норма конечного слоя перед выводом; и связанные вложения слов ввода / вывода. Вес для всех моделей ESM-1 и ESM-1b можно найти на https://github.com/facebookresearch/esm.

A.5 Jackhmmer Details

Мы используем Jackhmmer версии 3.3.1 с порогом битового ядра 27 и 8 итераций для построения MSA из обучающего набора ESM.Сбои в 126 последовательностях, упомянутые в разделе 4.4, являются результатом ошибки сегментации в hmmbuild после нескольких итераций (количество успешных итераций до ошибки сегментации зависит от входной последовательности). Поскольку мы видим этот сбой менее чем для 1% набора данных, мы предпочитаем игнорировать эти последовательности во время оценки.

Кроме того, мы оценили альтернативные MSA, запустив Jackhmmer до достижения Neff 128 (максимум 8 итераций), процедура, описанная Zhang et al.(2020). Это привело к очень похожим, но немного худшим результатам (средний дальний P @ L 29,3 по сравнению с 31,3 при постоянном использовании выходных данных восьмой итерации). Поэтому мы решили сообщать о результатах, используя максимум 8 итераций.

A.6 Результаты по CASP13

В таблице 4 мы приводим результаты по 15 целям бесплатного моделирования CASP13, для которых были опубликованы PDB. Оцениваются следующие специфические домены: T0950-D1, T0957s2-D1, T0960-D2, T0963-D2, T0968s1-D1, T0968s2-D1, T0969-D1, T0980s1-D1, T0986s2-D1, T0990-D1. Т1000-Д2, Т1021с3-Д1, Т1021с3-Д2, Т1022с1-Д1.ESM-1b может превзойти Gremlin, и простое усреднение 10 лучших голов ESM-1b дает сравнимую производительность с Gremlin.

Таблица 4:

Средние показатели по 15 целям CASP13 FM. Все базовые показатели используют MSA, созданные с помощью подхода генерации MSA trRosetta.

Кроме того, мы сравниваем нашу модель логистической регрессии с моделью прогнозирования билинейных контактов, предложенной Rives et al. (2020). Эта модель обучает две отдельные линейные проекции слоя окончательного представления и вычисляет вероятности контакта через внешнее произведение двух проекций плюс член смещения, который генерирует следующую ненормализованную логарифмическую вероятность:

Здесь x — вектор длины последовательности объектов в формате.Каждый W i представляет собой матрицу in, где k — гиперпараметр, управляющий размером проекции.

Мы обучаем эту модель как ограниченному наблюдению ( n = 20), так и настройке полного контроля ( n = 14257). Для настройки ограниченного наблюдения мы используем те же 20 белков, которые использовались для обучения модели разреженной логистической регрессии. Для настройки полного контроля мы генерируем 95/5% случайное разделение для обучения / проверки 15008 белков trRosetta с длиной последовательности ≤ 1024.

Мы выполнили независимый поиск по сетке по скорости обучения, снижению веса и скрытому размеру для двух настроек. Для параметра n = 20 мы обнаружили, что скорость обучения 0,001, снижение веса 10,0 и размер проекции 512 показали наилучшую производительность на проверочном наборе. Для параметра n = 14257 мы обнаружили, что скорость обучения 0,001, снижение веса 0,01 и размер проекции 512 показали наилучшую производительность на проверочном наборе. Все модели были обучены сходимости, чтобы максимизировать P @ L валидации с терпением 10. n = 20 моделей были обучены с размером пакета 20 (т.е. 1 пакет = 1 эпоха), а n = 14257 моделей были обучены с размером пакета 128.

Билинейная модель работает очень плохо при ограниченном контроле. настройки, хуже, чем просто взять голову первого уровня внимания. При полном контроле он умеренно превосходит логистическую регрессию для увеличения P @ L на 1,5, используя в 700 раз больше данных.

На рисунке 5 мы отображаем результаты по 15 целям FM, окрашенным эффективным количеством последовательностей.ESM-1b показывает более высокую точность в среднем на L и L / 5, а иногда значительно выше для последовательностей с низким Neff. Поскольку обучающие данные ESM-1b были сгенерированы до CASP13, это говорит о том, что ESM-1b может хорошо обобщаться на новые последовательности.

Рисунок 5:

Результаты для 15 FM-доменов CASP13, окрашенных Неффом.

A.7 Детали логистической регрессии

Для модели с M слоев, H головок и входной последовательностью x длины L , пусть A mh будет контактом L × L карта с h-й головы в m-м слое.Сначала мы симметризуем эту карту и применяем APC, и пусть a mhi j будет связующим весом между позицией последовательности i и j в результирующей карте. Затем мы определяем вероятность контакта между позициями i и j согласно логистической регрессии с параметрами β :

Чтобы соответствовать β , пусть будет набором обучающих белков, k будет минимальным разделением последовательностей, а λ будет весом регуляризации. Тогда цель может быть определена следующим образом:

Мы подбираем параметры β с помощью scikit-learn (Pedregosa et al., 2011) и не распространяют градиенты обратно через веса внимания. Всего наша модель изучает параметров MH + 1, многие из которых равны нулю благодаря регуляризации L 1 .

В нашей обучающей установке есть три гиперпараметра: количество белков в нашем обучающем наборе, параметр регуляризации λ и минимальное разделение последовательностей обучающих контактов k . Мы обнаружили, что производительность значительно улучшается при увеличении количества белков с 1 до 10, но прирост производительности снижается при увеличении с 10 до 20 (рис. 1).С помощью развертки гиперпараметров мы определили, что оптимальное значение λ равно 0,15. Мы обнаружили, что игнорирование локальных контактов (| i — j | <6) также полезно. Следовательно, если не указано иное, все логистические регрессии обучаются с λ = 0,15, k = 6. См. Рисунок 6a для поиска по сетке количества обучающих белков и штрафа за регрессию. Для этого поиска по сетке мы использовали 20 обучающих белков и 20 проверочных белков. На рисунке 6b показаны веса окончательной логистической регрессии, использованной для ESM-1b.

Рисунок 6:

(a) Сетевой поиск по логистической регрессии по количеству обучающих примеров и штрафу за регуляризацию числа. Показанные значения представляют собой большие значения P @ L для проверочного набора из 20 белков. (b) Веса на голову и по слоям логистической регрессии на лучшей модели ESM-1b.

A.7 Распределение производительности

На рисунке 7 показано полное распределение производительности ESM-1b по сравнению с Gremlin. Когда мы предоставляем Gremlin доступ к Uniref100, наряду с метагеномными последовательностями, ESM-1b по-прежнему стабильно превосходит Gremlin при извлечении контактов ближнего и среднего радиуса действия.Для контактов на большие расстояния Gremlin гораздо более сопоставим и имеет более высокую точность контакта в 47% последовательностей. Имея доступ к одному и тому же набору последовательностей, ESM-1b неизменно превосходит Gremlin в обнаружении коротких, средних и дальних контактов. Это говорит о том, что ESM-1b может намного лучше извлекать информацию из того же набора последовательностей, и предполагает, что дальнейшее масштабирование обучающих данных может улучшить ESM-1b еще больше.

Рисунок 7:

Распределение характеристик P @ L для коротких, средних и длинных дистанций ESM-1b в сравнении сГремлин. Каждая точка окрашена в журнал 2 числа последовательностей в MSA.

Этот анализ дополнительно подтверждается на рисунке 8. При таком же наборе последовательностей ESM-1b превосходит Gremlin в среднем по коротким, средним и дальним контактам, независимо от глубины MSA, сгенерированного при обучении ESM-1b. набор.

Рисунок 8: Производительность

Gremlin с разбивкой по глубине MSA с использованием MSA ESM (вверху) и trRosetta (внизу). Для сравнения также показаны характеристики ESM-1b для последовательностей в каждом бине.

Кроме того, мы обнаружили, что ESM-1b может предоставлять различные карты контактов для различных последовательностей в MSA (рис. 9). Это невозможно для Гремлин, которая является моделью на уровне семьи. Мы используем это довольно простым способом, чтобы обеспечить умеренное повышение точности контакта ESM-1b (раздел 5.2).

Рисунок 9:

Распределение затруднений при оценке различных последовательностей из одного и того же MSA. Ось x показывает индекс каждой последовательности, отсортированный в возрастающем порядке по расстоянию Хэмминга от последовательности запроса (последовательность запроса всегда имеет индекс 0).Ось ординат показывает P @ L на большом расстоянии. Черная линия показывает производительность Gremlin на этом MSA.

A.9 Вторичная структура

В разделе 5.4 мы показываем, что некоторые головки, которые обнаруживают локальные контакты (которые часто соответствуют вторичной структуре), на самом деле имеют отрицательную корреляцию с контактами дальнего действия. Мы тестируем способность ESM-1b обнаруживать вторичную структуру посредством внимания, обучая отдельную логистическую регрессию на наборе данных Netsurf (Klausen et al., 2019). Как и в случае с логистической регрессией по контактам, мы вычисляем внимание и выполняем симметризацию APC +.Чтобы предсказать вторичную структуру аминокислоты i , мы вводим в качестве входных данных муфты a mhij для каждого слоя m , для каждой головы h и для j ∈ [ i — 5 , i + 5], всего 7260 входных объектов. Используя всего 100 из 8678 обучающих белков, мы достигаем 79,3% точности предсказания вторичной структуры 3 классов на тестовом наборе CB513 (Cuff & Barton, 1999). На рисунке 10 показана важность каждого уровня для прогнозирования трех классов вторичной структуры.

Рис. 10:

L2 норма весов для 3-х классного предсказания вторичной структуры уровнем трансформатора.

В разных слоях есть пики для всех трех классов, что указывает на то, что определенные головки в этих слоях специализируются на обнаружении определенных классов вторичной структуры.

На рисунке 10 показана важность каждого уровня трансформатора для прогнозирования каждого из трех классов вторичной структуры. Мы видим, что, как и в случае с предсказанием контакта, наиболее важные слои находятся в средних слоях (14-20) и последних слоях (29-33).Некоторые слои сильнее подпадают под определенные классы контактов (например, слой 33 важен для всех классов, но особенно важен для прогнозирования β-нитей). Это говорит о том, что определенные головки в этих слоях активируются специально для определенных типов вторичной структуры.

A.10 Начальный доверительный интервал с низким N

В разделе 5.1 показаны результаты надзора с низким N для 1, 10 и 20 белков. Поскольку производительность в этом случае зависит от конкретных взятых белков, мы используем бутстреппинг, чтобы определить доверительный интервал для каждой из этих оценок.Используя полный набор для обучения, проверки и тестирования из 14882 белков, мы обучаем 100 моделей логистической регрессии, используя случайную выборку из N белков, для N = 1, 10 и 20. Затем каждая модель оценивается на оставшихся 14882 — N белков. Полное распределение выборок можно увидеть на рисунке 12. Оценки доверительного интервала для точности на больших расстояниях при L с 1, 10 и 20 обучающими белками составляют: 35,6 ± 1,8, 40,6 ± 0,1 и 41,0 ± 0,1 соответственно.

А.11 Калибровка модели и ложные срабатывания

Vig et al. (2020) предположили, что вероятность внимания от трансформатора TAPE была хорошо откалиброванной оценкой вероятности контакта. На рисунке 11 мы исследуем то же самое с логистической регрессией, обученной на моделях ESM-1 и ESM-1b. Отметим, что ESM-1b, помимо того, что в целом более точен, чем Gremlin, также обеспечивает фактические вероятности.

Рисунок 11:

Откалиброванная вероятность реального контакта с учетом прогнозируемой вероятности контакта для всех тестируемых белков.

Рисунок 12:

Распределение точности для всех представленных статистических данных с использованием 100 различных моделей логистической регрессии. Каждая регрессионная модель обучается на случайной выборке из N = 1, 10, 20 белков.

Мы обнаружили, что, как и в случае с точностью модели, калибровка модели увеличивается с увеличением масштаба и лучшими гиперпараметрами. 6-, 12- и 34-слойные модели ESM-1 имеют среднеквадратичную ошибку 0,074, 0,028 и 0,020 между прогнозируемой и фактической вероятностями контакта, соответственно. ESM-1b имеет среднеквадратичную ошибку 0.014. Среднеквадратичная ошибка вычисляется между вероятностями контакта, разделенными на 20 интервалов в соответствии с функцией scikit-learn Calibration_curve. Поэтому разумно использовать вероятность логистической регрессии в качестве меры уверенности модели.

В случае ложноположительных контактов мы пытаемся измерить манхэттенское расстояние между координатами предполагаемых контактов и ближайшего истинного контакта (рис. 13a). Мы наблюдаем, что манхэттенское расстояние между координатами ложноположительных контактов часто очень близко (Манхэттенское расстояние от 1 до 4) к реальным контактам, и что очень немногие ложные срабатывания имеют манхэттенское расстояние ≥ 10 от истинного контакта.При пороговой вероятности контакта 0,5 83,8% белков имеют по крайней мере один прогнозируемый контакт с манхэттенским расстоянием> 4 до ближайшего контакта. Этот показатель снижается до 71,7% с пороговой вероятностью 0,7 и до 52,5% с пороговой вероятностью 0,9.

Рис. 13:

(a) Распределение манхэттенского расстояния между координатами предсказанных контактов и ближайшего истинного контакта при различных порогах минимума p ( контакт ). Нулевое расстояние соответствует истинному контакту.(b) Фактическое количество прогнозов по манхэттенскому расстоянию по всему набору данных (обратите внимание на ось Y в логарифмической шкале).

На рисунке 14 показаны два режима для ESM-1b, в которых прогнозируется значительное количество ложных контактов. На рис. 14а показан один пример, в котором модель действительно проявляет галлюцинации контактов вокруг остатков 215 и 415, которые не отображаются на карте контактов для этого белка. Однако этот белок является гомодимером, и эти контакты присутствуют на карте межцепочечных контактов. Это говорит о том, что некоторые «крайне неправильные» ложные срабатывания могут вместо этого улавливаться межцепочечными контактами.На рисунке 14b показан пример повторяющегося белка, для которого методы эволюционного связывания, как известно, улавливают дополнительные «полосы» контактов (Espada et al., 2015; Anishchenko et al., 2017). На карте контактов Gremlin видны несколько полос, в то время как на карте контактов ESM-1b видна только первая полоса, ближайшая к диагонали. Для определения частоты этих режимов, наряду с дополнительными потенциальными модами, потребуется дополнительный анализ.

Рисунок 14:

Иллюстрация двух режимов для ESM-1b, в которых прогнозируется значительное количество ложных контактов.(а) Предполагаемые контакты, которые действительно происходят в полном гомодимерном комплексе, но не присутствуют в виде внутрицепочечных контактов. (б) Белковые контакты CTCF. ESM-1b предсказывает небольшую полосу контактов возле недиагональных остатков с 30 остатками. Эта полоса, наряду с другими подобными полосами, также предсказана Гремлином.

Рисунок 15:

Устойчивость моделей ESM-1b и TAPE к вставкам аланина в начале, середине и конце последовательности

A.12 Выравнивание

Одна гипотеза о преимуществах больших языковых моделей по сравнению с более простыми моделями Поттса моделей заключается в том, что они могут научиться неявному выравниванию благодаря своему изученному позиционному внедрению.Для модели Поттса выравнивание позволяет модели соотносить положения в последовательности с учетом эволюционного контекста, несмотря на наличие вставок или делеций. Мы проверяем устойчивость модели к вставкам, вставляя последовательные аланины в начало, середину или конец 1000 случайно выбранных последовательностей с начальной длиной последовательности <512 (мы ограничиваем исходную длину последовательности, чтобы избежать проблем с нехваткой памяти после вставки. ). Мы обнаружили, что ESM-1b может выдерживать до 256 вставок в начале или в конце последовательности и до 64 вставок в середине последовательности, прежде чем производительность начнет значительно ухудшаться.Это говорит о том, что ESM-1b изучает надежное неявное выравнивание белковой последовательности.

С другой стороны, мы обнаружили, что трансформатор TAPE менее устойчив к вставкам. В одной последовательности (pdbid: 1a27) мы обнаружили, что точность TAPE Transformer падает на 12 процентных пунктов после добавления всего 8 аланинов в начало последовательности, в то время как ESM-1b показывает минимальную деградацию до тех пор, пока не будет вставлено 256 аланинов. Мы предполагаем, что, поскольку TAPE был обучен на доменах белков, он не научился справляться с ошибками выравнивания во входной последовательности.

A.13 Подробности эволюционной точной настройки

Мы настроили каждую модель, используя скорость обучения 1e-4, 16k обновлений разминки, график скорости обучения с обратным квадратным корнем и максимум 30 эпох. Это привело к разному количеству общих обновлений в зависимости от размера MSA, при этом более крупным MSA разрешалось обучать для большего количества обновлений. В идеале это должно помочь предотвратить слишком быстрое переоснащение модели на очень маленьких MSA. Мы используем переменный размер партии, основанный на длине входных белков, фиксируя максимум 16384 токена на партию (таким образом, для белка длиной 300 это будет соответствовать размеру партии 54).Мы используем MSA от trRosetta для точной настройки всех белков, за исключением avGFP, где мы используем тот же набор последовательностей от Alley et al. (2019).

A.14 Создание MSA

Алгоритм 1:

Быстро сгенерировать псевдо-MSA из входной последовательности.

Алгоритм 1 представляет алгоритм, используемый для генерации псевдо-MSA из ESM-1b. Каждый псевдо-MSA передается в GREMLIN, чтобы оценить сохранность контактной информации (рисунок 17).

Рисунок 16:

Слева: среднее изменение точности контакта по сравнению сколичество эпох тонкой настройки более 380 белков. Справа: реальные и прогнозируемые контакты до и после эволюционной тонкой настройки для 1a3a и avGFP. Для 1a3a дальний P @ L улучшается с 54,5 до 61,4. Для avGFP P @ L на больших расстояниях улучшается с 7,9 до 11,4.

Рисунок 17:

контактов для 3qhp от Gremlin, обученных на псевдо-MSA, сгенерированном ESM-1b, по сравнению с реальными и предсказанными контактами ESM-1b. Сгенерированный MSA достигает дальнего P @ L 52,2, в то время как карты внимания достигают точности 76,7.

Рекомбинантный белок эндокана человека / ESM-1 (NBP2-23021): Novus Biologicals

Сводная информация о рекомбинантном человеческом эндокане / ESM-1

Описание Денатурированный рекомбинантный белок с N-концевой His-меткой, соответствующий аминокислотам 20-184 Human Endocan / ESM-1

Источник: E.coli

Аминокислотная последовательность: MGWSHHHHGSNPR DCPQHCDSSE CKSSPRCKRT VLDDCGCCRV CAAGRGETCY RTVSGMDGMK CGPGLRCQPS NGEDPFGEEF GICKDCPYGT FGMDCRETCN CQSGICDRGT GKCLKFPFFQ YSVTKSSNRGT GKCLKFPFFQ YSVTKSSNRF GDLTEGNWSVTKSSNRF GDLTEGV

Источник

E.кишечная палочка

Тип белка / пептида

Рекомбинантный белок

Джин

ESM1

Чистота

> 90%, согласно SDS-PAGE

Применения / разбавления

Теоретическая МВт

20.5 кДа.
Примечание об отказе от ответственности: наблюдаемая молекулярная масса белка может отличаться от указанной в списке прогнозируемой молекулярной массы из-за посттрансляционных модификаций, посттрансляционных расщеплений, относительных зарядов и других экспериментальных факторов.

Упаковка, хранение и составы

Хранение

Кратковременно хранить при 4С. Разложите по порциям и храните при -20 ° C в течение длительного времени. Избегайте циклов замораживания-оттаивания.

Буфер

20 мМ Трис-HCl буфер (pH 8.0), 2M мочевина, 10% глицерин

Консервант

Без консерванта

Концентрация

1 мг / мл

Чистота

> 90%, согласно SDS-PAGE

Альтернативные названия рекомбинантного белка эндокана человека / ESM-1

  • Endocan
  • молекула, специфичная для эндотелиальных клеток 1
  • ESM1
  • ESM-1
  • IGFBP-rp6

Фон

Специфическая для эндотелиальных клеток молекула 1, также известная как ESM1, представляет собой протеогликан, секретируемый эндотелиальными клетками, и экспрессия его мРНК регулируется воспалительными цитокинами.Экспрессия ESM1 также была обнаружена в различных эпителиях и адипоцитах. Экспрессия эндокана повышается с помощью TNF-альфа, IL1-бета или липополисахарида и снижается с помощью IFN-гамма. Было показано, что генно-инженерные клетки, сверхэкспрессирующие эндокан, индуцируют образование опухоли, что позволяет предположить, что ESM1 может участвовать в патофизиологии роста опухоли in vivo. Рекомбинантный белок ESM1 человека, слитый с His-меткой на N-конце, был экспрессирован в E.coli

.

Ограничения

Этот продукт предназначен только для исследовательского использования и не одобрен для использования на людях или для клинической диагностики.Гарантия на пептиды и белки составляет 3 месяца с даты получения.

Клиенты, которые просматривали этот товар, также просматривали …

Виды: Hu, Mu

Применения: WB, ICC / IF

Виды: Mu, Rt

Приложения: WB, Flow, IHC, CyTOF-ready, ICC

Виды: Hu, Mu, Rt

Приложения: WB, ELISA, ICC / IF, IHC, IHC-Fr, IHC-P

Виды: Hu

Приложения: WB, Simple Western, CyTOF-ready, ELISA (Cap), ELISA (Det), ICC, ICFlow, Neut, ELISA (Sta)

Виды: Mu

Приложения: WB, Flow, IHC, CyTOF-ready, Neut

Виды: Hu, Rt

Применения: WB, ICC / IF, IHC, IHC-P

Публикации по белку Endocan / ESM-1 (NBP2-23021) (0)

Нет публикаций по Endocan / ESM-1 Protein (NBP2-23021).

Отправляя информацию о публикации, зарабатывайте подарочные карты и скидки для будущих покупок.

Отзывы на белок Endocan / ESM-1 (NBP2-23021) (0)

Отзывов о продукте Endocan / ESM-1 Protein (NBP2-23021) пока нет.

Отправив отзыв, вы получите электронную подарочную карту Amazon или скидку на продукцию Novus.

  • Обзор без изображения — 10 долларов / 7 евро / 6 фунтов стерлингов / 10 канадских долларов / 70 юаней / 1110 иен
  • Обзор с изображением — 25 долларов / 18 евро / 15 фунтов стерлингов / 25 канадских долларов / 150 юаней / 2500 иен

Часто задаваемые вопросы по Endocan / ESM-1 Protein (NBP2-23021) (0)

Другие доступные форматы

Дополнительные продукты Endocan / ESM-1

Инструмент биоинформатики для белка Endocan / ESM-1 (NBP2-23021)

Откройте для себя пути, заболевания и гены, связанные с белком Endocan / ESM-1 (NBP2-23021).Нужна помощь?
Прочтите Руководство по использованию инструмента биоинформатики для получения инструкций по использованию этого инструмента.

Блоги на Endocan / ESM-1

ESM1 — предшественник специфичной для эндотелиальных клеток молекулы 1 — Homo sapiens (Human)

В этом подразделе раздела «Последовательность» описывается последовательность встречающейся в природе альтернативной изоформы (ов) белка. Изменения в аминокислотной последовательности могут быть связаны с альтернативным сплайсингом, использованием альтернативного промотора, альтернативным инициированием или рибосомным сдвигом рамки считывания.

Подробнее …

Альтернативная последовательность i VSP_042631

101 — 150 Отсутствует в изоформе 2.

Информация, подобранная вручную, основанная на утверждениях в научных статьях, для которых нет экспериментальной поддержки.

Дополнительно …

Ручное утверждение, основанное на мнении в i