Transformer论文阅读(一): Attention is all you need
橙色--目的、结论、优点;洋红--突破性重要内容或结论,对我来说特别急需紧要的知识点;红色--特别重要的内容;黄色--重要内容;绿
SAMformer的浅层轻量级Transformer模型
论文《Unlocking the Potential of Transformers in Time Series Forecasting》提出了一种名为SAMformer的浅层轻量级Transformer模型,旨在解
大模型微调实战之 Transformer 强化学习(TRL Reinforcement Learning)(三)Proximal Policy Optimization
大模型微调实战之 Transformer 强化学习(TRL Reinforcement Learning)(三)Proximal Policy Optimization Proximal Policy Optimization 这是一个
从零实现Transformer的简易版与强大版:从300多行到3000多行
前言 最近一直在做类ChatGPT项目的部署 微调,关注比较多的是两个:一个LLaMA,一个ChatGLM,会发现有不少模型是基于这两个模型去做微调
Transformer作者:指令型智能体的构建之法
来源 | The Robot Brains Podcast OneFlow编译 翻译|徐佳渝、贾川、杨婷 2017年,Google发布的《Attention Is All You Need》论文提
Structure-Aware Transformer for Graph Representation Learning 简单笔记
SAT 2022Motivations1、Transformer with positional encoding do not necessarily capture structural similarity between the
DL之Transformer:《The Illustrated Transformer—图解Transformer》翻译与解读
DL之Transformer:《The Illustrated Transformer—图解Transformer》翻译与解读 目录 Paper:《The Illustrated Transformer》翻译与解读 1、The Illu
transformer的理解思路
整理transformer容易理解(可能质量不会太好,但肯定容易理解)的一些文章1.embedinghttps:chriszou20190629embedding-explained通俗的方式解释了
图解Transformer | The Illustrated Transformer
文章目录写在最前边正文从高层面看图解张量现在我们来看一下编码器自注意力细说自注意力机制用矩阵计算self-attention多头注意力使用位置编码表示序列的位置残差解码器最后的线性层和softmax层训练过程概述损失函数更多内容Jay Al
Transformer for Graphs: An Overview from Architecture Perspective 综述笔记(待更)
Transformer for GraphsIntroduction1、GA: GNNs as Auxiliary Modules直接将GNN加入Transformer框架里,然后根据GNN与Transforme
[综述笔记]Comprehensive review of Transformer-based models in neuroscience, neurology, and psychiatry
论文网址:Comprehensive review of Transformer‐based models in neuroscience, neurology, and psychiatry - Cong - 202
【论文笔记】A Transformer-based Approach for Source Code Summarization
A Transformer-based Approach for Source Code Summarization1. Introduction2. Approach2.1 ArchitectureSelf-AttentionCopy A
【论文阅读】A Transformer-based Approach for Source Code Summarization
目录一、简介二、方法三、实验发表于 ACL 2020 地址:https:arxivpdf2005.00653.pdf 代码:https:githubwasiahmadNeuralC
Transformer实战(5)——Hugging Face环境配置与应用详解
Transformer实战(5)——Hugging Face环境配置与应用详解 0. 前言 1. 安装 transformers 1.1 安装 Anaconda 1.2 安装 TensorFlow、PyTorch 和 Transformer
如何训练一个简单的Transformer模型(附源码)李宏毅2025大模型-作业4
摘要: 一、作业目标:使用只有2层transformer的GPT-2,生成完整宝可梦图像。 二、源码&解析:使用提供的Transformer
The Illustrated Transformer (Transformer可视化解读自译笔记)
图解Transformer Reference: The Illustrated Transformer 本文自译用于加深理解与印象。 关于注意力机制,可以参考先前的Seq2Seq Model with Attention Transf
2023-CVPR-Patch-Mix Transformer for Unsupervised Domain Adaptation: A Game Perspective
一、研究背景 通过类别级对齐并生成伪标签可减轻域差异,常用的类别级对齐手段有度量学习、对抗性学习、最优传输。 交叉注意力可用于域对齐,但目标域伪标签的质量对交叉注意力的影响极大,而域差异极大的情况下难以生成高质量伪标签。 二、研究目标 通过
发表评论