MLC-Lesson5-与机器学习框架的整合
本章介绍了使用te创建TensorIR函数,利用BlockBuilder构建IRModule,此后将PyTorch模型导入成为IRModule。
MLC-Lesson4-自动程序优化
之前对IRMoudle的优化包括循环展开、向量化等都是手动完成,本章介绍MetaSchedule自动化完成程序优化的过程。
MLC-Lesson3-端到端模型执行
本章主要介绍了使用TVMScript编写IRModule,并且运行端到端模型的过程,包括对计算图概念的解释,目标传递原则简述,算子注册的过程以及构建模型时的参数绑定过程。
【博客】Butterfly魔改记录
记录所作的魔改防止哪天忘了
【博客】解决图片显示问题
解决博客部署时图片显示问题
MLC Lesson7 引入特殊内存层级示例
所谓特殊内存层级,实际上就是类似于Cache的存在,具体看硬件实现。
MLC Lesson6 矩阵乘法样例分析
TVM矩阵乘法课程样例,与CPU不同,GPU上涉及线程块和线程,访存也有所优化,包括local memory、shared memory、global memory的数据传递等。本文为笔记中独立出来的样例部分,详细展示了样例的每一步变换。
MLC Lesson8 计算图优化
本章聚焦于高层计算图的优化,包括算子融合和映射到TensorIR函数
千里之行,始于足下
关于搭建博客的想法始末