doxygen/AMDGPUTargetMachine_8cpp_source.html

//===-- AMDGPUTargetMachine.cpp - TargetMachine for hw codegen targets-----===//

//

// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.

// See https://llvm.org/LICENSE.txt for license information.

// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception

//

//===----------------------------------------------------------------------===//

//

/// \file

/// The AMDGPU target machine contains all of the hardware specific

/// information  needed to emit code for SI+ GPUs.

//

//===----------------------------------------------------------------------===//


#include "AMDGPUTargetMachine.h"

#include "AMDGPU.h"

#include "AMDGPUAliasAnalysis.h"

#include "AMDGPUCodeGenPassBuilder.h"

#include "AMDGPUCtorDtorLowering.h"

#include "AMDGPUExportClustering.h"

#include "AMDGPUIGroupLP.h"

#include "AMDGPUISelDAGToDAG.h"

#include "AMDGPUMacroFusion.h"

#include "AMDGPUPerfHintAnalysis.h"

#include "AMDGPURegBankSelect.h"

#include "AMDGPUSplitModule.h"

#include "AMDGPUTargetObjectFile.h"

#include "AMDGPUTargetTransformInfo.h"

#include "AMDGPUUnifyDivergentExitNodes.h"

#include "GCNIterativeScheduler.h"

#include "GCNSchedStrategy.h"

#include "GCNVOPDUtils.h"

#include "R600.h"

#include "R600MachineFunctionInfo.h"

#include "R600TargetMachine.h"

#include "SIFixSGPRCopies.h"

#include "SIMachineFunctionInfo.h"

#include "SIMachineScheduler.h"

#include "TargetInfo/AMDGPUTargetInfo.h"

#include "Utils/AMDGPUBaseInfo.h"

#include "llvm/Analysis/CGSCCPassManager.h"

#include "llvm/Analysis/CallGraphSCCPass.h"

#include "llvm/CodeGen/GlobalISel/CSEInfo.h"

#include "llvm/CodeGen/GlobalISel/IRTranslator.h"

#include "llvm/CodeGen/GlobalISel/InstructionSelect.h"

#include "llvm/CodeGen/GlobalISel/Legalizer.h"

#include "llvm/CodeGen/GlobalISel/Localizer.h"

#include "llvm/CodeGen/GlobalISel/RegBankSelect.h"

#include "llvm/CodeGen/MIRParser/MIParser.h"

#include "llvm/CodeGen/Passes.h"

#include "llvm/CodeGen/RegAllocRegistry.h"

#include "llvm/CodeGen/TargetPassConfig.h"

#include "llvm/IR/IntrinsicsAMDGPU.h"

#include "llvm/IR/PassManager.h"

#include "llvm/IR/PatternMatch.h"

#include "llvm/InitializePasses.h"

#include "llvm/MC/TargetRegistry.h"

#include "llvm/Passes/PassBuilder.h"

#include "llvm/Support/FormatVariadic.h"

#include "llvm/Transforms/HipStdPar/HipStdPar.h"

#include "llvm/Transforms/IPO.h"

#include "llvm/Transforms/IPO/AlwaysInliner.h"

#include "llvm/Transforms/IPO/ExpandVariadics.h"

#include "llvm/Transforms/IPO/GlobalDCE.h"

#include "llvm/Transforms/IPO/Internalize.h"

#include "llvm/Transforms/Scalar.h"

#include "llvm/Transforms/Scalar/GVN.h"

#include "llvm/Transforms/Scalar/InferAddressSpaces.h"

#include "llvm/Transforms/Utils.h"

#include "llvm/Transforms/Utils/SimplifyLibCalls.h"

#include "llvm/Transforms/Vectorize/LoadStoreVectorizer.h"

#include <optional>


using namespace llvm;

using namespace llvm::PatternMatch;


namespace {

class SGPRRegisterRegAlloc : public RegisterRegAllocBase<SGPRRegisterRegAlloc> {

public:

  SGPRRegisterRegAlloc(const char *N, const char *D, FunctionPassCtor C)

    : RegisterRegAllocBase(N, D, C) {}

};


class VGPRRegisterRegAlloc : public RegisterRegAllocBase<VGPRRegisterRegAlloc> {

public:

  VGPRRegisterRegAlloc(const char *N, const char *D, FunctionPassCtor C)

    : RegisterRegAllocBase(N, D, C) {}

};


static bool onlyAllocateSGPRs(const TargetRegisterInfo &TRI,

                              const MachineRegisterInfo &MRI,

                              const Register Reg) {

  const TargetRegisterClass *RC = MRI.getRegClass(Reg);

  return static_cast<const SIRegisterInfo &>(TRI).isSGPRClass(RC);

}


static bool onlyAllocateVGPRs(const TargetRegisterInfo &TRI,

                              const MachineRegisterInfo &MRI,

                              const Register Reg) {

  const TargetRegisterClass *RC = MRI.getRegClass(Reg);

  return !static_cast<const SIRegisterInfo &>(TRI).isSGPRClass(RC);

}


/// -{sgpr|vgpr}-regalloc=... command line option.

static FunctionPass *useDefaultRegisterAllocator() { return nullptr; }


/// A dummy default pass factory indicates whether the register allocator is

/// overridden on the command line.

static llvm::once_flag InitializeDefaultSGPRRegisterAllocatorFlag;

static llvm::once_flag InitializeDefaultVGPRRegisterAllocatorFlag;


static SGPRRegisterRegAlloc

defaultSGPRRegAlloc("default",

                    "pick SGPR register allocator based on -O option",

                    useDefaultRegisterAllocator);


static cl::opt<SGPRRegisterRegAlloc::FunctionPassCtor, false,

               RegisterPassParser<SGPRRegisterRegAlloc>>

SGPRRegAlloc("sgpr-regalloc", cl::Hidden, cl::init(&useDefaultRegisterAllocator),

             cl::desc("Register allocator to use for SGPRs"));


static cl::opt<VGPRRegisterRegAlloc::FunctionPassCtor, false,

               RegisterPassParser<VGPRRegisterRegAlloc>>

VGPRRegAlloc("vgpr-regalloc", cl::Hidden, cl::init(&useDefaultRegisterAllocator),

             cl::desc("Register allocator to use for VGPRs"));


static void initializeDefaultSGPRRegisterAllocatorOnce() {

  RegisterRegAlloc::FunctionPassCtor Ctor = SGPRRegisterRegAlloc::getDefault();


  if (!Ctor) {

    Ctor = SGPRRegAlloc;

    SGPRRegisterRegAlloc::setDefault(SGPRRegAlloc);

  }

}


static void initializeDefaultVGPRRegisterAllocatorOnce() {

  RegisterRegAlloc::FunctionPassCtor Ctor = VGPRRegisterRegAlloc::getDefault();


  if (!Ctor) {

    Ctor = VGPRRegAlloc;

    VGPRRegisterRegAlloc::setDefault(VGPRRegAlloc);

  }

}


static FunctionPass *createBasicSGPRRegisterAllocator() {

  return createBasicRegisterAllocator(onlyAllocateSGPRs);

}


static FunctionPass *createGreedySGPRRegisterAllocator() {

  return createGreedyRegisterAllocator(onlyAllocateSGPRs);

}


static FunctionPass *createFastSGPRRegisterAllocator() {

  return createFastRegisterAllocator(onlyAllocateSGPRs, false);

}


static FunctionPass *createBasicVGPRRegisterAllocator() {

  return createBasicRegisterAllocator(onlyAllocateVGPRs);

}


static FunctionPass *createGreedyVGPRRegisterAllocator() {

  return createGreedyRegisterAllocator(onlyAllocateVGPRs);

}


static FunctionPass *createFastVGPRRegisterAllocator() {

  return createFastRegisterAllocator(onlyAllocateVGPRs, true);

}


static SGPRRegisterRegAlloc basicRegAllocSGPR(

  "basic", "basic register allocator", createBasicSGPRRegisterAllocator);

static SGPRRegisterRegAlloc greedyRegAllocSGPR(

  "greedy", "greedy register allocator", createGreedySGPRRegisterAllocator);


static SGPRRegisterRegAlloc fastRegAllocSGPR(

  "fast", "fast register allocator", createFastSGPRRegisterAllocator);


static VGPRRegisterRegAlloc basicRegAllocVGPR(

  "basic", "basic register allocator", createBasicVGPRRegisterAllocator);

static VGPRRegisterRegAlloc greedyRegAllocVGPR(

  "greedy", "greedy register allocator", createGreedyVGPRRegisterAllocator);


static VGPRRegisterRegAlloc fastRegAllocVGPR(

  "fast", "fast register allocator", createFastVGPRRegisterAllocator);

} // anonymous namespace


static cl::opt<bool>

EnableEarlyIfConversion("amdgpu-early-ifcvt", cl::Hidden,

                        cl::desc("Run early if-conversion"),

                        cl::init(false));


static cl::opt<bool>

OptExecMaskPreRA("amdgpu-opt-exec-mask-pre-ra", cl::Hidden,

            cl::desc("Run pre-RA exec mask optimizations"),

            cl::init(true));


static cl::opt<bool>

    LowerCtorDtor("amdgpu-lower-global-ctor-dtor",

                  cl::desc("Lower GPU ctor / dtors to globals on the device."),

                  cl::init(true), cl::Hidden);


// Option to disable vectorizer for tests.

static cl::opt<bool> EnableLoadStoreVectorizer(

  "amdgpu-load-store-vectorizer",

  cl::desc("Enable load store vectorizer"),

  cl::init(true),

  cl::Hidden);


// Option to control global loads scalarization

static cl::opt<bool> ScalarizeGlobal(

  "amdgpu-scalarize-global-loads",

  cl::desc("Enable global load scalarization"),

  cl::init(true),

  cl::Hidden);


// Option to run internalize pass.

static cl::opt<bool> InternalizeSymbols(

  "amdgpu-internalize-symbols",

  cl::desc("Enable elimination of non-kernel functions and unused globals"),

  cl::init(false),

  cl::Hidden);


// Option to inline all early.

static cl::opt<bool> EarlyInlineAll(

  "amdgpu-early-inline-all",

  cl::desc("Inline all functions early"),

  cl::init(false),

  cl::Hidden);


static cl::opt<bool> RemoveIncompatibleFunctions(

    "amdgpu-enable-remove-incompatible-functions", cl::Hidden,

    cl::desc("Enable removal of functions when they"

             "use features not supported by the target GPU"),

    cl::init(true));


static cl::opt<bool> EnableSDWAPeephole(

  "amdgpu-sdwa-peephole",

  cl::desc("Enable SDWA peepholer"),

  cl::init(true));


static cl::opt<bool> EnableDPPCombine(

  "amdgpu-dpp-combine",

  cl::desc("Enable DPP combiner"),

  cl::init(true));


// Enable address space based alias analysis

static cl::opt<bool> EnableAMDGPUAliasAnalysis("enable-amdgpu-aa", cl::Hidden,

  cl::desc("Enable AMDGPU Alias Analysis"),

  cl::init(true));


// Option to run late CFG structurizer

static cl::opt<bool, true> LateCFGStructurize(

  "amdgpu-late-structurize",

  cl::desc("Enable late CFG structurization"),

  cl::location(AMDGPUTargetMachine::EnableLateStructurizeCFG),

  cl::Hidden);


// Disable structurizer-based control-flow lowering in order to test convergence

// control tokens. This should eventually be replaced by the wave-transform.

static cl::opt<bool, true> DisableStructurizer(

    "amdgpu-disable-structurizer",

    cl::desc("Disable structurizer for experiments; produces unusable code"),

    cl::location(AMDGPUTargetMachine::DisableStructurizer), cl::ReallyHidden);


// Enable lib calls simplifications

static cl::opt<bool> EnableLibCallSimplify(

  "amdgpu-simplify-libcall",

  cl::desc("Enable amdgpu library simplifications"),

  cl::init(true),

  cl::Hidden);


static cl::opt<bool> EnableLowerKernelArguments(

  "amdgpu-ir-lower-kernel-arguments",

  cl::desc("Lower kernel argument loads in IR pass"),

  cl::init(true),

  cl::Hidden);


static cl::opt<bool> EnableRegReassign(

  "amdgpu-reassign-regs",

  cl::desc("Enable register reassign optimizations on gfx10+"),

  cl::init(true),

  cl::Hidden);


static cl::opt<bool> OptVGPRLiveRange(

    "amdgpu-opt-vgpr-liverange",

    cl::desc("Enable VGPR liverange optimizations for if-else structure"),

    cl::init(true), cl::Hidden);


static cl::opt<ScanOptions> AMDGPUAtomicOptimizerStrategy(

    "amdgpu-atomic-optimizer-strategy",

    cl::desc("Select DPP or Iterative strategy for scan"),

    cl::init(ScanOptions::Iterative),

    cl::values(

        clEnumValN(ScanOptions::DPP, "DPP", "Use DPP operations for scan"),

        clEnumValN(ScanOptions::Iterative, "Iterative",

                   "Use Iterative approach for scan"),

        clEnumValN(ScanOptions::None, "None", "Disable atomic optimizer")));


// Enable Mode register optimization

static cl::opt<bool> EnableSIModeRegisterPass(

  "amdgpu-mode-register",

  cl::desc("Enable mode register pass"),

  cl::init(true),

  cl::Hidden);


// Enable GFX11.5+ s_singleuse_vdst insertion

static cl::opt<bool>

    EnableInsertSingleUseVDST("amdgpu-enable-single-use-vdst",

                              cl::desc("Enable s_singleuse_vdst insertion"),

                              cl::init(false), cl::Hidden);


// Enable GFX11+ s_delay_alu insertion

static cl::opt<bool>

    EnableInsertDelayAlu("amdgpu-enable-delay-alu",

                         cl::desc("Enable s_delay_alu insertion"),

                         cl::init(true), cl::Hidden);


// Enable GFX11+ VOPD

static cl::opt<bool>

    EnableVOPD("amdgpu-enable-vopd",

               cl::desc("Enable VOPD, dual issue of VALU in wave32"),

               cl::init(true), cl::Hidden);


// Option is used in lit tests to prevent deadcoding of patterns inspected.

static cl::opt<bool>

EnableDCEInRA("amdgpu-dce-in-ra",

    cl::init(true), cl::Hidden,

    cl::desc("Enable machine DCE inside regalloc"));


static cl::opt<bool> EnableSetWavePriority("amdgpu-set-wave-priority",

                                           cl::desc("Adjust wave priority"),

                                           cl::init(false), cl::Hidden);


static cl::opt<bool> EnableScalarIRPasses(

  "amdgpu-scalar-ir-passes",

  cl::desc("Enable scalar IR passes"),

  cl::init(true),

  cl::Hidden);


static cl::opt<bool, true> EnableStructurizerWorkarounds(

    "amdgpu-enable-structurizer-workarounds",

    cl::desc("Enable workarounds for the StructurizeCFG pass"),

    cl::location(AMDGPUTargetMachine::EnableStructurizerWorkarounds),

    cl::init(true), cl::Hidden);


static cl::opt<bool, true> EnableLowerModuleLDS(

    "amdgpu-enable-lower-module-lds", cl::desc("Enable lower module lds pass"),

    cl::location(AMDGPUTargetMachine::EnableLowerModuleLDS), cl::init(true),

    cl::Hidden);


static cl::opt<bool> EnablePreRAOptimizations(

    "amdgpu-enable-pre-ra-optimizations",

    cl::desc("Enable Pre-RA optimizations pass"), cl::init(true),

    cl::Hidden);


static cl::opt<bool> EnablePromoteKernelArguments(

    "amdgpu-enable-promote-kernel-arguments",

    cl::desc("Enable promotion of flat kernel pointer arguments to global"),

    cl::Hidden, cl::init(true));


static cl::opt<bool> EnableImageIntrinsicOptimizer(

    "amdgpu-enable-image-intrinsic-optimizer",

    cl::desc("Enable image intrinsic optimizer pass"), cl::init(true),

    cl::Hidden);


static cl::opt<bool>

    EnableLoopPrefetch("amdgpu-loop-prefetch",

                       cl::desc("Enable loop data prefetch on AMDGPU"),

                       cl::Hidden, cl::init(false));


static cl::opt<bool> EnableMaxIlpSchedStrategy(

    "amdgpu-enable-max-ilp-scheduling-strategy",

    cl::desc("Enable scheduling strategy to maximize ILP for a single wave."),

    cl::Hidden, cl::init(false));


static cl::opt<bool> EnableRewritePartialRegUses(

    "amdgpu-enable-rewrite-partial-reg-uses",

    cl::desc("Enable rewrite partial reg uses pass"), cl::init(true),

    cl::Hidden);


static cl::opt<bool> EnableHipStdPar(

  "amdgpu-enable-hipstdpar",

  cl::desc("Enable HIP Standard Parallelism Offload support"), cl::init(false),

  cl::Hidden);


static cl::opt<bool>

    EnableAMDGPUAttributor("amdgpu-attributor-enable",

                           cl::desc("Enable AMDGPUAttributorPass"),

                           cl::init(true), cl::Hidden);


extern "C" LLVM_EXTERNAL_VISIBILITY void LLVMInitializeAMDGPUTarget() {

  // Register the target

  RegisterTargetMachine<R600TargetMachine> X(getTheR600Target());

  RegisterTargetMachine<GCNTargetMachine> Y(getTheGCNTarget());


  PassRegistry *PR = PassRegistry::getPassRegistry();

  initializeR600ClauseMergePassPass(*PR);

  initializeR600ControlFlowFinalizerPass(*PR);

  initializeR600PacketizerPass(*PR);

  initializeR600ExpandSpecialInstrsPassPass(*PR);

  initializeR600VectorRegMergerPass(*PR);

  initializeGlobalISel(*PR);

  initializeAMDGPUDAGToDAGISelLegacyPass(*PR);

  initializeGCNDPPCombinePass(*PR);

  initializeSILowerI1CopiesLegacyPass(*PR);

  initializeAMDGPUGlobalISelDivergenceLoweringPass(*PR);

  initializeSILowerWWMCopiesPass(*PR);

  initializeAMDGPUMarkLastScratchLoadPass(*PR);

  initializeSILowerSGPRSpillsPass(*PR);

  initializeSIFixSGPRCopiesLegacyPass(*PR);

  initializeSIFixVGPRCopiesPass(*PR);

  initializeSIFoldOperandsPass(*PR);

  initializeSIPeepholeSDWAPass(*PR);

  initializeSIShrinkInstructionsPass(*PR);

  initializeSIOptimizeExecMaskingPreRAPass(*PR);

  initializeSIOptimizeVGPRLiveRangePass(*PR);

  initializeSILoadStoreOptimizerPass(*PR);

  initializeAMDGPUCtorDtorLoweringLegacyPass(*PR);

  initializeAMDGPUAlwaysInlinePass(*PR);

  initializeAMDGPUAttributorLegacyPass(*PR);

  initializeAMDGPUAnnotateKernelFeaturesPass(*PR);

  initializeAMDGPUAnnotateUniformValuesLegacyPass(*PR);

  initializeAMDGPUArgumentUsageInfoPass(*PR);

  initializeAMDGPUAtomicOptimizerPass(*PR);

  initializeAMDGPULowerKernelArgumentsPass(*PR);

  initializeAMDGPUPromoteKernelArgumentsPass(*PR);

  initializeAMDGPULowerKernelAttributesPass(*PR);

  initializeAMDGPUOpenCLEnqueuedBlockLoweringPass(*PR);

  initializeAMDGPUPostLegalizerCombinerPass(*PR);

  initializeAMDGPUPreLegalizerCombinerPass(*PR);

  initializeAMDGPURegBankCombinerPass(*PR);

  initializeAMDGPURegBankSelectPass(*PR);

  initializeAMDGPUPromoteAllocaPass(*PR);

  initializeAMDGPUPromoteAllocaToVectorPass(*PR);

  initializeAMDGPUCodeGenPreparePass(*PR);

  initializeAMDGPULateCodeGenPrepareLegacyPass(*PR);

  initializeAMDGPURemoveIncompatibleFunctionsPass(*PR);

  initializeAMDGPULowerModuleLDSLegacyPass(*PR);

  initializeAMDGPULowerBufferFatPointersPass(*PR);

  initializeAMDGPURewriteOutArgumentsPass(*PR);

  initializeAMDGPURewriteUndefForPHILegacyPass(*PR);

  initializeAMDGPUUnifyMetadataPass(*PR);

  initializeSIAnnotateControlFlowLegacyPass(*PR);

  initializeAMDGPUInsertSingleUseVDSTPass(*PR);

  initializeAMDGPUInsertDelayAluPass(*PR);

  initializeSIInsertHardClausesPass(*PR);

  initializeSIInsertWaitcntsPass(*PR);

  initializeSIModeRegisterPass(*PR);

  initializeSIWholeQuadModePass(*PR);

  initializeSILowerControlFlowPass(*PR);

  initializeSIPreEmitPeepholePass(*PR);

  initializeSILateBranchLoweringPass(*PR);

  initializeSIMemoryLegalizerPass(*PR);

  initializeSIOptimizeExecMaskingPass(*PR);

  initializeSIPreAllocateWWMRegsPass(*PR);

  initializeSIFormMemoryClausesPass(*PR);

  initializeSIPostRABundlerPass(*PR);

  initializeGCNCreateVOPDPass(*PR);

  initializeAMDGPUUnifyDivergentExitNodesPass(*PR);

  initializeAMDGPUAAWrapperPassPass(*PR);

  initializeAMDGPUExternalAAWrapperPass(*PR);

  initializeAMDGPUImageIntrinsicOptimizerPass(*PR);

  initializeAMDGPUPrintfRuntimeBindingPass(*PR);

  initializeAMDGPUResourceUsageAnalysisPass(*PR);

  initializeGCNNSAReassignPass(*PR);

  initializeGCNPreRAOptimizationsPass(*PR);

  initializeGCNPreRALongBranchRegPass(*PR);

  initializeGCNRewritePartialRegUsesPass(*PR);

  initializeGCNRegPressurePrinterPass(*PR);

}


static std::unique_ptr<TargetLoweringObjectFile> createTLOF(const Triple &TT) {

  return std::make_unique<AMDGPUTargetObjectFile>();

}


static ScheduleDAGInstrs *createSIMachineScheduler(MachineSchedContext *C) {

  return new SIScheduleDAGMI(C);

}


static ScheduleDAGInstrs *

createGCNMaxOccupancyMachineScheduler(MachineSchedContext *C) {

  const GCNSubtarget &ST = C->MF->getSubtarget<GCNSubtarget>();

  ScheduleDAGMILive *DAG =

    new GCNScheduleDAGMILive(C, std::make_unique<GCNMaxOccupancySchedStrategy>(C));

  DAG->addMutation(createLoadClusterDAGMutation(DAG->TII, DAG->TRI));

  if (ST.shouldClusterStores())

    DAG->addMutation(createStoreClusterDAGMutation(DAG->TII, DAG->TRI));

  DAG->addMutation(createIGroupLPDAGMutation(AMDGPU::SchedulingPhase::Initial));

  DAG->addMutation(createAMDGPUMacroFusionDAGMutation());

  DAG->addMutation(createAMDGPUExportClusteringDAGMutation());

  return DAG;

}


static ScheduleDAGInstrs *

createGCNMaxILPMachineScheduler(MachineSchedContext *C) {

  ScheduleDAGMILive *DAG =

      new GCNScheduleDAGMILive(C, std::make_unique<GCNMaxILPSchedStrategy>(C));

  DAG->addMutation(createIGroupLPDAGMutation(AMDGPU::SchedulingPhase::Initial));

  return DAG;

}


static ScheduleDAGInstrs *

createIterativeGCNMaxOccupancyMachineScheduler(MachineSchedContext *C) {

  const GCNSubtarget &ST = C->MF->getSubtarget<GCNSubtarget>();

  auto DAG = new GCNIterativeScheduler(C,

    GCNIterativeScheduler::SCHEDULE_LEGACYMAXOCCUPANCY);

  DAG->addMutation(createLoadClusterDAGMutation(DAG->TII, DAG->TRI));

  if (ST.shouldClusterStores())

    DAG->addMutation(createStoreClusterDAGMutation(DAG->TII, DAG->TRI));

  return DAG;

}


static ScheduleDAGInstrs *createMinRegScheduler(MachineSchedContext *C) {

  return new GCNIterativeScheduler(C,

    GCNIterativeScheduler::SCHEDULE_MINREGFORCED);

}


static ScheduleDAGInstrs *

createIterativeILPMachineScheduler(MachineSchedContext *C) {

  const GCNSubtarget &ST = C->MF->getSubtarget<GCNSubtarget>();

  auto DAG = new GCNIterativeScheduler(C,

    GCNIterativeScheduler::SCHEDULE_ILP);

  DAG->addMutation(createLoadClusterDAGMutation(DAG->TII, DAG->TRI));

  if (ST.shouldClusterStores())

    DAG->addMutation(createStoreClusterDAGMutation(DAG->TII, DAG->TRI));

  DAG->addMutation(createAMDGPUMacroFusionDAGMutation());

  return DAG;

}


static MachineSchedRegistry

SISchedRegistry("si", "Run SI's custom scheduler",

                createSIMachineScheduler);


static MachineSchedRegistry

GCNMaxOccupancySchedRegistry("gcn-max-occupancy",

                             "Run GCN scheduler to maximize occupancy",

                             createGCNMaxOccupancyMachineScheduler);


static MachineSchedRegistry

    GCNMaxILPSchedRegistry("gcn-max-ilp", "Run GCN scheduler to maximize ilp",

                           createGCNMaxILPMachineScheduler);


static MachineSchedRegistry IterativeGCNMaxOccupancySchedRegistry(

    "gcn-iterative-max-occupancy-experimental",

    "Run GCN scheduler to maximize occupancy (experimental)",

    createIterativeGCNMaxOccupancyMachineScheduler);


static MachineSchedRegistry GCNMinRegSchedRegistry(

    "gcn-iterative-minreg",

    "Run GCN iterative scheduler for minimal register usage (experimental)",

    createMinRegScheduler);


static MachineSchedRegistry GCNILPSchedRegistry(

    "gcn-iterative-ilp",

    "Run GCN iterative scheduler for ILP scheduling (experimental)",

    createIterativeILPMachineScheduler);


static StringRef computeDataLayout(const Triple &TT) {

  if (TT.getArch() == Triple::r600) {

    // 32-bit pointers.

    return "e-p:32:32-i64:64-v16:16-v24:32-v32:32-v48:64-v96:128"

           "-v192:256-v256:256-v512:512-v1024:1024-v2048:2048-n32:64-S32-A5-G1";

  }


  // 32-bit private, local, and region pointers. 64-bit global, constant and

  // flat. 160-bit non-integral fat buffer pointers that include a 128-bit

  // buffer descriptor and a 32-bit offset, which are indexed by 32-bit values

  // (address space 7), and 128-bit non-integral buffer resourcees (address

  // space 8) which cannot be non-trivilally accessed by LLVM memory operations

  // like getelementptr.

  return "e-p:64:64-p1:64:64-p2:32:32-p3:32:32-p4:64:64-p5:32:32-p6:32:32"

         "-p7:160:256:256:32-p8:128:128-p9:192:256:256:32-i64:64-v16:16-v24:32-"

         "v32:32-v48:64-v96:"

         "128-v192:256-v256:256-v512:512-v1024:1024-v2048:2048-n32:64-S32-A5-"

         "G1-ni:7:8:9";

}


LLVM_READNONE

static StringRef getGPUOrDefault(const Triple &TT, StringRef GPU) {

  if (!GPU.empty())

    return GPU;


  // Need to default to a target with flat support for HSA.

  if (TT.getArch() == Triple::amdgcn)

    return TT.getOS() == Triple::AMDHSA ? "generic-hsa" : "generic";


  return "r600";

}


static Reloc::Model getEffectiveRelocModel(std::optional<Reloc::Model> RM) {

  // The AMDGPU toolchain only supports generating shared objects, so we

  // must always use PIC.

  return Reloc::PIC_;

}


AMDGPUTargetMachine::AMDGPUTargetMachine(const Target &T, const Triple &TT,

                                         StringRef CPU, StringRef FS,

                                         const TargetOptions &Options,

                                         std::optional<Reloc::Model> RM,

                                         std::optional<CodeModel::Model> CM,

                                         CodeGenOptLevel OptLevel)

    : LLVMTargetMachine(T, computeDataLayout(TT), TT, getGPUOrDefault(TT, CPU),

                        FS, Options, getEffectiveRelocModel(RM),

                        getEffectiveCodeModel(CM, CodeModel::Small), OptLevel),

      TLOF(createTLOF(getTargetTriple())) {

  initAsmInfo();

  if (TT.getArch() == Triple::amdgcn) {

    if (getMCSubtargetInfo()->checkFeatures("+wavefrontsize64"))

      MRI.reset(llvm::createGCNMCRegisterInfo(AMDGPUDwarfFlavour::Wave64));

    else if (getMCSubtargetInfo()->checkFeatures("+wavefrontsize32"))

      MRI.reset(llvm::createGCNMCRegisterInfo(AMDGPUDwarfFlavour::Wave32));

  }

}


bool AMDGPUTargetMachine::EnableLateStructurizeCFG = false;

bool AMDGPUTargetMachine::EnableFunctionCalls = false;

bool AMDGPUTargetMachine::EnableLowerModuleLDS = true;

bool AMDGPUTargetMachine::DisableStructurizer = false;

bool AMDGPUTargetMachine::EnableStructurizerWorkarounds = true;


AMDGPUTargetMachine::~AMDGPUTargetMachine() = default;


StringRef AMDGPUTargetMachine::getGPUName(const Function &F) const {

  Attribute GPUAttr = F.getFnAttribute("target-cpu");

  return GPUAttr.isValid() ? GPUAttr.getValueAsString() : getTargetCPU();

}


StringRef AMDGPUTargetMachine::getFeatureString(const Function &F) const {

  Attribute FSAttr = F.getFnAttribute("target-features");


  return FSAttr.isValid() ? FSAttr.getValueAsString()

                          : getTargetFeatureString();

}


/// Predicate for Internalize pass.

static bool mustPreserveGV(const GlobalValue &GV) {

  if (const Function *F = dyn_cast<Function>(&GV))

    return F->isDeclaration() || F->getName().starts_with("__asan_") ||

           F->getName().starts_with("__sanitizer_") ||

           AMDGPU::isEntryFunctionCC(F->getCallingConv());


  GV.removeDeadConstantUsers();

  return !GV.use_empty();

}


void AMDGPUTargetMachine::registerDefaultAliasAnalyses(AAManager &AAM) {

  AAM.registerFunctionAnalysis<AMDGPUAA>();

}


static Expected<ScanOptions>

parseAMDGPUAtomicOptimizerStrategy(StringRef Params) {

  if (Params.empty())

    return ScanOptions::Iterative;

  Params.consume_front("strategy=");

  auto Result = StringSwitch<std::optional<ScanOptions>>(Params)

                    .Case("dpp", ScanOptions::DPP)

                    .Cases("iterative", "", ScanOptions::Iterative)

                    .Case("none", ScanOptions::None)

                    .Default(std::nullopt);

  if (Result)

    return *Result;

  return make_error<StringError>("invalid parameter", inconvertibleErrorCode());

}


Expected<AMDGPUAttributorOptions>

parseAMDGPUAttributorPassOptions(StringRef Params) {

  AMDGPUAttributorOptions Result;

  while (!Params.empty()) {

    StringRef ParamName;

    std::tie(ParamName, Params) = Params.split(';');

    if (ParamName == "closed-world") {

      Result.IsClosedWorld = true;

    } else {

      return make_error<StringError>(

          formatv("invalid AMDGPUAttributor pass parameter '{0}' ", ParamName)

              .str(),

          inconvertibleErrorCode());

    }

  }

  return Result;

}


void AMDGPUTargetMachine::registerPassBuilderCallbacks(PassBuilder &PB) {


#define GET_PASS_REGISTRY "AMDGPUPassRegistry.def"

#include "llvm/Passes/TargetPassRegistry.inc"


  PB.registerPipelineStartEPCallback(

      [](ModulePassManager &PM, OptimizationLevel Level) {

        FunctionPassManager FPM;

        PM.addPass(createModuleToFunctionPassAdaptor(std::move(FPM)));

        if (EnableHipStdPar)

          PM.addPass(HipStdParAcceleratorCodeSelectionPass());

      });


  PB.registerPipelineEarlySimplificationEPCallback(

      [](ModulePassManager &PM, OptimizationLevel Level) {

        PM.addPass(AMDGPUPrintfRuntimeBindingPass());


        if (Level == OptimizationLevel::O0)

          return;


        PM.addPass(AMDGPUUnifyMetadataPass());


        if (InternalizeSymbols) {

          PM.addPass(InternalizePass(mustPreserveGV));

          PM.addPass(GlobalDCEPass());

        }


        if (EarlyInlineAll && !EnableFunctionCalls)

          PM.addPass(AMDGPUAlwaysInlinePass());

      });


  PB.registerPeepholeEPCallback(

      [](FunctionPassManager &FPM, OptimizationLevel Level) {

        if (Level == OptimizationLevel::O0)

          return;


        FPM.addPass(AMDGPUUseNativeCallsPass());

        if (EnableLibCallSimplify)

          FPM.addPass(AMDGPUSimplifyLibCallsPass());

      });


  PB.registerCGSCCOptimizerLateEPCallback(

      [this](CGSCCPassManager &PM, OptimizationLevel Level) {

        if (Level == OptimizationLevel::O0)

          return;


        FunctionPassManager FPM;


        // Add promote kernel arguments pass to the opt pipeline right before

        // infer address spaces which is needed to do actual address space

        // rewriting.

        if (Level.getSpeedupLevel() > OptimizationLevel::O1.getSpeedupLevel() &&

            EnablePromoteKernelArguments)

          FPM.addPass(AMDGPUPromoteKernelArgumentsPass());


        // Add infer address spaces pass to the opt pipeline after inlining

        // but before SROA to increase SROA opportunities.

        FPM.addPass(InferAddressSpacesPass());


        // This should run after inlining to have any chance of doing

        // anything, and before other cleanup optimizations.

        FPM.addPass(AMDGPULowerKernelAttributesPass());


        if (Level != OptimizationLevel::O0) {

          // Promote alloca to vector before SROA and loop unroll. If we

          // manage to eliminate allocas before unroll we may choose to unroll

          // less.

          FPM.addPass(AMDGPUPromoteAllocaToVectorPass(*this));

        }


        PM.addPass(createCGSCCToFunctionPassAdaptor(std::move(FPM)));

      });


  // FIXME: Why is AMDGPUAttributor not in CGSCC?

  PB.registerOptimizerLastEPCallback(

      [this](ModulePassManager &MPM, OptimizationLevel Level) {

        if (Level != OptimizationLevel::O0) {

          MPM.addPass(AMDGPUAttributorPass(*this));

        }

      });


  PB.registerFullLinkTimeOptimizationLastEPCallback(

      [this](ModulePassManager &PM, OptimizationLevel Level) {

        // We want to support the -lto-partitions=N option as "best effort".

        // For that, we need to lower LDS earlier in the pipeline before the

        // module is partitioned for codegen.

        if (EnableLowerModuleLDS)

          PM.addPass(AMDGPULowerModuleLDSPass(*this));

        if (EnableAMDGPUAttributor && Level != OptimizationLevel::O0)

          PM.addPass(AMDGPUAttributorPass(*this));

      });


  PB.registerRegClassFilterParsingCallback(

      [](StringRef FilterName) -> RegAllocFilterFunc {

        if (FilterName == "sgpr")

          return onlyAllocateSGPRs;

        if (FilterName == "vgpr")

          return onlyAllocateVGPRs;

        return nullptr;

      });

}


int64_t AMDGPUTargetMachine::getNullPointerValue(unsigned AddrSpace) {

  return (AddrSpace == AMDGPUAS::LOCAL_ADDRESS ||

          AddrSpace == AMDGPUAS::PRIVATE_ADDRESS ||

          AddrSpace == AMDGPUAS::REGION_ADDRESS)

             ? -1

             : 0;

}


bool AMDGPUTargetMachine::isNoopAddrSpaceCast(unsigned SrcAS,

                                              unsigned DestAS) const {

  return AMDGPU::isFlatGlobalAddrSpace(SrcAS) &&

         AMDGPU::isFlatGlobalAddrSpace(DestAS);

}


unsigned AMDGPUTargetMachine::getAssumedAddrSpace(const Value *V) const {

  const auto *LD = dyn_cast<LoadInst>(V);

  if (!LD)

    return AMDGPUAS::UNKNOWN_ADDRESS_SPACE;


  // It must be a generic pointer loaded.

  assert(V->getType()->isPointerTy() &&

         V->getType()->getPointerAddressSpace() == AMDGPUAS::FLAT_ADDRESS);


  const auto *Ptr = LD->getPointerOperand();

  if (Ptr->getType()->getPointerAddressSpace() != AMDGPUAS::CONSTANT_ADDRESS)

    return AMDGPUAS::UNKNOWN_ADDRESS_SPACE;

  // For a generic pointer loaded from the constant memory, it could be assumed

  // as a global pointer since the constant memory is only populated on the

  // host side. As implied by the offload programming model, only global

  // pointers could be referenced on the host side.

  return AMDGPUAS::GLOBAL_ADDRESS;

}


std::pair<const Value *, unsigned>

AMDGPUTargetMachine::getPredicatedAddrSpace(const Value *V) const {

  if (auto *II = dyn_cast<IntrinsicInst>(V)) {

    switch (II->getIntrinsicID()) {

    case Intrinsic::amdgcn_is_shared:

      return std::pair(II->getArgOperand(0), AMDGPUAS::LOCAL_ADDRESS);

    case Intrinsic::amdgcn_is_private:

      return std::pair(II->getArgOperand(0), AMDGPUAS::PRIVATE_ADDRESS);

    default:

      break;

    }

    return std::pair(nullptr, -1);

  }

  // Check the global pointer predication based on

  // (!is_share(p) && !is_private(p)). Note that logic 'and' is commutative and

  // the order of 'is_shared' and 'is_private' is not significant.

  Value *Ptr;

  if (match(

          const_cast<Value *>(V),

          m_c_And(m_Not(m_Intrinsic<Intrinsic::amdgcn_is_shared>(m_Value(Ptr))),

                  m_Not(m_Intrinsic<Intrinsic::amdgcn_is_private>(

                      m_Deferred(Ptr))))))

    return std::pair(Ptr, AMDGPUAS::GLOBAL_ADDRESS);


  return std::pair(nullptr, -1);

}


unsigned

AMDGPUTargetMachine::getAddressSpaceForPseudoSourceKind(unsigned Kind) const {

  switch (Kind) {

  case PseudoSourceValue::Stack:

  case PseudoSourceValue::FixedStack:

    return AMDGPUAS::PRIVATE_ADDRESS;

  case PseudoSourceValue::ConstantPool:

  case PseudoSourceValue::GOT:

  case PseudoSourceValue::JumpTable:

  case PseudoSourceValue::GlobalValueCallEntry:

  case PseudoSourceValue::ExternalSymbolCallEntry:

    return AMDGPUAS::CONSTANT_ADDRESS;

  }

  return AMDGPUAS::FLAT_ADDRESS;

}


bool AMDGPUTargetMachine::splitModule(

    Module &M, unsigned NumParts,

    function_ref<void(std::unique_ptr<Module> MPart)> ModuleCallback) {

  // FIXME(?): Would be better to use an already existing Analysis/PassManager,

  // but all current users of this API don't have one ready and would need to

  // create one anyway. Let's hide the boilerplate for now to keep it simple.


  LoopAnalysisManager LAM;

  FunctionAnalysisManager FAM;

  CGSCCAnalysisManager CGAM;

  ModuleAnalysisManager MAM;


  PassBuilder PB(this);

  PB.registerModuleAnalyses(MAM);

  PB.registerFunctionAnalyses(FAM);

  PB.crossRegisterProxies(LAM, FAM, CGAM, MAM);


  ModulePassManager MPM;

  MPM.addPass(AMDGPUSplitModulePass(NumParts, ModuleCallback));

  MPM.run(M, MAM);

  return true;

}


//===----------------------------------------------------------------------===//

// GCN Target Machine (SI+)

//===----------------------------------------------------------------------===//


GCNTargetMachine::GCNTargetMachine(const Target &T, const Triple &TT,

                                   StringRef CPU, StringRef FS,

                                   const TargetOptions &Options,

                                   std::optional<Reloc::Model> RM,

                                   std::optional<CodeModel::Model> CM,

                                   CodeGenOptLevel OL, bool JIT)

    : AMDGPUTargetMachine(T, TT, CPU, FS, Options, RM, CM, OL) {}


const TargetSubtargetInfo *

GCNTargetMachine::getSubtargetImpl(const Function &F) const {

  StringRef GPU = getGPUName(F);

  StringRef FS = getFeatureString(F);


  SmallString<128> SubtargetKey(GPU);

  SubtargetKey.append(FS);


  auto &I = SubtargetMap[SubtargetKey];

  if (!I) {

    // This needs to be done before we create a new subtarget since any

    // creation will depend on the TM and the code generation flags on the

    // function that reside in TargetOptions.

    resetTargetOptions(F);

    I = std::make_unique<GCNSubtarget>(TargetTriple, GPU, FS, *this);

  }


  I->setScalarizeGlobalBehavior(ScalarizeGlobal);


  return I.get();

}


TargetTransformInfo

GCNTargetMachine::getTargetTransformInfo(const Function &F) const {

  return TargetTransformInfo(GCNTTIImpl(this, F));

}


Error GCNTargetMachine::buildCodeGenPipeline(

    ModulePassManager &MPM, raw_pwrite_stream &Out, raw_pwrite_stream *DwoOut,

    CodeGenFileType FileType, const CGPassBuilderOption &Opts,

    PassInstrumentationCallbacks *PIC) {

  AMDGPUCodeGenPassBuilder CGPB(*this, Opts, PIC);

  return CGPB.buildPipeline(MPM, Out, DwoOut, FileType);

}


//===----------------------------------------------------------------------===//

// AMDGPU Pass Setup

//===----------------------------------------------------------------------===//


std::unique_ptr<CSEConfigBase> llvm::AMDGPUPassConfig::getCSEConfig() const {

  return getStandardCSEConfigForOpt(TM->getOptLevel());

}


namespace {


class GCNPassConfig final : public AMDGPUPassConfig {

public:

  GCNPassConfig(LLVMTargetMachine &TM, PassManagerBase &PM)

    : AMDGPUPassConfig(TM, PM) {

    // It is necessary to know the register usage of the entire call graph.  We

    // allow calls without EnableAMDGPUFunctionCalls if they are marked

    // noinline, so this is always required.

    setRequiresCodeGenSCCOrder(true);

    substitutePass(&PostRASchedulerID, &PostMachineSchedulerID);

  }


  GCNTargetMachine &getGCNTargetMachine() const {

    return getTM<GCNTargetMachine>();

  }


  ScheduleDAGInstrs *

  createMachineScheduler(MachineSchedContext *C) const override;


  ScheduleDAGInstrs *

  createPostMachineScheduler(MachineSchedContext *C) const override {

    ScheduleDAGMI *DAG = new GCNPostScheduleDAGMILive(

        C, std::make_unique<PostGenericScheduler>(C),

        /*RemoveKillFlags=*/true);

    const GCNSubtarget &ST = C->MF->getSubtarget<GCNSubtarget>();

    DAG->addMutation(createLoadClusterDAGMutation(DAG->TII, DAG->TRI));

    if (ST.shouldClusterStores())

      DAG->addMutation(createStoreClusterDAGMutation(DAG->TII, DAG->TRI));

    DAG->addMutation(ST.createFillMFMAShadowMutation(DAG->TII));

    DAG->addMutation(

        createIGroupLPDAGMutation(AMDGPU::SchedulingPhase::PostRA));

    if (isPassEnabled(EnableVOPD, CodeGenOptLevel::Less))

      DAG->addMutation(createVOPDPairingMutation());

    return DAG;

  }


  bool addPreISel() override;

  void addMachineSSAOptimization() override;

  bool addILPOpts() override;

  bool addInstSelector() override;

  bool addIRTranslator() override;

  void addPreLegalizeMachineIR() override;

  bool addLegalizeMachineIR() override;

  void addPreRegBankSelect() override;

  bool addRegBankSelect() override;

  void addPreGlobalInstructionSelect() override;

  bool addGlobalInstructionSelect() override;

  void addFastRegAlloc() override;

  void addOptimizedRegAlloc() override;


  FunctionPass *createSGPRAllocPass(bool Optimized);

  FunctionPass *createVGPRAllocPass(bool Optimized);

  FunctionPass *createRegAllocPass(bool Optimized) override;


  bool addRegAssignAndRewriteFast() override;

  bool addRegAssignAndRewriteOptimized() override;


  void addPreRegAlloc() override;

  bool addPreRewrite() override;

  void addPostRegAlloc() override;

  void addPreSched2() override;

  void addPreEmitPass() override;

};


} // end anonymous namespace


AMDGPUPassConfig::AMDGPUPassConfig(LLVMTargetMachine &TM, PassManagerBase &PM)

    : TargetPassConfig(TM, PM) {

  // Exceptions and StackMaps are not supported, so these passes will never do

  // anything.

  disablePass(&StackMapLivenessID);

  disablePass(&FuncletLayoutID);

  // Garbage collection is not supported.

  disablePass(&GCLoweringID);

  disablePass(&ShadowStackGCLoweringID);

}


void AMDGPUPassConfig::addEarlyCSEOrGVNPass() {

  if (getOptLevel() == CodeGenOptLevel::Aggressive)

    addPass(createGVNPass());

  else

    addPass(createEarlyCSEPass());

}


void AMDGPUPassConfig::addStraightLineScalarOptimizationPasses() {

  if (isPassEnabled(EnableLoopPrefetch, CodeGenOptLevel::Aggressive))

    addPass(createLoopDataPrefetchPass());

  addPass(createSeparateConstOffsetFromGEPPass());

  // ReassociateGEPs exposes more opportunities for SLSR. See

  // the example in reassociate-geps-and-slsr.ll.

  addPass(createStraightLineStrengthReducePass());

  // SeparateConstOffsetFromGEP and SLSR creates common expressions which GVN or

  // EarlyCSE can reuse.

  addEarlyCSEOrGVNPass();

  // Run NaryReassociate after EarlyCSE/GVN to be more effective.

  addPass(createNaryReassociatePass());

  // NaryReassociate on GEPs creates redundant common expressions, so run

  // EarlyCSE after it.

  addPass(createEarlyCSEPass());

}


void AMDGPUPassConfig::addIRPasses() {

  const AMDGPUTargetMachine &TM = getAMDGPUTargetMachine();


  Triple::ArchType Arch = TM.getTargetTriple().getArch();

  if (RemoveIncompatibleFunctions && Arch == Triple::amdgcn)

    addPass(createAMDGPURemoveIncompatibleFunctionsPass(&TM));


  // There is no reason to run these.

  disablePass(&StackMapLivenessID);

  disablePass(&FuncletLayoutID);

  disablePass(&PatchableFunctionID);


  addPass(createAMDGPUPrintfRuntimeBinding());

  if (LowerCtorDtor)

    addPass(createAMDGPUCtorDtorLoweringLegacyPass());


  if (isPassEnabled(EnableImageIntrinsicOptimizer))

    addPass(createAMDGPUImageIntrinsicOptimizerPass(&TM));


  // This can be disabled by passing ::Disable here or on the command line

  // with --expand-variadics-override=disable.

  addPass(createExpandVariadicsPass(ExpandVariadicsMode::Lowering));


  // Function calls are not supported, so make sure we inline everything.

  addPass(createAMDGPUAlwaysInlinePass());

  addPass(createAlwaysInlinerLegacyPass());


  // Handle uses of OpenCL image2d_t, image3d_t and sampler_t arguments.

  if (Arch == Triple::r600)

    addPass(createR600OpenCLImageTypeLoweringPass());


  // Replace OpenCL enqueued block function pointers with global variables.

  addPass(createAMDGPUOpenCLEnqueuedBlockLoweringPass());


  // Runs before PromoteAlloca so the latter can account for function uses

  if (EnableLowerModuleLDS) {

    addPass(createAMDGPULowerModuleLDSLegacyPass(&TM));

  }


  if (TM.getOptLevel() > CodeGenOptLevel::None)

    addPass(createInferAddressSpacesPass());


  // Run atomic optimizer before Atomic Expand

  if ((TM.getTargetTriple().getArch() == Triple::amdgcn) &&

      (TM.getOptLevel() >= CodeGenOptLevel::Less) &&

      (AMDGPUAtomicOptimizerStrategy != ScanOptions::None)) {

    addPass(createAMDGPUAtomicOptimizerPass(AMDGPUAtomicOptimizerStrategy));

  }


  addPass(createAtomicExpandLegacyPass());


  if (TM.getOptLevel() > CodeGenOptLevel::None) {

    addPass(createAMDGPUPromoteAlloca());


    if (isPassEnabled(EnableScalarIRPasses))

      addStraightLineScalarOptimizationPasses();


    if (EnableAMDGPUAliasAnalysis) {

      addPass(createAMDGPUAAWrapperPass());

      addPass(createExternalAAWrapperPass([](Pass &P, Function &,

                                             AAResults &AAR) {

        if (auto *WrapperPass = P.getAnalysisIfAvailable<AMDGPUAAWrapperPass>())

          AAR.addAAResult(WrapperPass->getResult());

        }));

    }


    if (TM.getTargetTriple().getArch() == Triple::amdgcn) {

      // TODO: May want to move later or split into an early and late one.

      addPass(createAMDGPUCodeGenPreparePass());

    }


    // Try to hoist loop invariant parts of divisions AMDGPUCodeGenPrepare may

    // have expanded.

    if (TM.getOptLevel() > CodeGenOptLevel::Less)

      addPass(createLICMPass());

  }


  TargetPassConfig::addIRPasses();


  // EarlyCSE is not always strong enough to clean up what LSR produces. For

  // example, GVN can combine

  //

  //   %0 = add %a, %b

  //   %1 = add %b, %a

  //

  // and

  //

  //   %0 = shl nsw %a, 2

  //   %1 = shl %a, 2

  //

  // but EarlyCSE can do neither of them.

  if (isPassEnabled(EnableScalarIRPasses))

    addEarlyCSEOrGVNPass();

}


void AMDGPUPassConfig::addCodeGenPrepare() {

  if (TM->getTargetTriple().getArch() == Triple::amdgcn) {

    // FIXME: This pass adds 2 hacky attributes that can be replaced with an

    // analysis, and should be removed.

    addPass(createAMDGPUAnnotateKernelFeaturesPass());

  }


  if (TM->getTargetTriple().getArch() == Triple::amdgcn &&

      EnableLowerKernelArguments)

    addPass(createAMDGPULowerKernelArgumentsPass());


  if (TM->getTargetTriple().getArch() == Triple::amdgcn) {

    // This lowering has been placed after codegenprepare to take advantage of

    // address mode matching (which is why it isn't put with the LDS lowerings).

    // It could be placed anywhere before uniformity annotations (an analysis

    // that it changes by splitting up fat pointers into their components)

    // but has been put before switch lowering and CFG flattening so that those

    // passes can run on the more optimized control flow this pass creates in

    // many cases.

    //

    // FIXME: This should ideally be put after the LoadStoreVectorizer.

    // However, due to some annoying facts about ResourceUsageAnalysis,

    // (especially as exercised in the resource-usage-dead-function test),

    // we need all the function passes codegenprepare all the way through

    // said resource usage analysis to run on the call graph produced

    // before codegenprepare runs (because codegenprepare will knock some

    // nodes out of the graph, which leads to function-level passes not

    // being run on them, which causes crashes in the resource usage analysis).

    addPass(createAMDGPULowerBufferFatPointersPass());

    // In accordance with the above FIXME, manually force all the

    // function-level passes into a CGSCCPassManager.

    addPass(new DummyCGSCCPass());

  }


  TargetPassConfig::addCodeGenPrepare();


  if (isPassEnabled(EnableLoadStoreVectorizer))

    addPass(createLoadStoreVectorizerPass());


  // LowerSwitch pass may introduce unreachable blocks that can

  // cause unexpected behavior for subsequent passes. Placing it

  // here seems better that these blocks would get cleaned up by

  // UnreachableBlockElim inserted next in the pass flow.

  addPass(createLowerSwitchPass());

}


bool AMDGPUPassConfig::addPreISel() {

  if (TM->getOptLevel() > CodeGenOptLevel::None)

    addPass(createFlattenCFGPass());

  return false;

}


bool AMDGPUPassConfig::addInstSelector() {

  addPass(createAMDGPUISelDag(getAMDGPUTargetMachine(), getOptLevel()));

  return false;

}


bool AMDGPUPassConfig::addGCPasses() {

  // Do nothing. GC is not supported.

  return false;

}


llvm::ScheduleDAGInstrs *

AMDGPUPassConfig::createMachineScheduler(MachineSchedContext *C) const {

  const GCNSubtarget &ST = C->MF->getSubtarget<GCNSubtarget>();

  ScheduleDAGMILive *DAG = createGenericSchedLive(C);

  DAG->addMutation(createLoadClusterDAGMutation(DAG->TII, DAG->TRI));

  if (ST.shouldClusterStores())

    DAG->addMutation(createStoreClusterDAGMutation(DAG->TII, DAG->TRI));

  return DAG;

}


MachineFunctionInfo *R600TargetMachine::createMachineFunctionInfo(

    BumpPtrAllocator &Allocator, const Function &F,

    const TargetSubtargetInfo *STI) const {

  return R600MachineFunctionInfo::create<R600MachineFunctionInfo>(

      Allocator, F, static_cast<const R600Subtarget *>(STI));

}


//===----------------------------------------------------------------------===//

// GCN Pass Setup

//===----------------------------------------------------------------------===//


ScheduleDAGInstrs *GCNPassConfig::createMachineScheduler(

  MachineSchedContext *C) const {

  const GCNSubtarget &ST = C->MF->getSubtarget<GCNSubtarget>();

  if (ST.enableSIScheduler())

    return createSIMachineScheduler(C);


  if (EnableMaxIlpSchedStrategy)

    return createGCNMaxILPMachineScheduler(C);


  return createGCNMaxOccupancyMachineScheduler(C);

}


bool GCNPassConfig::addPreISel() {

  AMDGPUPassConfig::addPreISel();


  if (TM->getOptLevel() > CodeGenOptLevel::None)

    addPass(createSinkingPass());


  if (TM->getOptLevel() > CodeGenOptLevel::None)

    addPass(createAMDGPULateCodeGenPrepareLegacyPass());


  // Merge divergent exit nodes. StructurizeCFG won't recognize the multi-exit

  // regions formed by them.

  addPass(&AMDGPUUnifyDivergentExitNodesID);

  if (!LateCFGStructurize && !DisableStructurizer) {

    if (EnableStructurizerWorkarounds) {

      addPass(createFixIrreduciblePass());

      addPass(createUnifyLoopExitsPass());

    }

    addPass(createStructurizeCFGPass(false)); // true -> SkipUniformRegions

  }

  addPass(createAMDGPUAnnotateUniformValuesLegacy());

  if (!LateCFGStructurize && !DisableStructurizer) {

    addPass(createSIAnnotateControlFlowLegacyPass());

    // TODO: Move this right after structurizeCFG to avoid extra divergence

    // analysis. This depends on stopping SIAnnotateControlFlow from making

    // control flow modifications.

    addPass(createAMDGPURewriteUndefForPHILegacyPass());

  }

  addPass(createLCSSAPass());


  if (TM->getOptLevel() > CodeGenOptLevel::Less)

    addPass(&AMDGPUPerfHintAnalysisLegacyID);


  return false;

}


void GCNPassConfig::addMachineSSAOptimization() {

  TargetPassConfig::addMachineSSAOptimization();


  // We want to fold operands after PeepholeOptimizer has run (or as part of

  // it), because it will eliminate extra copies making it easier to fold the

  // real source operand. We want to eliminate dead instructions after, so that

  // we see fewer uses of the copies. We then need to clean up the dead

  // instructions leftover after the operands are folded as well.

  //

  // XXX - Can we get away without running DeadMachineInstructionElim again?

  addPass(&SIFoldOperandsID);

  if (EnableDPPCombine)

    addPass(&GCNDPPCombineID);

  addPass(&SILoadStoreOptimizerID);

  if (isPassEnabled(EnableSDWAPeephole)) {

    addPass(&SIPeepholeSDWAID);

    addPass(&EarlyMachineLICMID);

    addPass(&MachineCSEID);

    addPass(&SIFoldOperandsID);

  }

  addPass(&DeadMachineInstructionElimID);

  addPass(createSIShrinkInstructionsPass());

}


bool GCNPassConfig::addILPOpts() {

  if (EnableEarlyIfConversion)

    addPass(&EarlyIfConverterID);


  TargetPassConfig::addILPOpts();

  return false;

}


bool GCNPassConfig::addInstSelector() {

  AMDGPUPassConfig::addInstSelector();

  addPass(&SIFixSGPRCopiesLegacyID);

  addPass(createSILowerI1CopiesLegacyPass());

  return false;

}


bool GCNPassConfig::addIRTranslator() {

  addPass(new IRTranslator(getOptLevel()));

  return false;

}


void GCNPassConfig::addPreLegalizeMachineIR() {

  bool IsOptNone = getOptLevel() == CodeGenOptLevel::None;

  addPass(createAMDGPUPreLegalizeCombiner(IsOptNone));

  addPass(new Localizer());

}


bool GCNPassConfig::addLegalizeMachineIR() {

  addPass(new Legalizer());

  return false;

}


void GCNPassConfig::addPreRegBankSelect() {

  bool IsOptNone = getOptLevel() == CodeGenOptLevel::None;

  addPass(createAMDGPUPostLegalizeCombiner(IsOptNone));

  addPass(createAMDGPUGlobalISelDivergenceLoweringPass());

}


bool GCNPassConfig::addRegBankSelect() {

  addPass(new AMDGPURegBankSelect());

  return false;

}


void GCNPassConfig::addPreGlobalInstructionSelect() {

  bool IsOptNone = getOptLevel() == CodeGenOptLevel::None;

  addPass(createAMDGPURegBankCombiner(IsOptNone));

}


bool GCNPassConfig::addGlobalInstructionSelect() {

  addPass(new InstructionSelect(getOptLevel()));

  return false;

}


void GCNPassConfig::addPreRegAlloc() {

  if (LateCFGStructurize) {

    addPass(createAMDGPUMachineCFGStructurizerPass());

  }

}


void GCNPassConfig::addFastRegAlloc() {

  // FIXME: We have to disable the verifier here because of PHIElimination +

  // TwoAddressInstructions disabling it.


  // This must be run immediately after phi elimination and before

  // TwoAddressInstructions, otherwise the processing of the tied operand of

  // SI_ELSE will introduce a copy of the tied operand source after the else.

  insertPass(&PHIEliminationID, &SILowerControlFlowID);


  insertPass(&TwoAddressInstructionPassID, &SIWholeQuadModeID);


  TargetPassConfig::addFastRegAlloc();

}


void GCNPassConfig::addOptimizedRegAlloc() {

  // Allow the scheduler to run before SIWholeQuadMode inserts exec manipulation

  // instructions that cause scheduling barriers.

  insertPass(&MachineSchedulerID, &SIWholeQuadModeID);


  if (OptExecMaskPreRA)

    insertPass(&MachineSchedulerID, &SIOptimizeExecMaskingPreRAID);


  if (EnableRewritePartialRegUses)

    insertPass(&RenameIndependentSubregsID, &GCNRewritePartialRegUsesID);


  if (isPassEnabled(EnablePreRAOptimizations))

    insertPass(&RenameIndependentSubregsID, &GCNPreRAOptimizationsID);


  // This is not an essential optimization and it has a noticeable impact on

  // compilation time, so we only enable it from O2.

  if (TM->getOptLevel() > CodeGenOptLevel::Less)

    insertPass(&MachineSchedulerID, &SIFormMemoryClausesID);


  // FIXME: when an instruction has a Killed operand, and the instruction is

  // inside a bundle, seems only the BUNDLE instruction appears as the Kills of

  // the register in LiveVariables, this would trigger a failure in verifier,

  // we should fix it and enable the verifier.

  if (OptVGPRLiveRange)

    insertPass(&LiveVariablesID, &SIOptimizeVGPRLiveRangeID);

  // This must be run immediately after phi elimination and before

  // TwoAddressInstructions, otherwise the processing of the tied operand of

  // SI_ELSE will introduce a copy of the tied operand source after the else.

  insertPass(&PHIEliminationID, &SILowerControlFlowID);


  if (EnableDCEInRA)

    insertPass(&DetectDeadLanesID, &DeadMachineInstructionElimID);


  TargetPassConfig::addOptimizedRegAlloc();

}


bool GCNPassConfig::addPreRewrite() {

  addPass(&SILowerWWMCopiesID);

  if (EnableRegReassign)

    addPass(&GCNNSAReassignID);

  return true;

}


FunctionPass *GCNPassConfig::createSGPRAllocPass(bool Optimized) {

  // Initialize the global default.

  llvm::call_once(InitializeDefaultSGPRRegisterAllocatorFlag,

                  initializeDefaultSGPRRegisterAllocatorOnce);


  RegisterRegAlloc::FunctionPassCtor Ctor = SGPRRegisterRegAlloc::getDefault();

  if (Ctor != useDefaultRegisterAllocator)

    return Ctor();


  if (Optimized)

    return createGreedyRegisterAllocator(onlyAllocateSGPRs);


  return createFastRegisterAllocator(onlyAllocateSGPRs, false);

}


FunctionPass *GCNPassConfig::createVGPRAllocPass(bool Optimized) {

  // Initialize the global default.

  llvm::call_once(InitializeDefaultVGPRRegisterAllocatorFlag,

                  initializeDefaultVGPRRegisterAllocatorOnce);


  RegisterRegAlloc::FunctionPassCtor Ctor = VGPRRegisterRegAlloc::getDefault();

  if (Ctor != useDefaultRegisterAllocator)

    return Ctor();


  if (Optimized)

    return createGreedyVGPRRegisterAllocator();


  return createFastVGPRRegisterAllocator();

}


FunctionPass *GCNPassConfig::createRegAllocPass(bool Optimized) {

  llvm_unreachable("should not be used");

}


static const char RegAllocOptNotSupportedMessage[] =

  "-regalloc not supported with amdgcn. Use -sgpr-regalloc and -vgpr-regalloc";


bool GCNPassConfig::addRegAssignAndRewriteFast() {

  if (!usingDefaultRegAlloc())

    report_fatal_error(RegAllocOptNotSupportedMessage);


  addPass(&GCNPreRALongBranchRegID);


  addPass(createSGPRAllocPass(false));


  // Equivalent of PEI for SGPRs.

  addPass(&SILowerSGPRSpillsID);

  addPass(&SIPreAllocateWWMRegsID);


  addPass(createVGPRAllocPass(false));


  addPass(&SILowerWWMCopiesID);

  return true;

}


bool GCNPassConfig::addRegAssignAndRewriteOptimized() {

  if (!usingDefaultRegAlloc())

    report_fatal_error(RegAllocOptNotSupportedMessage);


  addPass(&GCNPreRALongBranchRegID);


  addPass(createSGPRAllocPass(true));


  // Commit allocated register changes. This is mostly necessary because too

  // many things rely on the use lists of the physical registers, such as the

  // verifier. This is only necessary with allocators which use LiveIntervals,

  // since FastRegAlloc does the replacements itself.

  addPass(createVirtRegRewriter(false));


  // Equivalent of PEI for SGPRs.

  addPass(&SILowerSGPRSpillsID);

  addPass(&SIPreAllocateWWMRegsID);


  addPass(createVGPRAllocPass(true));


  addPreRewrite();

  addPass(&VirtRegRewriterID);


  addPass(&AMDGPUMarkLastScratchLoadID);


  return true;

}


void GCNPassConfig::addPostRegAlloc() {

  addPass(&SIFixVGPRCopiesID);

  if (getOptLevel() > CodeGenOptLevel::None)

    addPass(&SIOptimizeExecMaskingID);

  TargetPassConfig::addPostRegAlloc();

}


void GCNPassConfig::addPreSched2() {

  if (TM->getOptLevel() > CodeGenOptLevel::None)

    addPass(createSIShrinkInstructionsPass());

  addPass(&SIPostRABundlerID);

}


void GCNPassConfig::addPreEmitPass() {

  if (isPassEnabled(EnableVOPD, CodeGenOptLevel::Less))

    addPass(&GCNCreateVOPDID);

  addPass(createSIMemoryLegalizerPass());

  addPass(createSIInsertWaitcntsPass());


  addPass(createSIModeRegisterPass());


  if (getOptLevel() > CodeGenOptLevel::None)

    addPass(&SIInsertHardClausesID);


  addPass(&SILateBranchLoweringPassID);

  if (isPassEnabled(EnableSetWavePriority, CodeGenOptLevel::Less))

    addPass(createAMDGPUSetWavePriorityPass());

  if (getOptLevel() > CodeGenOptLevel::None)

    addPass(&SIPreEmitPeepholeID);

  // The hazard recognizer that runs as part of the post-ra scheduler does not

  // guarantee to be able handle all hazards correctly. This is because if there

  // are multiple scheduling regions in a basic block, the regions are scheduled

  // bottom up, so when we begin to schedule a region we don't know what

  // instructions were emitted directly before it.

  //

  // Here we add a stand-alone hazard recognizer pass which can handle all

  // cases.

  addPass(&PostRAHazardRecognizerID);


  if (isPassEnabled(EnableInsertSingleUseVDST, CodeGenOptLevel::Less))

    addPass(&AMDGPUInsertSingleUseVDSTID);


  if (isPassEnabled(EnableInsertDelayAlu, CodeGenOptLevel::Less))

    addPass(&AMDGPUInsertDelayAluID);


  addPass(&BranchRelaxationPassID);

}


TargetPassConfig *GCNTargetMachine::createPassConfig(PassManagerBase &PM) {

  return new GCNPassConfig(*this, PM);

}


void GCNTargetMachine::registerMachineRegisterInfoCallback(

    MachineFunction &MF) const {

  SIMachineFunctionInfo *MFI = MF.getInfo<SIMachineFunctionInfo>();

  MF.getRegInfo().addDelegate(MFI);

}


MachineFunctionInfo *GCNTargetMachine::createMachineFunctionInfo(

    BumpPtrAllocator &Allocator, const Function &F,

    const TargetSubtargetInfo *STI) const {

  return SIMachineFunctionInfo::create<SIMachineFunctionInfo>(

      Allocator, F, static_cast<const GCNSubtarget *>(STI));

}


yaml::MachineFunctionInfo *GCNTargetMachine::createDefaultFuncInfoYAML() const {

  return new yaml::SIMachineFunctionInfo();

}


yaml::MachineFunctionInfo *

GCNTargetMachine::convertFuncInfoToYAML(const MachineFunction &MF) const {

  const SIMachineFunctionInfo *MFI = MF.getInfo<SIMachineFunctionInfo>();

  return new yaml::SIMachineFunctionInfo(

      *MFI, *MF.getSubtarget<GCNSubtarget>().getRegisterInfo(), MF);

}


bool GCNTargetMachine::parseMachineFunctionInfo(

    const yaml::MachineFunctionInfo &MFI_, PerFunctionMIParsingState &PFS,

    SMDiagnostic &Error, SMRange &SourceRange) const {

  const yaml::SIMachineFunctionInfo &YamlMFI =

      static_cast<const yaml::SIMachineFunctionInfo &>(MFI_);

  MachineFunction &MF = PFS.MF;

  SIMachineFunctionInfo *MFI = MF.getInfo<SIMachineFunctionInfo>();

  const GCNSubtarget &ST = MF.getSubtarget<GCNSubtarget>();


  if (MFI->initializeBaseYamlFields(YamlMFI, MF, PFS, Error, SourceRange))

    return true;


  if (MFI->Occupancy == 0) {

    // Fixup the subtarget dependent default value.

    MFI->Occupancy = ST.computeOccupancy(MF.getFunction(), MFI->getLDSSize());

  }


  auto parseRegister = [&](const yaml::StringValue &RegName, Register &RegVal) {

    Register TempReg;

    if (parseNamedRegisterReference(PFS, TempReg, RegName.Value, Error)) {

      SourceRange = RegName.SourceRange;

      return true;

    }

    RegVal = TempReg;


    return false;

  };


  auto parseOptionalRegister = [&](const yaml::StringValue &RegName,

                                   Register &RegVal) {

    return !RegName.Value.empty() && parseRegister(RegName, RegVal);

  };


  if (parseOptionalRegister(YamlMFI.VGPRForAGPRCopy, MFI->VGPRForAGPRCopy))

    return true;


  if (parseOptionalRegister(YamlMFI.SGPRForEXECCopy, MFI->SGPRForEXECCopy))

    return true;


  if (parseOptionalRegister(YamlMFI.LongBranchReservedReg,

                            MFI->LongBranchReservedReg))

    return true;


  auto diagnoseRegisterClass = [&](const yaml::StringValue &RegName) {

    // Create a diagnostic for a the register string literal.

    const MemoryBuffer &Buffer =

        *PFS.SM->getMemoryBuffer(PFS.SM->getMainFileID());

    Error = SMDiagnostic(*PFS.SM, SMLoc(), Buffer.getBufferIdentifier(), 1,

                         RegName.Value.size(), SourceMgr::DK_Error,

                         "incorrect register class for field", RegName.Value,

                         std::nullopt, std::nullopt);

    SourceRange = RegName.SourceRange;

    return true;

  };


  if (parseRegister(YamlMFI.ScratchRSrcReg, MFI->ScratchRSrcReg) ||

      parseRegister(YamlMFI.FrameOffsetReg, MFI->FrameOffsetReg) ||

      parseRegister(YamlMFI.StackPtrOffsetReg, MFI->StackPtrOffsetReg))

    return true;


  if (MFI->ScratchRSrcReg != AMDGPU::PRIVATE_RSRC_REG &&

      !AMDGPU::SGPR_128RegClass.contains(MFI->ScratchRSrcReg)) {

    return diagnoseRegisterClass(YamlMFI.ScratchRSrcReg);

  }


  if (MFI->FrameOffsetReg != AMDGPU::FP_REG &&

      !AMDGPU::SGPR_32RegClass.contains(MFI->FrameOffsetReg)) {

    return diagnoseRegisterClass(YamlMFI.FrameOffsetReg);

  }


  if (MFI->StackPtrOffsetReg != AMDGPU::SP_REG &&

      !AMDGPU::SGPR_32RegClass.contains(MFI->StackPtrOffsetReg)) {

    return diagnoseRegisterClass(YamlMFI.StackPtrOffsetReg);

  }


  for (const auto &YamlReg : YamlMFI.WWMReservedRegs) {

    Register ParsedReg;

    if (parseRegister(YamlReg, ParsedReg))

      return true;


    MFI->reserveWWMRegister(ParsedReg);

  }


  auto parseAndCheckArgument = [&](const std::optional<yaml::SIArgument> &A,

                                   const TargetRegisterClass &RC,

                                   ArgDescriptor &Arg, unsigned UserSGPRs,

                                   unsigned SystemSGPRs) {

    // Skip parsing if it's not present.

    if (!A)

      return false;


    if (A->IsRegister) {

      Register Reg;

      if (parseNamedRegisterReference(PFS, Reg, A->RegisterName.Value, Error)) {

        SourceRange = A->RegisterName.SourceRange;

        return true;

      }

      if (!RC.contains(Reg))

        return diagnoseRegisterClass(A->RegisterName);

      Arg = ArgDescriptor::createRegister(Reg);

    } else

      Arg = ArgDescriptor::createStack(A->StackOffset);

    // Check and apply the optional mask.

    if (A->Mask)

      Arg = ArgDescriptor::createArg(Arg, *A->Mask);


    MFI->NumUserSGPRs += UserSGPRs;

    MFI->NumSystemSGPRs += SystemSGPRs;

    return false;

  };


  if (YamlMFI.ArgInfo &&

      (parseAndCheckArgument(YamlMFI.ArgInfo->PrivateSegmentBuffer,

                             AMDGPU::SGPR_128RegClass,

                             MFI->ArgInfo.PrivateSegmentBuffer, 4, 0) ||

       parseAndCheckArgument(YamlMFI.ArgInfo->DispatchPtr,

                             AMDGPU::SReg_64RegClass, MFI->ArgInfo.DispatchPtr,

                             2, 0) ||

       parseAndCheckArgument(YamlMFI.ArgInfo->QueuePtr, AMDGPU::SReg_64RegClass,

                             MFI->ArgInfo.QueuePtr, 2, 0) ||

       parseAndCheckArgument(YamlMFI.ArgInfo->KernargSegmentPtr,

                             AMDGPU::SReg_64RegClass,

                             MFI->ArgInfo.KernargSegmentPtr, 2, 0) ||

       parseAndCheckArgument(YamlMFI.ArgInfo->DispatchID,

                             AMDGPU::SReg_64RegClass, MFI->ArgInfo.DispatchID,

                             2, 0) ||

       parseAndCheckArgument(YamlMFI.ArgInfo->FlatScratchInit,

                             AMDGPU::SReg_64RegClass,

                             MFI->ArgInfo.FlatScratchInit, 2, 0) ||

       parseAndCheckArgument(YamlMFI.ArgInfo->PrivateSegmentSize,

                             AMDGPU::SGPR_32RegClass,

                             MFI->ArgInfo.PrivateSegmentSize, 0, 0) ||

       parseAndCheckArgument(YamlMFI.ArgInfo->LDSKernelId,

                             AMDGPU::SGPR_32RegClass,

                             MFI->ArgInfo.LDSKernelId, 0, 1) ||

       parseAndCheckArgument(YamlMFI.ArgInfo->WorkGroupIDX,

                             AMDGPU::SGPR_32RegClass, MFI->ArgInfo.WorkGroupIDX,

                             0, 1) ||

       parseAndCheckArgument(YamlMFI.ArgInfo->WorkGroupIDY,

                             AMDGPU::SGPR_32RegClass, MFI->ArgInfo.WorkGroupIDY,

                             0, 1) ||

       parseAndCheckArgument(YamlMFI.ArgInfo->WorkGroupIDZ,

                             AMDGPU::SGPR_32RegClass, MFI->ArgInfo.WorkGroupIDZ,

                             0, 1) ||

       parseAndCheckArgument(YamlMFI.ArgInfo->WorkGroupInfo,

                             AMDGPU::SGPR_32RegClass,

                             MFI->ArgInfo.WorkGroupInfo, 0, 1) ||

       parseAndCheckArgument(YamlMFI.ArgInfo->PrivateSegmentWaveByteOffset,

                             AMDGPU::SGPR_32RegClass,

                             MFI->ArgInfo.PrivateSegmentWaveByteOffset, 0, 1) ||

       parseAndCheckArgument(YamlMFI.ArgInfo->ImplicitArgPtr,

                             AMDGPU::SReg_64RegClass,

                             MFI->ArgInfo.ImplicitArgPtr, 0, 0) ||

       parseAndCheckArgument(YamlMFI.ArgInfo->ImplicitBufferPtr,

                             AMDGPU::SReg_64RegClass,

                             MFI->ArgInfo.ImplicitBufferPtr, 2, 0) ||

       parseAndCheckArgument(YamlMFI.ArgInfo->WorkItemIDX,

                             AMDGPU::VGPR_32RegClass,

                             MFI->ArgInfo.WorkItemIDX, 0, 0) ||

       parseAndCheckArgument(YamlMFI.ArgInfo->WorkItemIDY,

                             AMDGPU::VGPR_32RegClass,

                             MFI->ArgInfo.WorkItemIDY, 0, 0) ||

       parseAndCheckArgument(YamlMFI.ArgInfo->WorkItemIDZ,

                             AMDGPU::VGPR_32RegClass,

                             MFI->ArgInfo.WorkItemIDZ, 0, 0)))

    return true;


  if (ST.hasIEEEMode())

    MFI->Mode.IEEE = YamlMFI.Mode.IEEE;

  if (ST.hasDX10ClampMode())

    MFI->Mode.DX10Clamp = YamlMFI.Mode.DX10Clamp;


  // FIXME: Move proper support for denormal-fp-math into base MachineFunction

  MFI->Mode.FP32Denormals.Input = YamlMFI.Mode.FP32InputDenormals

                                      ? DenormalMode::IEEE

                                      : DenormalMode::PreserveSign;

  MFI->Mode.FP32Denormals.Output = YamlMFI.Mode.FP32OutputDenormals

                                       ? DenormalMode::IEEE

                                       : DenormalMode::PreserveSign;


  MFI->Mode.FP64FP16Denormals.Input = YamlMFI.Mode.FP64FP16InputDenormals

                                          ? DenormalMode::IEEE

                                          : DenormalMode::PreserveSign;

  MFI->Mode.FP64FP16Denormals.Output = YamlMFI.Mode.FP64FP16OutputDenormals

                                           ? DenormalMode::IEEE

                                           : DenormalMode::PreserveSign;


  return false;

}

MRI
unsigned const MachineRegisterInfo * MRI
Definition: AArch64AdvSIMDScalarPass.cpp:105

EnableEarlyIfConversion
static cl::opt< bool > EnableEarlyIfConversion("aarch64-enable-early-ifcvt", cl::Hidden, cl::desc("Run early if-conversion"), cl::init(true))

AMDGPUAliasAnalysis.h
This is the AMGPU address space based alias analysis pass.

AMDGPUBaseInfo.h

AMDGPUCodeGenPassBuilder.h

AMDGPUCtorDtorLowering.h

AMDGPUExportClustering.h

AMDGPUIGroupLP.h

AMDGPUISelDAGToDAG.h
Defines an instruction selector for the AMDGPU target.

AMDGPUMacroFusion.h

AMDGPUPerfHintAnalysis.h
Analyzes if a function potentially memory bound and if a kernel kernel may benefit from limiting numb...

AMDGPURegBankSelect.h

AMDGPUSplitModule.h

AMDGPUTargetInfo.h

EnableDCEInRA
static cl::opt< bool > EnableDCEInRA("amdgpu-dce-in-ra", cl::init(true), cl::Hidden, cl::desc("Enable machine DCE inside regalloc"))

EnableLowerModuleLDS
static cl::opt< bool, true > EnableLowerModuleLDS("amdgpu-enable-lower-module-lds", cl::desc("Enable lower module lds pass"), cl::location(AMDGPUTargetMachine::EnableLowerModuleLDS), cl::init(true), cl::Hidden)

EnableStructurizerWorkarounds
static cl::opt< bool, true > EnableStructurizerWorkarounds("amdgpu-enable-structurizer-workarounds", cl::desc("Enable workarounds for the StructurizeCFG pass"), cl::location(AMDGPUTargetMachine::EnableStructurizerWorkarounds), cl::init(true), cl::Hidden)

SISchedRegistry
static MachineSchedRegistry SISchedRegistry("si", "Run SI's custom scheduler", createSIMachineScheduler)

createIterativeILPMachineScheduler
static ScheduleDAGInstrs * createIterativeILPMachineScheduler(MachineSchedContext *C)
Definition: AMDGPUTargetMachine.cpp:520

EarlyInlineAll
static cl::opt< bool > EarlyInlineAll("amdgpu-early-inline-all", cl::desc("Inline all functions early"), cl::init(false), cl::Hidden)

EnableLowerKernelArguments
static cl::opt< bool > EnableLowerKernelArguments("amdgpu-ir-lower-kernel-arguments", cl::desc("Lower kernel argument loads in IR pass"), cl::init(true), cl::Hidden)

createGCNMaxILPMachineScheduler
static ScheduleDAGInstrs * createGCNMaxILPMachineScheduler(MachineSchedContext *C)
Definition: AMDGPUTargetMachine.cpp:496

EnableSDWAPeephole
static cl::opt< bool > EnableSDWAPeephole("amdgpu-sdwa-peephole", cl::desc("Enable SDWA peepholer"), cl::init(true))

GCNMinRegSchedRegistry
static MachineSchedRegistry GCNMinRegSchedRegistry("gcn-iterative-minreg", "Run GCN iterative scheduler for minimal register usage (experimental)", createMinRegScheduler)

EnableImageIntrinsicOptimizer
static cl::opt< bool > EnableImageIntrinsicOptimizer("amdgpu-enable-image-intrinsic-optimizer", cl::desc("Enable image intrinsic optimizer pass"), cl::init(true), cl::Hidden)

EnableSIModeRegisterPass
static cl::opt< bool > EnableSIModeRegisterPass("amdgpu-mode-register", cl::desc("Enable mode register pass"), cl::init(true), cl::Hidden)

EnableDPPCombine
static cl::opt< bool > EnableDPPCombine("amdgpu-dpp-combine", cl::desc("Enable DPP combiner"), cl::init(true))

IterativeGCNMaxOccupancySchedRegistry
static MachineSchedRegistry IterativeGCNMaxOccupancySchedRegistry("gcn-iterative-max-occupancy-experimental", "Run GCN scheduler to maximize occupancy (experimental)", createIterativeGCNMaxOccupancyMachineScheduler)

EnableSetWavePriority
static cl::opt< bool > EnableSetWavePriority("amdgpu-set-wave-priority", cl::desc("Adjust wave priority"), cl::init(false), cl::Hidden)

LowerCtorDtor
static cl::opt< bool > LowerCtorDtor("amdgpu-lower-global-ctor-dtor", cl::desc("Lower GPU ctor / dtors to globals on the device."), cl::init(true), cl::Hidden)

DisableStructurizer
static cl::opt< bool, true > DisableStructurizer("amdgpu-disable-structurizer", cl::desc("Disable structurizer for experiments; produces unusable code"), cl::location(AMDGPUTargetMachine::DisableStructurizer), cl::ReallyHidden)

OptExecMaskPreRA
static cl::opt< bool > OptExecMaskPreRA("amdgpu-opt-exec-mask-pre-ra", cl::Hidden, cl::desc("Run pre-RA exec mask optimizations"), cl::init(true))

EnablePromoteKernelArguments
static cl::opt< bool > EnablePromoteKernelArguments("amdgpu-enable-promote-kernel-arguments", cl::desc("Enable promotion of flat kernel pointer arguments to global"), cl::Hidden, cl::init(true))

EnableRewritePartialRegUses
static cl::opt< bool > EnableRewritePartialRegUses("amdgpu-enable-rewrite-partial-reg-uses", cl::desc("Enable rewrite partial reg uses pass"), cl::init(true), cl::Hidden)

EnableLibCallSimplify
static cl::opt< bool > EnableLibCallSimplify("amdgpu-simplify-libcall", cl::desc("Enable amdgpu library simplifications"), cl::init(true), cl::Hidden)

GCNMaxILPSchedRegistry
static MachineSchedRegistry GCNMaxILPSchedRegistry("gcn-max-ilp", "Run GCN scheduler to maximize ilp", createGCNMaxILPMachineScheduler)

InternalizeSymbols
static cl::opt< bool > InternalizeSymbols("amdgpu-internalize-symbols", cl::desc("Enable elimination of non-kernel functions and unused globals"), cl::init(false), cl::Hidden)

EnableAMDGPUAttributor
static cl::opt< bool > EnableAMDGPUAttributor("amdgpu-attributor-enable", cl::desc("Enable AMDGPUAttributorPass"), cl::init(true), cl::Hidden)

getGPUOrDefault
static LLVM_READNONE StringRef getGPUOrDefault(const Triple &TT, StringRef GPU)
Definition: AMDGPUTargetMachine.cpp:580

getEffectiveRelocModel
static Reloc::Model getEffectiveRelocModel(std::optional< Reloc::Model > RM)
Definition: AMDGPUTargetMachine.cpp:591

parseAMDGPUAttributorPassOptions
Expected< AMDGPUAttributorOptions > parseAMDGPUAttributorPassOptions(StringRef Params)
Definition: AMDGPUTargetMachine.cpp:667

EnableAMDGPUAliasAnalysis
static cl::opt< bool > EnableAMDGPUAliasAnalysis("enable-amdgpu-aa", cl::Hidden, cl::desc("Enable AMDGPU Alias Analysis"), cl::init(true))

parseAMDGPUAtomicOptimizerStrategy
static Expected< ScanOptions > parseAMDGPUAtomicOptimizerStrategy(StringRef Params)
Definition: AMDGPUTargetMachine.cpp:652

createMinRegScheduler
static ScheduleDAGInstrs * createMinRegScheduler(MachineSchedContext *C)
Definition: AMDGPUTargetMachine.cpp:514

LateCFGStructurize
static cl::opt< bool, true > LateCFGStructurize("amdgpu-late-structurize", cl::desc("Enable late CFG structurization"), cl::location(AMDGPUTargetMachine::EnableLateStructurizeCFG), cl::Hidden)

EnableHipStdPar
static cl::opt< bool > EnableHipStdPar("amdgpu-enable-hipstdpar", cl::desc("Enable HIP Standard Parallelism Offload support"), cl::init(false), cl::Hidden)

EnableInsertDelayAlu
static cl::opt< bool > EnableInsertDelayAlu("amdgpu-enable-delay-alu", cl::desc("Enable s_delay_alu insertion"), cl::init(true), cl::Hidden)

createIterativeGCNMaxOccupancyMachineScheduler
static ScheduleDAGInstrs * createIterativeGCNMaxOccupancyMachineScheduler(MachineSchedContext *C)
Definition: AMDGPUTargetMachine.cpp:504

EnableLoadStoreVectorizer
static cl::opt< bool > EnableLoadStoreVectorizer("amdgpu-load-store-vectorizer", cl::desc("Enable load store vectorizer"), cl::init(true), cl::Hidden)

EnableMaxIlpSchedStrategy
static cl::opt< bool > EnableMaxIlpSchedStrategy("amdgpu-enable-max-ilp-scheduling-strategy", cl::desc("Enable scheduling strategy to maximize ILP for a single wave."), cl::Hidden, cl::init(false))

mustPreserveGV
static bool mustPreserveGV(const GlobalValue &GV)
Predicate for Internalize pass.
Definition: AMDGPUTargetMachine.cpp:637

EnableLoopPrefetch
static cl::opt< bool > EnableLoopPrefetch("amdgpu-loop-prefetch", cl::desc("Enable loop data prefetch on AMDGPU"), cl::Hidden, cl::init(false))

LLVMInitializeAMDGPUTarget
LLVM_EXTERNAL_VISIBILITY void LLVMInitializeAMDGPUTarget()
Definition: AMDGPUTargetMachine.cpp:392

EnableInsertSingleUseVDST
static cl::opt< bool > EnableInsertSingleUseVDST("amdgpu-enable-single-use-vdst", cl::desc("Enable s_singleuse_vdst insertion"), cl::init(false), cl::Hidden)

RemoveIncompatibleFunctions
static cl::opt< bool > RemoveIncompatibleFunctions("amdgpu-enable-remove-incompatible-functions", cl::Hidden, cl::desc("Enable removal of functions when they" "use features not supported by the target GPU"), cl::init(true))

EnableScalarIRPasses
static cl::opt< bool > EnableScalarIRPasses("amdgpu-scalar-ir-passes", cl::desc("Enable scalar IR passes"), cl::init(true), cl::Hidden)

EnableRegReassign
static cl::opt< bool > EnableRegReassign("amdgpu-reassign-regs", cl::desc("Enable register reassign optimizations on gfx10+"), cl::init(true), cl::Hidden)

OptVGPRLiveRange
static cl::opt< bool > OptVGPRLiveRange("amdgpu-opt-vgpr-liverange", cl::desc("Enable VGPR liverange optimizations for if-else structure"), cl::init(true), cl::Hidden)

createSIMachineScheduler
static ScheduleDAGInstrs * createSIMachineScheduler(MachineSchedContext *C)
Definition: AMDGPUTargetMachine.cpp:477

EnablePreRAOptimizations
static cl::opt< bool > EnablePreRAOptimizations("amdgpu-enable-pre-ra-optimizations", cl::desc("Enable Pre-RA optimizations pass"), cl::init(true), cl::Hidden)

AMDGPUAtomicOptimizerStrategy
static cl::opt< ScanOptions > AMDGPUAtomicOptimizerStrategy("amdgpu-atomic-optimizer-strategy", cl::desc("Select DPP or Iterative strategy for scan"), cl::init(ScanOptions::Iterative), cl::values(clEnumValN(ScanOptions::DPP, "DPP", "Use DPP operations for scan"), clEnumValN(ScanOptions::Iterative, "Iterative", "Use Iterative approach for scan"), clEnumValN(ScanOptions::None, "None", "Disable atomic optimizer")))

EnableVOPD
static cl::opt< bool > EnableVOPD("amdgpu-enable-vopd", cl::desc("Enable VOPD, dual issue of VALU in wave32"), cl::init(true), cl::Hidden)

EnableEarlyIfConversion
static cl::opt< bool > EnableEarlyIfConversion("amdgpu-early-ifcvt", cl::Hidden, cl::desc("Run early if-conversion"), cl::init(false))

createGCNMaxOccupancyMachineScheduler
static ScheduleDAGInstrs * createGCNMaxOccupancyMachineScheduler(MachineSchedContext *C)
Definition: AMDGPUTargetMachine.cpp:482

GCNILPSchedRegistry
static MachineSchedRegistry GCNILPSchedRegistry("gcn-iterative-ilp", "Run GCN iterative scheduler for ILP scheduling (experimental)", createIterativeILPMachineScheduler)

ScalarizeGlobal
static cl::opt< bool > ScalarizeGlobal("amdgpu-scalarize-global-loads", cl::desc("Enable global load scalarization"), cl::init(true), cl::Hidden)

RegAllocOptNotSupportedMessage
static const char RegAllocOptNotSupportedMessage[]
Definition: AMDGPUTargetMachine.cpp:1440

GCNMaxOccupancySchedRegistry
static MachineSchedRegistry GCNMaxOccupancySchedRegistry("gcn-max-occupancy", "Run GCN scheduler to maximize occupancy", createGCNMaxOccupancyMachineScheduler)

AMDGPUTargetMachine.h
The AMDGPU TargetMachine interface definition for hw codegen targets.

AMDGPUTargetObjectFile.h
This file declares the AMDGPU-specific subclass of TargetLoweringObjectFile.

AMDGPUTargetTransformInfo.h
This file a TargetTransformInfo::Concept conforming object specific to the AMDGPU target machine.

AMDGPUUnifyDivergentExitNodes.h

AMDGPU.h

AlwaysInliner.h
Provides passes to inlining "always_inline" functions.

A
static GCRegistry::Add< ErlangGC > A("erlang", "erlang-compatible garbage collector")

D
static GCRegistry::Add< StatepointGC > D("statepoint-example", "an example strategy for statepoint")

CGSCCPassManager.h
This header provides classes for managing passes over SCCs of the call graph.

CSEInfo.h
Provides analysis for continuously CSEing during GISel passes.

CallGraphSCCPass.h

Passes.h

clEnumValN
#define clEnumValN(ENUMVAL, FLAGNAME, DESC)
Definition: CommandLine.h:686

LLVM_READNONE
#define LLVM_READNONE
Definition: Compiler.h:220

LLVM_EXTERNAL_VISIBILITY
#define LLVM_EXTERNAL_VISIBILITY
Definition: Compiler.h:135

X
static GCMetadataPrinterRegistry::Add< ErlangGCPrinter > X("erlang", "erlang-compatible garbage collector")

ExpandVariadics.h

FormatVariadic.h

GCNIterativeScheduler.h
This file defines the class GCNIterativeScheduler, which uses an iterative approach to find a best sc...

GCNSchedStrategy.h

GCNVOPDUtils.h

GVN.h
This file provides the interface for LLVM's Global Value Numbering pass which eliminates fully redund...

GlobalDCE.h

HipStdPar.h
AcceleratorCodeSelection - Identify all functions reachable from a kernel, removing those that are un...

IPO.h

IRTranslator.h
This file declares the IRTranslator pass.

InferAddressSpaces.h

InitializePasses.h

InstructionSelect.h

Internalize.h

RegName
#define RegName(no)

Options
static LVOptions Options
Definition: LVOptions.cpp:25

computeDataLayout
static std::string computeDataLayout()
Definition: LanaiTargetMachine.cpp:43

Legalizer.h

LoadStoreVectorizer.h

Localizer.h

F
#define F(x, y, z)
Definition: MD5.cpp:55

I
#define I(x, y, z)
Definition: MD5.cpp:58

MIParser.h

TRI
unsigned const TargetRegisterInfo * TRI
Definition: MachineSink.cpp:1928

II
uint64_t IntrinsicInst * II
Definition: NVVMIntrRange.cpp:52

Y
static GCMetadataPrinterRegistry::Add< OcamlGCMetadataPrinter > Y("ocaml", "ocaml 3.10-compatible collector")

P
#define P(N)

CGAM
CGSCCAnalysisManager CGAM
Definition: PassBuilderBindings.cpp:65

MPM
ModulePassManager MPM
Definition: PassBuilderBindings.cpp:83

LAM
LoopAnalysisManager LAM
Definition: PassBuilderBindings.cpp:63

FAM
FunctionAnalysisManager FAM
Definition: PassBuilderBindings.cpp:64

MAM
ModuleAnalysisManager MAM
Definition: PassBuilderBindings.cpp:66

TM
const char LLVMTargetMachineRef TM
Definition: PassBuilderBindings.cpp:52

PIC
PassInstrumentationCallbacks PIC
Definition: PassBuilderBindings.cpp:60

PB
PassBuilder PB(Machine, PassOpts->PTO, std::nullopt, &PIC)

PassManager.h
This header defines various interfaces for pass management in LLVM.

PatternMatch.h

R600MachineFunctionInfo.h

R600TargetMachine.h
The AMDGPU TargetMachine interface definition for hw codegen targets.

R600.h

Allocator
Basic Register Allocator
Definition: RegAllocBasic.cpp:143

RegAllocRegistry.h

RegBankSelect.h
This file describes the interface of the MachineFunctionPass responsible for assigning the generic vi...

SIFixSGPRCopies.h

assert
assert(ImpDefSCC.getReg()==AMDGPU::SCC &&ImpDefSCC.isDef())

SIMachineFunctionInfo.h

SIMachineScheduler.h
SI Machine Scheduler interface.

Scalar.h

SimplifyLibCalls.h

Ptr
@ Ptr
Definition: TargetLibraryInfo.cpp:77

useDefaultRegisterAllocator
static FunctionPass * useDefaultRegisterAllocator()
-regalloc=... command line option.
Definition: TargetPassConfig.cpp:1075

TargetPassConfig.h
Target-Independent Code Generator Pass Configuration Options pass.

TargetPassRegistry.inc

TargetRegistry.h

Utils.h

createTLOF
static std::unique_ptr< TargetLoweringObjectFile > createTLOF()
Definition: VETargetMachine.cpp:81

FunctionPassCtor

T

llvm::AAManager
A manager for alias analyses.
Definition: AliasAnalysis.h:924

llvm::AAManager::registerFunctionAnalysis
void registerFunctionAnalysis()
Register a specific AA result.
Definition: AliasAnalysis.h:929

llvm::AAResults
Definition: AliasAnalysis.h:319

llvm::AAResults::addAAResult
void addAAResult(AAResultT &AAResult)
Register a specific AA result.
Definition: AliasAnalysis.h:328

llvm::AMDGPUAAWrapperPass
Legacy wrapper pass to provide the AMDGPUAAResult object.
Definition: AMDGPUAliasAnalysis.h:61

llvm::AMDGPUAA
Analysis pass providing a never-invalidated alias analysis result.
Definition: AMDGPUAliasAnalysis.h:47

llvm::AMDGPUAttributorPass
Definition: AMDGPU.h:309

llvm::AMDGPUCodeGenPassBuilder
Definition: AMDGPUCodeGenPassBuilder.h:20

llvm::AMDGPUMachineFunction::getLDSSize
uint32_t getLDSSize() const
Definition: AMDGPUMachineFunction.h:79

llvm::AMDGPUPassConfig
Definition: AMDGPUTargetMachine.h:126

llvm::AMDGPUPassConfig::getAMDGPUTargetMachine
AMDGPUTargetMachine & getAMDGPUTargetMachine() const
Definition: AMDGPUTargetMachine.h:130

llvm::AMDGPUPassConfig::getCSEConfig
std::unique_ptr< CSEConfigBase > getCSEConfig() const override
Returns the CSEConfig object to use for the current optimization level.
Definition: AMDGPUTargetMachine.cpp:936

llvm::AMDGPUPassConfig::createMachineScheduler
ScheduleDAGInstrs * createMachineScheduler(MachineSchedContext *C) const override
Create an instance of ScheduleDAGInstrs to be run within the standard MachineScheduler pass for this ...
Definition: AMDGPUTargetMachine.cpp:1200

llvm::AMDGPUPassConfig::isPassEnabled
bool isPassEnabled(const cl::opt< bool > &Opt, CodeGenOptLevel Level=CodeGenOptLevel::Default) const
Check if a pass is enabled given Opt option.
Definition: AMDGPUTargetMachine.h:151

llvm::AMDGPUPassConfig::addPreISel
bool addPreISel() override
Methods with trivial inline returns are convenient points in the common codegen pass pipeline where t...
Definition: AMDGPUTargetMachine.cpp:1183

llvm::AMDGPUPassConfig::addInstSelector
bool addInstSelector() override
addInstSelector - This method should install an instruction selector pass, which converts from LLVM c...
Definition: AMDGPUTargetMachine.cpp:1189

llvm::AMDGPUPassConfig::addGCPasses
bool addGCPasses() override
addGCPasses - Add late codegen passes that analyze code for garbage collection.
Definition: AMDGPUTargetMachine.cpp:1194

llvm::AMDGPUPassConfig::addStraightLineScalarOptimizationPasses
void addStraightLineScalarOptimizationPasses()
Definition: AMDGPUTargetMachine.cpp:1025

llvm::AMDGPUPassConfig::AMDGPUPassConfig
AMDGPUPassConfig(LLVMTargetMachine &TM, PassManagerBase &PM)
Definition: AMDGPUTargetMachine.cpp:1007

llvm::AMDGPUPassConfig::addIRPasses
void addIRPasses() override
Add common target configurable passes that perform LLVM IR to IR transforms following machine indepen...
Definition: AMDGPUTargetMachine.cpp:1042

llvm::AMDGPUPassConfig::addEarlyCSEOrGVNPass
void addEarlyCSEOrGVNPass()
Definition: AMDGPUTargetMachine.cpp:1018

llvm::AMDGPUPassConfig::addCodeGenPrepare
void addCodeGenPrepare() override
Add pass to prepare the LLVM IR for code generation.
Definition: AMDGPUTargetMachine.cpp:1137

llvm::AMDGPURegBankSelect
Definition: AMDGPURegBankSelect.h:16

llvm::AMDGPUSplitModulePass
Splits the module M into N linkable partitions.
Definition: AMDGPUSplitModule.h:22

llvm::AMDGPUTargetMachine
Definition: AMDGPUTargetMachine.h:29

llvm::AMDGPUTargetMachine::getNullPointerValue
static int64_t getNullPointerValue(unsigned AddrSpace)
Get the integer value of a null pointer in the given address space.
Definition: AMDGPUTargetMachine.cpp:786

llvm::AMDGPUTargetMachine::getAddressSpaceForPseudoSourceKind
unsigned getAddressSpaceForPseudoSourceKind(unsigned Kind) const override
getAddressSpaceForPseudoSourceKind - Given the kind of memory (e.g.
Definition: AMDGPUTargetMachine.cpp:847

llvm::AMDGPUTargetMachine::getSubtargetImpl
const TargetSubtargetInfo * getSubtargetImpl() const

llvm::AMDGPUTargetMachine::registerDefaultAliasAnalyses
void registerDefaultAliasAnalyses(AAManager &) override
Allow the target to register alias analyses with the AAManager for use with the new pass manager.
Definition: AMDGPUTargetMachine.cpp:647

llvm::AMDGPUTargetMachine::~AMDGPUTargetMachine
~AMDGPUTargetMachine() override

llvm::AMDGPUTargetMachine::getPredicatedAddrSpace
std::pair< const Value *, unsigned > getPredicatedAddrSpace(const Value *V) const override
If the specified predicate checks whether a generic pointer falls within a specified address space,...
Definition: AMDGPUTargetMachine.cpp:820

llvm::AMDGPUTargetMachine::getFeatureString
StringRef getFeatureString(const Function &F) const
Definition: AMDGPUTargetMachine.cpp:629

llvm::AMDGPUTargetMachine::EnableLateStructurizeCFG
static bool EnableLateStructurizeCFG
Definition: AMDGPUTargetMachine.h:37

llvm::AMDGPUTargetMachine::EnableFunctionCalls
static bool EnableFunctionCalls
Definition: AMDGPUTargetMachine.h:38

llvm::AMDGPUTargetMachine::AMDGPUTargetMachine
AMDGPUTargetMachine(const Target &T, const Triple &TT, StringRef CPU, StringRef FS, const TargetOptions &Options, std::optional< Reloc::Model > RM, std::optional< CodeModel::Model > CM, CodeGenOptLevel OL)
Definition: AMDGPUTargetMachine.cpp:597

llvm::AMDGPUTargetMachine::isNoopAddrSpaceCast
bool isNoopAddrSpaceCast(unsigned SrcAS, unsigned DestAS) const override
Returns true if a cast between SrcAS and DestAS is a noop.
Definition: AMDGPUTargetMachine.cpp:794

llvm::AMDGPUTargetMachine::registerPassBuilderCallbacks
void registerPassBuilderCallbacks(PassBuilder &PB) override
Allow the target to modify the pass pipeline.
Definition: AMDGPUTargetMachine.cpp:684

llvm::AMDGPUTargetMachine::EnableLowerModuleLDS
static bool EnableLowerModuleLDS
Definition: AMDGPUTargetMachine.h:39

llvm::AMDGPUTargetMachine::getGPUName
StringRef getGPUName(const Function &F) const
Definition: AMDGPUTargetMachine.cpp:624

llvm::AMDGPUTargetMachine::getAssumedAddrSpace
unsigned getAssumedAddrSpace(const Value *V) const override
If the specified generic pointer could be assumed as a pointer to a specific address space,...
Definition: AMDGPUTargetMachine.cpp:800

llvm::AMDGPUTargetMachine::DisableStructurizer
static bool DisableStructurizer
Definition: AMDGPUTargetMachine.h:40

llvm::AMDGPUTargetMachine::EnableStructurizerWorkarounds
static bool EnableStructurizerWorkarounds
Definition: AMDGPUTargetMachine.h:41

llvm::AMDGPUTargetMachine::splitModule
bool splitModule(Module &M, unsigned NumParts, function_ref< void(std::unique_ptr< Module > MPart)> ModuleCallback) override
Entry point for module splitting.
Definition: AMDGPUTargetMachine.cpp:862

llvm::AnalysisManager
A container for analyses that lazily runs them and caches their results.
Definition: PassManager.h:253

llvm::Attribute
Definition: Attributes.h:67

llvm::Attribute::getValueAsString
StringRef getValueAsString() const
Return the attribute's value as a string.
Definition: Attributes.cpp:392

llvm::Attribute::isValid
bool isValid() const
Return true if the attribute is any kind of attribute.
Definition: Attributes.h:203

llvm::BumpPtrAllocatorImpl
Allocate memory in an ever growing pool, as if by bump-pointer.
Definition: Allocator.h:66

llvm::CodeGenPassBuilder::buildPipeline
Error buildPipeline(ModulePassManager &MPM, raw_pwrite_stream &Out, raw_pwrite_stream *DwoOut, CodeGenFileType FileType) const
Definition: CodeGenPassBuilder.h:521

llvm::Constant::removeDeadConstantUsers
void removeDeadConstantUsers() const
If there are any dead constant users dangling off of this constant, remove them.
Definition: Constants.cpp:723

llvm::DummyCGSCCPass
This pass is required by interprocedural register allocation.
Definition: CallGraphSCCPass.h:122

llvm::Error
Lightweight error class with error context and mandatory checking.
Definition: Error.h:160

llvm::Expected
Tagged union holding either a T or a Error.
Definition: Error.h:481

llvm::FunctionPass
FunctionPass class - This class is used to implement most global optimizations.
Definition: Pass.h:310

llvm::Function
Definition: Function.h:64

llvm::GCNIterativeScheduler
Definition: GCNIterativeScheduler.h:29

llvm::GCNIterativeScheduler::SCHEDULE_MINREGFORCED
@ SCHEDULE_MINREGFORCED
Definition: GCNIterativeScheduler.h:35

llvm::GCNIterativeScheduler::SCHEDULE_ILP
@ SCHEDULE_ILP
Definition: GCNIterativeScheduler.h:37

llvm::GCNIterativeScheduler::SCHEDULE_LEGACYMAXOCCUPANCY
@ SCHEDULE_LEGACYMAXOCCUPANCY
Definition: GCNIterativeScheduler.h:36

llvm::GCNPostScheduleDAGMILive
Definition: GCNSchedStrategy.h:410

llvm::GCNScheduleDAGMILive
Definition: GCNSchedStrategy.h:166

llvm::GCNSubtarget
Definition: GCNSubtarget.h:35

llvm::GCNSubtarget::getRegisterInfo
const SIRegisterInfo * getRegisterInfo() const override
Definition: GCNSubtarget.h:278

llvm::GCNTTIImpl
Definition: AMDGPUTargetTransformInfo.h:62

llvm::GCNTargetMachine
Definition: AMDGPUTargetMachine.h:80

llvm::GCNTargetMachine::getTargetTransformInfo
TargetTransformInfo getTargetTransformInfo(const Function &F) const override
Get a TargetTransformInfo implementation for the target.
Definition: AMDGPUTargetMachine.cpp:920

llvm::GCNTargetMachine::registerMachineRegisterInfoCallback
void registerMachineRegisterInfoCallback(MachineFunction &MF) const override
Definition: AMDGPUTargetMachine.cpp:1541

llvm::GCNTargetMachine::parseMachineFunctionInfo
bool parseMachineFunctionInfo(const yaml::MachineFunctionInfo &, PerFunctionMIParsingState &PFS, SMDiagnostic &Error, SMRange &SourceRange) const override
Parse out the target's MachineFunctionInfo from the YAML reprsentation.
Definition: AMDGPUTargetMachine.cpp:1565

llvm::GCNTargetMachine::convertFuncInfoToYAML
yaml::MachineFunctionInfo * convertFuncInfoToYAML(const MachineFunction &MF) const override
Allocate and initialize an instance of the YAML representation of the MachineFunctionInfo.
Definition: AMDGPUTargetMachine.cpp:1559

llvm::GCNTargetMachine::buildCodeGenPipeline
Error buildCodeGenPipeline(ModulePassManager &MPM, raw_pwrite_stream &Out, raw_pwrite_stream *DwoOut, CodeGenFileType FileType, const CGPassBuilderOption &Opts, PassInstrumentationCallbacks *PIC) override
Definition: AMDGPUTargetMachine.cpp:924

llvm::GCNTargetMachine::createDefaultFuncInfoYAML
yaml::MachineFunctionInfo * createDefaultFuncInfoYAML() const override
Allocate and return a default initialized instance of the YAML representation for the MachineFunction...
Definition: AMDGPUTargetMachine.cpp:1554

llvm::GCNTargetMachine::createPassConfig
TargetPassConfig * createPassConfig(PassManagerBase &PM) override
Create a pass configuration object to be used by addPassToEmitX methods for generating a pipeline of ...
Definition: AMDGPUTargetMachine.cpp:1537

llvm::GCNTargetMachine::GCNTargetMachine
GCNTargetMachine(const Target &T, const Triple &TT, StringRef CPU, StringRef FS, const TargetOptions &Options, std::optional< Reloc::Model > RM, std::optional< CodeModel::Model > CM, CodeGenOptLevel OL, bool JIT)
Definition: AMDGPUTargetMachine.cpp:889

llvm::GCNTargetMachine::createMachineFunctionInfo
MachineFunctionInfo * createMachineFunctionInfo(BumpPtrAllocator &Allocator, const Function &F, const TargetSubtargetInfo *STI) const override
Create the target's instance of MachineFunctionInfo.
Definition: AMDGPUTargetMachine.cpp:1547

llvm::GlobalDCEPass
Pass to remove unused function declarations.
Definition: GlobalDCE.h:36

llvm::GlobalValue
Definition: GlobalValue.h:48

llvm::HipStdParAcceleratorCodeSelectionPass
Definition: HipStdPar.h:28

llvm::IRTranslator
Definition: IRTranslator.h:66

llvm::InstructionSelect
This pass is responsible for selecting generic machine instructions to target-specific instructions.
Definition: InstructionSelect.h:35

llvm::InternalizePass
A pass that internalizes all functions and variables other than those that must be preserved accordin...
Definition: Internalize.h:36

llvm::LLVMTargetMachine
This class describes a target machine that is implemented with the LLVM target-independent code gener...
Definition: TargetMachine.h:442

llvm::LLVMTargetMachine::initAsmInfo
void initAsmInfo()
Definition: LLVMTargetMachine.cpp:45

llvm::Legalizer
Definition: Legalizer.h:37

llvm::Localizer
This pass implements the localization mechanism described at the top of this file.
Definition: Localizer.h:43

llvm::MachineFunction
Definition: MachineFunction.h:257

llvm::MachineFunction::getSubtarget
const TargetSubtargetInfo & getSubtarget() const
getSubtarget - Return the subtarget for which this machine code is being compiled.
Definition: MachineFunction.h:718

llvm::MachineFunction::getRegInfo
MachineRegisterInfo & getRegInfo()
getRegInfo - Return information about the registers currently in use.
Definition: MachineFunction.h:728

llvm::MachineFunction::getFunction
Function & getFunction()
Return the LLVM function that this machine code represents.
Definition: MachineFunction.h:684

llvm::MachineFunction::getInfo
Ty * getInfo()
getInfo - Keep track of various per-function pieces of information for backends that would like to do...
Definition: MachineFunction.h:816

llvm::MachineRegisterInfo
MachineRegisterInfo - Keep track of information for virtual and physical registers,...
Definition: MachineRegisterInfo.h:51

llvm::MachineRegisterInfo::addDelegate
void addDelegate(Delegate *delegate)
Definition: MachineRegisterInfo.h:169

llvm::MachineSchedRegistry
MachineSchedRegistry provides a selection of available machine instruction schedulers.
Definition: MachineScheduler.h:148

llvm::MemoryBuffer
This interface provides simple read-only access to a block of memory, and provides simple methods for...
Definition: MemoryBuffer.h:51

llvm::MemoryBuffer::getBufferIdentifier
virtual StringRef getBufferIdentifier() const
Return an identifier for this buffer, typically the filename it was read from.
Definition: MemoryBuffer.h:76

llvm::Module
A Module instance is used to store all the information related to an LLVM module.
Definition: Module.h:65

llvm::OptimizationLevel
Definition: OptimizationLevel.h:22

llvm::OptimizationLevel::O0
static const OptimizationLevel O0
Disable as many optimizations as possible.
Definition: OptimizationLevel.h:41

llvm::OptimizationLevel::getSpeedupLevel
unsigned getSpeedupLevel() const
Definition: OptimizationLevel.h:121

llvm::OptimizationLevel::O1
static const OptimizationLevel O1
Optimize quickly without destroying debuggability.
Definition: OptimizationLevel.h:57

llvm::PassBuilder
This class provides access to building LLVM's passes.
Definition: PassBuilder.h:106

llvm::PassBuilder::registerPipelineEarlySimplificationEPCallback
void registerPipelineEarlySimplificationEPCallback(const std::function< void(ModulePassManager &, OptimizationLevel)> &C)
Register a callback for a default optimizer pipeline extension point.
Definition: PassBuilder.h:481

llvm::PassBuilder::registerPipelineStartEPCallback
void registerPipelineStartEPCallback(const std::function< void(ModulePassManager &, OptimizationLevel)> &C)
Register a callback for a default optimizer pipeline extension point.
Definition: PassBuilder.h:472

llvm::PassBuilder::crossRegisterProxies
void crossRegisterProxies(LoopAnalysisManager &LAM, FunctionAnalysisManager &FAM, CGSCCAnalysisManager &CGAM, ModuleAnalysisManager &MAM, MachineFunctionAnalysisManager *MFAM=nullptr)
Cross register the analysis managers through their proxies.
Definition: PassBuilder.cpp:2029

llvm::PassBuilder::registerOptimizerLastEPCallback
void registerOptimizerLastEPCallback(const std::function< void(ModulePassManager &, OptimizationLevel)> &C)
Register a callback for a default optimizer pipeline extension point.
Definition: PassBuilder.h:499

llvm::PassBuilder::registerPeepholeEPCallback
void registerPeepholeEPCallback(const std::function< void(FunctionPassManager &, OptimizationLevel)> &C)
Register a callback for a default optimizer pipeline extension point.
Definition: PassBuilder.h:406

llvm::PassBuilder::registerCGSCCOptimizerLateEPCallback
void registerCGSCCOptimizerLateEPCallback(const std::function< void(CGSCCPassManager &, OptimizationLevel)> &C)
Register a callback for a default optimizer pipeline extension point.
Definition: PassBuilder.h:451

llvm::PassBuilder::registerRegClassFilterParsingCallback
void registerRegClassFilterParsingCallback(const std::function< RegAllocFilterFunc(StringRef)> &C)
Register callbacks to parse target specific filter field if regalloc pass needs it.
Definition: PassBuilder.h:588

llvm::PassBuilder::registerModuleAnalyses
void registerModuleAnalyses(ModuleAnalysisManager &MAM)
Registers all available module analysis passes.
Definition: PassBuilder.cpp:477

llvm::PassBuilder::registerFullLinkTimeOptimizationLastEPCallback
void registerFullLinkTimeOptimizationLastEPCallback(const std::function< void(ModulePassManager &, OptimizationLevel)> &C)
Register a callback for a default optimizer pipeline extension point.
Definition: PassBuilder.h:517

llvm::PassBuilder::registerFunctionAnalyses
void registerFunctionAnalyses(FunctionAnalysisManager &FAM)
Registers all available function analysis passes.
Definition: PassBuilder.cpp:495

llvm::PassInstrumentationCallbacks
This class manages callbacks registration, as well as provides a way for PassInstrumentation to pass ...
Definition: PassInstrumentation.h:67

llvm::PassManager< Module >

llvm::PassManager::addPass
LLVM_ATTRIBUTE_MINSIZE std::enable_if_t<!std::is_same_v< PassT, PassManager > > addPass(PassT &&Pass)
Definition: PassManager.h:195

llvm::PassManager::run
PreservedAnalyses run(IRUnitT &IR, AnalysisManagerT &AM, ExtraArgTs... ExtraArgs)
Run all of the passes in this manager over the given unit of IR.
Definition: PassManagerImpl.h:29

llvm::PassRegistry
PassRegistry - This class manages the registration and intitialization of the pass subsystem as appli...
Definition: PassRegistry.h:37

llvm::PassRegistry::getPassRegistry
static PassRegistry * getPassRegistry()
getPassRegistry - Access the global registry object, which is automatically initialized at applicatio...
Definition: PassRegistry.cpp:24

llvm::Pass
Pass interface - Implemented by all 'passes'.
Definition: Pass.h:94

llvm::PseudoSourceValue::GOT
@ GOT
Definition: PseudoSourceValue.h:35

llvm::PseudoSourceValue::Stack
@ Stack
Definition: PseudoSourceValue.h:34

llvm::PseudoSourceValue::GlobalValueCallEntry
@ GlobalValueCallEntry
Definition: PseudoSourceValue.h:39

llvm::PseudoSourceValue::JumpTable
@ JumpTable
Definition: PseudoSourceValue.h:36

llvm::PseudoSourceValue::ExternalSymbolCallEntry
@ ExternalSymbolCallEntry
Definition: PseudoSourceValue.h:40

llvm::PseudoSourceValue::ConstantPool
@ ConstantPool
Definition: PseudoSourceValue.h:37

llvm::PseudoSourceValue::FixedStack
@ FixedStack
Definition: PseudoSourceValue.h:38

llvm::R600Subtarget
Definition: R600Subtarget.h:30

llvm::R600TargetMachine::createMachineFunctionInfo
MachineFunctionInfo * createMachineFunctionInfo(BumpPtrAllocator &Allocator, const Function &F, const TargetSubtargetInfo *STI) const override
Create the target's instance of MachineFunctionInfo.
Definition: AMDGPUTargetMachine.cpp:1209

llvm::RegisterPassParser
RegisterPassParser class - Handle the addition of new machine passes.
Definition: MachinePassRegistry.h:138

llvm::RegisterRegAllocBase
RegisterRegAllocBase class - Track the registration of register allocators.
Definition: RegAllocRegistry.h:30

llvm::RegisterRegAllocBase< RegisterRegAlloc >::FunctionPassCtor
FunctionPass *(*)() FunctionPassCtor
Definition: RegAllocRegistry.h:32

llvm::Register
Wrapper class representing virtual and physical registers.
Definition: Register.h:19

llvm::SIMachineFunctionInfo
This class keeps track of the SPI_SP_INPUT_ADDR config register, which tells the hardware which inter...
Definition: SIMachineFunctionInfo.h:376

llvm::SIMachineFunctionInfo::initializeBaseYamlFields
bool initializeBaseYamlFields(const yaml::SIMachineFunctionInfo &YamlMFI, const MachineFunction &MF, PerFunctionMIParsingState &PFS, SMDiagnostic &Error, SMRange &SourceRange)
Definition: SIMachineFunctionInfo.cpp:713

llvm::SIMachineFunctionInfo::reserveWWMRegister
void reserveWWMRegister(Register Reg)
Definition: SIMachineFunctionInfo.h:582

llvm::SIRegisterInfo
Definition: SIRegisterInfo.h:32

llvm::SIScheduleDAGMI
Definition: SIMachineScheduler.h:425

llvm::SMDiagnostic
Instances of this class encapsulate one diagnostic report, allowing printing to a raw_ostream as a ca...
Definition: SourceMgr.h:281

llvm::SMLoc
Represents a location in source code.
Definition: SMLoc.h:23

llvm::SMRange
Represents a range in source code.
Definition: SMLoc.h:48

llvm::ScheduleDAGInstrs
A ScheduleDAG for scheduling lists of MachineInstr.
Definition: ScheduleDAGInstrs.h:114

llvm::ScheduleDAGMILive
ScheduleDAGMILive is an implementation of ScheduleDAGInstrs that schedules machine instructions while...
Definition: MachineScheduler.h:398

llvm::ScheduleDAGMI
ScheduleDAGMI is an implementation of ScheduleDAGInstrs that simply schedules machine instructions ac...
Definition: MachineScheduler.h:276

llvm::ScheduleDAGMI::addMutation
void addMutation(std::unique_ptr< ScheduleDAGMutation > Mutation)
Add a postprocessing step to the DAG builder.
Definition: MachineScheduler.h:328

llvm::ScheduleDAG::TII
const TargetInstrInfo * TII
Target instruction information.
Definition: ScheduleDAG.h:575

llvm::ScheduleDAG::TRI
const TargetRegisterInfo * TRI
Target processor register info.
Definition: ScheduleDAG.h:576

llvm::SmallString
SmallString - A SmallString is just a SmallVector with methods and accessors that make it work better...
Definition: SmallString.h:26

llvm::SmallString::append
void append(StringRef RHS)
Append from a StringRef.
Definition: SmallString.h:68

llvm::SourceMgr::getMainFileID
unsigned getMainFileID() const
Definition: SourceMgr.h:132

llvm::SourceMgr::DK_Error
@ DK_Error
Definition: SourceMgr.h:34

llvm::SourceMgr::getMemoryBuffer
const MemoryBuffer * getMemoryBuffer(unsigned i) const
Definition: SourceMgr.h:125

llvm::StringRef
StringRef - Represent a constant reference to a string, i.e.
Definition: StringRef.h:50

llvm::StringRef::split
std::pair< StringRef, StringRef > split(char Separator) const
Split into two substrings around the first occurrence of a separator character.
Definition: StringRef.h:685

llvm::StringRef::empty
constexpr bool empty() const
empty - Check if the string is empty.
Definition: StringRef.h:134

llvm::StringRef::consume_front
bool consume_front(StringRef Prefix)
Returns true if this StringRef has the given prefix and removes that prefix.
Definition: StringRef.h:620

llvm::StringSwitch
A switch()-like statement whose cases are string literals.
Definition: StringSwitch.h:44

llvm::StringSwitch::Case
StringSwitch & Case(StringLiteral S, T Value)
Definition: StringSwitch.h:69

llvm::StringSwitch::Default
R Default(T Value)
Definition: StringSwitch.h:182

llvm::StringSwitch::Cases
StringSwitch & Cases(StringLiteral S0, StringLiteral S1, T Value)
Definition: StringSwitch.h:90

llvm::TargetMachine::getOptLevel
CodeGenOptLevel getOptLevel() const
Returns the optimization level: None, Less, Default, or Aggressive.
Definition: TargetMachine.h:257

llvm::TargetMachine::TargetTriple
Triple TargetTriple
Triple string, CPU name, and target feature strings the TargetMachine instance is created with.
Definition: TargetMachine.h:96

llvm::TargetMachine::getTargetTriple
const Triple & getTargetTriple() const
Definition: TargetMachine.h:126

llvm::TargetMachine::getMCSubtargetInfo
const MCSubtargetInfo * getMCSubtargetInfo() const
Definition: TargetMachine.h:216

llvm::TargetMachine::getTargetFeatureString
StringRef getTargetFeatureString() const
Definition: TargetMachine.h:128

llvm::TargetMachine::getTargetCPU
StringRef getTargetCPU() const
Definition: TargetMachine.h:127

llvm::TargetMachine::STI
std::unique_ptr< const MCSubtargetInfo > STI
Definition: TargetMachine.h:109

llvm::TargetMachine::resetTargetOptions
void resetTargetOptions(const Function &F) const
Reset the target options based on the function's attributes.
Definition: TargetMachine.cpp:129

llvm::TargetMachine::MRI
std::unique_ptr< const MCRegisterInfo > MRI
Definition: TargetMachine.h:107

llvm::TargetOptions
Definition: TargetOptions.h:135

llvm::TargetPassConfig
Target-Independent Code Generator Pass Configuration Options.
Definition: TargetPassConfig.h:85

llvm::TargetPassConfig::TM
LLVMTargetMachine * TM
Definition: TargetPassConfig.h:123

llvm::TargetPassConfig::addCodeGenPrepare
virtual void addCodeGenPrepare()
Add pass to prepare the LLVM IR for code generation.
Definition: TargetPassConfig.cpp:937

llvm::TargetPassConfig::addILPOpts
virtual bool addILPOpts()
Add passes that optimize instruction level parallelism for out-of-order targets.
Definition: TargetPassConfig.h:396

llvm::TargetPassConfig::addPostRegAlloc
virtual void addPostRegAlloc()
This method may be implemented by targets that want to run passes after register allocation pass pipe...
Definition: TargetPassConfig.h:442

llvm::TargetPassConfig::getOptLevel
CodeGenOptLevel getOptLevel() const
Definition: TargetPassConfig.cpp:604

llvm::TargetPassConfig::addOptimizedRegAlloc
virtual void addOptimizedRegAlloc()
addOptimizedRegAlloc - Add passes related to register allocation.
Definition: TargetPassConfig.cpp:1432

llvm::TargetPassConfig::addIRPasses
virtual void addIRPasses()
Add common target configurable passes that perform LLVM IR to IR transforms following machine indepen...
Definition: TargetPassConfig.cpp:812

llvm::TargetPassConfig::addFastRegAlloc
virtual void addFastRegAlloc()
addFastRegAlloc - Add the minimum set of target-independent passes that are required for fast registe...
Definition: TargetPassConfig.cpp:1422

llvm::TargetPassConfig::addMachineSSAOptimization
virtual void addMachineSSAOptimization()
addMachineSSAOptimization - Add standard passes that optimize machine instructions in SSA form.
Definition: TargetPassConfig.cpp:1277

llvm::TargetPassConfig::disablePass
void disablePass(AnalysisID PassID)
Allow the target to disable a specific standard pass by default.
Definition: TargetPassConfig.h:218

llvm::TargetPassConfig::addPass
AnalysisID addPass(AnalysisID PassID)
Utilities for targets to add passes to the pass manager.
Definition: TargetPassConfig.cpp:740

llvm::TargetRegisterClass
Definition: TargetRegisterInfo.h:45

llvm::TargetRegisterInfo
TargetRegisterInfo base class - We assume that the target defines a static array of TargetRegisterDes...
Definition: TargetRegisterInfo.h:238

llvm::TargetSubtargetInfo
TargetSubtargetInfo - Generic base class for all target subtargets.
Definition: TargetSubtargetInfo.h:63

llvm::TargetTransformInfo
This pass provides access to the codegen interfaces that are needed for IR-level transformations.
Definition: TargetTransformInfo.h:214

llvm::Target
Target - Wrapper for Target specific information.
Definition: TargetRegistry.h:144

llvm::Triple
Triple - Helper class for working with autoconf configuration names.
Definition: Triple.h:44

llvm::Triple::AMDHSA
@ AMDHSA
Definition: Triple.h:221

llvm::Triple::ArchType
ArchType
Definition: Triple.h:46

llvm::Triple::r600
@ r600
Definition: Triple.h:73

llvm::Triple::amdgcn
@ amdgcn
Definition: Triple.h:74

llvm::Triple::getArch
ArchType getArch() const
Get the parsed architecture type of this triple.
Definition: Triple.h:373

llvm::Value
LLVM Value Representation.
Definition: Value.h:74

llvm::Value::use_empty
bool use_empty() const
Definition: Value.h:344

llvm::cl::opt
Definition: CommandLine.h:1423

llvm::function_ref
An efficient, type-erasing, non-owning reference to a callable.
Definition: STLFunctionalExtras.h:36

llvm::legacy::PassManagerBase
PassManagerBase - An abstract interface to allow code to add passes to a pass manager without having ...
Definition: LegacyPassManager.h:39

llvm::raw_pwrite_stream
An abstract base class for streams implementations that also support a pwrite operation.
Definition: raw_ostream.h:434

PassBuilder.h
Interfaces for registering analysis passes, producing common pass manager configurations,...

llvm_unreachable
#define llvm_unreachable(msg)
Marks that the current location is not supposed to be reachable.
Definition: ErrorHandling.h:143

llvm::AMDGPUAS::REGION_ADDRESS
@ REGION_ADDRESS
Address space for region memory. (GDS)
Definition: AMDGPUAddrSpace.h:32

llvm::AMDGPUAS::LOCAL_ADDRESS
@ LOCAL_ADDRESS
Address space for local memory.
Definition: AMDGPUAddrSpace.h:35

llvm::AMDGPUAS::CONSTANT_ADDRESS
@ CONSTANT_ADDRESS
Address space for constant memory (VTX2).
Definition: AMDGPUAddrSpace.h:34

llvm::AMDGPUAS::UNKNOWN_ADDRESS_SPACE
@ UNKNOWN_ADDRESS_SPACE
Definition: AMDGPUAddrSpace.h:81

llvm::AMDGPUAS::FLAT_ADDRESS
@ FLAT_ADDRESS
Address space for flat memory.
Definition: AMDGPUAddrSpace.h:30

llvm::AMDGPUAS::GLOBAL_ADDRESS
@ GLOBAL_ADDRESS
Address space for global memory (RAT0, VTX0).
Definition: AMDGPUAddrSpace.h:31

llvm::AMDGPUAS::PRIVATE_ADDRESS
@ PRIVATE_ADDRESS
Address space for private memory.
Definition: AMDGPUAddrSpace.h:36

llvm::AMDGPU::isFlatGlobalAddrSpace
bool isFlatGlobalAddrSpace(unsigned AS)
Definition: AMDGPU.h:458

llvm::AMDGPU::isEntryFunctionCC
bool isEntryFunctionCC(CallingConv::ID CC)
Definition: AMDGPUBaseInfo.cpp:2018

llvm::ARM_MB::ST
@ ST
Definition: ARMBaseInfo.h:73

llvm::CallingConv::C
@ C
The default llvm calling convention, compatible with C.
Definition: CallingConv.h:34

llvm::PatternMatch
Definition: PatternMatch.h:47

llvm::PatternMatch::m_c_And
BinaryOp_match< LHS, RHS, Instruction::And, true > m_c_And(const LHS &L, const RHS &R)
Matches an And with LHS and RHS in either order.
Definition: PatternMatch.h:2727

llvm::PatternMatch::match
bool match(Val *V, const Pattern &P)
Definition: PatternMatch.h:49

llvm::PatternMatch::m_Deferred
deferredval_ty< Value > m_Deferred(Value *const &V)
Like m_Specific(), but works if the specific value to match is determined as part of the same match()...
Definition: PatternMatch.h:893

llvm::PatternMatch::m_Value
class_match< Value > m_Value()
Match an arbitrary value and ignore it.
Definition: PatternMatch.h:92

llvm::PatternMatch::m_Not
BinaryOp_match< cst_pred_ty< is_all_ones >, ValTy, Instruction::Xor, true > m_Not(const ValTy &V)
Matches a 'Not' as 'xor V, -1' or 'xor -1, V'.
Definition: PatternMatch.h:2395

llvm::Reloc::Model
Model
Definition: CodeGen.h:25

llvm::Reloc::PIC_
@ PIC_
Definition: CodeGen.h:25

llvm::cl::Hidden
@ Hidden
Definition: CommandLine.h:137

llvm::cl::ReallyHidden
@ ReallyHidden
Definition: CommandLine.h:138

llvm::cl::values
ValuesClass values(OptsTy... Options)
Helper to build a ValuesClass by forwarding a variable number of arguments as an initializer list to ...
Definition: CommandLine.h:711

llvm::cl::init
initializer< Ty > init(const Ty &Val)
Definition: CommandLine.h:443

llvm::cl::location
LocationClass< Ty > location(Ty &L)
Definition: CommandLine.h:463

llvm
This is an optimization pass for GlobalISel generic memory operations.
Definition: AddressRanges.h:18

llvm::createFlattenCFGPass
FunctionPass * createFlattenCFGPass()
Definition: FlattenCFGPass.cpp:81

llvm::initializeSIFormMemoryClausesPass
void initializeSIFormMemoryClausesPass(PassRegistry &)

llvm::SIPreAllocateWWMRegsID
char & SIPreAllocateWWMRegsID
Definition: SIPreAllocateWWMRegs.cpp:86

llvm::createFastRegisterAllocator
FunctionPass * createFastRegisterAllocator()
FastRegisterAllocation Pass - This pass register allocates as fast as possible.
Definition: RegAllocFast.cpp:1842

llvm::ScanOptions::DPP
@ DPP

llvm::ScanOptions::None
@ None

llvm::ScanOptions::Iterative
@ Iterative

llvm::EarlyMachineLICMID
char & EarlyMachineLICMID
This pass performs loop invariant code motion on machine instructions.
Definition: MachineLICM.cpp:322

llvm::createAMDGPUAAWrapperPass
ImmutablePass * createAMDGPUAAWrapperPass()
Definition: AMDGPUAliasAnalysis.cpp:33

llvm::PostRAHazardRecognizerID
char & PostRAHazardRecognizerID
PostRAHazardRecognizer - This pass runs the post-ra hazard recognizer.
Definition: PostRAHazardRecognizer.cpp:61

llvm::RegAllocFilterFunc
std::function< bool(const TargetRegisterInfo &TRI, const MachineRegisterInfo &MRI, const Register Reg)> RegAllocFilterFunc
Filter function for register classes during regalloc.
Definition: RegAllocCommon.h:25

llvm::createAMDGPUSetWavePriorityPass
FunctionPass * createAMDGPUSetWavePriorityPass()

llvm::initializeAMDGPUInsertSingleUseVDSTPass
void initializeAMDGPUInsertSingleUseVDSTPass(PassRegistry &)

llvm::createLCSSAPass
Pass * createLCSSAPass()
Definition: LCSSA.cpp:541

llvm::initializeGCNCreateVOPDPass
void initializeGCNCreateVOPDPass(PassRegistry &)

llvm::createAMDGPUOpenCLEnqueuedBlockLoweringPass
ModulePass * createAMDGPUOpenCLEnqueuedBlockLoweringPass()

llvm::GCNPreRAOptimizationsID
char & GCNPreRAOptimizationsID
Definition: GCNPreRAOptimizations.cpp:79

llvm::GCLoweringID
char & GCLoweringID
GCLowering Pass - Used by gc.root to perform its default lowering operations.
Definition: GCRootLowering.cpp:108

llvm::initializeGCNPreRAOptimizationsPass
void initializeGCNPreRAOptimizationsPass(PassRegistry &)

llvm::createLoadStoreVectorizerPass
Pass * createLoadStoreVectorizerPass()
Create a legacy pass manager instance of the LoadStoreVectorizer pass.

llvm::createExpandVariadicsPass
ModulePass * createExpandVariadicsPass(ExpandVariadicsMode)

llvm::initializeGCNRewritePartialRegUsesPass
void initializeGCNRewritePartialRegUsesPass(llvm::PassRegistry &)

llvm::initializeAMDGPUAttributorLegacyPass
void initializeAMDGPUAttributorLegacyPass(PassRegistry &)

llvm::SIPostRABundlerID
char & SIPostRABundlerID
Definition: SIPostRABundler.cpp:69

llvm::createSIAnnotateControlFlowLegacyPass
FunctionPass * createSIAnnotateControlFlowLegacyPass()
Create the annotation pass.
Definition: SIAnnotateControlFlow.cpp:444

llvm::createSIModeRegisterPass
FunctionPass * createSIModeRegisterPass()
Definition: SIModeRegister.cpp:158

llvm::createGreedyRegisterAllocator
FunctionPass * createGreedyRegisterAllocator()
Greedy register allocation pass - This pass implements a global register allocator for optimized buil...
Definition: RegAllocGreedy.cpp:191

llvm::initializeAMDGPUAAWrapperPassPass
void initializeAMDGPUAAWrapperPassPass(PassRegistry &)

llvm::createAMDGPULowerBufferFatPointersPass
ModulePass * createAMDGPULowerBufferFatPointersPass()
Definition: AMDGPULowerBufferFatPointers.cpp:1858

llvm::initializeR600ClauseMergePassPass
void initializeR600ClauseMergePassPass(PassRegistry &)

llvm::initializeSIModeRegisterPass
void initializeSIModeRegisterPass(PassRegistry &)

llvm::createAMDGPUCtorDtorLoweringLegacyPass
ModulePass * createAMDGPUCtorDtorLoweringLegacyPass()

llvm::initializeSIOptimizeVGPRLiveRangePass
void initializeSIOptimizeVGPRLiveRangePass(PassRegistry &)

llvm::createModuleToFunctionPassAdaptor
ModuleToFunctionPassAdaptor createModuleToFunctionPassAdaptor(FunctionPassT &&Pass, bool EagerlyInvalidate=false)
A function to deduce a function pass type and wrap it in the templated adaptor.
Definition: PassManager.h:848

llvm::initializeAMDGPURewriteUndefForPHILegacyPass
void initializeAMDGPURewriteUndefForPHILegacyPass(PassRegistry &)

llvm::createAMDGPUPreLegalizeCombiner
FunctionPass * createAMDGPUPreLegalizeCombiner(bool IsOptNone)
Definition: AMDGPUPreLegalizerCombiner.cpp:295

llvm::GCNRewritePartialRegUsesID
char & GCNRewritePartialRegUsesID
Definition: GCNRewritePartialRegUses.cpp:496

llvm::createAMDGPUPostLegalizeCombiner
FunctionPass * createAMDGPUPostLegalizeCombiner(bool IsOptNone)
Definition: AMDGPUPostLegalizerCombiner.cpp:519

llvm::inconvertibleErrorCode
std::error_code inconvertibleErrorCode()
The value returned by this function can be returned from convertToErrorCode for Error values where no...
Definition: Error.cpp:98

llvm::initializeSIShrinkInstructionsPass
void initializeSIShrinkInstructionsPass(PassRegistry &)

llvm::SIFoldOperandsID
char & SIFoldOperandsID

llvm::initializeGCNPreRALongBranchRegPass
void initializeGCNPreRALongBranchRegPass(PassRegistry &)

llvm::formatv
auto formatv(const char *Fmt, Ts &&...Vals) -> formatv_object< decltype(std::make_tuple(support::detail::build_format_adapter(std::forward< Ts >(Vals))...))>
Definition: FormatVariadic.h:251

llvm::SILoadStoreOptimizerID
char & SILoadStoreOptimizerID
Definition: SILoadStoreOptimizer.cpp:893

llvm::createIGroupLPDAGMutation
std::unique_ptr< ScheduleDAGMutation > createIGroupLPDAGMutation(AMDGPU::SchedulingPhase Phase)
Phase specifes whether or not this is a reentry into the IGroupLPDAGMutation.
Definition: AMDGPUIGroupLP.cpp:2684

llvm::initializeAMDGPUDAGToDAGISelLegacyPass
void initializeAMDGPUDAGToDAGISelLegacyPass(PassRegistry &)

llvm::createNaryReassociatePass
FunctionPass * createNaryReassociatePass()
Definition: NaryReassociate.cpp:165

llvm::PatchableFunctionID
char & PatchableFunctionID
This pass implements the "patchable-function" attribute.
Definition: PatchableFunction.cpp:66

llvm::PostRASchedulerID
char & PostRASchedulerID
PostRAScheduler - This pass performs post register allocation scheduling.
Definition: PostRASchedulerList.cpp:197

llvm::initializeR600ExpandSpecialInstrsPassPass
void initializeR600ExpandSpecialInstrsPassPass(PassRegistry &)

llvm::initializeR600PacketizerPass
void initializeR600PacketizerPass(PassRegistry &)

llvm::createVOPDPairingMutation
std::unique_ptr< ScheduleDAGMutation > createVOPDPairingMutation()
Definition: GCNVOPDUtils.cpp:189

llvm::createAMDGPUAlwaysInlinePass
ModulePass * createAMDGPUAlwaysInlinePass(bool GlobalOpt=true)
Definition: AMDGPUAlwaysInlinePass.cpp:165

llvm::initializeSIPreEmitPeepholePass
void initializeSIPreEmitPeepholePass(PassRegistry &)

llvm::ExpandVariadicsMode::Lowering
@ Lowering

llvm::SILowerWWMCopiesID
char & SILowerWWMCopiesID
Definition: SILowerWWMCopies.cpp:73

llvm::initializeSIFixVGPRCopiesPass
void initializeSIFixVGPRCopiesPass(PassRegistry &)

llvm::initializeAMDGPUGlobalISelDivergenceLoweringPass
void initializeAMDGPUGlobalISelDivergenceLoweringPass(PassRegistry &)

llvm::getStandardCSEConfigForOpt
std::unique_ptr< CSEConfigBase > getStandardCSEConfigForOpt(CodeGenOptLevel Level)
Definition: CSEInfo.cpp:79

llvm::getTheR600Target
Target & getTheR600Target()
The target for R600 GPUs.
Definition: AMDGPUTargetInfo.cpp:19

llvm::MachineSchedulerID
char & MachineSchedulerID
MachineScheduler - This pass schedules machine instructions.
Definition: MachineScheduler.cpp:264

llvm::createStructurizeCFGPass
Pass * createStructurizeCFGPass(bool SkipUniformRegions=false)
When SkipUniformRegions is true the structizer will not structurize regions that only contain uniform...
Definition: StructurizeCFG.cpp:1205

llvm::initializeAMDGPURemoveIncompatibleFunctionsPass
void initializeAMDGPURemoveIncompatibleFunctionsPass(PassRegistry &)

llvm::initializeSILowerWWMCopiesPass
void initializeSILowerWWMCopiesPass(PassRegistry &)

llvm::initializeGCNNSAReassignPass
void initializeGCNNSAReassignPass(PassRegistry &)

llvm::PostMachineSchedulerID
char & PostMachineSchedulerID
PostMachineScheduler - This pass schedules machine instructions postRA.
Definition: MachineScheduler.cpp:295

llvm::initializeSIInsertWaitcntsPass
void initializeSIInsertWaitcntsPass(PassRegistry &)

llvm::AMDGPUInsertSingleUseVDSTID
char & AMDGPUInsertSingleUseVDSTID
Definition: AMDGPUInsertSingleUseVDST.cpp:242

llvm::createLICMPass
Pass * createLICMPass()
Definition: LICM.cpp:381

llvm::createGenericSchedLive
ScheduleDAGMILive * createGenericSchedLive(MachineSchedContext *C)
Create the standard converging machine scheduler.
Definition: MachineScheduler.cpp:3852

llvm::SIFormMemoryClausesID
char & SIFormMemoryClausesID
Definition: SIFormMemoryClauses.cpp:91

llvm::initializeAMDGPULowerModuleLDSLegacyPass
void initializeAMDGPULowerModuleLDSLegacyPass(PassRegistry &)

llvm::initializeAMDGPUCtorDtorLoweringLegacyPass
void initializeAMDGPUCtorDtorLoweringLegacyPass(PassRegistry &)

llvm::initializeAMDGPURegBankCombinerPass
void initializeAMDGPURegBankCombinerPass(PassRegistry &)

llvm::initializeSILoadStoreOptimizerPass
void initializeSILoadStoreOptimizerPass(PassRegistry &)

llvm::initializeSILateBranchLoweringPass
void initializeSILateBranchLoweringPass(PassRegistry &)

llvm::initializeSIPeepholeSDWAPass
void initializeSIPeepholeSDWAPass(PassRegistry &)

llvm::AMDGPUUnifyDivergentExitNodesID
char & AMDGPUUnifyDivergentExitNodesID
Definition: AMDGPUUnifyDivergentExitNodes.cpp:89

llvm::createAMDGPUAtomicOptimizerPass
FunctionPass * createAMDGPUAtomicOptimizerPass(ScanOptions ScanStrategy)
Definition: AMDGPUAtomicOptimizer.cpp:997

llvm::ShadowStackGCLoweringID
char & ShadowStackGCLoweringID
ShadowStackGCLowering - Implements the custom lowering mechanism used by the shadow stack GC.
Definition: ShadowStackGCLowering.cpp:134

llvm::GCNNSAReassignID
char & GCNNSAReassignID
Definition: GCNNSAReassign.cpp:106

llvm::initializeAMDGPURewriteOutArgumentsPass
void initializeAMDGPURewriteOutArgumentsPass(PassRegistry &)

llvm::initializeAMDGPUExternalAAWrapperPass
void initializeAMDGPUExternalAAWrapperPass(PassRegistry &)

llvm::initializeAMDGPULowerKernelArgumentsPass
void initializeAMDGPULowerKernelArgumentsPass(PassRegistry &)

llvm::SILowerSGPRSpillsID
char & SILowerSGPRSpillsID
Definition: SILowerSGPRSpills.cpp:83

llvm::getEffectiveCodeModel
CodeModel::Model getEffectiveCodeModel(std::optional< CodeModel::Model > CM, CodeModel::Model Default)
Helper method for getting the code model, returning Default if CM does not have a value.
Definition: TargetMachine.h:531

llvm::SILateBranchLoweringPassID
char & SILateBranchLoweringPassID
Definition: SILateBranchLowering.cpp:67

llvm::BranchRelaxationPassID
char & BranchRelaxationPassID
BranchRelaxation - This pass replaces branches that need to jump further than is supported by a branc...
Definition: BranchRelaxation.cpp:129

llvm::createSinkingPass
FunctionPass * createSinkingPass()
Definition: Sink.cpp:277

llvm::createCGSCCToFunctionPassAdaptor
CGSCCToFunctionPassAdaptor createCGSCCToFunctionPassAdaptor(FunctionPassT &&Pass, bool EagerlyInvalidate=false, bool NoRerun=false)
A function to deduce a function pass type and wrap it in the templated adaptor.
Definition: CGSCCPassManager.h:502

llvm::createSIShrinkInstructionsPass
FunctionPass * createSIShrinkInstructionsPass()

llvm::initializeAMDGPUAnnotateKernelFeaturesPass
void initializeAMDGPUAnnotateKernelFeaturesPass(PassRegistry &)

llvm::CodeGenFileType
CodeGenFileType
These enums are meant to be passed into addPassesToEmitFile to indicate what type of file to emit,...
Definition: CodeGen.h:83

llvm::initializeSIPostRABundlerPass
void initializeSIPostRABundlerPass(PassRegistry &)

llvm::initializeAMDGPUPromoteAllocaToVectorPass
void initializeAMDGPUPromoteAllocaToVectorPass(PassRegistry &)

llvm::initializeSIWholeQuadModePass
void initializeSIWholeQuadModePass(PassRegistry &)

llvm::createStoreClusterDAGMutation
std::unique_ptr< ScheduleDAGMutation > createStoreClusterDAGMutation(const TargetInstrInfo *TII, const TargetRegisterInfo *TRI, bool ReorderWhileClustering=false)
If ReorderWhileClustering is set to true, no attempt will be made to reduce reordering due to store c...
Definition: MachineScheduler.cpp:1835

llvm::createLoopDataPrefetchPass
FunctionPass * createLoopDataPrefetchPass()
Definition: LoopDataPrefetch.cpp:152

llvm::createAMDGPULowerKernelArgumentsPass
FunctionPass * createAMDGPULowerKernelArgumentsPass()
Definition: AMDGPULowerKernelArguments.cpp:300

llvm::AMDGPUInsertDelayAluID
char & AMDGPUInsertDelayAluID
Definition: AMDGPUInsertDelayAlu.cpp:462

llvm::createAMDGPUAnnotateKernelFeaturesPass
Pass * createAMDGPUAnnotateKernelFeaturesPass()
Definition: AMDGPUAnnotateKernelFeatures.cpp:137

llvm::report_fatal_error
void report_fatal_error(Error Err, bool gen_crash_diag=true)
Report a serious error, calling any installed error handler.
Definition: Error.cpp:167

llvm::createAMDGPUMacroFusionDAGMutation
std::unique_ptr< ScheduleDAGMutation > createAMDGPUMacroFusionDAGMutation()
Note that you have to add: DAG.addMutation(createAMDGPUMacroFusionDAGMutation()); to AMDGPUPassConfig...
Definition: AMDGPUMacroFusion.cpp:62

llvm::StackMapLivenessID
char & StackMapLivenessID
StackMapLiveness - This pass analyses the register live-out set of stackmap/patchpoint intrinsics and...
Definition: StackMapLivenessAnalysis.cpp:86

llvm::SIOptimizeVGPRLiveRangeID
char & SIOptimizeVGPRLiveRangeID
Definition: SIOptimizeVGPRLiveRange.cpp:627

llvm::createUnifyLoopExitsPass
FunctionPass * createUnifyLoopExitsPass()
Definition: UnifyLoopExits.cpp:59

llvm::SIOptimizeExecMaskingPreRAID
char & SIOptimizeExecMaskingPreRAID
Definition: SIOptimizeExecMaskingPreRA.cpp:75

llvm::createFixIrreduciblePass
FunctionPass * createFixIrreduciblePass()
Definition: FixIrreducible.cpp:102

llvm::FuncletLayoutID
char & FuncletLayoutID
This pass lays out funclets contiguously.
Definition: FuncletLayout.cpp:39

llvm::initializeSIInsertHardClausesPass
void initializeSIInsertHardClausesPass(PassRegistry &)

llvm::DetectDeadLanesID
char & DetectDeadLanesID
This pass adds dead/undef flags after analyzing subregister lanes.
Definition: DetectDeadLanes.cpp:413

llvm::initializeAMDGPUPostLegalizerCombinerPass
void initializeAMDGPUPostLegalizerCombinerPass(PassRegistry &)

llvm::CodeGenOptLevel
CodeGenOptLevel
Code generation optimization level.
Definition: CodeGen.h:54

llvm::CodeGenOptLevel::Less
@ Less
-O1

llvm::CodeGenOptLevel::Aggressive
@ Aggressive
-O3

llvm::CodeGenOptLevel::None
@ None
-O0

llvm::createAMDGPUPrintfRuntimeBinding
ModulePass * createAMDGPUPrintfRuntimeBinding()
Definition: AMDGPUPrintfRuntimeBinding.cpp:80

llvm::initializeSIMemoryLegalizerPass
void initializeSIMemoryLegalizerPass(PassRegistry &)

llvm::createAlwaysInlinerLegacyPass
Pass * createAlwaysInlinerLegacyPass(bool InsertLifetime=true)
Create a legacy pass manager instance of a pass to inline and remove functions marked as "always_inli...
Definition: AlwaysInliner.cpp:161

llvm::initializeR600ControlFlowFinalizerPass
void initializeR600ControlFlowFinalizerPass(PassRegistry &)

llvm::initializeAMDGPUImageIntrinsicOptimizerPass
void initializeAMDGPUImageIntrinsicOptimizerPass(PassRegistry &)

llvm::createAMDGPULowerModuleLDSLegacyPass
ModulePass * createAMDGPULowerModuleLDSLegacyPass(const AMDGPUTargetMachine *TM=nullptr)
Definition: AMDGPULowerModuleLDSPass.cpp:1413

llvm::initializeAMDGPUPreLegalizerCombinerPass
void initializeAMDGPUPreLegalizerCombinerPass(PassRegistry &)

llvm::createAMDGPUPromoteAlloca
FunctionPass * createAMDGPUPromoteAlloca()
Definition: AMDGPUPromoteAlloca.cpp:244

llvm::createSeparateConstOffsetFromGEPPass
FunctionPass * createSeparateConstOffsetFromGEPPass(bool LowerGEP=false)
Definition: SeparateConstOffsetFromGEP.cpp:507

llvm::EarlyIfConverterID
char & EarlyIfConverterID
EarlyIfConverter - This pass performs if-conversion on SSA form by inserting cmov instructions.
Definition: EarlyIfConversion.cpp:790

llvm::SIPreEmitPeepholeID
char & SIPreEmitPeepholeID

llvm::createAMDGPURemoveIncompatibleFunctionsPass
ModulePass * createAMDGPURemoveIncompatibleFunctionsPass(const TargetMachine *)

llvm::initializeGCNRegPressurePrinterPass
void initializeGCNRegPressurePrinterPass(PassRegistry &)

llvm::initializeSILowerI1CopiesLegacyPass
void initializeSILowerI1CopiesLegacyPass(PassRegistry &)

llvm::initializeAMDGPUArgumentUsageInfoPass
void initializeAMDGPUArgumentUsageInfoPass(PassRegistry &)

llvm::createBasicRegisterAllocator
FunctionPass * createBasicRegisterAllocator()
BasicRegisterAllocation Pass - This pass implements a degenerate global register allocator using the ...
Definition: RegAllocBasic.cpp:330

llvm::initializeGlobalISel
void initializeGlobalISel(PassRegistry &)
Initialize all passes linked into the GlobalISel library.
Definition: GlobalISel.cpp:17

llvm::initializeSIPreAllocateWWMRegsPass
void initializeSIPreAllocateWWMRegsPass(PassRegistry &)

llvm::createR600OpenCLImageTypeLoweringPass
ModulePass * createR600OpenCLImageTypeLoweringPass()
Definition: R600OpenCLImageTypeLoweringPass.cpp:372

llvm::createAMDGPUCodeGenPreparePass
FunctionPass * createAMDGPUCodeGenPreparePass()
Definition: AMDGPUCodeGenPrepare.cpp:2325

llvm::initializeSIAnnotateControlFlowLegacyPass
void initializeSIAnnotateControlFlowLegacyPass(PassRegistry &)

llvm::createAMDGPUISelDag
FunctionPass * createAMDGPUISelDag(TargetMachine &TM, CodeGenOptLevel OptLevel)
This pass converts a legalized DAG into a AMDGPU-specific.
Definition: AMDGPUISelDAGToDAG.cpp:117

llvm::getTheGCNTarget
Target & getTheGCNTarget()
The target for GCN GPUs.
Definition: AMDGPUTargetInfo.cpp:25

llvm::initializeSIFixSGPRCopiesLegacyPass
void initializeSIFixSGPRCopiesLegacyPass(PassRegistry &)

llvm::initializeAMDGPUAtomicOptimizerPass
void initializeAMDGPUAtomicOptimizerPass(PassRegistry &)

llvm::MachineCSEID
char & MachineCSEID
MachineCSE - This pass performs global CSE on machine instructions.
Definition: MachineCSE.cpp:165

llvm::GCNDPPCombineID
char & GCNDPPCombineID
Definition: GCNDPPCombine.cpp:111

llvm::createAMDGPURegBankCombiner
FunctionPass * createAMDGPURegBankCombiner(bool IsOptNone)
Definition: AMDGPURegBankCombiner.cpp:473

llvm::SIWholeQuadModeID
char & SIWholeQuadModeID
Definition: SIWholeQuadMode.cpp:266

llvm::createLoadClusterDAGMutation
std::unique_ptr< ScheduleDAGMutation > createLoadClusterDAGMutation(const TargetInstrInfo *TII, const TargetRegisterInfo *TRI, bool ReorderWhileClustering=false)
If ReorderWhileClustering is set to true, no attempt will be made to reduce reordering due to store c...
Definition: MachineScheduler.cpp:1826

llvm::initializeSIOptimizeExecMaskingPreRAPass
void initializeSIOptimizeExecMaskingPreRAPass(PassRegistry &)

llvm::initializeAMDGPUMarkLastScratchLoadPass
void initializeAMDGPUMarkLastScratchLoadPass(PassRegistry &)

llvm::LiveVariablesID
char & LiveVariablesID
LiveVariables pass - This pass computes the set of blocks in which each variable is life and sets mac...
Definition: LiveVariables.cpp:61

llvm::initializeAMDGPUCodeGenPreparePass
void initializeAMDGPUCodeGenPreparePass(PassRegistry &)

llvm::createGVNPass
FunctionPass * createGVNPass(bool NoMemDepAnalysis=false)
Create a legacy GVN pass.
Definition: GVN.cpp:3396

llvm::createAMDGPURewriteUndefForPHILegacyPass
FunctionPass * createAMDGPURewriteUndefForPHILegacyPass()
Definition: AMDGPURewriteUndefForPHI.cpp:193

llvm::call_once
void call_once(once_flag &flag, Function &&F, Args &&... ArgList)
Execute the function specified as a parameter once.
Definition: Threading.h:87

llvm::initializeSILowerSGPRSpillsPass
void initializeSILowerSGPRSpillsPass(PassRegistry &)

llvm::createSILowerI1CopiesLegacyPass
FunctionPass * createSILowerI1CopiesLegacyPass()
Definition: SILowerI1Copies.cpp:937

llvm::initializeAMDGPULowerKernelAttributesPass
void initializeAMDGPULowerKernelAttributesPass(PassRegistry &)

llvm::SIInsertHardClausesID
char & SIInsertHardClausesID
Definition: SIInsertHardClauses.cpp:272

llvm::createAMDGPUMachineCFGStructurizerPass
FunctionPass * createAMDGPUMachineCFGStructurizerPass()
Definition: AMDGPUMachineCFGStructurizer.cpp:2835

llvm::initializeAMDGPUResourceUsageAnalysisPass
void initializeAMDGPUResourceUsageAnalysisPass(PassRegistry &)

llvm::SIFixSGPRCopiesLegacyID
char & SIFixSGPRCopiesLegacyID
Definition: SIFixSGPRCopies.cpp:195

llvm::GCNCreateVOPDID
char & GCNCreateVOPDID
Definition: GCNCreateVOPD.cpp:173

llvm::createInferAddressSpacesPass
FunctionPass * createInferAddressSpacesPass(unsigned AddressSpace=~0u)
Definition: InferAddressSpaces.cpp:1386

llvm::VirtRegRewriterID
char & VirtRegRewriterID
VirtRegRewriter pass.
Definition: VirtRegMap.cpp:227

llvm::SILowerControlFlowID
char & SILowerControlFlowID
Definition: SILowerControlFlow.cpp:174

llvm::createLowerSwitchPass
FunctionPass * createLowerSwitchPass()
Definition: LowerSwitch.cpp:594

llvm::createVirtRegRewriter
FunctionPass * createVirtRegRewriter(bool ClearVirtRegs=true)
Definition: VirtRegMap.cpp:645

llvm::initializeR600VectorRegMergerPass
void initializeR600VectorRegMergerPass(PassRegistry &)

llvm::createExternalAAWrapperPass
ImmutablePass * createExternalAAWrapperPass(std::function< void(Pass &, Function &, AAResults &)> Callback)
A wrapper pass around a callback which can be used to populate the AAResults in the AAResultsWrapperP...

llvm::initializeSIOptimizeExecMaskingPass
void initializeSIOptimizeExecMaskingPass(PassRegistry &)

llvm::createAMDGPUGlobalISelDivergenceLoweringPass
FunctionPass * createAMDGPUGlobalISelDivergenceLoweringPass()
Definition: AMDGPUGlobalISelDivergenceLowering.cpp:206

llvm::createSIMemoryLegalizerPass
FunctionPass * createSIMemoryLegalizerPass()
Definition: SIMemoryLegalizer.cpp:2852

llvm::initializeAMDGPULateCodeGenPrepareLegacyPass
void initializeAMDGPULateCodeGenPrepareLegacyPass(PassRegistry &)

llvm::initializeSIFoldOperandsPass
void initializeSIFoldOperandsPass(PassRegistry &)

llvm::initializeSILowerControlFlowPass
void initializeSILowerControlFlowPass(PassRegistry &)

llvm::SIPeepholeSDWAID
char & SIPeepholeSDWAID
Definition: SIPeepholeSDWA.cpp:199

llvm::SIFixVGPRCopiesID
char & SIFixVGPRCopiesID
Definition: SIFixVGPRCopies.cpp:50

llvm::TwoAddressInstructionPassID
char & TwoAddressInstructionPassID
TwoAddressInstruction - This pass reduces two-address instructions to use two operands.
Definition: TwoAddressInstructionPass.cpp:258

llvm::initializeAMDGPURegBankSelectPass
void initializeAMDGPURegBankSelectPass(PassRegistry &)

llvm::createAMDGPULateCodeGenPrepareLegacyPass
FunctionPass * createAMDGPULateCodeGenPrepareLegacyPass()
Definition: AMDGPULateCodeGenPrepare.cpp:544

llvm::createAtomicExpandLegacyPass
FunctionPass * createAtomicExpandLegacyPass()
AtomicExpandPass - At IR level this pass replace atomic instructions with __atomic_* library calls,...
Definition: AtomicExpandPass.cpp:380

llvm::createGCNMCRegisterInfo
MCRegisterInfo * createGCNMCRegisterInfo(AMDGPUDwarfFlavour DwarfFlavour)
Definition: AMDGPUMCTargetDesc.cpp:71

llvm::createStraightLineStrengthReducePass
FunctionPass * createStraightLineStrengthReducePass()
Definition: StraightLineStrengthReduce.cpp:264

llvm::createAMDGPUImageIntrinsicOptimizerPass
FunctionPass * createAMDGPUImageIntrinsicOptimizerPass(const TargetMachine *)
Definition: AMDGPUImageIntrinsicOptimizer.cpp:326

llvm::initializeAMDGPUUnifyDivergentExitNodesPass
void initializeAMDGPUUnifyDivergentExitNodesPass(PassRegistry &)

llvm::initializeAMDGPULowerBufferFatPointersPass
void initializeAMDGPULowerBufferFatPointersPass(PassRegistry &)

llvm::createSIInsertWaitcntsPass
FunctionPass * createSIInsertWaitcntsPass()
Definition: SIInsertWaitcnts.cpp:1130

llvm::createAMDGPUAnnotateUniformValuesLegacy
FunctionPass * createAMDGPUAnnotateUniformValuesLegacy()
Definition: AMDGPUAnnotateUniformValues.cpp:149

llvm::createEarlyCSEPass
FunctionPass * createEarlyCSEPass(bool UseMemorySSA=false)
Definition: EarlyCSE.cpp:1932

llvm::initializeGCNDPPCombinePass
void initializeGCNDPPCombinePass(PassRegistry &)

llvm::PHIEliminationID
char & PHIEliminationID
PHIElimination - This pass eliminates machine instruction PHI nodes by inserting copy instructions.
Definition: PHIElimination.cpp:184

llvm::parseNamedRegisterReference
bool parseNamedRegisterReference(PerFunctionMIParsingState &PFS, Register &Reg, StringRef Src, SMDiagnostic &Error)
Definition: MIParser.cpp:3597

llvm::AMDGPUMarkLastScratchLoadID
char & AMDGPUMarkLastScratchLoadID
Definition: AMDGPUMarkLastScratchLoad.cpp:135

llvm::RenameIndependentSubregsID
char & RenameIndependentSubregsID
This pass detects subregister lanes in a virtual register that are used independently of other lanes ...
Definition: RenameIndependentSubregs.cpp:113

llvm::initializeAMDGPUAnnotateUniformValuesLegacyPass
void initializeAMDGPUAnnotateUniformValuesLegacyPass(PassRegistry &)

llvm::createAMDGPUExportClusteringDAGMutation
std::unique_ptr< ScheduleDAGMutation > createAMDGPUExportClusteringDAGMutation()
Definition: AMDGPUExportClustering.cpp:144

llvm::initializeAMDGPUPrintfRuntimeBindingPass
void initializeAMDGPUPrintfRuntimeBindingPass(PassRegistry &)

llvm::initializeAMDGPUPromoteAllocaPass
void initializeAMDGPUPromoteAllocaPass(PassRegistry &)

llvm::initializeAMDGPUOpenCLEnqueuedBlockLoweringPass
void initializeAMDGPUOpenCLEnqueuedBlockLoweringPass(PassRegistry &)

llvm::initializeAMDGPUInsertDelayAluPass
void initializeAMDGPUInsertDelayAluPass(PassRegistry &)

llvm::SIOptimizeExecMaskingID
char & SIOptimizeExecMaskingID
Definition: SIOptimizeExecMasking.cpp:93

llvm::initializeAMDGPUUnifyMetadataPass
void initializeAMDGPUUnifyMetadataPass(PassRegistry &)

llvm::initializeAMDGPUAlwaysInlinePass
void initializeAMDGPUAlwaysInlinePass(PassRegistry &)

llvm::Wave32
@ Wave32
Definition: AMDGPUMCTargetDesc.h:32

llvm::Wave64
@ Wave64
Definition: AMDGPUMCTargetDesc.h:32

llvm::DeadMachineInstructionElimID
char & DeadMachineInstructionElimID
DeadMachineInstructionElim - This pass removes dead machine instructions.
Definition: DeadMachineInstructionElim.cpp:77

llvm::AMDGPUPerfHintAnalysisLegacyID
char & AMDGPUPerfHintAnalysisLegacyID
Definition: AMDGPUPerfHintAnalysis.cpp:468

llvm::GCNPreRALongBranchRegID
char & GCNPreRALongBranchRegID

llvm::initializeAMDGPUPromoteKernelArgumentsPass
void initializeAMDGPUPromoteKernelArgumentsPass(PassRegistry &)

N
#define N

llvm::AMDGPUAlwaysInlinePass
Definition: AMDGPU.h:267

llvm::AMDGPUAttributorOptions
Definition: AMDGPU.h:305

llvm::AMDGPUFunctionArgInfo::PrivateSegmentBuffer
ArgDescriptor PrivateSegmentBuffer
Definition: AMDGPUArgumentUsageInfo.h:131

llvm::AMDGPUFunctionArgInfo::WorkGroupIDY
ArgDescriptor WorkGroupIDY
Definition: AMDGPUArgumentUsageInfo.h:142

llvm::AMDGPUFunctionArgInfo::WorkGroupIDZ
ArgDescriptor WorkGroupIDZ
Definition: AMDGPUArgumentUsageInfo.h:143

llvm::AMDGPUFunctionArgInfo::PrivateSegmentSize
ArgDescriptor PrivateSegmentSize
Definition: AMDGPUArgumentUsageInfo.h:137

llvm::AMDGPUFunctionArgInfo::DispatchID
ArgDescriptor DispatchID
Definition: AMDGPUArgumentUsageInfo.h:135

llvm::AMDGPUFunctionArgInfo::ImplicitArgPtr
ArgDescriptor ImplicitArgPtr
Definition: AMDGPUArgumentUsageInfo.h:149

llvm::AMDGPUFunctionArgInfo::PrivateSegmentWaveByteOffset
ArgDescriptor PrivateSegmentWaveByteOffset
Definition: AMDGPUArgumentUsageInfo.h:145

llvm::AMDGPUFunctionArgInfo::WorkGroupInfo
ArgDescriptor WorkGroupInfo
Definition: AMDGPUArgumentUsageInfo.h:144

llvm::AMDGPUFunctionArgInfo::WorkItemIDZ
ArgDescriptor WorkItemIDZ
Definition: AMDGPUArgumentUsageInfo.h:158

llvm::AMDGPUFunctionArgInfo::WorkItemIDY
ArgDescriptor WorkItemIDY
Definition: AMDGPUArgumentUsageInfo.h:157

llvm::AMDGPUFunctionArgInfo::LDSKernelId
ArgDescriptor LDSKernelId
Definition: AMDGPUArgumentUsageInfo.h:138

llvm::AMDGPUFunctionArgInfo::QueuePtr
ArgDescriptor QueuePtr
Definition: AMDGPUArgumentUsageInfo.h:133

llvm::AMDGPUFunctionArgInfo::KernargSegmentPtr
ArgDescriptor KernargSegmentPtr
Definition: AMDGPUArgumentUsageInfo.h:134

llvm::AMDGPUFunctionArgInfo::WorkItemIDX
ArgDescriptor WorkItemIDX
Definition: AMDGPUArgumentUsageInfo.h:156

llvm::AMDGPUFunctionArgInfo::FlatScratchInit
ArgDescriptor FlatScratchInit
Definition: AMDGPUArgumentUsageInfo.h:136

llvm::AMDGPUFunctionArgInfo::DispatchPtr
ArgDescriptor DispatchPtr
Definition: AMDGPUArgumentUsageInfo.h:132

llvm::AMDGPUFunctionArgInfo::ImplicitBufferPtr
ArgDescriptor ImplicitBufferPtr
Definition: AMDGPUArgumentUsageInfo.h:152

llvm::AMDGPUFunctionArgInfo::WorkGroupIDX
ArgDescriptor WorkGroupIDX
Definition: AMDGPUArgumentUsageInfo.h:141

llvm::AMDGPULowerKernelAttributesPass
Definition: AMDGPU.h:135

llvm::AMDGPULowerModuleLDSPass
Definition: AMDGPU.h:142

llvm::AMDGPUPrintfRuntimeBindingPass
Definition: AMDGPU.h:338

llvm::AMDGPUPromoteAllocaToVectorPass
Definition: AMDGPU.h:245

llvm::AMDGPUPromoteKernelArgumentsPass
Definition: AMDGPU.h:126

llvm::AMDGPUSimplifyLibCallsPass
Definition: AMDGPU.h:68

llvm::AMDGPUUnifyMetadataPass
Definition: AMDGPU.h:346

llvm::AMDGPUUseNativeCallsPass
Definition: AMDGPU.h:82

llvm::ArgDescriptor
Definition: AMDGPUArgumentUsageInfo.h:24

llvm::ArgDescriptor::createStack
static ArgDescriptor createStack(unsigned Offset, unsigned Mask=~0u)
Definition: AMDGPUArgumentUsageInfo.h:49

llvm::ArgDescriptor::createArg
static ArgDescriptor createArg(const ArgDescriptor &Arg, unsigned Mask)
Definition: AMDGPUArgumentUsageInfo.h:53

llvm::ArgDescriptor::createRegister
static ArgDescriptor createRegister(Register Reg, unsigned Mask=~0u)
Definition: AMDGPUArgumentUsageInfo.h:45

llvm::CGPassBuilderOption
Definition: CGPassBuilderOption.h:27

llvm::DenormalMode::Input
DenormalModeKind Input
Denormal treatment kind for floating point instruction inputs in the default floating-point environme...
Definition: FloatingPointMode.h:96

llvm::DenormalMode::PreserveSign
@ PreserveSign
The sign of a flushed-to-zero number is preserved in the sign of 0.
Definition: FloatingPointMode.h:80

llvm::DenormalMode::IEEE
@ IEEE
IEEE-754 denormal numbers preserved.
Definition: FloatingPointMode.h:77

llvm::DenormalMode::Output
DenormalModeKind Output
Denormal flushing mode for floating point instruction results in the default floating point environme...
Definition: FloatingPointMode.h:91

llvm::InferAddressSpacesPass
Definition: InferAddressSpaces.h:16

llvm::MachineFunctionInfo
MachineFunctionInfo - This class can be derived from and used by targets to hold private target-speci...
Definition: MachineFunction.h:95

llvm::MachineSchedContext
MachineSchedContext provides enough context from the MachineScheduler pass for the target to instanti...
Definition: MachineScheduler.h:128

llvm::PerFunctionMIParsingState
Definition: MIParser.h:164

llvm::PerFunctionMIParsingState::SM
SourceMgr * SM
Definition: MIParser.h:167

llvm::PerFunctionMIParsingState::MF
MachineFunction & MF
Definition: MIParser.h:166

llvm::RegisterTargetMachine
RegisterTargetMachine - Helper template for registering a target machine implementation,...
Definition: TargetRegistry.h:1248

llvm::SIModeRegisterDefaults::DX10Clamp
bool DX10Clamp
Used by the vector ALU to force DX10-style treatment of NaNs: when set, clamp NaN to zero; otherwise,...
Definition: SIModeRegisterDefaults.h:29

llvm::SIModeRegisterDefaults::FP64FP16Denormals
DenormalMode FP64FP16Denormals
If this is set, neither input or output denormals are flushed for both f64 and f16/v2f16 instructions...
Definition: SIModeRegisterDefaults.h:37

llvm::SIModeRegisterDefaults::IEEE
bool IEEE
Floating point opcodes that support exception flag gathering quiet and propagate signaling NaN inputs...
Definition: SIModeRegisterDefaults.h:25

llvm::SIModeRegisterDefaults::FP32Denormals
DenormalMode FP32Denormals
If this is set, neither input or output denormals are flushed for most f32 instructions.
Definition: SIModeRegisterDefaults.h:33

llvm::cl::desc
Definition: CommandLine.h:409

llvm::once_flag
The llvm::once_flag structure.
Definition: Threading.h:68

llvm::yaml::MachineFunctionInfo
Targets should override this in a way that mirrors the implementation of llvm::MachineFunctionInfo.
Definition: MIRYamlMapping.h:708

llvm::yaml::SIMachineFunctionInfo
Definition: SIMachineFunctionInfo.h:254

llvm::yaml::SIMachineFunctionInfo::SGPRForEXECCopy
StringValue SGPRForEXECCopy
Definition: SIMachineFunctionInfo.h:289

llvm::yaml::SIMachineFunctionInfo::WWMReservedRegs
SmallVector< StringValue > WWMReservedRegs
Definition: SIMachineFunctionInfo.h:272

llvm::yaml::SIMachineFunctionInfo::FrameOffsetReg
StringValue FrameOffsetReg
Definition: SIMachineFunctionInfo.h:275

llvm::yaml::SIMachineFunctionInfo::LongBranchReservedReg
StringValue LongBranchReservedReg
Definition: SIMachineFunctionInfo.h:290

llvm::yaml::SIMachineFunctionInfo::VGPRForAGPRCopy
StringValue VGPRForAGPRCopy
Definition: SIMachineFunctionInfo.h:288

llvm::yaml::SIMachineFunctionInfo::Mode
SIMode Mode
Definition: SIMachineFunctionInfo.h:286

llvm::yaml::SIMachineFunctionInfo::ArgInfo
std::optional< SIArgumentInfo > ArgInfo
Definition: SIMachineFunctionInfo.h:281

llvm::yaml::SIMachineFunctionInfo::ScratchRSrcReg
StringValue ScratchRSrcReg
Definition: SIMachineFunctionInfo.h:274

llvm::yaml::SIMachineFunctionInfo::StackPtrOffsetReg
StringValue StackPtrOffsetReg
Definition: SIMachineFunctionInfo.h:276

llvm::yaml::SIMode::IEEE
bool IEEE
Definition: SIMachineFunctionInfo.h:212

llvm::yaml::SIMode::DX10Clamp
bool DX10Clamp
Definition: SIMachineFunctionInfo.h:213

llvm::yaml::SIMode::FP64FP16OutputDenormals
bool FP64FP16OutputDenormals
Definition: SIMachineFunctionInfo.h:217

llvm::yaml::SIMode::FP64FP16InputDenormals
bool FP64FP16InputDenormals
Definition: SIMachineFunctionInfo.h:216

llvm::yaml::SIMode::FP32OutputDenormals
bool FP32OutputDenormals
Definition: SIMachineFunctionInfo.h:215

llvm::yaml::SIMode::FP32InputDenormals
bool FP32InputDenormals
Definition: SIMachineFunctionInfo.h:214

llvm::yaml::StringValue
A wrapper around std::string which contains a source range that's being set during parsing.
Definition: MIRYamlMapping.h:34