Layer integration #83

kurisusnowdeng · 2021-12-21T04:26:45Z

Integrated parallel layers for ease of building models
Renamed few apis
Reworked metric (e.g. accuracy) and moved it into colossalai.nn
Added throughput hook, log metric by step hook
Reworked initialization
Reworked model_zoo, with only one implementation for each model now.
Added benchmark, including cifar10 and imagenet100 training scripts
Updated related unit tests by replacing models from config with models in model_zoo
Tested all parallel layers and cifar10 convergence

FrankLeeeee · 2021-12-21T05:26:27Z

@kurisusnowdeng The checks are not passed

… bugs

FrankLeeeee · 2021-12-24T02:40:07Z

Hi @kurisusnowdeng , I have reviewed your code and some issues remain.

benchmark/cifar/configs/vit_1d.py

the correct field name for gradient_clipping is clip_grad_norm. This applies to all other config files.

colossalai/nn/init.py

seems fan_in and fan_out can be directly obtained from the weight shape, they should be hidden from the user.
fan_in should not be set to None as default because it cannot be default in the assert statement in lecun initialization.

def lecun_uniform_():
    # adapted from jax.nn.initializers
    def initializer(tensor: Tensor, fan_in: int = None, fan_out: int = None):
        assert fan_in is not None, 'Fan_in is not provided.'

        var = 1.0 / fan_in
        bound = math.sqrt(3 * var)
        return nn.init.uniform_(tensor, -bound, bound)

    return initializer


def lecun_normal_():
    # adapted from jax.nn.initializers
    def initializer(tensor: Tensor, fan_in: int = None, fan_out: int = None):
        assert fan_in is not None, 'Fan_in is not provided.'

        std = math.sqrt(1.0 / fan_in)
        return nn.init.trunc_normal_(tensor, std=std / .87962566103423978)

    return initializer

colossalai/nn/layer/__init__.py

from line 6 to line 24, why are all the modules imported?
Are there reasons for setting the default initializer? e.g. kaiming for weight and xavier for bias. The user is not aware of our setting and my suggestion would be to fall back to default torch initialization.
I would suggest putting the unified layers into a single file (e.g. unified_layer.py) instead of __init__.py as __init__.py serves for intialization/configuration purpose.

colossalai/nn/layer/parallel_1d/_utils.py

the utils functions here are for general use, not specific for 1D, I don’t think they should be put under 1D utils.

colossalai/nn/metric/accuracy_2d.py

accuracy is still using autograd function and this applies to other metrics as well.

kurisusnowdeng · 2021-12-24T06:19:27Z

Fixed. Please check again. @FrankLeeeee

integrated parallel layers for ease of building models

ebafa19

FrankLeeeee self-requested a review December 21, 2021 05:19

FrankLeeeee added the enhancement New feature or request label Dec 21, 2021

integrated 2.5d layers

81fff3f

kurisusnowdeng force-pushed the main branch from b020996 to 81fff3f Compare December 21, 2021 06:31

FrankLeeeee requested review from FrankLeeeee and removed request for FrankLeeeee December 21, 2021 08:43

kurisusnowdeng force-pushed the main branch 4 times, most recently from 121adc0 to 062be2a Compare December 21, 2021 12:47

kurisusnowdeng requested review from FrankLeeeee and removed request for FrankLeeeee December 21, 2021 12:48

kurisusnowdeng force-pushed the main branch from 062be2a to e04d911 Compare December 21, 2021 12:56

kurisusnowdeng requested review from FrankLeeeee and removed request for FrankLeeeee December 21, 2021 12:57

cleaned codes and unit tests

128237d

kurisusnowdeng force-pushed the main branch from e04d911 to 128237d Compare December 21, 2021 13:32

kurisusnowdeng requested review from FrankLeeeee and removed request for FrankLeeeee December 21, 2021 13:33

kurisusnowdeng changed the title ~~Model integration~~ Layer integration Dec 21, 2021

FrankLeeeee requested review from FrankLeeeee and removed request for FrankLeeeee December 22, 2021 05:33

kurisusnowdeng force-pushed the main branch from 3abcd4c to 1660327 Compare December 22, 2021 07:04

kurisusnowdeng requested review from FrankLeeeee and removed request for FrankLeeeee December 22, 2021 07:04

added log metric by step hook; updated imagenet benchmark; fixed some…

bcdefc7

… bugs

kurisusnowdeng requested a review from FrankLeeeee December 23, 2021 13:33

kurisusnowdeng force-pushed the main branch from 6c9ef3b to 51b67dd Compare December 23, 2021 14:08

kurisusnowdeng requested review from FrankLeeeee and removed request for FrankLeeeee December 23, 2021 14:08

kurisusnowdeng force-pushed the main branch from 51b67dd to c8cf6d8 Compare December 23, 2021 14:21

kurisusnowdeng requested review from FrankLeeeee and removed request for FrankLeeeee December 23, 2021 14:22

kurisusnowdeng force-pushed the main branch from c8cf6d8 to f408d07 Compare December 24, 2021 06:15

kurisusnowdeng requested review from FrankLeeeee and removed request for FrankLeeeee December 24, 2021 06:15

kurisusnowdeng force-pushed the main branch from f408d07 to c6babbb Compare December 24, 2021 06:17

kurisusnowdeng requested review from FrankLeeeee and removed request for FrankLeeeee December 24, 2021 06:18

kurisusnowdeng force-pushed the main branch from c6babbb to 0a2971c Compare December 24, 2021 06:42

kurisusnowdeng requested review from FrankLeeeee and removed request for FrankLeeeee December 24, 2021 06:43

kurisusnowdeng force-pushed the main branch from 0a2971c to ebbbd86 Compare December 26, 2021 17:00

kurisusnowdeng requested review from FrankLeeeee and removed request for FrankLeeeee December 26, 2021 17:00

kurisusnowdeng force-pushed the main branch from ebbbd86 to 2688d5e Compare December 27, 2021 05:35

kurisusnowdeng requested review from FrankLeeeee and removed request for FrankLeeeee December 27, 2021 05:36

reworked initialization; cleaned codes

eb3be14

kurisusnowdeng force-pushed the main branch from 2688d5e to eb3be14 Compare December 27, 2021 05:40

kurisusnowdeng requested review from FrankLeeeee and removed request for FrankLeeeee December 27, 2021 05:40

FrankLeeeee approved these changes Dec 27, 2021

View reviewed changes

kurisusnowdeng merged commit 0fedef4 into hpcaitech:main Dec 27, 2021

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Layer integration #83

Layer integration #83

kurisusnowdeng commented Dec 21, 2021 •

edited

Loading

FrankLeeeee commented Dec 21, 2021

FrankLeeeee commented Dec 24, 2021 •

edited

Loading

kurisusnowdeng commented Dec 24, 2021

Layer integration #83

Layer integration #83

Conversation

kurisusnowdeng commented Dec 21, 2021 • edited Loading

FrankLeeeee commented Dec 21, 2021

FrankLeeeee commented Dec 24, 2021 • edited Loading

kurisusnowdeng commented Dec 24, 2021

kurisusnowdeng commented Dec 21, 2021 •

edited

Loading

FrankLeeeee commented Dec 24, 2021 •

edited

Loading