Fast Deep Stacked Network: Um algoritmo baseado em Extreme Learning Machine para treinamento rápido de uma arquitetura empilhada com pesos compartilhados

dc.contributor.advisor1Ciarelli, Patrick Marques
dc.contributor.advisor1IDhttps://orcid.org/0000000331774028
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/1267950518719423
dc.contributor.authorSilva, Bruno Legora Souza da
dc.contributor.authorIDhttps://orcid.org/0000-0003-1732-977X
dc.contributor.authorLatteshttp://lattes.cnpq.br/8885770833300316
dc.contributor.referee1Bastos Filho, Carmelo Jose Albanez
dc.contributor.referee1IDhttps://orcid.org/0000-0002-0924-5341
dc.contributor.referee1Latteshttp://lattes.cnpq.br/9745937989094036
dc.contributor.referee2Pinto, Luiz Alberto
dc.contributor.referee2IDhttps://orcid.org/
dc.contributor.referee2Latteshttp://lattes.cnpq.br/3550111932609658
dc.contributor.referee3Cavalieri, Daniel Cruz
dc.contributor.referee3IDhttps://orcid.org/0000-0002-4916-1863
dc.contributor.referee3Latteshttp://lattes.cnpq.br/9583314331960942
dc.contributor.referee4Rauber, Thomas Walter
dc.contributor.referee4IDhttps://orcid.org/0000000263806584
dc.contributor.referee4Latteshttp://lattes.cnpq.br/0462549482032704
dc.date.accessioned2024-05-30T00:53:25Z
dc.date.available2024-05-30T00:53:25Z
dc.date.issued2022-03-18
dc.description.abstractArtificial Neural Networks have been applied to solve classification and regression problems, increasing their popularity, mainly since the proposal of the backpropagation algorithm for its training stage using datasets. In the past years, the volume of generated data and the increased processing power of computers and Graphical Processing Units (GPU) enabled the training of large (or deep) architectures, capable of extracting and predicting information from complex problems, which are usually computationally expensive. In contrast, fast algorithms to train small (shallow) architectures, such as the single hidden layer feedforward network (SLFN), but capable of approximate any continuous function, were proposed. One of them is called Extreme Learning Machine (ELM), which has a fast and closed solution and was applied in wide range of applications, obtaining better performances than other methods, such as backpropagation-trained neural networks and Support Vector Machines (SVMs). Variants of ELM were proposed to solve problems such as underfitting, overfitting and outliers, but they still suffer when used with large datasets and/or when more neurons are required to extract more information. Thus, Stacked ELM (S-ELM) was proposed, which stacks ELM-trained modules, using information from a module in the next one, improving the results using large datasets, but it has limitation regarding the memory consumption, furthermore, it is not adequate for handling problems that involve a single output, such as some regression tasks. Another stacked method is called Deep Stacked Network (DSN), which has problems with training time and memory usage, but without the application limitation of Stacked ELM. Therefore, this work proposes to combine the DSN architecture with the ELM and Kernel ELM algorithms in order to obtain an model composed of small modules, with fast training and with a reduced memory usage, but capable of obtain similar performances compared more complex models. We also propose a variation of this model which deals with data that arrives gradually, called incremental learning (or online in the ELM context). Extensive experiments were conducted to evaluate the proposed methods in regression and classification tasks. Regarding the online approach, only regression tasks were considered. The results show that the methods are capable of training stacked architectures with statistically equivalent performances to SLFN with a large amount of neurons or (or other online methods), when comparing an error or accuracy metric. Considering the training time, the proposed methods spent less time in many cases. When memory usage is considered, some of the proposed methods were considered statistically better, which favors its use in restricted environments.
dc.description.resumoO uso de Redes Neurais Artificiais (RNA) para resolução de problemas de classificação e regressão ganhou bastante popularidade, principalmente após a introdução do algoritmo backpropagation para treiná-las utilizando conjuntos de dados. Nos últimos anos, o grande volume de dados gerados e a capacidade de processamento de computadores e placas gráficas tornou possível treinar grandes arquiteturas (profundas) capazes de extrair e predizer informações sobre problemas complexos, usualmente usando grandes quantidades de tempo. Em contrapartida, algoritmos rápidos para o treinamento de redes simples, como a composta por apenas uma camada oculta, chamadas de Single Layer Feedforward Network (SLFN), mas capazes de aproximar qualquer função contínua, foram propostos. Um deles é o chamado Extreme Learning Machine (ELM), que possui solução rápida e fechada, sendo aplicado em diversas áreas do conhecimento e obtendo desempenhos superiores a outros métodos, como as próprias RNA treinadas com backpropagation e Support Vector Machines (SVM). Variantes do ELM foram propostas para resolver problemas de subajuste e sobreajuste, outliers, entre outros, mas ainda sofrem na presença de grandes volumes de dados e/ou quando é necessária uma arquitetura com mais neurônios para extrair mais informações. Nesse sentido, foi proposta uma versão empilhada, chamada Stacked ELM, que põe várias SLFN treinadas por ELM em cascata, aproveitando informações de um módulo em sua posterior, mas que possui limitação quanto ao consumo de memória, além de não ser adequada para lidar com problemas que envolvem uma única saída, como típicas tarefas de regressão. Outro método empilhado é chamado de Deep Stacked Network (DSN), que possui problemas quanto ao tempo de treinamento e uso de memória, mas sem apresentar a limitação de aplicação do Stacked ELM. Assim, este trabalho propõe combinar a arquitetura DSN com o algoritmo ELM e o Kernel ELM a fim de obter arquiteturas que empilham módulos pequenos, com treinamento rápido e utilizando pouca memória, capaz de atingir desempenhos equivalentes a modelos mais complexos. Também é proposta uma forma desta arquitetura lidar com dados que vão chegando aos poucos, chamado aprendizado incremental (ou online, no contexto de ELM). Vários experimentos foram conduzidos para avaliar os métodos propostos, tanto para problemas de classificação quanto regressão. No caso do método online, foram considerados apenas os problemas de regressão. Os resultados mostram que as técnicas são capazes de treinar arquiteturas empilhadas com desempenhos estatisticamente equivalentes às SLFN com muitos neurônios ou a métodos online propostos na literatura, quando as métricas acurácia e erro médio são avaliados. Quanto ao tempo de treinamento, os métodos se mostraram mais rápidos em diversos casos. Já quanto ao uso de memória, os métodos propostos se mostraram estatisticamente superiores, o que facilita o seu uso em ambientes com hardware restrito.
dc.description.sponsorshipFundação Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)
dc.formatText
dc.identifier.urihttps://dspace5.ufes.br/handle/10/15980
dc.languagepor
dc.publisherUniversidade Federal do Espírito Santo
dc.publisher.countryBR
dc.publisher.courseDoutorado em Engenharia Elétrica
dc.publisher.departmentCentro Tecnológico
dc.publisher.initialsUFES
dc.publisher.programPrograma de Pós-Graduação em Engenharia Elétrica
dc.rightsopen access
dc.subjectDeep Stacked Network
dc.subjectExtreme Learning Machine
dc.subjectClassificação
dc.subjectRegressão
dc.subjectModelos Empilhados
dc.subjectAprendizado Incremental
dc.subject.br-rjbnsubject.br-rjbn
dc.subject.cnpqEngenharia Elétrica
dc.titleFast Deep Stacked Network: Um algoritmo baseado em Extreme Learning Machine para treinamento rápido de uma arquitetura empilhada com pesos compartilhados
dc.title.alternativetitle.alternative
dc.typedoctoralThesis

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
BrunoLegoraSouzadaSilva-2022-tese.pdf.pdf
Tamanho:
2.37 MB
Formato:
Adobe Portable Document Format