Naukowcy z Instytut Technologii Massachusetts, Kalifornijski Instytut TechnologiiI Uniwersytet Północno-Wschodni Stworzono nowy typ sieci neuronowej: Sieci Kołmogorowa-Arnolda (Był). Modele KAN radzą sobie lepiej z większymi Postrzegający-Modele oparte na zadaniach modelowania fizycznego i zapewniają bardziej interpretowalną wizualizację.
Inspiracją dla KAN były Teoria reprezentacji Kołmogorowa-Arnoldaktóry stwierdza, że dowolną złożoną funkcję wielu zmiennych można przepisać jako sumę kilku funkcji jednej zmiennej. Podczas gdy dzisiejsze sieci neuronowe opierają się na perceptronie, który uczy się zestawu wag wykorzystywanych do tworzenia liniowej kombinacji swoich wejść, które są przekazywane do funkcji aktywacji, sieci KAN uczą się funkcji aktywacji dla każdego wejścia, a wyniki tych funkcji są sumowane. Naukowcy porównali wydajność tradycyjnych wielowarstwowych sieci KAN (MLP) w zadaniu modelowania kilku problemów z fizyki i matematyki i odkryli, że sieci KAN Większą dokładność osiąga się przy mniejszej liczbie parametrówW niektórych przypadkach dokładność sięga 100 razy przy 100 razy większej liczbie parametrów. Naukowcy wykazali również, że wizualizacja funkcji aktywacji KAN pomogła użytkownikom odkryć symboliczne formuły, które mogłyby reprezentować modelowany proces fizyczny. Według zespołu badawczego:
Powodem, dla którego duże modele językowe są tak transformacyjne, jest to, że są przydatne dla każdego, kto potrafi mówić językiem naturalnym. Językiem nauki są funkcje. Duże modele językowe składają się z funkcji, które można interpretować, więc gdy użytkownik jest człowiekiem [works with] KAN to jakby komunikowanie się z nim za pomocą języka funkcji.
Sieci KAN mają podobną strukturę do MLP, ale zamiast uczyć się wag dla każdego wejścia, uczą się klin Ze względu na swoją warstwową strukturę zespół badawczy wykazał, że sieci neuronów ruchowych mogą nie tylko uczyć się cech danych, ale także „udoskonalać te wyuczone cechy z dużą dokładnością” dzięki zakrzywionym liniom. Zespół wykazał również, że sieci neuronów ruchowych działają w oparciu o tę samą metodę. Prawa pomiaru Opracowali także kilka aplikacji MLP, takich jak zwiększenie liczby parametrów w celu poprawy dokładności, i odkryli, że mogą zwiększyć liczbę parametrów wyszkolonej sieci KAN, a tym samym jej dokładność, „po prostu poprzez udoskonalenie jej zakrzywionych sieci”.
Naukowcy stworzyli interfejs, który pozwala użytkownikom interpretować i edytować KAN. Proces wizualizacji „wygaszy” funkcje aktywacji o małej objętości, umożliwiając użytkownikom skupienie się na ważnych funkcjach. Użytkownicy mogą uprościć KAN, przycinając nieistotne węzły. Użytkownicy mogą również sprawdzać funkcje splajnu i w razie potrzeby zastępować je formami symbolicznymi, takimi jak funkcje trygonometryczne lub logarytmiczne.
W wiadomościach hakerskich Dyskusja na temat KANJeden z użytkowników podzielił się swoimi doświadczeniami Porównanie tradycyjnych sieci neuronowych z tradycyjnymi sieciami neuronowymi (nn):
Moim głównym odkryciem było to, że trenowanie sieci neuronowych było bardzo trudne w porównaniu z sieciami neuronowymi. Zwykle możliwe jest uzyskanie utraty parametrów na poziomie porównywalnym z sieciami neuronowymi, ale wymaga to wielu dostrojeń hiperparametrów i dodatkowych sztuczek w architekturze sieci neuronowej. Dla porównania, tradycyjne sieci neuronowe były znacznie łatwiejsze w szkoleniu i działały dobrze w znacznie szerszym zakresie warunków. Niektórzy komentowali, że włożyliśmy niesamowitą ilość wysiłku, aby stać się naprawdę dobrymi w efektywnym szkoleniu sieci neuronowych i że wiele elementów bibliotek uczenia maszynowego (na przykład optymalizatory, takie jak Adam) zostało zaprojektowanych i zoptymalizowanych specjalnie pod kątem sieci neuronowych. Z tego powodu porównywanie jabłek z jabłkami nie jest dobrym porównaniem.
the Kod źródłowy KAN Dostępne na GitHubie.
„Zła entuzjasta podróży. Irytująco skromny ćpun internetu. Nieprzepraszający alkoholiczek”.