Baza wiedzy: Politechnika Warszawska

Ustawienia i Twoje konto

Powrót

Konstruktywna indukcja w zadaniu klasyfikacji sekwencji DNA

Abstract

Emergence of automated high-throughput DNA sequencing technologies results in a huge increase of the number of DNA sequences available in public databases. This makes it important to develop computational methods for automated genome annotation to understand and properly interpret the data. In this thesis the annotation task is perceived as a classification task. A standard tree-based classifier is used. To make classification possible, a set of functions called attributes must be generated from available data. In this work a new method of attribute creation is proposed. Generated attributes are based on regular expressions which are extended to express important DNA features such as ability to create spatial structures. Attribute generation process is interpreted as a search task in a space of all possible attributes. Several different spaces are defined which differ in the definition of contained elements and the neighborhood structure. Basing on annotated data, a set of attributes and a classifier are created. After that, the classifier is able to classify a DNA subsequence into two categories: positive or negative. Assigning of positive category means that analyzed subsequence belongs to the family of sequences whose recognition was the aim of proposed method. The proposed method was experimentally verified and its results were compared with results of state-of-the-art reference methods that have been designed and tuned to solve particular annotation tasks. Basing on that comparisons it is shown that results of presented method are of a comparable quality to the results of reference methods. Significant advantages of the proposed method are its universality and ability to create models readable by humans, which is not the case for reference methods.
Identyfikator pozycji
WEITI-932b1785-0cdd-464f-bbcb-363843e14b36
Rodzaj dyplomu
Praca doktorska
Autor
Tytuł w języku polskim
Konstruktywna indukcja w zadaniu klasyfikacji sekwencji DNA
Tytuł w języku angielskim
Application of constructive induction in classification of DNA sequences
Język
(pl) Polish
Jednostka dyplomująca
Wydział Elektroniki i Technik Informacyjnych (WEiTI)
Dyscyplina nauki
information science / (technology domain) / (technological sciences)
Status pracy
Obroniona
Data rozpoczęcia
23-01-2007
Data obrony
09-06-2009
Data nadania stopnia
23-06-2009
Promotor
Recenzenci wewnętrzni
Recenzenci zewnętrzni
Zielenkiewicz Piotr Zielenkiewicz Piotr Afiliacja nieokreślona
Wyróżnienie
tak
Paginacja
154
Słowa kluczowe w języku polskim
bioinformatyka, genetyka, DNA, RNA, sekwencjonowanie DNA
Streszczenie w języku polskim
Niniejsza praca poświęcona jest zagadnieniu tworzenia atrybutów na podstawie sekwencji DNA/RNA. Duża ilość tego rodzaju sekwencji, w połączeniu z potrzebą ich adnotacji (opisu), jest zjawiskiem typowym dla zadań bioinformatycznych. Zadanie adnotacji jest tu postrzegane jako zadanie klasyfikacji, czyli przydziału badanej podsekwencji do jednej z klas. Podstawowym problemem przy takim podejściu do adnotacji jest konieczność wytworzenia zestawu funkcji zwanych atrybutami, których dziedziną jest przestrzeń sekwencji, zaś zbiorem wartości — zbiór liczb rzeczywistych lub całkowitych. Zadanie poszukiwania atrybutów nosi nazwę konstruktywnej indukcji i dlatego termin ten znalazł się w tytule pracy. Celem konstruktywnej indukcji jest wytworzenie „dobrego” zbioru atrybutów, przy czym dobre atrybuty to takie, które w istotny sposób przyczyniają się do uzyskania małej wartości błędu klasyfikacji. W ramach niniejszej rozprawy opracowano metodę pozwalającą na konstruktywną indukcję atrybutów oraz indukcję klasyfikatora na ich podstawie. Atrybuty o których mowa definiowane są przy pomocy wyrażeń regularnych, których notacja została rozszerzona o elementy (takie jak palindromy) pozwalające na uchwycenie cech istotnych dla sekwencji DNA, a związanych z jej strukturą przestrzenną. Wymagane atrybuty tworzone są w wyniku przeszukiwania przestrzeni wyrażeń regularnych. Zdefiniowano kilka przestrzeni o różnej sile wyrazu. Do ich przeszukiwania zostały wykorzystane algorytmy o różnych właściwościach, zdefiniowano również kilka różnych funkcji oceny atrybutu. Na podstawie wygenerowanego zestawu atrybutów i odpowiedniego zbioru danych tworzony jest klasyfikator, który następnie przypisuje każdemu podanemu fragmentowi sekwencji jedną z dwóch klas: pozytywną lub negatywną. Przypisanie danemu fragmentowi klasy pozytywnej oznacza, że fragment ten został zaliczony do tej rodziny sekwencji, której rozpoznawanie było celem pracy metody. Przydatność proponowanego podejścia została zweryfikowana eksperymentalnie z wykorzystaniem danych rzeczywistych, a wyniki zostały porównane z wynikami znanych algorytmów. Na podstawie przeprowadzonych badań wykazano, że zaprezentowana metoda daje wyniki porównywalne z metodami specjalizowanymi, wyróżniając się uniwersalnością i czytelnością pozyskanego modelu.
Plik pracy
Poproś o plik WCAG
Liczba cytowań
2

Jednolity identyfikator zasobu
https://repo.pw.edu.pl/info/phd/WEITI-932b1785-0cdd-464f-bbcb-363843e14b36/
URN
urn:pw-repo:WEITI-932b1785-0cdd-464f-bbcb-363843e14b36

Potwierdzenie
Czy jesteś pewien?
Zgłoszenie uwag dotyczących tej strony
Schowek