Vitajte na [www.pocitac.win] Pripojiť k domovskej stránke Obľúbené stránky

Domáce Hardware Siete Programovanie Softvér Otázka Systémy

Úvod do klasifikačných techník v Bioinformatika

Bioinformatika je aplikácia výpočtovej techniky a techniky pre oblasti biológie . Cieľom bioinformatiky je pomáhať život vedca v organizácii biologických údajov a vytvorenia potrebných počítačových nástrojov pre objavenie nových vedeckých hypotéz . Klasifikácia techniky , tiež známy ako zhlukovaniu techniky , sú dôležité pre bioinformatiky , pretože umožňujú odlúčenie rôznych biologických dát s podobnými atribútmi do rôznych súborov . História

veľkosť biologických dát rastie exponenciálne , s zdvojnásobenie informácie zistené každých 15 mesiacov . Ako výsledok , počítačovej vedy a informatika techniky sú intenzívne využívané pri spracovaní a riadení biologických dát . Najzákladnejšie koncept bioinformatiky je , že väčšina biologické údaje zdieľajú podobné vlastnosti a môžu byť rozdelené do zhlukov . Napríklad gény organizmu môžu byť rozdelené do funkčných skupín alebo metabolických dráh . Proteíny môžu byť tiež klasifikované na základe génov , ktoré sú exprimované . Klasifikácia alebo clustering postupy sú nevyhnutné v riadení veľkých databáz genetických a biologických údajov . Existujú dva základné typy klasifikačných techník v bioinformatiky : . Hierarchické a klasifikačné techniky k - means
hierarchickej klasifikácie

Hierarchická klasifikácia technika usporadúva biologické údaje do stromovej štruktúre dát . Gény sú vyjadrené ako uzly v strome , pričom každá sub - strom uzlov predstavuje zoskupenie alebo zoskupenie génov . Strom môže byť buď korene alebo nezakorenené . Korene stromu je definovaný ako strom s iba jeden uzol v hornej časti . V kontraste , nezakorenené strom má viac najvyššiu uzlov .
K - means Klasifikácia

zložitejšie klasifikácia technika je klasifikácia k - Prípravky , ktoré sa snažia nájsť množinu centier , ktoré minimalizujú kvadratickej chyby medzi skreslenie dátových sád v viacstranný priestore . Cluster je zaradená do skupín súvisiacich bodov s ich najbližšieho mesta . Lloyd algoritmus je často používaný v klasifikácii techniky k - means . V tomto algoritme , dátové body sú náhodne usporiadané do samostatných klastrov , ktoré sú následne optimalizované pre výrobu minimálne miestnej narušenie chybové námestí .
Význam

Po súvisiace proteíny boli zaradené do podobnej skupiny , môžu vedci života tieto informácie použiť na predvídanie vlastností niektorých menej študovaných proteínov . To platí aj pre ďalšie aspekty štruktúry proteínov . Ďalšie použitie klasifikácie techník je vyriešiť problém určenie evolučný strom niektorých organizmov na základe ich genetickej sekvencie . Evolučný strom je vyrobený z DNA sekvencie organizmu buď pomocou hierarchickej alebo k - means klasifikačné techniky .
Úvahy

Hierarchická klasifikácia technika je pomerne jednoduchý a účinný spôsob zhlukovaniu biologických údajov . Naproti tomu , nie je efektívny algoritmus existuje v čase písania , ktorý je schopný účinne vykonávať klasifikáciu techniku ​​k - prostriedky , ako je veľkosť biologických dát sa zvýši . To naznačuje , že veľký výpočtový výkon je často nutné vykonať k - means klasifikáciu , čo je dôležitým faktorom pri výbere klasifikačné techniky na použitie v aplikáciách bioinformatiky .

Najnovšie články

Copyright © počítačové znalosti Všetky práva vyhradené