Orange (software)

Orange
Vznik1996
OSmultiplatformní
LicenceGNU General Public License
Webhttps://orangedatamining.com/

Orange je vizuální programovací jazyk pro strojové učení, dolování dat (data mining) a interaktivní analýzu.[1][2]

Software byl představen ke konci 90. let 20. století a je vytvářen na Univerzitě v Lublani na fakultě počítačové a informační vědy v laboratoři bioinformatiky.[1]

Popis

Software je vhodný jak pro pokročilé uživatele, aby byli schopni pomocí softwaru provést svou analýzu rychle, tak pro běžné uživatele, kteří mohou mít přístup k interaktivnímu, vizuálnímu a jednoduchému způsobu provedení své analýzy dat.[3] Díky intuitivnímu rozhraní a nekomerční platformě je vhodný pro široké využití při dolování dat a jejich analýzy.[4]

Podstatou softwaru je vizuální programování. To znamená, že každý analytický postup je obsažen ve widgetu. Widgety jsou umístěny na plátně a propojeny s analytickými pracovními postupy, které běží zleva doprava.[5] Widgety představují samotné programové kódy.[2] Widgety poskytují základní funkce jako je čtení dat, zobrazování tabulek, srovnání algoritmů nebo vizualizace datových položek. Uživatel tak díky nim vidí výsledek vizuálně.[6]

Jako vstupní datový formát používá Orange především soubory s koncovkou tab Orange ale dokáže otevřít i další datové sady s koncovkami txt, csv, basket nebo arff.[6] Vstupní data lze načíst i z Excelu (.xlsx) nebo z URL adresy.[7]

Postupy řešení úlohy se ukládají do souboru, která má koncovku ows.[2]

Software

Software využívá programovací jazyky jako jsou Python, Cython, C++ a C. Grafické prostředí softwaru bylo vytvořeno pomocí programovacího jazyka Python a Qt3 knihoven.[6]

Jádro softwaru obsahuje přes 200 C++ tříd, které pokrývají základní datové struktury a většinu algoritmů předzpracování a modelování. Část softwaru je napsaná v Pythonu a obsahuje procedury, které nejsou časově omezeny. Jádro obsahuje několik open source knihoven, k nim patří LIBSVM, LIBLINEAR, Earth nebo QHUll. Používány jsou také knihovny Pythonu, například NymPy pro lineární algebru, NetworkX pro práci s grafy nebo Matplotlib pro vizualizaci.[1]

Operace

V softwaru je možné provádět různé operace, které jsou zobrazeny na levém panelu. Operace se dělí do 18 skupin, které jsou od sebe odlišeny barvami. Součástí skupiny jsou widgety, které jsou označeny stejnou barvou jako skupina, do které patří.

Operace a widgety

Operace jsou sdruženy do skupin jako jsou:

  • Data – složka, import CSV, datová tabulka, informace o datovém souboru apod.
  • Přeměna – vybrat řádky, vybrat sloupce, spojit data, spojit sloupce, zřetězit, předpracovat apod.
  • Vizualizace – bodový diagram, časový diagram, síťový diagram, Vennův diagram apod.
  • Model – lineární regrese, logistická regrese, metoda podpůrných vektorů apod.
  • Hodnocení – předpověď, ROC křivka, kalibrační graf, výkonnostní křivka
  • Bez dozoru – korelace, K-means, Louvainova metoda, hierarchické klastrování apod.
  • Spektroskopie – vícerozměrné škálování, přetvořit mapu apod.
  • Dolování textu – import dokumentů, duplikace zjištění, Wikipedia, slovní obohacení apod.
  • Analýza přežití – Kaplan-Meier diagram, Coxova regrese, kohorta apod.
  • Bioinformatika – diferenciální genová exprese, shluková analýza, genová sada apod.
  • Jediná buňka – načíst data, filtr, propojit datové sady, skóre genů apod.
  • Obrazová analytika – nahrát obrázky, prohlédnout obrázky, uložit obrázky apod.
  • Sítě – analýza sítí, klastrování sítí, generátor sítí apod.
  • Geo – geokódování, geomapa, kartogram apod.
  • Vzdělávací – polynomická regrese, polynomická klasifikace, koláčový graf, gradientní sestup apod.
  • Časové řady – spojnicový graf, periodogram, korelogram, spiralogram, interpolace apod.
  • Spolupracovník – časté sady položek a asociační pravidla
  • Vysvětlení – vysvětlit model, význam funkce, vysvětlit predikci a vysvětlit predikce[8]

Zajímavosti

Orange využívá několik tisíc uživatelů týdně, a je tak jedním z největších open source prostředí pro vědu o datech řízených vizualizací.[9]

Software je dostupný všem zadarmo a původně byl založen pro vzdělávací účely, i přesto je vhodným nástrojem pro praktické zpracování dat.[4]

Orange funguje na operačním systému Windows, Mac OS a Linux a může být instalován z repozitáře Python Package Index.[1]

Reference

  1. a b c d DEMŠAR, Janez; ZUPAN, Blaž; LEBAN, Gregor. Orange: From Experimental Machine Learning to Interactive Data Mining. Berlin, Heidelberg: Springer Berlin Heidelberg Dostupné online. ISBN 978-3-540-23108-0, ISBN 978-3-540-30116-5. S. 537–539. 
  2. a b c DOBEŠOVÁ, Zdena. ORANGE: Praktický návod do cvičení předmětu Data mining. 1. vyd. Křížkovského 8, 771 47 Olomouc: Univerzita Palackého v Olomouci Dostupné online. ISBN 978-80-244-6086-4. DOI 10.5507/prf.22.24460864. DOI: 10.5507/prf.22.24460864. 
  3. TOPLAK, M.; BIRARDA, G.; READ, S. Infrared Orange: Connecting Hyperspectral Data with Machine Learning. Synchrotron Radiation News. 2017-07-04, roč. 30, čís. 4, s. 40–45. Dostupné online [cit. 2023-11-27]. ISSN 0894-0886. DOI 10.1080/08940886.2017.1338424. (anglicky) 
  4. a b DOBESOVA, Zdena. Experiment in Finding Look-Alike European Cities Using Urban Atlas Data. ISPRS International Journal of Geo-Information. 2020-06, roč. 9, čís. 6, s. 406. Dostupné online [cit. 2023-11-27]. ISSN 2220-9964. DOI 10.3390/ijgi9060406. (anglicky) 
  5. Building Workflows — Orange Visual Programming 3 documentation. orange3.readthedocs.io [online]. [cit. 2023-11-13]. Dostupné online. 
  6. a b c Expert System Techniques in Biomedical Science Practice:. Příprava vydání Prasant Kumar Pattnaik, Aleena Swetapadma, Jay Sarraf. [s.l.]: IGI Global, 2018. (Advances in Bioinformatics and Biomedical Engineering). Dostupné online. ISBN 978-1-5225-5149-2, ISBN 978-1-5225-5150-8. DOI 10.4018/978-1-5225-5149-2.ch007 jo - expert system techniques in biomedical science practice er -. DOI: 10.4018/978-1-5225-5149-2. 
  7. LJUBLJANA, University of Bioinformatics Laboratory. Orange Data Mining - undefined. Orange Data Mining [online]. [cit. 2023-11-20]. Dostupné online. (anglicky) 
  8. LJUBLJANA, University of Bioinformatics Laboratory. Orange Data Mining - Widget Catalog. Orange Data Mining [online]. [cit. 2023-11-20]. Dostupné online. (anglicky) 
  9. Bioinformatics Laboratory. fri.uni-lj.si [online]. [cit. 2023-11-13]. Dostupné online. 

Externí odkazy

Média použitá na této stránce

Workflow-Orange3.png
Autor: Vijolica9, Licence: CC BY-SA 4.0
An example of a workflow in Orange 3.0.
Orange-software-logo.png
Autor: Roman Razman, Licence: GPL
Orange (data mining software) logo