OpenRefine進(jìn)行數(shù)據(jù)清理、數(shù)據(jù)修復(fù)糾正功能,這里讓數(shù)據(jù)代碼結(jié)構(gòu)更加優(yōu)化,規(guī)范標(biāo)準(zhǔn),保證質(zhì)量,可以移除數(shù)據(jù)行,過(guò)濾數(shù)據(jù)行等,評(píng)估當(dāng)前數(shù)據(jù)信息,專業(yè)數(shù)據(jù)優(yōu)化以及清理!
OpenRefine描述
一款用于清理數(shù)據(jù)的桌面工具。通過(guò)可視化的方式分析、整理數(shù)據(jù),支持 Windows、Linux、Mac 操作系統(tǒng)。擁有查詢、過(guò)濾、去重、分析等功能,可以把雜亂的數(shù)據(jù)變成“整潔”的電子表格,還能夠?qū)⒔Y(jié)果導(dǎo)出成多種格式的文件。不會(huì)編程和 SQL 的小伙伴們,也可以輕松分析海量數(shù)據(jù)啦!
OpenRefine功能
數(shù)據(jù)剖析Data Profiling:也叫做數(shù)據(jù)考古(Data Archeology),是數(shù)據(jù)集(Data Set)內(nèi)部為達(dá)一致性、單值性和邏輯性而進(jìn)行的數(shù)值質(zhì)量的統(tǒng)計(jì)分析及評(píng)估。數(shù)據(jù)剖析是Olson于2003年提出的概念,使用分析技術(shù)來(lái)發(fā)現(xiàn)正確的、結(jié)構(gòu)化的、有內(nèi)容、有質(zhì)量的數(shù)據(jù)。換句話說(shuō),它是評(píng)估你的數(shù)據(jù)和信息的當(dāng)前狀態(tài)以及包含了多少錯(cuò)誤的方法。
數(shù)據(jù)清洗Data Cleaning:是嘗試通過(guò)移除空的數(shù)據(jù)行或重復(fù)的數(shù)據(jù)行、過(guò)濾數(shù)據(jù)行、聚集或轉(zhuǎn)換數(shù)據(jù)值、分開(kāi)多值單元等,以半自動(dòng)化的方式修復(fù)錯(cuò)誤數(shù)據(jù)的過(guò)程。數(shù)據(jù)清洗是一個(gè)反復(fù)的過(guò)程,不可能在幾天內(nèi)完成,只有不斷的發(fā)現(xiàn)問(wèn)題,解決問(wèn)題。對(duì)于是否過(guò)濾,是否修正一般要求客戶確認(rèn)。
OpenRefine亮點(diǎn)
IDTs:Interactive Data Transformation tools,交互數(shù)據(jù)轉(zhuǎn)換工具,它可以對(duì)大數(shù)據(jù)進(jìn)行快速、廉價(jià)的操作,使用單個(gè)的集成接口。
OpenRefine 就是這樣的IDT工具,可以觀察和操縱數(shù)據(jù)的工具。它類似于傳統(tǒng)Excel的表格處理軟件,但是工作方式更像是數(shù)據(jù)庫(kù),以列和字段的方式工作,而不是以單元格的方式工作。這意味著OpenRefine不僅適合對(duì)新的行數(shù)據(jù)進(jìn)行編碼,而且功能還極為強(qiáng)大。
OpenRefine測(cè)評(píng)
OpenRefine整理數(shù)據(jù)、通過(guò)表格方式展現(xiàn)數(shù)據(jù)!



































