新網(wǎng)知識社區(qū) > 互聯(lián)網(wǎng)熱點 >正文

熱銷產(chǎn)品

域名注冊企業(yè)郵箱域名信息查詢商標注冊免備案香港虛機云服務器ECS 數(shù)據(jù)庫MySQL 虛機主機輕應用服務器負載均衡企業(yè)建站模板建站

用于ETL的Python數(shù)據(jù)轉(zhuǎn)換工具

分類：互聯(lián)網(wǎng)熱點編輯：新網(wǎng)小青年瀏覽量：259

2020-07-20 13:33:06

前幾天，我去Reddit詢問是否應該將Python用于ETL相關的轉(zhuǎn)換，并且壓倒性的回答是"是"。

但是，盡管我的Redditor同事熱心支持使用Python，但他們建議研究Pandas以外的庫-出于對大型數(shù)據(jù)集Pandas性能的擔憂。

經(jīng)過研究，我發(fā)現(xiàn)了很多用于數(shù)據(jù)轉(zhuǎn)換的Python庫：有些改進了Pandas的性能，而另一些提供了自己的解決方案。

我找不到這些工具的完整列表，所以我想我可以使用所做的研究來編譯一個工具-如果我錯過了什么或弄錯了什么，請告訴我!

Pandas

總覽

Pandas當然不需要介紹，但是我還是給它一個介紹。

Pandas在Python中增加了DataFrame的概念，并在數(shù)據(jù)科學界廣泛用于分析和清理數(shù)據(jù)集。它作為ETL轉(zhuǎn)換工具非常有用，因為它使操作數(shù)據(jù)非常容易和直觀。

優(yōu)點

數(shù)據(jù)庫

缺點

由于它會將所有數(shù)據(jù)加載到內(nèi)存中，因此無法擴展，并且對于非常大(大于內(nèi)存)的數(shù)據(jù)集來說可能是一個錯誤的選擇

進一步閱讀

10分鐘Pandas Pandas機器學習的數(shù)據(jù)處理

Dask

總覽

根據(jù)他們的網(wǎng)站，" Dask是用于Python并行計算的靈活庫。"

從本質(zhì)上講，Dask擴展了諸如Pandas之類的通用接口，供在分布式環(huán)境中使用-例如，Dask DataFrame模仿了。

優(yōu)點

可擴展性— Dask可以在本地計算機上運行并擴展到集群能夠處理內(nèi)存不足的數(shù)據(jù)集即使在相同的硬件上，使用相同的功能也可以提高性能(由于并行計算) 最少的代碼更改即可從Pandas切換旨在與其他Python庫集成

缺點

除了并行性，還有其他方法可以提高Pandas的性能(通常更為顯著) 如果您所做的計算量很小，則沒有什么好處 Dask DataFrame中未實現(xiàn)某些功能

進一步閱讀

Dask文檔為什么每個數(shù)據(jù)科學家都應該使用Dask

Modin

總覽

Modin與Dask相似之處在于，它試圖通過使用并行性并啟用分布式DataFrames來提高Pandas的效率。與Dask不同，Modin基于Ray(任務并行執(zhí)行框架)。

Modin優(yōu)于Dask的主要好處是Modin可以自動處理跨計算機核心分發(fā)數(shù)據(jù)(無需進行配置)。

優(yōu)點

可伸縮性— Ray比Modin提供的更多完全相同的功能(即使在相同的硬件上)也可以提高性能最小的代碼更改即可從Pandas切換(更改import語句) 提供所有Pandas功能-比Dask更多的"嵌入式"解決方案

缺點

除了并行性，還有其他方法可以提高Pandas的性能(通常更為顯著) 如果您所做的計算量很小，則沒有什么好處

進一步閱讀

Modin文檔 Dask和Modin有什么區(qū)別?

Petl

總覽

petl包含了pandas的許多功能，但專為ETL設計，因此缺少額外的功能，例如用于分析的功能。 petl具有用于ETL的所有三個部分的工具，但本文僅專注于數(shù)據(jù)轉(zhuǎn)換。

盡管petl提供了轉(zhuǎn)換表的功能，但其他工具(例如pandas)似乎更廣泛地用于轉(zhuǎn)換和有據(jù)可查的文檔，因此petl對此吸引力較小。

優(yōu)點

最小化系統(tǒng)內(nèi)存的使用，使其能夠擴展到數(shù)百萬行對于在SQL數(shù)據(jù)庫之間進行遷移很有用輕巧高效

缺點

通過很大程度地減少對系統(tǒng)內(nèi)存的使用，petl的執(zhí)行速度會變慢-不建議在性能很重要的應用程序中使用較少使用此列表中的其他解決方案進行數(shù)據(jù)處理

進一步閱讀

使用Petl快速了解數(shù)據(jù)轉(zhuǎn)換和遷移 petl轉(zhuǎn)換文檔

PySpark

總覽

Spark專為處理和分析大數(shù)據(jù)而設計，并提供多種語言的API。使用Spark的主要優(yōu)點是Spark DataFrames使用分布式內(nèi)存并利用延遲執(zhí)行，因此它們可以使用集群處理更大的數(shù)據(jù)集，而Pandas之類的工具則無法實現(xiàn)。

如果要處理的數(shù)據(jù)非常大，并且數(shù)據(jù)操作的速度和大小很大，Spark是ETL的理想選擇。

優(yōu)點

可擴展性和對更大數(shù)據(jù)集的支持就語法而言，Spark DataFrames與Pandas非常相似通過Spark SQL使用SQL語法進行查詢與其他流行的ETL工具兼容，包括Pandas(您實際上可以將Spark DataFrame轉(zhuǎn)換為Pandas DataFrame，從而使您可以使用各種其他庫) 與Jupyter筆記本電腦兼容內(nèi)置對SQL，流和圖形處理的支持

缺點

需要一個分布式文件系統(tǒng)，例如S3 使用CSV等數(shù)據(jù)格式會限制延遲執(zhí)行，需要將數(shù)據(jù)轉(zhuǎn)換為Parquet等其他格式缺少對數(shù)據(jù)可視化工具(如Matplotlib和Seaborn)的直接支持，這兩種方法都得到了Pandas的良好支持

進一步閱讀

Python中的Apache Spark：新手指南 PySpark簡介 PySpark文檔(尤其是語法)

值得一提

盡管我希望這是一個完整的列表，但我不希望這篇文章過長!

確實有很多許多用于數(shù)據(jù)轉(zhuǎn)換的Python工具，因此我包括了這一部分，至少是我錯過的其他項目(我可能會在本文的第二部分中進一步探討這些項目)。

結論

我希望這份清單至少可以幫助您了解Python必須提供哪些工具來進行數(shù)據(jù)轉(zhuǎn)換。在進行了這項研究之后，我相信Python是ETL的優(yōu)秀選擇-這些工具及其開發(fā)人員使它成為了一個了不起的平臺。

就像我在本文開頭提到的那樣，我不是該領域的專家-如果您有任何補充，請隨時發(fā)表評論!

謝謝閱讀!

聲明：免責聲明：本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻自行上傳，本網(wǎng)站不擁有所有權，也不承認相關法律責任。如果您發(fā)現(xiàn)本社區(qū)中有涉嫌抄襲的內(nèi)容，請發(fā)

送郵件至：operations@xinnet.com進行舉報，并提供相關證據(jù)，一經(jīng)查實，本站將立刻刪除涉嫌侵權內(nèi)容。本站原創(chuàng)內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時

需注明出處：新網(wǎng)idc知識百科

域名管理	我要充值
未支付訂單	發(fā)票管理
安全退出	進入我的賬戶

99插插插,亚洲伦理中文在线,站长推荐一二三区欧美,青青草在线导航

全部產(chǎn)品

熱門產(chǎn)品

域名

企業(yè)服務

云計算

云安全

一元買熱門域名后綴

9折虛擬主機

注冊即送

最新文章

熱銷產(chǎn)品

用于ETL的Python數(shù)據(jù)轉(zhuǎn)換工具

售前咨詢電話

售前咨詢

域名信息查詢（WHOIS）

售后咨詢 (7*24小時)

售前咨詢