「データ処理」の記事一覧
-
Sqawk:SQLとawkの融合ツール
2025-05-26 21:11
IT・ネットSqawkは、SQLの文法でCSVやTSVなどのテキストデータを扱えるコマンドラインツールです。SELECTやJOIN、GROUP BYなどに対応し、データの抽出・変換・保存が可能です。複数ファイルの結合処理やカスタム区切り文字の対応も特徴で、awkの柔軟性とSQLの表現力を融合しています。更新や削除処理も可能で、--writeオプションを指定することで元ファイルへ安全に変更を反映できます。MITライセンスで提供されています。
-
大容量JSONをPydanticで効率的に扱う方法
2025-05-22 18:06
IT・ネット大容量JSONをPydanticで読み込むと、メモリ使用量が膨大になる問題があります。この記事では、ストリーミング型のJSONパーサーijsonを使うことで、メモリ使用量を20分の1以下に抑える手法を紹介。さらに、Pydanticのdataclassとslotsを併用することで、450MBまで削減可能となります。標準のmodel_validate_jsonに比べて遅いものの、実用的な大規模データ処理が可能になるアプローチです。
-
JavaでPandas風データ処理を実現するFahmatrix
2025-05-17 04:39
IT・ネットFahmatrixは、PythonのPandasに触発されて開発されたJava向けの軽量なデータ処理ライブラリです。CSVファイルの読み込み、行のフィルタ、列の選択、統計量の集計などが直感的なAPIで可能です。依存ライブラリなしで動作し、Java開発環境にデータ解析機能をもたらします。今後はMaven/Gradle対応や集計機能の拡充も予定されており、Java上でのデータハンドリングの選択肢として期待されています。
-
Bento:シンプルに運用できる高機能ストリーム処理基盤
2025-05-08 21:30
科学・技術BentoはGo製のストリーム処理ツールで、KafkaやPubSub、S3など多様な入出力をサポートし、宣言的設定により複雑なETLパイプラインを簡素化します。データの変換や並列処理、ウィンドウ処理などに対応し、信頼性の高い処理と可観測性も備えています。静的バイナリで配布され、拡張も可能で、クラウドネイティブなデータ処理に適した設計となっています。