Introduction to Recommendation Systems (Vietnam Web Submit)
Big data infrastructure todo-tasks Rfx Framework
1. Overview of Rfx Framework / Platform
https://docs.google.com/document/d/1wutns90tuW1PGR03tXhDE_DkrdWZtfvh9R_cJRtrXk/edit?usp=sharing
Big Data Infrastructure - TODO Tasks
Update March 12, 2014 by Triều (@tantrieuf31)
● Module HTTP Log Server:
○ Hot deployment/restart/shutdown Http Log Server
○ Reactive streaming for Kafka Producer (RxJava)
■ https://github.com/Netflix/RxJava/wiki/TransformingObservables
● Module Messaging (Kafka): https://bitbucket.org/trieunt/kafka
○ Tìm 1 cơ chế quản lý configs và rotate kafka logs 1 cách an toàn hơn (hiện đang bị 1 issue
Kafka Consumer chưa đọc xong mà Kafka log đã move đi => kg tìm thấy offset để đọc tiếp =>
thiếu data)
○ Dự đoán tốc độ tăng file Kafka log để chọn 1 configs tối ưu cho từng loại sản phẩm
(machine learning (linear regression) for system performance)
○ Tạo mapping (thời gian, offset và binary offset files) (lúc cần parse lại thì dễ tìm files)
○ Quản lý + index lại offset của Kafka theo thời gian (giờ, ngày, ...), lúc cần thì set vào là chạy
reparse lại (hiện chưa implement)
● Module Stream Data Processing: https://bitbucket.org/trieunt/rfx/wiki/Home
○ Quản lý memory của worker node (nếu set HeapSize quá thấp => Worker sẽ die/restart liên
tục do kg đủ memory để chạy vì log nhiều)
○ Cơ chế extensions/plugins/hooking vào hệ thống (phân chia core và applications)
○ Refactoring (tổ chức lại code cho rõ ràng) giữa logic code công việc giữa:
■ parse => ghi vào Redis (chỉ parse, counting và check rules)
■ parse => ghi ra raw log files trong 1 worker (chỉ parse và write raw logs)
○ Unit Test Tools (Kafka Producer) + Test Tools (integration test) cho Reactive Topologies
○ Cải thiện chức năng debug log của Worker (ElasticSearch+Kibana)
○ Monitor Front End cho tất cả các critical metrics:
■ worker nodes (logs, memory, restart time, running, died, uptime, downtime )
■ alert/notification
■ số lượng log đọc từ Kafka, parsed OK, check OK, save OK
■ Disk Free, memory cho worker
■ Backup Redis Data
■ Simple Analytics Dashboard cho logs (analytics)
○ New Job Server (dùng Groovy script để dễ deploy và control qua Pub/Sub Redis)
■ Synchronized Data job
● Module Active Intelligence (tính năng mới )
● social data crawler Facebook/Twitter/Google+ (Rfx Social Data Crawler)
● Clustering Stream Data (test case: tin tức về các vụ tai nạn xe cột / cướp giật / thảm họa thiên
nhiên) dùng Apache Spark http://spark.apache.org
● Realtime Visualization Engine with HTML5 Web Socket (D3.js + Netty + Akka Actor)