Dataflow 模型：一种能平衡准确性、延迟、成本的大规模、无限、乱序的数据处理的实践方法

发表于 2020-05-23 更新于 2025-12-11 分类于 Paper Waline：阅读次数：本文字数： 23k 阅读时长 ≈ 38 分钟

本篇是论文的中文简单翻译

概述

在日常商业运营中，无边界、乱序、大规模数据集越来越普遍了。（例如，网站日志，手机应用统计，传感器网络）。同时，对这些数据的消费需求也越来越复杂。比如说按事件发生时间序列处理数据，按数据本身的特征进行窗口计算等等。同时人们也越来越苛求立刻得到数据分析结果。然而，实践表明，我们永远无法同时优化数据处理的准确性、延迟程度和处理成本等各个维度。因此，数据工作者面临如何协调这些几乎相互冲突的数据处理技术指标的窘境，设计出来各种纷繁的数据处理系统和实践方法。

我们建议数据处理的方法必须进行根本性的改进。作为数据工作者，我们不能把无边界数据集（数据流）切分成有边界的数据，等待一个批次完整后处理。相反地，我们应该假设我们永远无法知道数据流是否终结，何时数据会变完整。唯一应该确信的是，新的数据会源源不断而来，老的数据可能会被撤销或更新。而能够让数据工作者应对这个挑战的唯一可行的方法是通过一个遵守原则的抽象来平衡折衷取舍数据处理的准确性、延迟程度和处理成本。

在这篇论文中，我们提出了Dataflow模型，并详细地阐述了它的语义，设计的核心原则，以及在实践开发过程中对模型的检验。

阅读全文 »

MapReduce面向大型集群的简化数据处理

发表于 2020-05-18 更新于 2025-12-11 分类于 Paper Waline：阅读次数：本文字数： 11k 阅读时长 ≈ 19 分钟

本篇是论文的中文简单翻译

什么是MapReduce？

MapReduce既是一种编程模型，也是一种用于处理和产生大数据集的实现。用户使用一个特定的map程序去处理key/value对，并产生中间key/value对的集合，以及一个特定的reduce程序去合并有着相同key的所有中间key/value对。本文指出，许多实际的任务都可以用这种模型来表示。

用这种函数式风格写出的程序自动就拥有了在一个大的机器集群上并行执行的能力。运行时系统会负责细节：输入数据分区，在一组机器上执行调度程序，处理机器错误，以及管理所需的机器间内部通信。这允许不具备任何并行和分布式系统经验的程序员也能轻松地利用一个大型分布式系统的资源。

阅读全文 »

契约式编程

发表于 2020-04-04 更新于 2025-12-11 分类于 Architecture Waline：阅读次数：本文字数： 3.2k 阅读时长 ≈ 5 分钟

契约式设计(Design by Contract)，也被称为契约式编程，契约优先式开发或代码合约等，是一种设计软件的方法。这种方法要求软件设计者为软件组件定义正式的，精确的并且可验证的接口，这样，为传统的抽象数据类型又增加了先验条件、后验条件和不变式。这种方法的名字里用到的“契约”或者说“契约”是一种比喻，因为它和商业契约的情况有点类似。

DbC的核心思想是对软件系统中的元素之间相互合作以及"责任"与"权利"的比喻。这种比喻从商业活动中"客户"与"供应商"达成"契约"而得来。例如：

供应商必须提供某种产品（责任），并且他有权期望客户已经付款（权利）。
客户必须付款（责任），并且有权得到产品（权利）。
契约双方必须履行那些对所有契约都有效的责任，如法律和规定等。

同样的，如果在面向对象程序设计中一个类的函数提供了某种功能，那么它要：

期望所有调用它的客户模块都保证一定的进入条件：这就是函数的先验条件—客户的义务和供应商的权利，这样它就不用去处理不满足先验条件的情况。
保证退出时给出特定的属性：这就是函数的后验条件—供应商的义务，显然也是客户的权利。
在进入时假定，并在退出时保持一些特定的属性：不变条件。

阅读全文 »

Java版本管理

发表于 2020-03-27 更新于 2025-12-11 分类于 Java Waline：阅读次数：本文字数： 6.7k 阅读时长 ≈ 11 分钟

使用Java时会接触到不同的版本。一般情况下是配置JAVA_HOME，指定不同的Java版本，但是这需要人为手动的输入。如果又要选择其他版本，就需要对JAVA_HOME重新进行设置。

阅读全文 »

web安全之CSRF

发表于 2020-03-20 更新于 2025-12-11 分类于 Web Security Waline：阅读次数：本文字数： 3.2k 阅读时长 ≈ 5 分钟

CSRF即跨站点请求伪造(Cross—Site Request Forgery), 在CSRF攻击中,攻击者盗用了你的身份，以你的名义发送恶意请求，对服务器来说这个请求是完全合法的，但是却完成了攻击者所期望的一个操作，比如以你的名义发送邮件、发消息，盗取你的账号，添加系统管理员，甚至于购买商品、虚拟货币转账等。

阅读全文 »

字符集和编码

发表于 2020-03-16 更新于 2025-12-11 分类于 Encoding Waline：阅读次数：本文字数： 13k 阅读时长 ≈ 22 分钟

计算机内部，所有信息最终都是一个二进制值。每一个二进制位（bit）有0和1两种状态，因此八个二进制位就可以组合出256种状态，这被称为一个字节（byte）。也就是说，一个字节一共可以用来表示256种不同的状态。如果将这每一个状态对应一个符号，就是256个符号，从00000000到11111111。

Character 字符。即我们看到的单个符号，像“A”、“啊”等
Code point 代码点。一个无符号数字，通常用16进制表示。代码点与字符的一一对应关系称为字符集（Character Set），这种对应关系肯定不止一种，也就导致了不同字符集的出现，像 ASCII、ISO-8859-1、GB2312、GBK、Unicode 等。
Bytes 二进制字节。其含义为代码点在内存或磁盘中的表示形式。代码点与二进制字节的一一对应关系称为编码（Encoding），当然这种对应关系也不是唯一的，所以编码也有很多种，像 ASCII、ISO-8859-1、ENC-CN、GBK、UTF-8等。

例如，ASCII 字符集只是定义了字符与字符码（character code，也称 code point 代码点）的对应关系。也就是说这一层面只是规定了字符A用 65 表示，至于这个 65 在内存或硬盘中怎么表示，它不管，那是 ASCII 编码做的事。

阅读全文 »

设计模式-断路器

发表于 2020-02-10 更新于 2025-12-11 分类于 Architecture Waline：阅读次数：本文字数： 4.2k 阅读时长 ≈ 7 分钟

什么是短路器？

断路器本身是指电气安全装置，旨在保护电路免受超过设备可以安全承载的电流。断路器可以重置（手动或自动）以恢复正常运行。在软件工程中用于保护系统稳定性，防止资源过载。

阅读全文 »

docker 简介

发表于 2019-12-31 更新于 2025-12-11 分类于 Docker Waline：阅读次数：本文字数： 11k 阅读时长 ≈ 18 分钟

Docker是一个用于开发,交付和运行应用程序的开放平台.Docker提供了在松散隔离的环境(称为容器)中打包和运行应用程序的功能.隔离和安全性使您可以在给定主机上同时运行多个容器.容器是轻量级的,因为它们不需要虚拟机管理程序的额外负载,而是直接在主机的内核中运行.这意味着与使用虚拟机相比,可以在给定的硬件组合上运行更多的容器.甚至可以在实际上是虚拟机的主机中运行Docker容器！

Docker提供了工具和平台来管理容器的生命周期：

使用容器开发应用程序及其支持组件.
容器成为分发和测试应用程序的单元.
准备就绪后,可以将应用程序作为容器或协调服务部署到生产环境中.

举个例子:

开发人员在本地编写代码,并使用Docker容器与同事共享工作.
使用Docker将其应用程序推送到测试环境中,并执行自动和手动测试.
当开发人员发现错误时,他们可以在开发环境中对其进行修复,然后将其重新部署到测试环境中以进行测试和验证.
测试完成后,将修补程序推送给生产环境就像将更新的映像推送到生产环境一样简单.

阅读全文 »

大型网站技术架构-读书笔记

发表于 2019-11-30 更新于 2025-12-11 分类于 Architecture Waline：阅读次数：本文字数： 38k 阅读时长 ≈ 1:04

本文是《李智慧. 大型网站技术架构:核心原理与案例分析 . 电子工业出版社. 》一书的读书笔记。

大型网站的特点:

高并发,大流量的访问
高可用的服务
海量数据
用户分布广，网络环境复杂
安全环境恶劣
需要快速变更，发布频繁
渐进式发展，大型网站都是从一个小网站开始，渐进的演化。

阅读全文 »

functional programming 简介

发表于 2019-08-25 更新于 2025-12-11 分类于 Architecture Waline：阅读次数：本文字数： 12k 阅读时长 ≈ 19 分钟

函数式编程是一种编程范式,它把计算当成是数学函数的求值，从而避免改变状态和使用可变数据。它是一种声明式的编程范式，通过表达式和声明而不是语句来编程。函数式编程是幂等的(无状态的):函数的返回值仅取决于其参数，因此调用具有相同参数值的函数始终会产生相同的结果。这与命令式编程形成对比，在命令式编程中，除了函数的参数之外，程序状态可以影响函数的结果值。随着多核平台和并发计算的发展，函数式编程的无状态特性，在处理这些问题时有着其他编程范式不可比拟的天然优势。

阅读全文 »