5/27/2010

我写故我在(32)

整个五月乏善可陈:

1. 遇到些无语的事,碰到些不靠谱的人:做事靠嘴,技术靠猜。合作固然重要,但必须以win-win,以1+1 > 2为前提。搞不清各自所长、不明白各自所需,一味妄自菲薄、盲信他人,只会引狼入室、丧失主动、自乱阵脚。

2. 正所谓“盛名之下,其实难副”,大众往往容易把在某些点上取得成绩的人士神化,特别是在距离比较遥远的时候。成功有共通性,也有其独特性:一个人在技术领域的成功,并不意味着其有管理上的天赋;一个人做算法成功,并不意味着有做系统的感觉。

3. 遇到点意外,顺势而为:广泛调研心中有数,Visio技艺又进了一步。

4. 月底阴差阳错去安贞UME看了场《训龙记》,整部电影倒是招人喜欢,虽然有些好莱坞主旋律:自我成长 + 和谐宇宙 + 打黑除魔。

5/14/2010

Mechanical Turk, Crowdsourcing and Amazon MTurk Service

I. Mechanical Turk

Mechanical Turk(土耳其下棋傀儡) 是十八世纪晚期一位奥地利人制作的自动下棋装置。这套装置看似一套全机械操作的自动化系统,实际上却是由躲在这些复杂的表面系统后面的真人操作。因为装置精巧,识破其骗局的人不多,加之操作的人棋术不错,在当时的欧洲颇风靡了一阵。这套系统在一个机械的、自动化的接口下,使用了人力操作的实现方式;用今天的流行话来说,这是一台“人肉下棋机器人”。

II. Crowd Sourcing

Crowd Sourcing(众包)是连线杂志的编辑Jeff Howe在2006年发表的文章"The Rise of Crowdsourcing" [3]中创造的一个词汇。按照他的定义: Crowdsourcing is the act of taking a job traditionally performed by a designated agent (usually an employee) and outsourcing it to an undefined, generally large group of people in the form of an open call.

和一般意义上的Outsourcing(外包)相比:
1. 问题的解决方案提供者是一大群未知的公众群体,而不是预先已知的小团队或个人
2. 在多个方案存在时,最终方案的选择也由群体来做出
可以说最后的解决方案完全依赖于群体的智慧和力量。

Jeff Howe认为形成Crowdsourcing现象主要得益于:
1. 现代科技的发展使得专业事务的门槛降低,初学者和专业人士界限模糊。人们能够完成的工作能力变得前所未有的强大
2. 互联网技术的发展使得人们交流手段变得快速而强大

而Crowdsourcing的优势在于:
1. 由于面向的人群不限于专业人士,解决方案的最终成本更低廉
2. 提交者能接触到更多的问题解决者,选择面更宽,能利用到的资源更丰富,得到的结果更好

但也有人指出了这种模式的诸多不足:
1. 对方案提供者了解和控制太少,不确定性太大
2. 缺乏法律规范和保障,一旦出现纠纷,解决起来比较麻烦
3. 质量和持续性难以保证

III. Amazon Mechanical Turk

受这两个想法的启发,Amazon在推出了一项叫做Amazon Mechanical Turk的互联网服务。

Amazon的认为:虽然科技的发展让计算机系统变得越来越智能,但是在可以预见的将来,依然有很多数据处理任务,人的处理速度和质量都是计算机系统不能比拟的 - 这就是所谓的HIT(Human Intelligence Task)。Amazon MTurk就是要为这类问题提供一种快速、简单、廉价同时又可扩展的基于的互联网的解决方案(make accessing human intelligence simple, scalable, and cost-effective)。

常见的Human Intelligence Task:
- Identify Object in Photo/Video
- Audio/Video Transcription

这类任务还有一个特点:往往可以分成数量巨大的小任务;用专业点的术语表达:都是些data parallel的任务。

从技术实现上Amazon Mturk只不过是一个典型的web based distributed job system:Requester通过Amazon提供的接口发送任务描述,Worker从任务队列挑选自己感兴趣的条目,处理完后返回给系 统,Requester再从系统获取任务结果。

这和前几年的OGF搞的Basic Execution Service, JSDL那套没什么本质区别,只不过里面的Worker不再是被动接受调度的机器,而是拥有完全自主权的人类。值得一提的是,为了提高结果的质 量,Amazon MTurk允许HIT Requester指定一段测试任务,只有通过这个测试的Worker才有资格处理相应的任务。

从技术上看:
1. Amazon MTurk将人类智能包装成了易于与更大规模的信息系统集成的Web Service接口
2. 促进了机器和人类智能的融合,向着Licklider所描绘的Man-Computer Symbiosis又前进了一步。
3. 非常适和解决Data Parallel/Task Parallel的大规模智能问题

从商业、社会意义上看:
1. Amazon MTurk实质上是通过规避法律、人权、流程上的风险来降低完成一项大规模智能问题的成本。因为你将不再需要为这些大量临时需求的worker签订合同文书、关注其劳动环境和社会福利。
2. Requester完全掌握着评判结果和实施支付的主动权,使得Requester/Worker处于完全不平等的地位

和前面的Crowdsourcing相比:
1. Amazon Mturk的Requester通常需要更多的参与:负责任务的划分和结果的最后组装呈现
2. Worker要做的事情比较机械单一,通常不需要和其他Worker之间相互交流沟通
3. Crowdsourcing看中的是群体智慧,是广泛自主和1+1>2的效应,对参与者要求较高;而Mturk常常只是利用人类大脑的基本功能,对参与者要求往往并不高
4. Crowdsourcing适合处理一些比较复杂的任务;而Mturk则适合处理比较简单但是规模比较大的任务
5. Crowdsourcing中,经济利益往往并不是参与者主要的推动力,成就感、社区认可往往也能激励人们参与其中;而Mturk中,经济利益往往是唯一的诱惑因素

至于为什么Amazon Mturk推出这么多年却未能见到持续的发展,在我看来主要有几点原因:
1. 适合的Worker未能广泛存在
- Mturk中的Worker说穿了就是互联网上自由的廉价劳动力,但互联网技术在世界范围内还没普及到最廉价的劳动力能够自由方便访问的程度
- 互联网上最廉价的劳动力往往并不在英语区,但目前Requester提交的HIT,全是英语描述,内容往往也和英语能力相关
2. 结果验证的自动化依旧是个问题
- Requester需要检查结果是否符合期待,以付出报酬。但这个结果是人类智能处理的结果,计算机很难自动化地作出判断。如何大规模自动化地作出公正客观的判断,视乎又是另外一个HIT
3. Requester和Worker间缺乏良好的互动模式和监管措施
- Requester在HIT交易过程中掌握了太多的主动权,Worker处于不公平的位置,正当的权益得不到适当的保障,使得Worker的积极性受到影响
- Amozon完全可以将e-commerce中的互动监管模式引入到Mturk服务中,确保交易的公平公正

[Reference]
1. http://en.wikipedia.org/wiki/The_Turk
2. http://en.wikipedia.org/wiki/Crowdsourcing
3. Wired: The Rise of Crowdsourcing (中文版: 1, 2, 3, 4)

4. http://en.wikipedia.org/wiki/Amazon_Mechanical_Turk
5. Amazon MTurk Home
6. Amazon MTurk Web Service

5/03/2010

我写故我在(31)

1. 去年因一些缘故未能成行,还好今年四月底的QCon 2010没有错过

一些个人感受:
1). 从自己参与的各Talk来看,技术上的内容都是些老生常谈、乏善可陈
2). 各家的系统运营中遇到的各种实际问题和挑战更令人感兴趣
3). 某些外国公司的讲师很不上心,扫了自己本人也丢了所代表公司的颜面
4). 国内技术人员实践经验非常丰富,但理论积累还是有点薄弱
5). 国内技术圈的氛围和欧美公司比起来差别还是比较大。应该承认:机构一大,culture matters
6). 国内公司逐渐开源自己的核心项目,对项目对公司对行业都有好处
7). 大会组织还是有些松散,毕竟大部分人是付费参会,应该更较真些
8). 参会的回头客比例很少,值得会议主办方注意
9). 工业界和学术界的会议差不多,主要价值还是在圈内networking

有两 点遗憾:
1). 期间受杂事打扰,未能认识太多朋友。NND,计划总是赶不上变化
2). 国内某些龙头公司代表的缺席,削弱了会议的地位影响力

2. 最近周围的朋友们好消息不断:深造的深造,成家的成家,添丁的添丁。恭喜恭喜!

3. 17号在阿K家小聚庆祝,不经意间混了这些年,经过不断摸爬滚打,总算成功登顶8G之王。

4. 2010年的五一是在家宅完的,虽有些收获,但目标尚未达到,同志仍需努力。