Giter VIP home page Giter VIP logo

haoel-articles's Introduction

Ghost in the coolshell

The public articles / tweets / microblogs published by or related to @haoel

为什么要做这个项目

2023 年 5 月 13 日晚,@haoel (左耳朵耗子) 因突发心梗辞世

@haoel 是一名杰出的技术专家和导师,也是一位独立思考的品德高尚的人。他的文章、分享、推特、微博等让一批又一批的人获益,我们也是其中之一,对这位良师益友的离开倍感痛心。觉得同为技术人,应当为他做点什么来纪念。

在他离世之前的几个月,正是很可能未来会成为人类技术史上最重要的时刻之一,人工通用智能(AGI)的崛起已经初现端倪。 @haoel 在生前也对 AI 技术的发展感到欢欣鼓舞 ,甚至发起过一个关于数字生命的故事接龙 。有理由相信,拥有技术魂的耗子,是会希望看到自己的知识可以通过 AI 技术让更广泛的受众受益的。也许他认为当前的 AI 技术还不够成熟,会觉得这类所谓的“数字分身”是无意义的幼稚行为,但我们觉得,他会相信未来有一天这个技术会成熟到真正可用,产出真正的价值。

为了那天到来的时候,我们能够把我们敬重的 @haoel 通过 AI 技术复生,甚至,为了那天早日到来,我们现在就应该尝试和探索以推进技术发展,我们觉得有必要保留住耗子在这个互联网时代留下的印迹数据,以免随着时间而消逝不见。让所有有心使用技术来让他的遗产持续发挥价值的人,可以有一个出发点。

很令 @haoel 触动的动画片《寻梦环游记》里说:“也许我们无力阻挡时间的流逝,我们也必将与家人与爱人生死相隔。但死并非生的对立面,而是作为生的一部分永存,人类的记忆,便是对灵魂的延续。” 我们希望通过这个项目,让左耳朵耗子的灵魂能够以一种他也会认为很 cool 的方式,更久的延续。这也是为什么这个项目的名字叫做 Ghost in the coolshell 。

你这是在蹭热度吃人血馒头吗?

犹豫再三,还是加上了这一段。怎么说呢,清者自清。耗子在生前受到的种种质疑和毁谤也很多,但他选择无视,做自己认为正确的事。我们打算向他学习,不自辩。

关于我们的行动是否侵害了 @haoel 的权益,我们会在项目开发流程中主动考虑版权问题,积极响应权益人的要求进行配合。如果确实造成了侵权行为,我们会及时纠正并承担责任。当前项目的负责人是 @hongqn 。

收集哪些数据

公开可访问的、允许转载的如下内容,或有明确授权的非公开内容:

  • @haoel 所发表的内容,如文章、幻灯、音视频、推文等。
  • 对理解这些内容所必要的上下文,例如推文的引用、回复对象等

目前已经收集到的数据包括:

欢迎通过 pull requests 贡献数据,或者通过 issues 讨论获取数据的方法。

其它纪念项目

数据的版权如何处理

按照转载文章处理版权,如果内容源对于转载有明确要求的,仅在满足要求的情况下才进行收录。

对于无明确转载要求的内容,在明确记录来源的前提下进行收录。如果后续有版权所有人要求删除,会及时删除。

对版权所有人:请发起 issue 说明要求。

需要注意的是,允许转载并不意味着允许使用这些内容进行二次处理(如训练 AI 模型)。因此,使用这些数据进行创作的人,请自行判断是否侵权。本项目不承担连带责任。

未来的规划

短期目标是尽可能全面的收集汇聚 @haoel 的相关内容。

长期目标 T.B.D. 欢迎大家发起讨论。

项目的组织和沟通遵循的原则

与 @haoel 一样,我们是开源协作的信徒。本项目将基于 GitHub 开展远程协作,所有的沟通公开、透明、可追溯。需要的时候引入更多的好的协作工具,这类工具 @haoel 推荐过不少。

如果有必要,我们还会尽可能使用自动化工具来提高工作效率。希望耗子的英年早逝能够提醒大家注重健康,安排好作息和锻炼,不要熬夜。使用合适的工具来提高效率,而不是靠堆砌时间。

有兴趣的人如何参与

从发起 issue 或者提交 pull request 开始吧。可以是讨论如何抓取某一类内容,也可以是提交一篇好内容入库。

haoel-articles's People

Contributors

hongqn avatar kaiix avatar yzqzss avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

haoel-articles's Issues

微博文章似乎不全

老文章似乎不全。
比如有15年的一篇微博: “关于《微信和淘宝谁屏蔽谁》一文中的逻辑问题”没有收录进pdf文件。

Keep raw data only

For blogs, it is sufficient to keep only the raw data (blogs/rss/feed-*.xml, blogs/wp-content and the data transformation program, the derived data can be distributed as release assets (e.g. blogs-md.zip)

抢救博客文章里的图片

很多早期文章的图片都坏链了。

接下来需要:

  1. 下载所有还能正常访问的图片。 (#11 完成了站内图)
  2. 如果坏链的图片可以从 Wayback Machine 里找到。一样,下载。

    可以在图片 URL 前面加上 http://web.archive.org/web/1if_/ 来判断。(用 SPN2 API 查不一定准)

  3. 检查还能正常访问的图片是否都在 Wayback Machine 里有快照。如果没有,用 SPN2 API 提交快照。
  4. 将 Markdown 里的图片链接指向本地。( #11 完成了站内图)

不过,我得先睡觉了。
:)

Update README

写清楚如下几件事情:

  • 为什么要做这个项目
  • 收集哪些数据
  • 数据的版权如何处理
  • 未来的规划
  • 项目的组织和沟通遵循的原则
  • 有兴趣的人如何参与

记录 tweets 的引用

当前 haoel.csv 中只有 @haoel 发的推的内容,如果这个推是 reply 或者 quote retweet 的话,会缺失上下文。考虑能够将上下文推也保存下来,至少,保存上下文推的 URL 。

git clone error

git clone https://github.com/ghostincoolshell/haoel-articles
Cloning into 'haoel-articles'...
remote: Enumerating objects: 4882, done.
remote: Counting objects: 100% (761/761), done.
remote: Compressing objects: 100% (750/750), done.
remote: Total 4882 (delta 52), reused 36 (delta 11), pack-reused 4121
Receiving objects: 100% (4882/4882), 88.76 MiB | 6.16 MiB/s, done.
Resolving deltas: 100% (1075/1075), done.
error: invalid path 'blogs/rss2html/2004-6-23: C++ STL string的Copy-On-Write技术.html'
fatal: unable to checkout working tree

warning: Clone succeeded, but checkout failed.
You can inspect what was checked out with 'git status'
and retry with 'git restore --source=HEAD :/'

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.