This media is not supported in your browser
VIEW IN TELEGRAM
#程序员
gpt-crawler,https://github.com/BuilderIO/gpt-crawler,一款可以将网站内容全部爬取下来,并转换成可以作为 GPTs 学习的结构化知识的工具。
例如你想制作一个数字人分身,不妨把自己在社交媒体或者个人博客的内容先抓取下来,提交给 ChatGPT 作为储备知识。
顺便推荐下它背后使用的技术框架,crawlee,https://crawlee.dev,它是一个网络爬虫工具,也是一款浏览器自动化工具,在实现上,它提供了 DOM 解析能力、无头浏览器模式、异常状态码处理、队列和存储,以及大量的配置项来增强爬虫。它也是一款开源产品:https://github.com/apify/crawlee
gpt-crawler,https://github.com/BuilderIO/gpt-crawler,一款可以将网站内容全部爬取下来,并转换成可以作为 GPTs 学习的结构化知识的工具。
例如你想制作一个数字人分身,不妨把自己在社交媒体或者个人博客的内容先抓取下来,提交给 ChatGPT 作为储备知识。
顺便推荐下它背后使用的技术框架,crawlee,https://crawlee.dev,它是一个网络爬虫工具,也是一款浏览器自动化工具,在实现上,它提供了 DOM 解析能力、无头浏览器模式、异常状态码处理、队列和存储,以及大量的配置项来增强爬虫。它也是一款开源产品:https://github.com/apify/crawlee
👍4🐳1
上次我妈说我不给大炮买衣服,给我打了一万块钱让我去给儿子买衣服。
我花了100多给他买了两件短袖,其他的钱自己用光了。
我妈今天来我家,带了她自己给大炮买的羽绒服。
不再让我这样的中间商赚差价了。
做人真的要诚信,不然赚的全是一次性的买卖。😭
群响一再说了,在私域做高客单价一定要提供好的交付,我这就属于只满足了私域和高客单价两个条件。
注定失败。
我花了100多给他买了两件短袖,其他的钱自己用光了。
我妈今天来我家,带了她自己给大炮买的羽绒服。
不再让我这样的中间商赚差价了。
做人真的要诚信,不然赚的全是一次性的买卖。😭
群响一再说了,在私域做高客单价一定要提供好的交付,我这就属于只满足了私域和高客单价两个条件。
注定失败。
❤1
#职场社畜日常
总监职级现场竞聘,92年却已有资深司龄的女生在回答第2个问题时突然就哭了,哭得那么委屈和真诚,好几分钟止不住。
问题是:如果你获得总监这个岗位,你会怎么做?
她冷静下来回答说:
我是个自驱力很强的人,是否有这个title,是否加给我新的考核指标,于我都是一样执著认真地工作。
这么多年来,我总是最晚离开办公室,我在利用一切的时间来学习,总结每一次受批评的原因,思考每一个事情怎么办,琢磨方案中的每一句话怎么写。
我的团队人手少,任务很重,我很感激我这几年的辛苦让我有了快速的成长,我已经能够在专业上、沟通上做到让自己满意,但是在外部资源积累和项目判断经验上还有很多不足。不论是否能有新的职级,我都会一如既往的全力以赴,毫不懈怠,在工作中上进是我的一种生活方式。
我给了她最高分。
总监职级现场竞聘,92年却已有资深司龄的女生在回答第2个问题时突然就哭了,哭得那么委屈和真诚,好几分钟止不住。
问题是:如果你获得总监这个岗位,你会怎么做?
她冷静下来回答说:
我是个自驱力很强的人,是否有这个title,是否加给我新的考核指标,于我都是一样执著认真地工作。
这么多年来,我总是最晚离开办公室,我在利用一切的时间来学习,总结每一次受批评的原因,思考每一个事情怎么办,琢磨方案中的每一句话怎么写。
我的团队人手少,任务很重,我很感激我这几年的辛苦让我有了快速的成长,我已经能够在专业上、沟通上做到让自己满意,但是在外部资源积累和项目判断经验上还有很多不足。不论是否能有新的职级,我都会一如既往的全力以赴,毫不懈怠,在工作中上进是我的一种生活方式。
我给了她最高分。
👀2
This media is not supported in your browser
VIEW IN TELEGRAM
#程序员
如果你想对站点内容进行爬虫,还有一条最简洁的系统原生命令可以搞定:
wget --random-wait -r -p -e robots=off -U mozilla Website_URL
加上 -nv 或 --no-verbose 参数后,输出的内容会变得更加简洁;加上 --accept-regex 参数后,你可以根据正则来过滤你需要的 uri。
下面是爬取 babel 站点文档的一个演示:
如果你想对站点内容进行爬虫,还有一条最简洁的系统原生命令可以搞定:
wget --random-wait -r -p -e robots=off -U mozilla Website_URL
加上 -nv 或 --no-verbose 参数后,输出的内容会变得更加简洁;加上 --accept-regex 参数后,你可以根据正则来过滤你需要的 uri。
下面是爬取 babel 站点文档的一个演示:
OpenAI 闹剧还在继续。
Wired 最新报道,OpenAI 95%的员工,约738人,签署公开信,要求董事会成员全体辞职,召回 Altman 继续担任CEO 。并威胁如果不能达成,就全体跟随Altman去微软成立新公司。
耐人寻味的是 Ilya 也签名了。Ilya 发推说后悔参加董事会的行动。所以,谁主导了董事会的行动?
Altman 带人出走,OpenAI 还有灵魂人物 Ilya 尚可一战。Ilya 也走,那 OpenAI 就只剩一个壳。
硅谷一直信奉 hire slowly, fire quickly。现在应该能意识到,开除重要的人,必须缓慢且谨慎。
公司由人组成,而人是什么?公司不是章程和董事会的决议,公司是充满不确定性的水面之下涌动的混沌。
开除CEO 不是开董事会那么简单。需要长期摸民意,进行动员和激励,寻求内部外部支持,安排迅捷的重组计划和及时的公关,以及 plan B、C、D。这和发动一场全面战争一样。
能这么乱来,只能说明OpenAI 的架构有严重问题。
Wired 最新报道,OpenAI 95%的员工,约738人,签署公开信,要求董事会成员全体辞职,召回 Altman 继续担任CEO 。并威胁如果不能达成,就全体跟随Altman去微软成立新公司。
耐人寻味的是 Ilya 也签名了。Ilya 发推说后悔参加董事会的行动。所以,谁主导了董事会的行动?
Altman 带人出走,OpenAI 还有灵魂人物 Ilya 尚可一战。Ilya 也走,那 OpenAI 就只剩一个壳。
硅谷一直信奉 hire slowly, fire quickly。现在应该能意识到,开除重要的人,必须缓慢且谨慎。
公司由人组成,而人是什么?公司不是章程和董事会的决议,公司是充满不确定性的水面之下涌动的混沌。
开除CEO 不是开董事会那么简单。需要长期摸民意,进行动员和激励,寻求内部外部支持,安排迅捷的重组计划和及时的公关,以及 plan B、C、D。这和发动一场全面战争一样。
能这么乱来,只能说明OpenAI 的架构有严重问题。
#程序员
推荐 B 站上的一个合集《AI 论文精读系列》,https://www.bilibili.com/video/BV1H44y1t75x,主讲人是亚马逊资深首席科学家李沐,讲的比较清晰,目前内容还在持续更新中。
当前这个视频聊的是“如何读论文”,我总结下来是这么个「三遍阅读法」:
1)扫一眼:看标题、摘要、结论,确认研究方向是否与自己的研究方向匹配
2)圈重点:理出重要的图、表,圈出相关文献,读不懂,先去读引用的文献
3)问问题:论文提出了什么问题?用什么方法来解决这个问题?实验是怎么做的?
我的思路跟他还有一些差异,除了上面三个步骤,还会将我消化的内容整理好,然后输出给 ChatGPT,让 AI 结合论文来评价我理解的对不对。如果觉得有价值,还会分享到社交媒体,跟大家交流,确实也能收到不少优质的反馈。
推荐 B 站上的一个合集《AI 论文精读系列》,https://www.bilibili.com/video/BV1H44y1t75x,主讲人是亚马逊资深首席科学家李沐,讲的比较清晰,目前内容还在持续更新中。
当前这个视频聊的是“如何读论文”,我总结下来是这么个「三遍阅读法」:
1)扫一眼:看标题、摘要、结论,确认研究方向是否与自己的研究方向匹配
2)圈重点:理出重要的图、表,圈出相关文献,读不懂,先去读引用的文献
3)问问题:论文提出了什么问题?用什么方法来解决这个问题?实验是怎么做的?
我的思路跟他还有一些差异,除了上面三个步骤,还会将我消化的内容整理好,然后输出给 ChatGPT,让 AI 结合论文来评价我理解的对不对。如果觉得有价值,还会分享到社交媒体,跟大家交流,确实也能收到不少优质的反馈。
🐳4
#程序员
OpenAI 开源的 Whisper 大模型,https://github.com/openai/whisper,基本上解决了 ASR (Automatic Speech Recognition)的问题,包括语音识别、翻译、VAD 检测等,其效果与各大厂收费的产品相比,不相上下,也算是作为一个搅局者加入到了整个市场。
云厂商识别 1 小时的语音,标价大概在 1~3 元(参考国内云厂商计费),而 Whisper,最大的模型也就是 1.5B 参数(tiny 仅 39M,大小 ~1Gb),本地部署也就消耗下电费。
关于 Whisper 模型,《Robust Speech Recognition via Large-Scale Weak Supervision》,https://arxiv.org/pdf/2212.04356.pdf,这篇论文给出了详细的分析,从架构设计来看,它是一个标准的 Transformer encoder-decoder 架构,没有增加大的创新,之所以效果如此好,主打一个“大力出奇迹”。
它从互联网抓取了 68w 小时的数据进行训练,甚至都没有经历微调阶段和增强学习阶段,预训练模型默认好用。之前之所以没人这么干,是因为音视频数据一般都存在版权问题,要抓取 68w 小时如此庞大规模的数据量,很可能会涉及到了版权纠纷,另外,作者在论文也没有透露数据来源。当然,它公开了代码、训练过程和数据等情况,其有效性和价值是不可否认的。
这篇论文中提到,当前任务处理效果最好的是英语,基本上已经接近人类的水平(词错率 5.8%),但是在韩语、中文上,效果还是要差一些,仍有优化空间。更多详情可以听一听李沐在 B 站的《OpenAI Whisper 精读》,聊得比较有意思,https://www.bilibili.com/video/BV1VG4y1t74x
OpenAI 开源的 Whisper 大模型,https://github.com/openai/whisper,基本上解决了 ASR (Automatic Speech Recognition)的问题,包括语音识别、翻译、VAD 检测等,其效果与各大厂收费的产品相比,不相上下,也算是作为一个搅局者加入到了整个市场。
云厂商识别 1 小时的语音,标价大概在 1~3 元(参考国内云厂商计费),而 Whisper,最大的模型也就是 1.5B 参数(tiny 仅 39M,大小 ~1Gb),本地部署也就消耗下电费。
关于 Whisper 模型,《Robust Speech Recognition via Large-Scale Weak Supervision》,https://arxiv.org/pdf/2212.04356.pdf,这篇论文给出了详细的分析,从架构设计来看,它是一个标准的 Transformer encoder-decoder 架构,没有增加大的创新,之所以效果如此好,主打一个“大力出奇迹”。
它从互联网抓取了 68w 小时的数据进行训练,甚至都没有经历微调阶段和增强学习阶段,预训练模型默认好用。之前之所以没人这么干,是因为音视频数据一般都存在版权问题,要抓取 68w 小时如此庞大规模的数据量,很可能会涉及到了版权纠纷,另外,作者在论文也没有透露数据来源。当然,它公开了代码、训练过程和数据等情况,其有效性和价值是不可否认的。
这篇论文中提到,当前任务处理效果最好的是英语,基本上已经接近人类的水平(词错率 5.8%),但是在韩语、中文上,效果还是要差一些,仍有优化空间。更多详情可以听一听李沐在 B 站的《OpenAI Whisper 精读》,聊得比较有意思,https://www.bilibili.com/video/BV1VG4y1t74x