互联网从业者充电站
25.8K subscribers
22.2K photos
979 videos
819 files
13.4K links
互联网从业者专属
内容多为技术、产品、设计、运营等不同话题内容;
目标人群为程序员、设计师、产品经理、运营管理等不同职能。
投稿/合作: @inside1024_bot


内容来源网络
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
GPT-4V-Act,https://github.com/ddupont808/GPT-4V-Act,这个项目演示了让 GPT-4V 来控制自己的浏览器,例如执行任务“随机播放一首音乐”,浏览器会自己进入搜索引擎,完成输入、搜索、点击、选择等操作,整个思考(Observe)过程都由 AI 来完成。

与之前分享的 self-operation-computer 实现上存在一些差异,之前项目会把任务目标、上一步结果和当前的截图扔给 GPT-4V,而这个项目会先对截图进行一次预处理,叫做 labeling,给网页上的元素标号——实现原理很简单,就是遍历元素,获取元素的网页布局位置,然后为其增加一个边框和标号。

有了 labeling 操作,GPT-4V 在理解网页的时候可以做到更加聚焦和准确,而且返回指令的时候,也可以明确告知浏览器去操作哪个元素。

- 实现 labeling 的操作,在这里:https://github.com/ddupont808/GPT-4V-Act/blob/main/preload-view.js#L154
- Prompt 有点 TS 风格,十分简洁:https://github.com/ddupont808/GPT-4V-Act/blob/main/main.js#L13
从今天起,在社交平台上看到的小姐姐舞蹈短视频很可能就是AI生成的。
字节跳动新开源基于SD 1.5的 MagicAnimate,它只需要一张照片和一组动作,就能生成近似真人的舞蹈视频。🤪

Github 地址: https://github.com/magic-research/magic-animate

优点: 目前所有跳舞视频方案中最高的一致性.
缺点:
1. 脸和手有点变形 (老问题)
2. 默认配置下, 动漫画变写实风, (注意看视频中的脸) 可能要改checkpoint
3. 默认的DensePose 驱动视频是基于真人的, 如果应用动漫风, 身长会发生改变
👍1
有料、不卷、速来!全议程公布|极客公园创新大会 2024

筹备了两个多月的年终大会,IF2024全议程公布了!
12月16日-17日,北京751传导空间。
今年,有李彦宏、张宏江、王小川、何小鹏等30+科创领军人,也有政治学者刘擎与创业者叶军的跨界对话,有谷歌、小红书、妙鸭等备受瞩目的公司,还有脑机接口、车机、AR等前沿探索分享——
两天时间,不仅会涵盖2023的创新趋势,也会有更前瞻的技术趋势判断、伦理应用思考、人本主义的讨论。
IF行进的第14年,继续汇聚创新的力量,推动非共识成为新共识。🙌
👍1
2023,作为生成式AI高速发展的一年,尤其在设计领域,年初便迎来了各种论调的激烈碰撞:
AI将取代设计师了”
AI能让设计效率提高百倍!”
AI创作缺乏灵魂,只是缝合怪…
随着2023年即将结束,许多设计师在过去几个月已深入实践了AI与设计工作的结合AI的设计能力是否真如外界热议的强大? 他们使用时又遇到了哪些问题?
为了探寻答案,美图与站酷团队一起对5034位设计需求者进行了深入调研,发布了《2023年度AI设计实践报告》这份报告汇集了来自不同背景、经验层次的受访者对AI的实际体验和观点。我们希望能为设计师、行业决策者以及对AI设计感兴趣的群体提供洞察和启发,便于更好的适应这个充满机遇与挑战的AI时代。

AI设计率先落地平面设计领域,并逐步拓展到效果融合、UI、人像等应用场景影响和改变着视觉艺术的生产方式。

AI设计工具的三大痛点

“控制不精准”“生成有瑕疵”“版权有争议”是AI设计需要越过的三座大山
1,精准控制远未达要求
2.生成作品有AI瑕疵
3.存在版权争议

AI设计商业落地案例

文章仅展示部分,更多内容免费下载后可查看更多

source
👍2🤔1
复旦大学张奇教授团队写了一本在线免费的电子书,《大规模语言模型:从理论到实践》,https://intro-llm.github.io,大概有 300 页篇幅,将大模型从理论到实战的每个阶段都描述的较为清楚。

全文在线阅读地址:https://intro-llm.github.io/chapter/LLM-TAP.pdf
飞书新版本其实说明了一个道理。
做产品,自嗨很可怕,但是自己骗自己更可怕。
明明就是想抄 Arc 浏览器,结果非得自己骗自己,说什么 IM 和浏览器结合信息流动更充分,齐俊元接受甲子光年的采访绕来绕去根本不是客户语言,看得我血压都高了。
现在好了,自己骗自己骗不下去了,在内网+外网被骂出屎开始悄咪咪调整一部分策略回去,让当时的信誓旦旦显得更加可笑了。
还不如下定决心就坚定的抄个高仿 Arc 的飞书浏览器出来,说不定更好。
做产品,骗老板可以,不要骗自己。
防御性编程?🤔
一个前端大佬的数字花园, 里面有非常多交互、css 实现等的 case study,建议收藏细细看 👀

👉 https://garden.bradwoods.io/
👍3
开源项目 chatgpt next web 作者在用户群里说了项目近期会被收购。
这个作者还是个大学生,靠着这个开源项目,一年不到,能够被我都觉得很不错的一笔钱收购,真的太牛了。
当同班同学还在发愁怎么找工作时,他已经入账很多钱的同时也解决了工作问题,真是太优秀了。
5
追求更大的用户规模but更低的毛利率
还是更高的毛利率but更小的用户规模?
调研37位程序员后,我不再因为AI而焦虑 feat.脑放电波 - 科技乱炖

🎙节目更新:科技乱炖「调研37位程序员后,我不再因为AI而焦虑 feat.脑放电波」

Nixon 的毕业论文研究了37位程序员使用 GPT 写代码的状态,我们邀请了懂编程且具备一定技术团队管理经验的科技乱炖朱峰、小白来讨论。

没想到的是,我们发现大家对于程序员的工作有所偏见;也发现了还不能使用AI 替代我们的真相;最重要的是,我们似乎发现了适合每一个人的“AI 时代职业观”。

如果你是程序员,欢迎在评论区留言,告诉我们你对于嘉宾观点及大语言模型工具的感受,如果你是非程序员听众,欢迎在评论区留言,告诉我们你对于“AI 是否能替代你工作”的想法与实践

本期节目为 #2023技术播客节 @2023技术播客节 特别节目,更多精彩技术节目欢迎关注🔗https://mp.weixin.qq.com/s/M4jGfI4pfr_ZfHQ-amAYWQ
👍3