duangsuse::Echo

那么，完成这程序需要的一些信息： #Kotlin #tools #project — Regex 正则表达式匹配 group 新消息的 Regex /^(.+), \[(\d{2})\.(\d{2})\.(\d{2}) (\d{2}):(\d{2})\]$/ 对应数据：data class MessageHead(val channel: DisplayName, val date: Date) 新消息，reply to /^\[In reply to (.+)\]$/ 数据：data class R…

刚才写了一点实际非数据的代码，考虑了一下『InputStream 缓冲』的问题，以及啥是缓冲，没有难住我，太好了 🐱

30 viewsduangsuse ¯\_(ツ)_/¯ |学渣 | 我爱学习 | ∈ [E²PROM, 范畴论], 06:07

duangsuse::Echo

完美不良实践（

33 viewsduangsuse ¯\_(ツ)_/¯ |学渣 | 我爱学习 | ∈ [E²PROM, 范畴论], 09:21

duangsuse::Echo

🤔 想想 Scanner 是不是不够优雅...

34 viewsduangsuse ¯\_(ツ)_/¯ |学渣 | 我爱学习 | ∈ [E²PROM, 范畴论], 09:23

duangsuse::Echo

数据会类似这样

32 viewsduangsuse ¯\_(ツ)_/¯ |学渣 | 我爱学习 | ∈ [E²PROM, 范畴论], 09:24

duangsuse::Echo

🤔 想想 Scanner 是不是不够优雅...

我觉得就 Scanner 的逻辑结构上应该不够优雅，state 几乎是个笑话、lineDoUntil 非得加一个『keepLastLineOnce』才能用（doUntil 是在 scan body 里看到 new message header 的时候用的，可是等到这个 Message 返回，新 message 头会被下一次 iteration 直接忽视掉（因为我没设计好数据流，然后每次由判断 hasNext 的函数读新行的），导致漏掉偶数消息，不得不引入类似『mark/reset』的机制才可以），不过能用就好（跑路 🙈

32 viewsduangsuse ¯\_(ツ)_/¯ |学渣 | 我爱学习 | ∈ [E²PROM, 范畴论], edited 09:26

duangsuse::Echo

telegramscanner.zip

20.8 KB

❤️ 🤔

31 viewsduangsuse ¯\_(ツ)_/¯ |学渣 | 我爱学习 | ∈ [E²PROM, 范畴论], 10:55

duangsuse::Echo

telegramscanner.zip

最后写下 XML 序列化就彻底完成了！（因为这个最终是要用 Ruby 来查询数据的，虽然我有写 JavaFX GUI 的打算，可是我觉得还是晚一点好。

32 viewsduangsuse ¯\_(ツ)_/¯ |学渣 | 我爱学习 | ∈ [E²PROM, 范畴论], edited 10:58

duangsuse::Echo

🤔 这是写 HTML 的节奏？虽然是 XML... 跑，反正都是 SGML 呢？（

30 viewsduangsuse ¯\_(ツ)_/¯ |学渣 | 我爱学习 | ∈ [E²PROM, 范畴论], 12:52

duangsuse::Echo

telegramscanner.zip

23.6 KB

#tools #share #Telegram #GitHub #Java 🐱

35 viewsduangsuse ¯\_(ツ)_/¯ |学渣 | 我爱学习 | ∈ [E²PROM, 范畴论], 12:54

duangsuse::Echo

telegram-scanner.jar

34.2 KB

Maven jar plugin 生成的 Jar application，可选 -test, -dump, -dump-yaml, -dump-debug-yaml

28 viewsduangsuse ¯\_(ツ)_/¯ |学渣 | 我爱学习 | ∈ [E²PROM, 范畴论], edited 12:55

duangsuse::Echo

telegramscanner.zip

https://github.com/duangsuse/telegramscanner/releases/tag/1.1

GitHub

duangsuse/telegramscanner

Telegram Message stream scanner java library. Contribute to duangsuse/telegramscanner development by creating an account on GitHub.

29 viewsduangsuse ¯\_(ツ)_/¯ |学渣 | 我爱学习 | ∈ [E²PROM, 范畴论], 12:56

duangsuse::Echo

🤔 这是写 HTML 的节奏？虽然是 XML... 跑，反正都是 SGML 呢？（

完结撒花！ OwO #Telegram #project

29 viewsduangsuse ¯\_(ツ)_/¯ |学渣 | 我爱学习 | ∈ [E²PROM, 范畴论], 12:57

duangsuse::Echo

使用『Copy selected text』格式复制 Telegram Desktop Qt 的消息，这个软件可以以行为单位解析它，输出『消息对象』数组。下面会利用这个软件和 Ruby 来给大家分析最近本频道的广播。

28 viewsduangsuse ¯\_(ツ)_/¯ |学渣 | 我爱学习 | ∈ [E²PROM, 范畴论], 13:04

duangsuse::Echo

使用 cat ~/count.txt | java -jar telegram-scanner.jar -dump > test.xml 命令，它会输出 XML 结构，类似这样

27 viewsduangsuse ¯\_(ツ)_/¯ |学渣 | 我爱学习 | ∈ [E²PROM, 范畴论], edited 13:06

duangsuse::Echo

27 viewsduangsuse ¯\_(ツ)_/¯ |学渣 | 我爱学习 | ∈ [E²PROM, 范畴论], 13:09

duangsuse::Echo

Photo

在 Ruby 里，要把它解析成 List & Object 的形式，只需要利用 Nokogiri:

require 'nokogiri'

plain = File.read('test.xml')
doc = Nokogiri.parse(plain)

root = doc.children[0]

def collect_real_tags(xml)
  i = 1; ret = []
  while i < xml.size
    ret << xml[i]
    i += 2
  end
  return ret
end

real = collect_real_tags root.children

m = real.map { |n| n.children.find_all { |i| i.is_a? Nokogiri::XML::Element } }

m.map! { |a| a.find_all { |i| i.name == "dt" }.zip(a.find_all { |i| i.name == "dd" }).map { |n| [n.first.children[0].text, n.last.children.text] } }
m.map!(&:to_h)

r = m.dup

最后再 post-process 一下就可以了

r.map! { |h| h.merge({'debug' => %w[no off line message_line].zip(h['debug'].match(/\{message_no=(\d+),\s*offset=(\d+),\s*line=(\d+),\s*message_line=(\d+)\}/).captures.map(&:to_i)).to_h, 'hashtags' => h['hashtags'].tr("[]", "").split(','), 'links' => h['links'].tr("[] ", "").split(',') }) }

# time
r.map! { |h| h.merge({ 'published' => Time.at(0, h['published'].to_i, :millisecond) }) }

30 viewsduangsuse ¯\_(ツ)_/¯ |学渣 | 我爱学习 | ∈ [E²PROM, 范畴论], edited 13:40

duangsuse::Echo

29 viewsduangsuse ¯\_(ツ)_/¯ |学渣 | 我爱学习 | ∈ [E²PROM, 范畴论], 13:41

duangsuse::Echo

在 Ruby 里，要把它解析成 List & Object 的形式，只需要利用 Nokogiri: require 'nokogiri' plain = File.read('test.xml') doc = Nokogiri.parse(plain) root = doc.children[0] def collect_real_tags(xml) i = 1; ret = [] while i < xml.size ret << xml[i] i += 2 end …

This media is not supported in your browser

VIEW IN TELEGRAM

28 viewsduangsuse ¯\_(ツ)_/¯ |学渣 | 我爱学习 | ∈ [E²PROM, 范畴论], 14:04

duangsuse::Echo

#Ruby 滥用 Ruby

28 viewsduangsuse ¯\_(ツ)_/¯ |学渣 | 我爱学习 | ∈ [E²PROM, 范畴论], 14:04

duangsuse::Echo