Golang笔记
Golang相关配置
golang 配置goproxy可选的地址
IDEA/Goland使用WSL作为默认Terminal
GoLand 2022.1-X专业版激活
Win下用WSL作为Goland终端交叉编译
MacOS下在Goland的Terminal中使用‘ll’命令无效
GoLand 2024.1.X专业版激活
Golang LeeCode练习题
一 Golang数组问题
28. [简单] 寻找数组的中心下标
27. [简单] 数组的度
26. [简单] 最长连续递增序列
25. [简单] 非递减数列
24. [简单] 图片平滑器
23. [简单] 子数组最大平均数 I
22. [简单] 重塑矩阵
21. [简单] 数组拆分 I
20. [简单] 最大连续1的个数
19. [简单] 找到所有数组中消失的数字
18. [简单] 移动零
17. [简单] 丢失的数字
16. [简单] 汇总区间
15. [简单] 存在重复元素 II
14. [简单] 存在重复元素
13. [简单] 多数元素
12. [简单] 两数之和 II
11. [简单] 买卖股票的最佳时机 II
10. [简单] 买卖股票的最佳时机
09. [简单] 杨辉三角 II
08. [简单] 杨辉三角
07. [简单] 合并两个有序数组
06. [简单] 加一
05. [简单] 最大子序和
04. [简单] 搜索插入位置
03. [简单] 移除元素
02. [简单] 删除有序数组中的重复项
01. [简单] 两数之和
29. [简单] 至少是其他数字两倍的最大数
30. [简单] 托普利茨矩阵
31. [简单] 较大分组的位置
32. [简单] 转置矩阵
33. [简单] 公平的糖果棒交换
34. [简单] 单调数列
35. [简单] 按奇偶排序数组
36. [简单] 卡牌分组
37. [中等] 盛最多水的容器
38. [中等] 三数之和
39. [中等] 最接近的三数之和
40. [中等] 四数之和
41. [中等] 下一个排列
42. [中等] 搜索旋转排序数组
43. [中等] 在排序数组中查找元素的第一个和最后一个位置
44. [中等] 组合总和
45. [中等] 旋转图像
Golang完整学习记录
第一章 Go语言简介
20220519@基础环境
20220518@概述
第二章 Go语言基本语法
20220520@基础语法
20220521@正弦函数
20220523@数据类型转换
20220523@指针概念
20220524@堆栈和逃逸分析
20220526@(模拟)枚举
20220528@类型别名
20220528@注释的使用
20220528@关键字与标识符
20220528@运算符的优先级
20220528@数据类型的转换
第三章 Go语言容器
20220531@容器概念
20220531@数组详解
20220531@多维数组
20220605@切片详解
20220606@append的常见操作
20220606@切片元素修改
20220609@多维切片简述
20220609@map映射
20220612@并发(sync)Map
20220614@list(列表)
20220614@nil值/空值/零值
20220615@new和make
第四章 Go语言控制流程
20220615@if分支结构
20220615@for循环
20220615@range遍历
20220615@switch
20220616@goto标签
20220616@break和continue
20220616@聊天机器人
20220620@词频统计
20220622@缩进排序
20220622@二分查找算法
20220622@冒泡排序
20220623@分布式id生成器
第五章 Go语言函数
20220623@函数声明
20220623@函数参数传递效果
20220627@字符串的链式处理
20220630@匿名函数
20220704@函数类型接口
20220704@闭包(Closure)
20220706@可变参数
20220706@defer延迟语句
20220709@递归函数
20220713@处理运行错误
20220714@宕机(panic)
20220714@宕机恢复(recover)
20220715@计算函数耗时
20220718@内存缓存提升性能
20220718@哈希函数
20220720@Test功能测试
第六章 Go语言结构体
20220726@结构体定义
20220726@为结构体分配内存
20220730@实例化结构体
20220803@初始化结构体成员变量
20220810@构造函数
20220816@方法和接收器
20220816@为基本类型添加方法
20220816@使用事件系统实现事件响应和处理
20220817@类型内嵌和结构体内嵌
20220817@结构体内嵌模拟类的继承
20220817@初始化内嵌结构体
20220818@内嵌结构体成员名字冲突
20220823@使用匿名结构体解析JSON数据
20220827@垃圾回收和SetFinalizer
20220828@结构体数据保存为JSON格式
20220901@链表操作
20220908@数据I/O对象及操作
第七章 Go语言接口
20220911@接口定义
20220915@实现接口的条件
20220918@类型与接口的关系
20220918@接口的nil判断
20020918@类型断言简述
20220929@多输出实现日志系统
20221009@排序(by sort.Interface)
20221106@接口的嵌套组合
20221107@接口和类型之间的转换
20221109@空接口类型(interface{})
20221107@空接口实现任意值的字典保存
20221112@switch类型分支
20221201@Error接口返回错误信息
20221229@表达式求值器
20221229@实现Web服务器
20221229@部署Go程序到Linux
20221229@音乐播放器
20221230@有限状态机(FSM)
20221230@二叉树数据结构的应用
第八章 Go语言包概念
20230206@包的基本概念
20230212@封装简介及实现细节
20220212@GOPATH详解
20230212@常用内置包简介
20230212@自定义包
20230212@package(创建包)
20230212@import导入包
20230213@工厂模式自动注册
20230213@单例模式
20230214@sync包与锁
20230215@big包实现整数的高精度计算
20230215@使用图像包制作GIF动画
20230216@正则regexp包
20230218@time包:时间和日期
20230219@go mod包依赖管理工具
20230219@os包用法简述
20230219@flag包:命令行参数解析
20230219@生成二维码
20230219@Context(上下文)
20230220@示例:客户信息管理系统
20230221@发送电子邮件
20230222@Pingo插件化开发
20230221@定时器实现原理及作用
第九章 Go语言并发
20230224@并发简述(并发的优势)
20230224@goroutine(轻量级线程)
202300226@并发通信channe简介
20230226@竞争状态简述
20230227@GOMAXPROCS(并发运行性能)
20230227@并发和并行的区别
20230227@goroutine和coroutine的区别
20230227@通道(channel)—goroutine之间通信的管道
20230227@并发打印(借助通道实现)
20230227@单向通道——通道中的单行道
20230301@无缓冲的通道
20230301@带缓冲的通道
20230302@channel超时机制
20230302@通道的多路复用
20230302@RPC(模拟远程过程调用)
20230304@使用通道响应计时器的事件
20230306@关闭通道后继续使用通道
20230306@多核并行化
20230306@Telnet回音服务器-TCP服务器的基本结构
20230307@竞态检测——检测代码在并发环境下可能出现的问题
20230310@互斥锁(sync.Mutex)和读写互斥锁(sync.RWMutex)
20230310@等待组(sync.WaitGroup)
20230310@死锁、活锁和饥饿概述
20230311@封装qsort快速排序函数
20230311@CSP:并发通信顺序进程简述
20230312@聊天服务器
20230313@如何更加高效的使用并发
20230313@使用select切换协程
20230313@加密通信
第十章 Go语言反射
20230317@反射(reflection)简述
20230318@反射规则浅析
20230319@反射的性能和灵活性测试
20230322@通过反射获取类型信息(reflect.TypeOf()和reflect.Type)
20230325@通过反射获取指针指向的元素类型(reflect.Elem())
20230325@通过反射获取结构体的成员类型
20230325@结构体标签(Struct Tag)
20230325@通过反射获取值信息(reflect.ValueOf()和reflect.Value)
20230326@通过反射访问结构体成员的值
20230326@判断反射值的空和有效性(IsNil()和IsValid())
20230327@通过反射修改变量的值
20230327@通过类型信息创建实例
20230327@通过反射调用函数
20230327@依赖注入(inject库)
第十一章 文件处理
20230327@自定义数据文件
20230328@JSON文件的读写操作
20230402@XML文件的读写操作
20230402@使用Gob传输数据
20230404@纯文本文件的读写操作
20230405@二进制文件的读写操作
20230405@自定义二进制文件的读写操作
20230405@zip归档文件的读写操作
20230405@tar归档文件的读写操作
20230408@使用buffer读写文件
20230409@实现Unix中du命令统计文件
20230410@从INI文件中读取配置
20240411@文件的读写追加和复制
202304111@文件锁操作
第十二章 Go语言编译与工具
20230411@go build命令使用
20230413@clean命令-清除编译文件
20230413@run命令-编译并运行
20230413@fmt命令-格式化代码文件
20230413@install命令-编译并安装
20230414@go get命令-获取代码编译并安装
20230414@go generate命令-在编译前自动生成某类代码
20230415@go test命令-单元和性能测试
20230415@go pprof-性能分析命令
20230415@Go语言与C/C++进行交互
20230415@Go语言内存管理简述
20230415@Go语言垃圾回收
20230415@Go语言实现RSA和AES加解密
Golang简单实战
Golang根据书籍ISBN爬取豆瓣评分和评论数
Go编写使用指定的CPU百分比消耗CPU资源
Golang的日常应用
使用 FFmpeg 进行实时码率检测
WSL的远程开发应用
WSL2设置静态IP
在WSL2中启动SSH
使用CentOS7作为Goland终端的修改项
Golang学习路线
Go开发者成长路线图
本文档使用 MrDoc 发布
-
+
home page
20220620@词频统计
从数据挖掘到语言学习本身,文本分析功能的应用非常广泛,本一节我们来分析一个例子,它是文本分析最基本的一种形式:统计出一个文件里单词出现的频率。 示例中频率统计后的结果以两种不同的方式显示,一种是将单词按照字母顺序把单词和频率排列出来,另一种是按照有序列表的方式把频率和对应的单词显示出来,完整的示例代码如下所示: ```go // 词频检查 package main import ( "bufio" "fmt" "io" "log" "os" "path/filepath" "runtime" "sort" "strings" "unicode" "unicode/utf8" ) func commandLineFile(file []string) []string { // 如果系统是windows if runtime.GOOS == "windows" { //声明参数变量为切片 args := make([]string,0,len(file)) for _, name := range file { matches,err := filepath.Glob(name) if err != nil { args = append(args,name) } else if matches != nil { args = append(args,matches...) } } return args } return file } // SplitOnNonLetters 传入字符串s,进行字母判断并返回切片 func SplitOnNonLetters(s string) []string { // 声明一个匿名函数,传入rune类型字符串,判断是否是一个字母字符并返回布尔值 notLetter := func(char rune) bool { return !unicode.IsLetter(char)} // strings.FieldsFunc作用: 通过Unicode的代码点c进行分割字符串s // 并以切片形式返回 return strings.FieldsFunc(s,notLetter) } // 传入读取的文件和map func readAndUpdateFrequencies(reader *bufio.Reader,frequencyForWord map[string]int) { // 进行循环遍历操作 for { // 按行读取, 以换行符作为标志结束符 line,err :=reader.ReadString('\n') // 对函数SplitOnNonLetters返回的切片进行遍历 // 其中的strings.TrimSpace函数作用: // 去除原字符串之间的空格并返回新的字符串 for _,word := range SplitOnNonLetters(strings.TrimSpace(line)) { // 对word进行判断 // 超过utf8定义的最大值或rune类型的字符大于1的进行处理 if len(word) > utf8.UTFMax || utf8.RuneCountInString(word) > 1 { // strings.ToLower 将传入的word进行全部小写化并返回 // 将遍历的值追加到切片frequencyForWord frequencyForWord[strings.ToLower(word)] += 1 } } if err != nil { if err != io.EOF { log.Println("failed to finish reading the file:",err) } break } } } // 传入一个文件名和map数据 func updateFrequencies(filename string,frequencyForWord map[string]int) { // 声明一个os.file的指针类型 var file *os.File var err error // 使用os包的open接口打开文件 if file,err = os.Open(filename);err != nil { log.Println("failed to open the file:",err) return } // 在当前函数返回前执行文件关闭 defer func(file *os.File) { // 对文件关闭操作进行处理 err := file.Close() if err != nil { log.Println("failed to close the file:",err) } }(file) // 传入文件file并读取后进行更新操作 readAndUpdateFrequencies(bufio.NewReader(file),frequencyForWord) } func reportByWords(frequencyForWord map[string]int) { words := make([]string,0,len(frequencyForWord)) wordWidth,frequencyWith := 0,0 for word, frequency := range frequencyForWord { words = append(words,word) if width := utf8.RuneCountInString(word);width > wordWidth { wordWidth = width } if width := len(fmt.Sprint(frequency));width > frequencyWith { frequencyWith = width } } sort.Strings(words) gap := wordWidth + frequencyWith - len("word") - len("Frequency") fmt.Printf("Word %*s%s\n",gap," ","Frequency") for _,word := range words{ fmt.Printf("%-*s %*d\n",wordWidth,word,frequencyWith,frequencyForWord[word]) } fmt.Println() } func reportByFrequency(wordsForFrequency map[int][]string) { frequencies := make([]int,0,len(wordsForFrequency)) for frequency := range wordsForFrequency{ frequencies = append(frequencies,frequency) } sort.Ints(frequencies) width := len(fmt.Sprint(frequencies[len(frequencies)-1])) fmt.Println("Frequency -> Words") for _, frequency := range frequencies { words := wordsForFrequency[frequency] sort.Strings(words) fmt.Printf("%*d %s\n",width,frequency,strings.Join(words,", ")) } } func invertStringIntMap(intForString map[string]int) map[int][]string { stringsFotInt := make(map[int][]string,len(intForString)) for key,value := range intForString{ stringsFotInt[value] = append(stringsFotInt[value],key) } return stringsFotInt } func main() { // 如果程序运行只有第一个参数,或第一次参数是`-h`或`-help` if len(os.Args) == 1 || os.Args[1] == "-h" || os.Args[1] == "-help" { //打印操作说明 fmt.Printf("usage: %s <file> [<file1> [... <fileN>]]\n",filepath.Base(os.Args[0])) os.Exit(1) } // 创建一个map类型变量 FrequencyForWord := map[string]int{} //FrequencyForWord := make(map[string]int) //读取命令行传入的参数,将参数以切片的形式进行遍历 for _, filename := range commandLineFile(os.Args[1:]) { // 获取到遍历的文件名,将文件名和定义的空map传入函数 // 进行update操作 updateFrequencies(filename,FrequencyForWord) } reportByWords(FrequencyForWord) wordsForFrequency := invertStringIntMap(FrequencyForWord) reportByFrequency(wordsForFrequency) } ``` 接下来我们将从程序的 main() 函数开始,从上到下分析。 ```go func main() { if len(os.Args) == 1 || os.Args[1] == "-h" || os.Args[1] == "--help" { fmt.Printf("usage: %s <file1> [<file2> [... <fileN>]]\n", filepath.Base(os.Args[0])) os.Exit(1) } frequencyForWord := map[string]int{} // 与:make(map[string]int)相同 for _, filename := range commandLineFiles(os.Args[1:]) { updateFrequencies(filename, frequencyForWord) } reportByWords(frequencyForWord) wordsForFrequency := invertStringIntMap(frequencyForWord) reportByFrequency(wordsForFrequency) } ``` main() 函数首先分析命令行参数,之后再进行相应处理。 我们使用复合语法创建一个空的映射,用来保存从文件读到的每一个单词和对应的频率,接着我们遍历从命令行得到的每一个文件,分析每一个文件后更新 frequencyForWord 的数据。 得到第一个映射之后,我们就可以输出第一个报告了(按照字母顺序排列的列表),然后我们创建一个反转的映射,输出第二个报告(按出现频率统计并排序的列表)。 ```go func commandLineFiles(files []string) []string { if runtime.GOOS == "windows" { args := make([]string, 0, len(files)) for _, name := range files { if matches, err := filepath.Glob(name); err != nil { args = append(args, name) // 无效模式 } else if matches != nil { args = append(args, matches...) } } return args } return files } ```go 因为 Unix 类系统(如 Linux 或 Mac OS X 等)的命令行工具默认会自动处理通配符(也就是说,*.txt 能匹配任意后缀为 .txt 的文件,如 README.txt 和 INSTALL.txt 等),而 Windows 平台的命令行工具(CMD)不支持通配符,所以如果用户在命令行输入 *.txt,那么程序只能接收到 *.txt。 为了保持平台之间的一致性,这里使用 commandLineFiles() 函数来实现跨平台的处理,当程序运行在 Windows 平台时,实现文件名通配功能。 ```go func updateFrequencies(filename string, frequencyForWord map[string]int) { var file *os.File var err error if file, err = os.Open(filename); err != nil { log.Println("failed to open the file: ", err) return } defer file.Close() readAndUpdateFrequencies(bufio.NewReader(file), frequencyForWord) } ``` updateFrequencies() 函数纯粹就是用来处理文件的,它打开给定的文件,并使用 defer 在函数返回时关闭文件,这里我们将文件作为一个 *bufio.Reader(使用 bufio.NewReader() 函数创建)传给 readAndUpdateFrequencies() 函数,因为这个函数是以字符串的形式一行一行地读取数据的,所以实际的工作都是在 readAndUpdateFrequencies() 函数里完成的,代码如下。 ```go func readAndUpdateFrequencies(reader *bufio.Reader, frequencyForWord map[string]int) { for { line, err := reader.ReadString('\n') for _, word := range SplitOnNonLetters(strings.TrimSpace(line)) { if len(word) > utf8.UTFMax || utf8.RuneCountInString(word) > 1 { frequencyForWord[strings.ToLower(word)] += 1 } } if err != nil { if err != io.EOF { log.Println("failed to finish reading the file: ", err) } break } } } ``` 第一部分的代码我们应该很熟悉了,用了一个无限循环来一行一行地读一个文件,当读到文件结尾或者出现错误的时候就退出循环,将错误报告给用户但并不退出程序,因为还有很多其他的文件需要去处理。 任意一行都可能包括标点、数字、符号或者其他非单词字符,所以我们需要逐个单词地去读,将每一行分隔成若干个单词并使用 SplitOnNonLetters() 函数忽略掉非单词的字符,并且过滤掉字符串开头和结尾的空白。 只需要记录含有两个以上(包括两个)字母的单词,可以通过使用 if 语句,如 utf8.RuneCountlnString(word) > 1 来完成。 上面描述的 if 语句有一点性能损耗,因为它会分析整个单词,所以在这个程序里我们增加了一个判断条件,用来检査这个单词的字节数是否大于 utf8.UTFMax(utf8.UTFMax 是一个常量,值为 4,用来表示一个 UTF-8 字符最多需要几个字节)。 ```go func SplitOnNonLetters(s string) []string { notALetter := func(char rune) bool { return !unicode.IsLetter(char) } return strings.FieldsFunc(s, notALetter) } ``` SplitOnNonLetters() 函数用来在非单词字符上对一个字符串进行切分,首先我们为 strings.FieldsFunc() 函数创建一个匿名函数 notALetter,如果传入的是字符那就返回 false,否则返回 true,然后返回调用函数 strings.FieldsFunc() 的结果,调用的时候将给定的字符串和 notALetter 作为它的参数。 ```go func reportByWords(frequencyForWord map[string]int) { words := make([]string, 0, len(frequencyForWord)) wordWidth, frequencyWidth := 0, 0 for word, frequency := range frequencyForWord { words = append(words, word) if width := utf8.RuneCountInString(word); width > wordWidth { wordWidth = width } if width := len(fmt.Sprint(frequency)); width > frequencyWidth { frequencyWidth = width } } sort.Strings(words) gap := wordWidth + frequencyWidth - len("Word") - len("Frequency") fmt.Printf("Word %*s%s\n", gap, " ", "Frequency") for _, word := range words { fmt.Printf("%-*s %*d\n", wordWidth, word, frequencyWidth, frequencyForWord[word]) } } ``` 计算出了 frequencyForWord 之后,调用 reportByWords() 将它的数据打印出来,因为我们需要将输出结果按照字母顺序排序好,所以首先要创建一个空的容量足够大的 []string 切片来保存所有在 frequencyForWord 里的单词。 第一个循环遍历映射里的所有项,把每个单词追加到 words 字符串切片里去,使用 append() 函数只需要把给定的单词追加到第 len(words) 个索引位置上即可,words 的长度会自动增加 1。 得到了 words 切片之后,对它进行排序,这个在 readAndUpdateFrequencies() 函数中已经处理好了。 经过排序之后我们打印两列标题,第一个是 "Word",为了能让 Frequency 最后一个字符 y 右对齐,需要在 "Word" 后打印一些空格,通过%*s可以实现的打印固定长度的空白,也可以使用 %s来打印 strings.Repeat(" ", gap) 返回的字符串。 最后,我们将单词和它们的频率用两列方式按照字母顺序打印出来。 ```go func invertStringIntMap(intForString map[string]int) map[int][]string { stringsForInt := make(map[int][]string, len(intForString)) for key, value := range intForString { stringsForInt[value] = append(stringsForInt[value], key) } return stringsForInt } ``` 上面的函数首先创建一个空的映射,用来保存反转的结果,但是我们并不知道它到底要保存多少个项,因此我们假设它和原来的映射容量一样大,然后简单地遍历原来的映射,将它的值作为键保存到反转的映射里,并将键增加到对应的值里去,新的映射的值就是一个字符串切片,即使原来的映射有多个键对应同一个值,也不会丢掉任何数据。 ```go func reportByFrequency(wordsForFrequency map[int][]string) { frequencies := make([]int, 0, len(wordsForFrequency)) for frequency := range wordsForFrequency { frequencies = append(frequencies, frequency) } sort.Ints(frequencies) width := len(fmt.Sprint(frequencies[len(frequencies)-1])) fmt.Println("Frequency → Words") for _, frequency := range frequencies { words := wordsForFrequency[frequency] sort.Strings(words) fmt.Printf("%*d %s\n", width, frequency, strings.Join(words, ", ")) } } ``` 这个函数的结构和 reportByWords() 函数很相似,它首先创建一个切片用来保存频率,并按照频率升序排列,然后再计算需要容纳的最大长度并以此作为第一列的宽度,之后输出报告的标题,最后,遍历输出所有的频率并按照字母升序输出对应的单词,如果一个频率有超过两个对应的单词则单词之间使用逗号分隔开。
Nathan
June 21, 2022, 1:27 p.m.
转发文档
Collection documents
Last
Next
手机扫码
Copy link
手机扫一扫转发分享
Copy link
Markdown文件
PDF文件
Docx文件
share
link
type
password
Update password