Thông tin

Làm thế nào để tạo ra tín hiệu phần thưởng trong thuật toán học tập chênh lệch thời gian (TD)?

Làm thế nào để tạo ra tín hiệu phần thưởng trong thuật toán học tập chênh lệch thời gian (TD)?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Với tham chiếu đến thuật toán học TD do Sutton và Barto đề xuất, được đưa ra bởi các phương trình:

$$ V_i (t + 1) = V_i (t) + beta cỡ lớn ( lambda (t + 1) + gamma Big [ sum_ {j} V_j (t) X_j (t + 1) cỡ lớn] - powers [ sum_ {j} V_j (t) X_j (t) ELECT] cỡ lớn) alpha bar {X} _i (t + 1), bar {X} _i (t + 1) = bar {X} _i (t) + delta big (X_i (t) - bar {X} _i (t) big) $$ Tôi có những nghi ngờ sau:

  1. Nếu tôi muốn mô phỏng thuật toán trong một môi trường độc lập thì làm cách nào để tạo tín hiệu phần thưởng $ lambda (t + 1) $?
  2. $ Lambda (t + 1) $ có quan hệ như thế nào với kích thích điều hòa và kích thích không điều chỉnh?

Ví dụ, nếu tôi muốn mô phỏng việc tạo điều kiện cho một liên kết từ xa bằng một kích thích can thiệp trong mô hình TD như trong hình. dưới đây thì liệu có đủ nếu tôi coi "lambda" là một tín hiệu được đại diện bởi US không?

Tôi đã có thể thiết kế CSA và CSB phù hợp. Tuy nhiên, khi tôi sử dụng $ lambda $ như được chỉ định bởi US trong hình ảnh, tôi không nhận được kết quả được hiển thị trong các thử nghiệm. Điều gì có thể xảy ra sai sót trong việc xây dựng phần thưởng?

Các phương trình có thể được tìm thấy trong chương 12 của cuốn sách của Sutton & Barto, 1990. Chương này có tiêu đề "Các mô hình đạo hàm theo thời gian của sự gia cố Pavlovian".

Sutton, R. S., & Barto, A. G. (1990). Khoa học thần kinh học tập và tính toán: nền tảng của mạng thích ứng. A / 1 IT Press, Cambridge, MA, 497-437.


TD (λ) trong Delphi / Pascal (Học về sự khác biệt theo thời gian)

Tôi có một mạng nơ-ron nhân tạo chơi Tic-Tac-Toe - nhưng nó vẫn chưa hoàn chỉnh.

Những gì tôi chưa có:

  • mảng phần thưởng "R [t]" với các giá trị nguyên cho mỗi bước thời gian hoặc di chuyển "t" (1 = người chơi A thắng, 0 = hòa, -1 = người chơi B thắng)
  • Các giá trị đầu vào được truyền chính xác qua mạng.
  • công thức để điều chỉnh trọng lượng:

Những gì còn thiếu:

  • học TD: Tôi vẫn cần một thủ tục "sao chép" các lỗi của mạng bằng cách sử dụng thuật toán TD (λ).

Nhưng tôi không thực sự hiểu về thuật toán này.

Cách tiếp cận của tôi cho đến nay.

Tham số phân rã dấu vết λ phải là "0,1" vì các trạng thái xa sẽ không nhận được nhiều phần thưởng như vậy.

Tỷ lệ học tập là "0,5" ở cả hai lớp (đầu vào và ẩn).

Đó là trường hợp phần thưởng bị trì hoãn: Phần thưởng vẫn là "0" cho đến khi trò chơi kết thúc. Sau đó, phần thưởng trở thành "1" cho chiến thắng của người chơi đầu tiên, "-1" cho chiến thắng của người chơi thứ hai hoặc "0" trong trường hợp hòa.

Những câu hỏi của tôi:

  • Làm thế nào và khi nào bạn tính toán lỗi của net (TD error)?
  • Làm thế nào bạn có thể triển khai "backpropagation" của lỗi?
  • Các trọng số được điều chỉnh như thế nào bằng cách sử dụng TD (λ)?

Cảm ơn trước :)


Lựa chọn miền để học tập củng cố

Một cách để tưởng tượng một tác nhân học tập củng cố tự chủ sẽ giống như một người mù cố gắng điều hướng thế giới chỉ với đôi tai của họ và một cây gậy trắng. Đặc vụ có các cửa sổ nhỏ cho phép họ nhận biết môi trường của họ và những cửa sổ đó thậm chí có thể không phải là cách thích hợp nhất để họ nhận thức những gì xung quanh mình.

Quan tâm đến việc học tăng cường?

Tự động áp dụng RL cho các trường hợp sử dụng mô phỏng (ví dụ: trung tâm cuộc gọi, kho bãi, v.v.) bằng Pathmind.

(Thực tế, quyết định loại nào đầu vào và phản hồi mà đại lý của bạn nên chú ý là một vấn đề khó giải quyết. Đây được gọi là lựa chọn miền. Các thuật toán đang học cách chơi trò chơi điện tử hầu hết có thể bỏ qua vấn đề này, vì môi trường là do con người tạo ra và có giới hạn nghiêm ngặt. Vì vậy, trò chơi điện tử cung cấp môi trường vô trùng của phòng thí nghiệm, nơi các ý tưởng về học tăng cường có thể được thử nghiệm. Lựa chọn miền yêu cầu quyết định của con người, thường dựa trên kiến ​​thức hoặc lý thuyết về vấn đề cần giải quyết, ví dụ: việc chọn miền đầu vào cho một thuật toán trong ô tô tự lái có thể bao gồm việc chọn bao gồm cảm biến radar ngoài camera và dữ liệu GPS.)


Từ khóa

Sen Wang là Phó Giáo sư tại Trường Kỹ thuật Phần mềm, Đại học Trùng Khánh, Trùng Khánh, Trung Quốc. Ông đã nhận bằng B.S., M.S. và Ph.D. tốt nghiệp ngành khoa học máy tính tại Đại học Khoa học và Công nghệ Trung Quốc (USTC), Học viện Khoa học Trung Quốc (CAS) và Đại học Thanh Hoa, Trung Quốc, lần lượt vào các năm 2005, 2008 và 2014. Các mối quan tâm nghiên cứu của anh ấy bao gồm bộ nhớ đệm trong mạng, Mạng lấy thông tin làm trung tâm, Điện toán đám mây, Mạng do phần mềm xác định và Ảo hóa các chức năng mạng.

Jun Bi nhận bằng B.S., M.S. và Ph.D. Tốt nghiệp ngành Khoa học Máy tính tại Đại học Thanh Hoa, Bắc Kinh, Trung Quốc, từ năm 1990 đến năm 1999. Từ năm 2000 đến năm 2003, ông là nhà khoa học nghiên cứu của Phòng Khoa học Truyền thông Nghiên cứu Bell Labs và Trung tâm Công nghệ Truyền thông Tiên tiến Bell Labs, New Jersey, Hoa Kỳ. Hiện tại, ông là giáo sư chính thức và là giám đốc của Bộ phận Nghiên cứu Kiến trúc Mạng & amp IPv6, Viện Khoa học Mạng và Không gian mạng của Đại học Thanh Hoa, và là Tiến sĩ. Giám sát viên Khoa Khoa học Máy tính, Đại học Thanh Hoa. Ông là Thành viên Cấp cao của IEEE, ACM và Thành viên Xuất sắc của Liên đoàn Máy tính Trung Quốc. Ông từng là chủ tịch Nhóm chỉ đạo Diễn đàn Internet Tương lai Châu Á, chủ trì hội thảo INFOCOM NOM và hội thảo ICNP CoolSDN, và thành viên ủy ban chương trình kỹ thuật của NFOCOM, ICNP, CoNEXT, SOSR, v.v.

Jianping Wu là giáo sư Khoa học Máy tính và là giám đốc Trung tâm Nghiên cứu Mạng, Đại học Thanh Hoa, Bắc Kinh, Trung Quốc. Từ năm 1994, ông phụ trách Mạng Giáo dục và Tìm kiếm lại Trung Quốc (CERNET), mạng lưới học thuật lớn nhất trên thế giới với tư cách là giám đốc của cả Trung tâm Mạng và Ban Kỹ thuật. Ông đã từng là chủ tịch hoặc thành viên ủy ban chương trình cho nhiều hội nghị quốc tế, chẳng hạn như chủ tịch FORTE / PSTV'1999, và thành viên ủy ban chương trình của INFOCOM'2002, ICNP'2001 và 2006, FORTE / PSTV '1995-2003 và TESTCOM' 1995 –2006 v.v ... Lĩnh vực chuyên môn của ông bao gồm mạng máy tính tốc độ cao, Internet và các ứng dụng của nó, thử nghiệm giao thức mạng và phương pháp chính thức.


Dự đoán không có mô hình

Lập trình động cho phép chúng tôi xác định các chức năng giá trị trạng thái và giá trị hành động dựa trên động lực học (mô hình) của hệ thống. Nó thực hiện điều này bằng cách sử dụng toán học các phương trình Bellman và kết hợp với các động lực (phần thưởng và xác suất).

Nếu mô hình (phần thưởng và xác suất) của hệ thống không được biết trước, chúng ta có thể ước tính theo kinh nghiệm các hàm giá trị cho một chính sách nhất định. Chúng tôi thực hiện điều này bằng cách thực hiện các hành động theo chính sách đã cho, đồng thời ghi nhận các chuyển đổi trạng thái và phần thưởng. Bằng cách thực hiện đủ số lượng thử nghiệm, chúng tôi có thể hội tụ các hàm giá trị cho chính sách đã cho.

Monte-Carlo học

Điều này áp dụng cho các thử nghiệm được chạy dưới dạng các tập. Mỗi tập kết thúc và tập tiếp theo độc lập với tập hiện tại. Ví dụ: khi một trò chơi trên bàn cờ được chơi, mỗi trò chơi mới tạo thành một tập riêng biệt.

Với một chính sách, hành động được thực hiện ở mỗi tiểu bang theo chính sách đó. Đối với một trạng thái đến vào thời điểm đó, quay trở lại cho một lần chạy cụ thể cho đến khi kết thúc tập được tính:

Đây, là phần thưởng nhận được khi thực hiện hành động trong trạng thái tại thời điểm đó.

Lợi nhuận như vậy được thêm vào cho tất cả các tập trong đó trạng thái được truy cập để nhận được tổng lợi nhuận cho trạng thái:

Và, số lượng tập (hoặc theo một phương pháp thay thế, số lượt truy cập ??) mà trạng thái được truy cập được tính toán.

Giá trị của trạng thái được ước tính là lợi tức trung bình, vì theo luật số lớn là.

Lưu ý rằng lợi nhuận trung bình đang chạy có thể được tính toán trực tuyến (thời gian thực) khi các tập được chạy thay vì chỉ tính toán nó sau khi tất cả các tập được hoàn thành như sau:

Trong thực tế, trong kịch bản học trực tuyến, thay vì sử dụng để cân nhắc lợi nhuận từ tập hiện tại, hệ số không đổi với được sử dụng. Điều này dẫn đến công thức:

Lý luận là gì? Thay vì mức trung bình của tất cả các tập, doanh thu từ các tập gần đây có trọng lượng hơn lợi nhuận từ các tập cũ. Lợi nhuận từ các tập có trọng số giảm theo cấp số nhân theo thời gian.

Học tập theo thời gian-khác biệt (TD)

Ngược lại với phương pháp học Monte-Carlo, phương pháp học tập theo thời gian-khác biệt (TD) có thể học hàm giá trị cho các thí nghiệm không theo từng đợt.

Trong quá trình học Monte-Carlo, chúng tôi chạy qua một tập hoàn chỉnh, ghi lại & # 8220 thực & # 8221 thu được cho đến cuối tập và tích lũy các lợi nhuận thực này để ước tính giá trị của một trạng thái.

Trong học tập TD, chúng tôi thực hiện như sau:

  1. chúng tôi khởi tạo giá trị cho mỗi trạng thái.
  2. chúng tôi chạy thử nghiệm (theo chính sách nhất định) cho một số bước nhất định (không nhất thiết phải đến cuối tập hoặc thử nghiệm). Số bước chúng tôi chạy thử nghiệm được xác định là -bước TD (hoặc TD (), viết tắt) học.
  3. chúng tôi lưu ý phần thưởng thu được trong các bước này.
  4. Sau đó, chúng tôi sử dụng phương trình Bellman để ước tính lợi nhuận cho phần còn lại của thử nghiệm. Lợi tức ước tính này là. Tổng lợi nhuận ước tính này được gọi là mục tiêu TD.
  5. Chúng tôi cập nhật tương tự như học Monte-Carlo trực tuyến ngoại trừ ở đây, chúng tôi sử dụng lợi tức ước tính thay vì lợi tức & # 8220 thực & # 8221. Đó là, chúng tôi cập nhật bằng cách sử dụng:. Số lượng được gọi là sai số TD.

Làm thế nào để chúng ta xác định trong học tập TD ()? Chúng tôi không & # 8217t. Trong cái được gọi là học TD (), chúng tôi sử dụng trọng số hình học của lợi nhuận ước tính của tất cả các bước để có được:


Khái niệm khai thác và khám phá vốn gắn liền với bản chất con người, nơi mà chúng ta, là con người, chúng ta thích được biết đến hơn là chưa biết. Ví dụ: đi đến một nhà hàng, bạn có thể chọn đi đến nhà hàng yêu thích của mình vì bạn đã thích đồ ăn ở đó, nhưng trừ khi và cho đến khi bạn thử một nhà hàng khác, bạn sẽ không biết liệu có một nhà hàng tốt hơn hay không.

Do đó, khai thác là thực hiện hoặc thực hiện cùng một hành động mang lại giá trị tốt nhất từ ​​một trạng thái (nó thường được gọi là Hành động tham lam), trong khi thăm dò là thử các hoạt động mới có thể mang lại lợi nhuận tốt hơn về lâu dài mặc dù phần thưởng trước mắt có thể không được khuyến khích. Trong sơ đồ trên, nếu đại lý chỉ xét thưởng tức thời bằng cách đi theo con đường màu đỏ để đạt được phần thưởng tối đa, thì sau này sẽ tìm ra con đường màu xanh có giá trị cao hơn thậm chí thông qua phần thưởng tức thời thấp hơn. Đó là lý do tại sao cần phải thăm dò để tạo ra lợi nhuận dài hạn tốt hơn.


Phần kết luận

Thời gian và RL phần lớn đã được nghiên cứu riêng biệt, tạo ra các mô hình tính toán phần lớn không chồng chéo. Tuy nhiên, chúng tôi đã tranh luận ở đây rằng những mô hình này trên thực tế có chung một số điểm chung quan trọng và việc dung hòa chúng có thể cung cấp một lời giải thích thống nhất về nhiều hiện tượng hành vi và thần kinh. Trong khi trong bài đánh giá ngắn gọn này, chúng tôi chỉ phác thảo một sự tổng hợp như vậy, mục tiêu của chúng tôi là gieo mầm cho sự thống nhất lý thuyết trong tương lai.

Một câu hỏi mở liên quan đến việc làm thế nào để dung hòa các ý tưởng lý thuyết khác nhau về biểu diễn thời gian đã được mô tả trong bài báo này. Sự tổng hợp của chúng tôi đã đề xuất một vai trò trung tâm cho các yếu tố phân bố đại diện cho thời gian, chẳng hạn như các microtimuli của Ludvig et al. (2008). Thay vào đó, có thể sử dụng cách biểu diễn lấy từ mô hình bán Markov hoặc máy tạo nhịp-tích-lũy không? Điều này có thể có thể xảy ra, nhưng có một số lý do để thích biểu diễn kích thước nhỏ hơn. Đầu tiên, các microtimuli tự cho mình một cách tự nhiên với kiến ​​trúc xấp xỉ hàm tuyến tính đã được sử dụng rộng rãi trong các mô hình RL của hạch cơ bản. Ngược lại, mô hình bán Markov yêu cầu máy tính toán bổ sung và không rõ ràng là làm thế nào để kết hợp mô hình tích lũy máy tạo nhịp tim vào lý thuyết RL. Thứ hai, mô hình bán Markov giải thích mối quan hệ giữa độ chính xác theo thời gian và độ dài khoảng thời gian với chi phí sai lệch so với khung RL quy chuẩn. Thứ ba, như chúng tôi đã lưu ý trước đó, các mô hình tích lũy máy điều hòa nhịp tim có một số điểm yếu khác (xem Staddon và Higa, 1999, 2006 Matell và Meck, 2004 Simen và cộng sự, 2013), chẳng hạn như thiếu parsimony, các giả định sinh lý thần kinh không chính xác, và dự đoán hành vi không chính xác. Tuy nhiên, sẽ rất thú vị khi khám phá những khía cạnh nào của các mô hình này có thể được kết hợp thành công vào thế hệ mô hình RL tiếp theo.

Xung đột về tuyên bố lãi suất

Các tác giả tuyên bố rằng nghiên cứu được thực hiện trong trường hợp không có bất kỳ mối quan hệ thương mại hoặc tài chính nào có thể được hiểu là xung đột lợi ích tiềm ẩn.


Hướng dẫn học củng cố

Nếu bạn đang tìm kiếm một khóa học dành cho người mới bắt đầu hoặc cấp độ nâng cao về Học củng cố, hãy đảm bảo rằng ngoài phần giới thiệu cơ bản, nó bao gồm phân tích sâu về RL với trọng tâm là Q-Learning, Deep Q-Learning và các khái niệm nâng cao về Chính sách Gradients với Doom và Cartpole. Bạn nên chọn một hướng dẫn Học tăng cường dạy bạn tạo một khuôn khổ và các bước để hình thành một vấn đề Tăng cường và triển khai RL. Bạn cũng nên biết về những tiến bộ gần đây của RL. Tôi khuyên bạn nên ghé thăm các cộng đồng hoặc cộng đồng Reinforcement Learning, nơi các chuyên gia khoa học dữ liệu, chuyên gia và sinh viên chia sẻ vấn đề, thảo luận về giải pháp và câu trả lời cho các câu hỏi liên quan đến RL.

Học máy hay Học tăng cường là một phương pháp phân tích dữ liệu tự động hóa việc xây dựng mô hình phân tích. Đây là một nhánh của trí tuệ nhân tạo dựa trên ý tưởng rằng các hệ thống có thể học hỏi từ dữ liệu, xác định các mẫu và đưa ra quyết định với sự can thiệp tối thiểu của con người.

Hầu hết các ngành công nghiệp làm việc với lượng lớn dữ liệu đã nhận ra giá trị của công nghệ máy học. Bằng cách thu thập thông tin chi tiết từ dữ liệu này - thường là trong thời gian thực - các tổ chức có thể làm việc hiệu quả hơn hoặc giành được lợi thế so với các đối thủ cạnh tranh.

Các khóa học về Phân tích dữ liệu của Digital Vidya

Phân tích dữ liệu thể hiện bức tranh toàn cảnh hơn về Học máy. Cũng giống như Phân tích dữ liệu có nhiều danh mục khác nhau dựa trên Dữ liệu được sử dụng, Học máy cũng thể hiện cách một máy học mã hoặc hoạt động theo cách có giám sát, không giám sát, bán giám sát và tăng cường.

Để có thêm kiến ​​thức về Reinforcement và vai trò của nó trong Phân tích dữ liệu, bạn có thể chọn tham gia Chương trình chứng nhận trực tuyến hoặc tại lớp học. Nếu bạn là một lập trình viên mong muốn có được sự nghiệp trong lĩnh vực máy học hoặc khoa học dữ liệu, hãy tham gia khóa học Phân tích dữ liệu để có thêm các lựa chọn nghề nghiệp sinh lợi trong Lập trình logic quy nạp. Digital Vidya cung cấp các khóa học nâng cao về Phân tích dữ liệu. Các chương trình giảng dạy phù hợp với ngành, cách tiếp cận thực tế sẵn sàng cho thị trường, Dự án Capstone thực hành là một số lý do tốt nhất để chọn Digital Vidya.

Một nhà giao tiếp kỹ thuật tự bắt đầu, có khả năng làm việc trong môi trường doanh nhân sản xuất tất cả các loại nội dung kỹ thuật bao gồm hướng dẫn sử dụng hệ thống, ghi chú phát hành sản phẩm, hướng dẫn sử dụng sản phẩm, hướng dẫn, hướng dẫn cài đặt phần mềm, đề xuất kỹ thuật và sách trắng. Thêm vào đó, một blogger đam mê và Người đam mê tiếp thị truyền thông xã hội.

Ngày: Ngày 26 tháng 6 năm 2021 (Thứ bảy)
Thời gian: 10:30 AM - 11:30 AM (IST / GMT +5:30)


Học tập khác biệt theo thời gian

Phát hiện của một tín hiệu chỉ ra rằng những người tham gia đã đánh giá các trạng thái trung gian về phần thưởng trong tương lai. Kết quả này phù hợp với một loại mô hình TD trong đó tín dụng được chỉ định dựa trên phần thưởng trước mắt và trong tương lai. Để đánh giá xem các kết quả về hành vi và ERP có phản ánh quá trình RL như vậy hay không, chúng tôi đã kiểm tra các dự đoán của ba thuật toán RL: tác nhân / nhà phê bình (Barto, Sutton, & # x00026 Anderson 1983), Q-learning (Watkins & # x00026 Dayan, 1992) và SARSA (Rummery & # x00026 Niranjan, 1994). Ngoài ra, chúng tôi đã xem xét các biến thể của từng thuật toán có và không có dấu vết đủ điều kiện (Sutton & # x00026 Barto, 1998).

Mô hình

Diễn viên / nhà phê bình

Mô hình diễn viên / phê bình (AC) học một chức năng ưu tiên, P(s, a) và một hàm giá trị trạng thái, V(NS). Chức năng tùy chọn, tương ứng với tác nhân, cho phép lựa chọn hành động. Hàm giá trị trạng thái, tương ứng với người chỉ trích, cho phép đánh giá kết quả. Sau mỗi kết quả, nhà phê bình tính toán lỗi dự đoán,

Thông số chiết khấu tạm thời, & # x003b3, kiểm soát mức độ chiết khấu của phần thưởng trong tương lai và nhà phê bình coi phần thưởng trong tương lai là giá trị của trạng thái tiếp theo. Nhà phê bình sử dụng lỗi dự đoán để cập nhật hàm giá trị trạng thái,

Thông số tỷ lệ học tập, & # x003b1, kiểm soát mức độ quan trọng của các kết quả gần đây. Bằng cách sử dụng lỗi dự đoán để điều chỉnh các giá trị trạng thái, nhà phê bình học cách dự đoán tổng phần thưởng ngay lập tức, NSNS+1và giá trị chiết khấu của phần thưởng trong tương lai, & # x003b3 & # x000b7 V(NSNS+1).

Tác nhân cũng sử dụng lỗi dự đoán để cập nhật chức năng ưu tiên,

Bằng cách sử dụng lỗi dự đoán để điều chỉnh các tùy chọn hành động, diễn viên học cách chọn các hành vi có lợi. Xác suất chọn một hành động, & # x003c0(s, a), được xác định bởi quy tắc quyết định softmax,

Tham số nhiễu lựa chọn, & # x003c4, kiểm soát mức độ ngẫu nhiên trong các lựa chọn. Các quyết định trở nên ngẫu nhiên khi & # x003c4 tăng và các quyết định trở nên xác định khi & # x003c4 giảm dần.

Q-learning

AC và Q-learning khác nhau theo hai cách. Đầu tiên, Q-learning sử dụng một hàm giá trị hành động, NS(s, a), để lựa chọn các hành động và đánh giá kết quả. Thứ hai, Q-learning coi phần thưởng trong tương lai là giá trị của hành động tối ưu ở trạng thái NS+1,

Tác nhân sử dụng lỗi dự đoán để cập nhật các giá trị hành động (Phương trình 6) và tác nhân chọn các hành động theo quy tắc quyết định softmax.

SARSA

Giống như Q-learning, SARSA sử dụng hàm giá trị hành động, NS(s, a), để lựa chọn các hành động và đánh giá kết quả. Tuy nhiên, không giống như Q-learning, SARSA coi phần thưởng trong tương lai là giá trị của hành động thực tế được chọn ở trạng thái NS+1,

Tác nhân sử dụng lỗi dự đoán để cập nhật các giá trị hành động (Phương trình 6) và tác nhân chọn các hành động theo quy tắc quyết định softmax.

Dấu vết đủ điều kiện

Mặc dù các thuật toán RL cung cấp một giải pháp cho vấn đề chỉ định tín dụng tạm thời, các dấu vết về tính đủ điều kiện có thể cải thiện đáng kể hiệu quả của các thuật toán này (Sutton & # x00026 Barto, 1998). Dấu vết tính đủ điều kiện cung cấp một bản ghi tạm thời về các sự kiện như truy cập các tiểu bang hoặc lựa chọn các hành động và chúng đánh dấu các sự kiện là đủ điều kiện để cập nhật. Các nhà nghiên cứu đã áp dụng dấu vết đủ điều kiện cho các mô hình hành vi và thần kinh (Bogacz, McClure, Li, Cohen, & # x00026 Montague 2007 Gureckis & # x00026 Love, 2009 Pan, Schmidt, Wickens, & # x00026 Hyland 2005). Trong các mô phỏng này, chúng tôi đã tận dụng thực tế là các dấu vết về tính đủ điều kiện tạo điều kiện thuận lợi cho việc học khi trì hoãn các hành động và phần thưởng riêng biệt (Sutton & # x00026 Barto, 1998).

Trong AC, dấu vết trạng thái & # x02019s được tăng lên khi trạng thái được truy cập và dấu vết mờ dần theo tham số phân rã & # x003bb,

Lỗi dự đoán được tính theo cách thông thường (Phương trình 1), nhưng tín hiệu lỗi được sử dụng để cập nhật tất cả các trạng thái theo tính đủ điều kiện của chúng,

Các dấu vết riêng biệt được lưu trữ cho các cặp trạng thái & # x02013action để cập nhật chức năng ưu tiên, P(s, a). Tương tự, trong Q-learning và SARSA, dấu vết được lưu trữ cho các cặp trạng thái & # x02013action để cập nhật hàm action-value, NS(s, a).


Chú thích

Đóng góp của tác giả: P.W.G. đã viết giấy.

Các tác giả tuyên bố không có xung đột lợi ích.

Bài báo này là kết quả của Arthur M. Sackler Colloquium của Viện Hàn lâm Khoa học Quốc gia, “Định lượng Hành vi” được tổ chức từ ngày 11 đến ngày 13 tháng 6 năm 2010, tại Tòa nhà AAAS ở Washington, DC. Chương trình hoàn chỉnh và các tệp âm thanh của hầu hết các bài thuyết trình đều có sẵn trên trang web NAS tại www.nasonline.org/quantification.

Bài viết này là một đệ trình trực tiếp của PNAS.

↵ * Điều quan trọng là phải thừa nhận rằng có những quan điểm khác nhau về chức năng của các tế bào thần kinh này. Berridge (53) đã lập luận rằng các tế bào thần kinh dopamine đóng một vai trò liên quan chặt chẽ với một trong những mô tả ở đây được gọi là khả năng khuyến khích. Redgrave và Gurney (54 tuổi) đã lập luận rằng dopamine đóng một vai trò trung tâm trong các quá trình liên quan đến sự chú ý.


TD (λ) trong Delphi / Pascal (Học về sự khác biệt theo thời gian)

Tôi có một mạng nơ-ron nhân tạo chơi Tic-Tac-Toe - nhưng nó vẫn chưa hoàn chỉnh.

Những gì tôi chưa có:

  • mảng phần thưởng "R [t]" với các giá trị nguyên cho mỗi bước thời gian hoặc di chuyển "t" (1 = người chơi A thắng, 0 = hòa, -1 = người chơi B thắng)
  • Các giá trị đầu vào được truyền chính xác qua mạng.
  • công thức để điều chỉnh trọng lượng:

Những gì còn thiếu:

  • học TD: Tôi vẫn cần một thủ tục "sao chép" các lỗi của mạng bằng cách sử dụng thuật toán TD (λ).

Nhưng tôi không thực sự hiểu về thuật toán này.

Cách tiếp cận của tôi cho đến nay.

Tham số phân rã dấu vết λ phải là "0,1" vì các trạng thái xa sẽ không nhận được nhiều phần thưởng như vậy.

Tỷ lệ học tập là "0,5" ở cả hai lớp (đầu vào và ẩn).

Đó là trường hợp phần thưởng bị trì hoãn: Phần thưởng vẫn là "0" cho đến khi trò chơi kết thúc. Sau đó, phần thưởng trở thành "1" cho chiến thắng của người chơi đầu tiên, "-1" cho chiến thắng của người chơi thứ hai hoặc "0" trong trường hợp hòa.

Những câu hỏi của tôi:

  • Làm thế nào và khi nào bạn tính toán lỗi của net (TD error)?
  • Làm thế nào bạn có thể triển khai "backpropagation" của lỗi?
  • Các trọng số được điều chỉnh như thế nào bằng cách sử dụng TD (λ)?

Cảm ơn trước :)


Từ khóa

Sen Wang là Phó Giáo sư tại Trường Kỹ thuật Phần mềm, Đại học Trùng Khánh, Trùng Khánh, Trung Quốc. Ông đã nhận bằng B.S., M.S. và Ph.D. tốt nghiệp ngành khoa học máy tính tại Đại học Khoa học và Công nghệ Trung Quốc (USTC), Học viện Khoa học Trung Quốc (CAS) và Đại học Thanh Hoa, Trung Quốc, lần lượt vào các năm 2005, 2008 và 2014. Các mối quan tâm nghiên cứu của anh ấy bao gồm bộ nhớ đệm trong mạng, Mạng lấy thông tin làm trung tâm, Điện toán đám mây, Mạng do phần mềm xác định và Ảo hóa các chức năng mạng.

Jun Bi đã nhận bằng B.S., M.S. và Ph.D. Tốt nghiệp ngành Khoa học Máy tính tại Đại học Thanh Hoa, Bắc Kinh, Trung Quốc, từ năm 1990 đến năm 1999. Từ năm 2000 đến năm 2003, ông là nhà khoa học nghiên cứu của Phòng Khoa học Truyền thông Nghiên cứu Bell Labs và Trung tâm Công nghệ Truyền thông Tiên tiến Bell Labs, New Jersey, Hoa Kỳ. Hiện tại, ông là giáo sư chính thức và là giám đốc của Bộ phận Nghiên cứu Kiến trúc Mạng & amp IPv6, Viện Khoa học Mạng và Không gian mạng của Đại học Thanh Hoa, và là Tiến sĩ. Giám sát viên Khoa Khoa học Máy tính, Đại học Thanh Hoa. Ông là Thành viên Cấp cao của IEEE, ACM và Thành viên Xuất sắc của Liên đoàn Máy tính Trung Quốc. Ông từng là chủ tịch Nhóm chỉ đạo Diễn đàn Internet Tương lai Châu Á, chủ trì hội thảo INFOCOM NOM và hội thảo ICNP CoolSDN, và thành viên ủy ban chương trình kỹ thuật của NFOCOM, ICNP, CoNEXT, SOSR, v.v.

Jianping Wu là giáo sư Khoa học Máy tính và là giám đốc Trung tâm Nghiên cứu Mạng, Đại học Thanh Hoa, Bắc Kinh, Trung Quốc. Từ năm 1994, ông phụ trách Mạng Giáo dục và Tìm kiếm lại Trung Quốc (CERNET), mạng lưới học thuật lớn nhất trên thế giới với tư cách là giám đốc của cả Trung tâm Mạng và Ban Kỹ thuật. Ông đã từng là chủ tịch hoặc thành viên ủy ban chương trình cho nhiều hội nghị quốc tế, chẳng hạn như chủ tịch FORTE / PSTV'1999, và thành viên ủy ban chương trình của INFOCOM'2002, ICNP'2001 và 2006, FORTE / PSTV '1995-2003 và TESTCOM' 1995 –2006 v.v ... Lĩnh vực chuyên môn của ông bao gồm mạng máy tính tốc độ cao, Internet và các ứng dụng của nó, thử nghiệm giao thức mạng và phương pháp chính thức.


Phần kết luận

Thời gian và RL phần lớn đã được nghiên cứu riêng biệt, tạo ra các mô hình tính toán phần lớn không chồng chéo. Tuy nhiên, chúng tôi đã tranh luận ở đây rằng những mô hình này trên thực tế có chung một số điểm chung quan trọng và việc dung hòa chúng có thể cung cấp một lời giải thích thống nhất về nhiều hiện tượng hành vi và thần kinh. Trong khi trong bài đánh giá ngắn gọn này, chúng tôi chỉ phác thảo một bản tổng hợp như vậy, mục tiêu của chúng tôi là gieo mầm cho sự thống nhất lý thuyết trong tương lai.

Một câu hỏi mở liên quan đến việc làm thế nào để dung hòa các ý tưởng lý thuyết khác nhau về biểu diễn thời gian đã được mô tả trong bài báo này. Sự tổng hợp của chúng tôi đã đề xuất một vai trò trung tâm cho các yếu tố phân bố đại diện cho thời gian, chẳng hạn như các microtimuli của Ludvig et al. (2008). Thay vào đó, có thể sử dụng biểu diễn lấy từ mô hình bán Markov hoặc máy tạo nhịp tim không? Điều này có thể có thể xảy ra, nhưng có một số lý do để thích biểu diễn vi kích thích hơn. Đầu tiên, các microstimuli tự cho mình một cách tự nhiên với kiến ​​trúc xấp xỉ hàm tuyến tính đã được sử dụng rộng rãi trong các mô hình RL của hạch cơ bản. Ngược lại, mô hình bán Markov yêu cầu máy tính toán bổ sung và không rõ ràng là làm thế nào để kết hợp mô hình tích lũy máy tạo nhịp tim vào lý thuyết RL. Thứ hai, mô hình bán Markov giải thích mối quan hệ giữa độ chính xác theo thời gian và độ dài khoảng thời gian với chi phí sai lệch so với khuôn khổ RL quy chuẩn. Thứ ba, như chúng tôi đã lưu ý trước đó, các mô hình tích lũy máy điều hòa nhịp tim có một số điểm yếu khác (xem Staddon và Higa, 1999, 2006 Matell và Meck, 2004 Simen và cộng sự, 2013), chẳng hạn như thiếu parsimony, các giả định sinh lý thần kinh không chính xác, và dự đoán hành vi không chính xác. Tuy nhiên, sẽ rất thú vị khi khám phá những khía cạnh nào của các mô hình này có thể được kết hợp thành công vào thế hệ mô hình RL tiếp theo.

Xung đột về tuyên bố lãi suất

Các tác giả tuyên bố rằng nghiên cứu được thực hiện trong trường hợp không có bất kỳ mối quan hệ thương mại hoặc tài chính nào có thể được hiểu là xung đột lợi ích tiềm ẩn.


Khái niệm khai thác và khám phá vốn gắn liền với bản chất con người, nơi mà chúng ta, với tư cách là con người, chúng ta thích được biết đến hơn là chưa biết. Ví dụ: đi đến một nhà hàng, bạn có thể chọn đi đến nhà hàng yêu thích của mình vì bạn đã thích đồ ăn ở đó, nhưng trừ khi và cho đến khi bạn thử một nhà hàng khác, bạn sẽ không biết liệu có một nhà hàng tốt hơn hay không.

Do đó, khai thác là thực hiện hoặc thực hiện cùng một hành động, mang lại giá trị tốt nhất từ ​​một trạng thái (nó thường được gọi là Hành động tham lam), trong khi thăm dò là để thử các hoạt động mới có thể mang lại lợi nhuận tốt hơn về lâu dài mặc dù phần thưởng trước mắt có thể không được khuyến khích. Trong sơ đồ trên, nếu đại lý chỉ xét thưởng tức thời bằng cách đi theo con đường màu đỏ để đạt được phần thưởng tối đa, thì sau này sẽ tìm ra con đường màu xanh có giá trị cao hơn thậm chí thông qua phần thưởng tức thời thấp hơn. Đó là lý do tại sao cần phải thăm dò để tạo ra lợi nhuận dài hạn tốt hơn.


Lựa chọn miền để học tập củng cố

Một cách để tưởng tượng một tác nhân học tập củng cố tự chủ sẽ giống như một người mù cố gắng điều hướng thế giới chỉ với đôi tai của họ và một cây gậy trắng. Đặc vụ có các cửa sổ nhỏ cho phép họ nhận biết môi trường của họ và những cửa sổ đó thậm chí có thể không phải là cách thích hợp nhất để họ nhận thức những gì xung quanh mình.

Quan tâm đến việc học tăng cường?

Tự động áp dụng RL cho các trường hợp sử dụng mô phỏng (ví dụ: trung tâm cuộc gọi, kho bãi, v.v.) bằng Pathmind.

(Thực tế, quyết định loại nào đầu vào và phản hồi mà đại lý của bạn nên chú ý là một vấn đề khó giải quyết. Đây được gọi là lựa chọn miền. Các thuật toán đang học cách chơi trò chơi điện tử hầu hết có thể bỏ qua vấn đề này, vì môi trường là do con người tạo ra và có giới hạn nghiêm ngặt. Vì vậy, trò chơi điện tử cung cấp môi trường vô trùng của phòng thí nghiệm, nơi các ý tưởng về học tăng cường có thể được thử nghiệm. Lựa chọn miền yêu cầu quyết định của con người, thường dựa trên kiến ​​thức hoặc lý thuyết về vấn đề cần giải quyết, ví dụ: việc chọn miền đầu vào cho một thuật toán trong ô tô tự lái có thể bao gồm việc chọn bao gồm cảm biến radar ngoài camera và dữ liệu GPS.)


Học tập khác biệt theo thời gian

Phát hiện của một tín hiệu chỉ ra rằng những người tham gia đã đánh giá các trạng thái trung gian về phần thưởng trong tương lai. Kết quả này phù hợp với một loại mô hình TD trong đó tín dụng được chỉ định dựa trên phần thưởng trước mắt và tương lai. Để đánh giá xem các kết quả về hành vi và ERP có phản ánh quá trình RL như vậy hay không, chúng tôi đã kiểm tra các dự đoán của ba thuật toán RL: tác nhân / nhà phê bình (Barto, Sutton, & # x00026 Anderson 1983), Q-learning (Watkins & # x00026 Dayan, 1992) và SARSA (Rummery & # x00026 Niranjan, 1994). Ngoài ra, chúng tôi đã xem xét các biến thể của từng thuật toán có và không có dấu vết đủ điều kiện (Sutton & # x00026 Barto, 1998).

Mô hình

Diễn viên / nhà phê bình

Mô hình diễn viên / phê bình (AC) học một chức năng ưu tiên, P(s, a) và một hàm giá trị trạng thái, V(NS). Chức năng tùy chọn, tương ứng với tác nhân, cho phép lựa chọn hành động. Hàm giá trị trạng thái, tương ứng với người chỉ trích, cho phép đánh giá kết quả. Sau mỗi kết quả, nhà phê bình tính toán lỗi dự đoán,

Thông số chiết khấu tạm thời, & # x003b3, kiểm soát mức độ chiết khấu của phần thưởng trong tương lai và nhà phê bình coi phần thưởng trong tương lai là giá trị của trạng thái tiếp theo. Nhà phê bình sử dụng lỗi dự đoán để cập nhật hàm giá trị trạng thái,

Thông số tỷ lệ học tập, & # x003b1, kiểm soát mức độ quan trọng của các kết quả gần đây. Bằng cách sử dụng lỗi dự đoán để điều chỉnh các giá trị trạng thái, nhà phê bình học cách dự đoán tổng phần thưởng ngay lập tức, NSNS+1và giá trị chiết khấu của phần thưởng trong tương lai, & # x003b3 & # x000b7 V(NSNS+1).

Tác nhân cũng sử dụng lỗi dự đoán để cập nhật chức năng ưu tiên,

Bằng cách sử dụng lỗi dự đoán để điều chỉnh các tùy chọn hành động, diễn viên học cách chọn các hành vi có lợi. Xác suất chọn một hành động, & # x003c0(s, a), được xác định bởi quy tắc quyết định softmax,

Tham số nhiễu lựa chọn, & # x003c4, kiểm soát mức độ ngẫu nhiên trong các lựa chọn. Các quyết định trở nên ngẫu nhiên khi & # x003c4 tăng và các quyết định trở nên xác định khi & # x003c4 giảm dần.

Q-learning

AC và Q-learning khác nhau theo hai cách. Đầu tiên, Q-learning sử dụng một hàm giá trị hành động, NS(s, a), để lựa chọn các hành động và đánh giá kết quả. Thứ hai, Q-learning coi phần thưởng trong tương lai là giá trị của hành động tối ưu ở trạng thái NS+1,

Tác nhân sử dụng lỗi dự đoán để cập nhật các giá trị hành động (Phương trình 6) và tác nhân chọn các hành động theo quy tắc quyết định softmax.

SARSA

Giống như Q-learning, SARSA sử dụng hàm giá trị hành động, NS(s, a), để lựa chọn các hành động và đánh giá kết quả. Tuy nhiên, không giống như Q-learning, SARSA coi phần thưởng trong tương lai là giá trị của hành động thực tế được chọn ở trạng thái NS+1,

Tác nhân sử dụng lỗi dự đoán để cập nhật các giá trị hành động (Phương trình 6) và tác nhân chọn các hành động theo quy tắc quyết định softmax.

Dấu vết đủ điều kiện

Mặc dù các thuật toán RL cung cấp một giải pháp cho vấn đề chỉ định tín dụng tạm thời, các dấu vết về tính đủ điều kiện có thể cải thiện đáng kể hiệu quả của các thuật toán này (Sutton & # x00026 Barto, 1998). Dấu vết tính đủ điều kiện cung cấp một bản ghi tạm thời về các sự kiện như truy cập các tiểu bang hoặc lựa chọn hành động và chúng đánh dấu các sự kiện là đủ điều kiện để cập nhật. Các nhà nghiên cứu đã áp dụng dấu vết đủ điều kiện cho các mô hình hành vi và thần kinh (Bogacz, McClure, Li, Cohen, & # x00026 Montague 2007 Gureckis & # x00026 Love, 2009 Pan, Schmidt, Wickens, & # x00026 Hyland 2005). Trong các mô phỏng này, chúng tôi đã tận dụng thực tế là các dấu vết về tính đủ điều kiện tạo điều kiện thuận lợi cho việc học khi trì hoãn các hành động và phần thưởng riêng biệt (Sutton & # x00026 Barto, 1998).

Trong AC, dấu vết trạng thái & # x02019s được tăng lên khi trạng thái được truy cập và dấu vết mờ dần theo tham số phân rã & # x003bb,

Lỗi dự đoán được tính theo cách thông thường (Phương trình 1), nhưng tín hiệu lỗi được sử dụng để cập nhật tất cả các trạng thái theo tính đủ điều kiện của chúng,

Các dấu vết riêng biệt được lưu trữ cho các cặp trạng thái & # x02013action để cập nhật chức năng ưu tiên, P(s, a). Tương tự, trong Q-learning và SARSA, dấu vết được lưu trữ cho các cặp trạng thái & # x02013action để cập nhật hàm action-value, NS(s, a).


Chú thích

Đóng góp của tác giả: P.W.G. đã viết giấy.

Các tác giả tuyên bố không có xung đột lợi ích.

Bài báo này là kết quả của Arthur M. Sackler Colloquium của Viện Hàn lâm Khoa học Quốc gia, “Định lượng Hành vi” được tổ chức từ ngày 11 đến ngày 13 tháng 6 năm 2010, tại Tòa nhà AAAS ở Washington, DC. Chương trình hoàn chỉnh và các tệp âm thanh của hầu hết các bài thuyết trình đều có sẵn trên trang web NAS tại www.nasonline.org/quantification.

Bài viết này là một đệ trình trực tiếp của PNAS.

↵*It is important to acknowledge that there are alternative views of the function of these neurons. Berridge (53) has argued that dopamine neurons play a role closely related to the one described here that is referred to as incentive salience. Redgrave and Gurney (54) have argued that dopamine plays a central role in processes related to attention.


Model-free prediction

Dynamic programming enables us to determine the state-value and action-value functions given the dynamics (model) of the system. It does this by mathematically using the Bellman equations and plugging in the dynamics (rewards and probabilities).

If the model (rewards and probabilities) of the system is not known a priori, we can empirically estimate the value functions for a given policy. We do this by taking actions according to the given policy, and taking note of the state transitions and rewards. By making enough number of trials, we are able to converge to the value functions for the given policy.

Monte-Carlo learning

This applies to experiments which are run as episodes. Each episode terminates and next episode is independent of the current episode. As an example, when a board game is played, each new game constitutes a separate episode.

Given a policy, action is taken in each state according to the policy. For a state that is arrived at time , return for a particular run through the termination of the episode is calculated:

Here, is the reward obtained by taking action in the state at time .

Such returns are added for all the episodes during which the state is visited to obtain total return for the state:

And, number of episodes (or in an alternate method, number of visits??) that the state is visited is calculated.

Value of the state is estimated as mean return , since by law of large numbers as .

Note that running average return can calculated online (real-time) as the episodes are run instead of calculating it only after all episodes are completed as follows:

In practice in online learning scenario, rather than using for weighing the return from current episode, a constant factor with is used. This leads to the formulation:

What is the reasoning? Rather than the average over all episodes, returns from recent episodes is given more weight than returns from old episodes. Returns from episodes are given weights that exponentially decrease with time.

Temporal-Difference (TD) learning

In contrast to Monte-Carlo learning, Temporal-Difference (TD) learning can learn the value function for non-episodic experiments.

In Monte-Carlo learning, we run through a complete episode, note the “real” return obtained through the end of the episode and accumulate these real returns to estimate the value of a state.

In TD learning, we do as follows:

  1. we initialize the value for each state.
  2. we run the experiment (according to the given policy) for a certain number of steps (not necessarily to the end of the episode or experiment). The number of steps we run the experiment is identified as -step TD (or TD(), for short) learning.
  3. we note the reward obtained in these steps.
  4. We then use the Bellman equation to estimate the return for the remaining of the experiment. This estimated return is . This estimated total return is called TD target.
  5. We update similar to online Monte-Carlo learning except that here, we use estimated return rather than the “real” return. That is, we update using: . The quantity is called TD error.

How do we determine in TD() learning? We don’t. In what is called TD() learning, we use geometric weighting of estimated returns of all steps to obtain:


Reinforcement Learning Tutorial

If you are looking for a beginner’s or advanced level course in Reinforcement Learning, make sure that apart from a basic introduction, it includes a deep delving analysis of RL with an emphasis upon Q-Learning, Deep Q-Learning, and advanced concepts into Policy Gradients with Doom and Cartpole. You should choose a Reinforcement Learning tutorial that teaches you to create a framework and steps for formulating a Reinforcement problem and implementation of RL. You should also know about recent RL advancements. I suggest you visit Reinforcement Learning communities or communities, where the data science experts, professionals, and students share problems, discuss solutions, and answers to RL-related questions.

Machine learning or Reinforcement Learning is a method of data analysis that automates analytical model building. It is a branch of artificial intelligence based on the idea that systems can learn from data, identify patterns and make decisions with minimal human intervention.

Most industries working with large amounts of data have recognized the value of machine learning technology. By gleaning insights from this data – often in real time – organizations are able to work more efficiently or gain an advantage over competitors.

Data Analytics courses by Digital Vidya

Data Analytics represents a bigger picture of Machine learning. Just as Data Analytics has various categories based on the Data used, Machine Learning also expresses the way one machine learns a code or works in a supervised, unsupervised, semi-supervised and reinforcement manner.

To gain more knowledge about Reinforcement and its role in Data Analytics you may opt for online or classroom Certification Programs. If you are a programmer looking forward to a career in machine learning or data science, go for a Data Analytics course for more lucrative career options in Inductive Logic Programming. Digital Vidya offers advanced courses in Data Analytics. Industry-relevant curriculums, pragmatic market-ready approach, hands-on Capstone Project are some of the best reasons for choosing Digital Vidya.

A self-starter technical communicator, capable of working in an entrepreneurial environment producing all kinds of technical content including system manuals, product release notes, product user guides, tutorials, software installation guides, technical proposals, and white papers. Plus, an avid blogger and Social Media Marketing Enthusiast.

Date: 26th Jun, 2021 (Saturday)
Thời gian: 10:30 AM - 11:30 AM (IST/GMT +5:30)


Xem video: SIZNI Hayron Qoldiradigan Tanangiz Haqida faktlar (Tháng Sáu 2022).